Hoe synthetische data zorgen voor meer privacy en minder bias

Door: Joost Peters

Geschreven door:
Joost Peters

6 maart 2023 06-03-2023 6 minuten

Betere besluitvorming, efficiëntere processen, lagere kosten: de beloften van artificial intelligence (AI) en data analytics zijn groot. Steeds meer bedrijven, overheidsinstanties en zorginstellingen gebruiken analytics en AI om beter inzicht te krijgen in wat klanten, burgers of patiënten willen en om betere voorspellingen te doen. Op basis van die wensen en inzichten kan de performance van organisaties worden geoptimaliseerd.

Als Principal Analytics Consultant bij SAS helpt Edwin van Unen bedrijven en organisaties om het maximale uit hun data te halen. Hij merkt dat het lang niet elke organisatie lukt om de enorme waarde van data ten volle te verzilveren. ‘Dat komt onder meer doordat veel organisaties bang zijn dat ze de fout ingaan op het gebied van privacy. Het gebruik van persoonsgegevens is sowieso gebonden aan steeds strengere regelgeving, zoals de AVG. Dat maakt het vaak lastig om snel waarde uit data te halen.’

Strikte regulering

Vooral binnen de zorg is het gebruik van data strikt gereguleerd, schetst Van Unen: ‘Gegevens over patiënten mag je niet zomaar gebruiken. Dat is natuurlijk zeer terecht, maar het levert wel de nodige vertraging op. Voordat je als externe leverancier aan de slag kunt gaan met analytics, zul je het nodige papierwerk moeten regelen om überhaupt toegang tot patiëntdata te krijgen.’

‘Vervolgens moet je ook nog technisch toegang krijgen tot de juiste gegevensbron(nen). En als dat eenmaal gelukt is, dan is het nog maar de vraag welke data je mag gebruiken voor analytics-doeleinden. Dat maakt het lastig om snel te optimaliseren en te innoveren.’

Anonimiseren

Veel zorginstellingen kiezen er daarom nu nog voor om data over hun patiënten te anonimiseren. Van Unen: ‘Daardoor zijn gegevens niet meer precies herleidbaar naar individuele personen. Een groot nadeel van die werkwijze is – naast de tijd die het kost om te bepalen hoe je anonimiseert – dat de data daardoor minder nauwkeuring worden.’

‘Je hebt bijvoorbeeld een dataset waarin geen exacte leeftijden meer staan, maar alleen aanduidingen als ‘patiënten tussen de 30 en 40 jaar’. Het logische gevolg is dat de voorspellingen daardoor minder goed worden. Garbage in is garbage out geldt ook hier; als je data anonimiseert, maak je deze eigenlijk deels kapot.’

Synthetische data

Om hier iets aan te doen, maken steeds meer partijen – waaronder SAS – tegenwoordig gebruik van synthetische data. In deze kunstmatig gefabriceerde data zijn patiënten, consumenten of burgers niet te herleiden naar echte personen, maar kunnen wel de kenmerken, relaties en statistische patronen uit de originele data worden nagebootst. Daardoor kunnen deze data volledig privacy-proof worden gebruikt voor het bouwen van voorspellende datamodellen. Die modellen kunnen vervolgens wél worden toegepast op echte patiënten.

Ervaringen uit de praktijk laten zien dat het voor de kwaliteit van de analyse geen verschil maakt of deze plaatsvindt op basis van de oorspronkelijke patiëntdata, of van de afgeleide, synthetische data. Áls er al afwijkingen in de resultaten te zien zijn, vallen die – mits de AI die de data genereert van hoge kwaliteit is – binnen de statistisch toegestane variantie.

Synthetic data twin

Wim Kees Janssen richtte in 2020 Syntho op. Dit bedrijf is gespecialiseerd in het genereren van synthetische data op basis van bestaande patiëntgegevens. Daarvoor maakt het bedrijf gebruik van artificial intelligence (AI), legt Janssen uit: ‘We nemen de originele database als uitgangspunt. Ons platform analyseert de bestaande data en gebruikt vervolgens AI om patronen en eigenschappen in de originele dataset te herkennen. Deze patronen en eigenschappen dienen als blauwdruk voor de synthetische data die met behulp van kunstmatige intelligentie worden geproduceerd.’

Advertorial

SAS D[N]A Café over waarde synthetische data

In dit exclusieve D[N]A Café zijn we ingegaan op de waarde van synthetische data bij het ontwikkelen van modellen en het operationaliseren van analytics

lees verder

‘Het resultaat is een dataset die op persoonsniveau bestaat uit data van niet-bestaande personen, maar die op het niveau van de dataset als gehéél dezelfde eigenschappen vertoont als de originele dataset. Een synthetic data twin, als het ware. In deze nieuwe, synthetische dataset zijn de gegevens op geen enkele manier herleidbaar naar echte patiënten. Vervolgens kun je op deze dataset analyses loslaten zoals je dat ook bij ‘echte data’ zou doen.’

Enorme druk om te innoveren

Om te illustreren hoe dit er in de praktijk uitziet, haalt Janssen een voorbeeld aan van een ziekenhuis in Los Angeles. Dat zet de synthetische data van Syntho in om voorspellende datamodellen te ontwikkelen: ‘Het elektronisch patiëntendossier dat dit ziekenhuis gebruikt, bevat enorm veel informatie over de patiënt; over zaken als het ziektebeeld, medicatie en behandelingen. Dat zijn uiterst privacygevoelige data die vanzelfsprekend niet zomaar gebruikt mogen worden. Tegelijkertijd ligt er, mede door Covid, een enorme druk op het ziekenhuis om te innoveren en resources als personeel, ruimtes en apparatuur zo slim en efficiënt mogelijk in te zetten.’

Slimmer omgaan met resources

Dankzij datamodellen die door synthetische data ‘gevoed’ zijn, gaat het ziekenhuis nu veel slimmer om met zijn beperkte resources, schetst de CEO: ‘Het ziekenhuis kan nu tot in detail voorspellen wat er gaat gebeuren en op basis daarvan zijn middelen inzetten. Dankzij de synthetische data van Syntho kunnen ingewikkelde vragen nu beter worden beantwoord, zonder risico’s te lopen met patiëntgegevens.’

‘Welke medicatie kan ik wel en niet inzetten voor een bepaalde patiënt? Hoe groot is de kans dat een patiënt na ontslag nogmaals terugkomt voor een opname? Wat is de kans dat een patiënt goed of slecht reageert op een bepaalde behandeling? Door slim gebruik te maken van synthetische data, lukt het om die vragen snel, goed en veilig te beantwoorden.’

Onderzoek en ontwikkeling

Synthetische data kunnen worden ingezet voor het optimaliseren van interne bedrijfsprocessen, maar ze kunnen ook worden gebruikt voor researchdoeleinden. Zo kunnen ze bijvoorbeeld worden gebruikt in de testomgeving waar het elektronisch patiëntendossier wordt onderhouden. Voor ontwikkeldoeleinden is het belangrijk dat de onderliggende data de businesslogica goed vertegenwoordigen, en juist daarvoor zijn synthetische data uiterst geschikt. Ze komen immers voort uit de échte data.

Geen aannames

Van Unen benadrukt dat synthetische data niet hetzelfde zijn als gesimuleerde data. ‘Je kunt uiteraard nepdata genereren door aannames te doen; over de gemiddelde leeftijd van de patiëntpopulatie bijvoorbeeld, of over de gemiddelde tijd die een patiënt in het ziekenhuis doorbrengt. Maar om te komen tot een betrouwbare dataset die de werkelijkheid goed weerspiegelt, moet je complexere en misschien zelfs onbekende verbanden kunnen nabootsen. Hiervoor heb je echt diepgaandere kennis nodig.’

Nauwkeuriger en betrouwbaarder

Een groot voordeel van synthetische data is volgens de SAS-consultant dat je AI ook grotere aantallen patiënten kunt laten genereren. ‘Stel dat je maar 1.000 patiënten tot je beschikking hebt. Normaal gesproken is dat te weinig voor een écht goed voorspellend model. Je model wordt veel nauwkeuriger en betrouwbaarder wanneer je een gesynthetiseerde dataset van pakweg 50.000 fictieve personen zou gebruiken in plaats van de 1.000 uit je originele dataset.’

Bias tegengaan

Een ander voordeel is dat je bias actief tegengaat, legt Van Unen uit: ‘Stel dat je dataset uit balans is omdat het aantal mannen oververtegenwoordigd is. Dat kan ertoe leiden dat je model zich ten onrechte vooral op de mannelijke populatie richt. Met synthetische data kun je die onbalans rechttrekken; je laat AI meer niet-bestaande vrouwelijke patiënten genereren, waardoor je dataset en het daaruit voortvloeiende analytics-model wél in balans zijn.’

Hoge verwachtingen

Syntho richt zich – naast ziekenhuizen – ook op financiële instellingen. Die werken vaak met privacygevoelige klantdata. Daarnaast kunnen bijvoorbeeld overheden, die werken met privacygevoelige persoonsgegevens van burgers, profiteren van de voordelen die synthetische data bieden. Onderzoeksbureau Gartner verwacht zelfs dat al in 2024 zo’n 60 procent van alle data die worden gebruikt voor de ontwikkeling van AI- en analytics-projecten, kunstmatig gegenereerd zullen worden. Hetzelfde bureau beweert daarnaast dat het gebruik van synthetische data in AI-modellen in 2030 volledig ingeburgerd zal zijn.

Snelle toegang tot data

Janssen merkt dat de innovatie-initiatieven bij veel organisaties nu nog geruisloos van de agenda verdwijnen omdat data science-afdelingen te lang moeten wachten op data. ‘Om écht innovatief te kunnen zijn, is het essentieel dat je geen tijd verliest door interne bureaucratie. Of de voorspellingen van Gartner uitkomen? Dat durf ik niet te zeggen, maar het is een gegeven dat je met synthetische data je time-to-market nu al aanzienlijk kunt verkorten. Snelle toegang tot data wordt steeds belangrijker voor veel organisaties.’

Groeiende acceptatie

Zowel bij SAS als Syntho merken ze dat de praktische toepassingen van AI steeds meer draagvlak vinden bij bedrijven en burgers. Van Unen: ‘Aan de ene kant is er argwaan over algoritmes en AI, aan de andere kant merk je dat de acceptatie van generatieve AI-innovaties snel groeit. Denk maar aan toepassingen als ChatGPT en DALL-E. Doordat ook burgers dankzij dit soort toepassingen kennis maken met de mogelijkheden van AI, verwacht ik dat ook de acceptatie van AI voor zakelijk gebruik snel zal toenemen. Beschikbaarheid en toegang tot data is cruciaal voor de ontwikkeling van AI-toepassingen. Dankzij de voordelen van synthetische data kunnen patiënten, klanten en burgers erop vertrouwen dat data privacy maximaal geborgd is, terwijl bedrijven en organisaties erdoor kunnen excelleren zonder onnodig tijdverlies.’

Winkelmand

Hoe synthetische data zorgen voor meer privacy en minder bias

Strikte regulering

Anonimiseren

Synthetische data

Synthetic data twin

SAS D[N]A Café over waarde synthetische data

Enorme druk om te innoveren

Slimmer omgaan met resources

Onderzoek en ontwikkeling

Geen aannames

Nauwkeuriger en betrouwbaarder

Bias tegengaan

Hoge verwachtingen

Snelle toegang tot data

Groeiende acceptatie

Dit artikel wordt u aangeboden door

SAS

Podcast AI for Real – De strijd tegen kanker

Podcast AI for Real – Slimme tech in de voetbalwereld

Initiatieven en projecten SAS D[N]A Lab

Resiliency Rules

Insights

Academy

Agency

MT/Sprout

Winkelmand

Hoe synthetische data zorgen voor meer privacy en minder bias

Strikte regulering

Anonimiseren

Synthetische data

Synthetic data twin

SAS D[N]A Café over waarde synthetische data

Enorme druk om te innoveren

Slimmer omgaan met resources

Onderzoek en ontwikkeling

Geen aannames

Nauwkeuriger en betrouwbaarder

Bias tegengaan

Hoge verwachtingen

Snelle toegang tot data

Groeiende acceptatie

Share

Dit artikel wordt u aangeboden door

SAS

Share

Net binnen:

Felyx-oprichter Quinten Selhorst zoekt nu bij EWOR naar de briljantse founders van onze tijd

Opmars Amerikaanse techreuzen in DX300: 'Dat is zorgelijk, het maakt ons kwetsbaar'

UvA-hoogleraar Henk Volberda: 'Het kan nog wel 10 jaar duren voordat we grote effecten van AI zien'

Podcast AI for Real – De strijd tegen kanker

Podcast AI for Real – Slimme tech in de voetbalwereld

Initiatieven en projecten SAS D[N]A Lab

Resiliency Rules

Ook interessant