null Beeld Fadi Nadrous
Beeld Fadi Nadrous

Zorg

De computer ziet veel aan de patiënt, maar hoe passen we die inzichten toe?

Er gaat geen week voorbij zonder veelbelovend nieuw onderzoek over de toepassing van artificiële intelligentie in de zorg. Hoever zijn deze technieken en wat kunnen we ervan verwachten?

Joost van Egmond

Komende week wordt het gepresenteerd op een congres voor specialisten op het gebied van beroertes: een app die probeert een beroerte aan het gezicht af te lezen.

Het gaat om een prototype dat is getest in gecontroleerde omstandigheden. Het moment waarop patiënten het programma zelf op hun telefoon kunnen zetten, is erg ver weg. Maar de onderzoekers zijn hoopvol dat ze op het goede pad zijn. Het programma is een zelflerend systeem, oftewel artificiële intelligentie (AI). Het is getraind te letten op vertekeningen in het gezicht die een beroerte verraden en combineert die analyse met een meting van armbeweging waarmee de gebruiker de telefoon vasthoudt. Spierkracht in de armen is immers een tweede factor om op te letten. De patiënt kan ook tegen het systeem praten, eventuele spraakproblemen worden dan ook geanalyseerd.

Op basis van deze data maakt het systeem de afweging: is hier sprake van een beroerte? Mocht het dit in de toekomst feilloos vast kunnen stellen, dan is de winst enorm. Het kan mensen veel sneller naar het ziekenhuis krijgen voor de benodigde behandeling en dat is cruciaal. Volgens de American Stroke Association, een vereniging van specialisten in beroertes, sterven er namelijk tijdens een beroerte per minuut zo’n 1,9 miljoen hersencellen. En wie binnen anderhalf uur wordt behandeld, heeft een drie keer grotere kans op herstel.

Scans bestuderen met behulp van AI

Het project is een voorbeeld van de ambities die er met AI zijn in de zorg. Veel onderzoek richt zich op het analyseren van beelden. Zo publiceerden onderzoekers uit München afgelopen week ook veelbelovende resultaten met een AI die probeerde darmkanker af te lezen van een CT-scan. Radiologen werd gevraagd de scans te analyseren, een keer zonder en een keer met ondersteuning van AI. In deze beperkte studie althans waren de uitkomsten mét ondersteuning significant beter.

Maar het onderzoek naar AI is veel breder. Een algoritme kon bijvoorbeeld ook, op basis van aantekeningen van huisartsen tijdens een consult, vrij accuraat aangeven of iemand longkanker zou gaan krijgen maanden voor de diagnose werd gesteld.

Het verkennen van de mogelijkheden is met zulke onderzoeken het terrein van de pure computerwetenschap overgestoken. De vraag is niet zozeer wat AI kan, maar wat we gaan doen om het in de praktijk werkbaar te krijgen, vertelt Martijn Schut. Hij is sinds vorig jaar hoogleraar translationele AI in laboratoriumgeneeskunde aan het Amsterdam UMC. “Dat translationeel moet je in de praktijk vaak letterlijk nemen, als vertalen”, zegt hij. Hij is opgeleid als computerwetenschapper, maar brengt als hoogleraar minstens de helft van zijn tijd in het ziekenhuis door om die vertaalslag te faciliteren. “Informatici en clinici werken in een behoorlijk andere wereld. Die moeten interdisciplinair gaan samenwerken in tweerichtingsverkeer.”

Voorspelmodel voor ontslag uit de intensive care

Want AI in de zorg is iets anders dan een tekstgenerator zoals het veelbesproken ChatGPT. De inzet, de gezondheid van mensen, is nu eenmaal de hoogst denkbare. Dat leidt uiteraard tot veel extra voorzichtigheid en waarborgen. ‘Beslisondersteuning’ is de term die vaak valt. “De mensgerichtheid staat bij al zulke projecten centraal”, zegt Schut. “Een AI opereert nooit zelfstandig, altijd in samenwerking met de mens. Zo draait er in het Amsterdam UMC een proef met een voorspelmodel voor ontslag uit de intensive care. Die module ging allerlei datapunten af om te analyseren welke patiënten daarvoor in aanmerking konden komen. Daar rolde een advies uit en dat werd door het medisch team meegenomen in de discussie.”

Die menselijke check is nodig: een algoritme kan namelijk gevolgtrekkingen maken waar je niet op zit te wachten. Een model dat moest voorspellen welke patiënten het grootste gevaar lopen om te sterven aan longontsteking concludeerde dat het risico voor astmapatiënten relatief laag was. Dat kwam doordat deze mensen vanwege hun astma direct naar het ziekenhuis werden gebracht als ze longontsteking hadden. Deze voorzorgsmaatregel redt heel wat levens, wat de computer tot zijn opmerkelijke conclusie bracht. Want op zich is hun risico op overlijden natuurlijk hoger – dat is nu net waarom ze direct naar het ziekenhuis werden gebracht.

Schut schat dat er nu in Nederland misschien een handvol van dit soort projecten voor beslisondersteuning lopen. Het Amsterdam UMC, het universitair medisch centrum dat is ontstaan uit het AMC en het VUmc, is momenteel bezig met een inventarisatie van wat er allemaal met AI wordt gedaan. Want heel afgebakend is het terrein niet, benadrukt Schut. “Risicomodellen worden al lange tijd gebruikt, met meer of minder hulp van een computer. Wij noemden het toen geen AI, maar dat is het in feite wel.”

Neem bijvoorbeeld de Apache-score, die de toestand van een patiënt op de intensive care in een getal uitdrukt. Die werd al in de jaren zeventig ontwikkeld en weegt allerlei data, van de leeftijd van de patiënt tot de lichaamstemperatuur, en drukt die uit in een score. Dat lijkt heel erg op wat AI’s die nu in ontwikkeling zijn doen. “Ook de posters die je bij de huisarts ziet”, zegt Schut nuchter, “waarmee je een risico-inschatting voor hart- en vaatziekten kunt maken met factoren als roken, cholesterol en geslacht, volgen datzelfde principe.”

Het moet voor iedereen werken

De klinische modellen zijn bewust relatief eenvoudig. Als Schut de AI’s die nu ontwikkeld worden in de zorg zou moeten rangschikken tussen zo’n simpele poster en een extreem complex model zoals ChatGTP, lijken ze veel meer op het eerste. “Je wilt dat de mensen die ermee moeten werken ze ook goed begrijpen. Je kunt de complexiteit van zo’n analyse uitdrukken in het aantal verbindingen tussen variabelen dat wordt gemaakt. Dan heeft GPT3, het model waarop ChatGPT grotendeels is gebaseerd, 175 miljard van die verbindingen. In het aankomende GTP4 is dat nog veel meer. Dat maakt zo’n AI ook zo goed, maar tegelijkertijd ook moeilijker om te begrijpen. We kunnen zien dat het werkt, maar hoe het werkt snappen we niet. Dat is de prijs die we betalen.”

Dat is voor clinici onwenselijk. Het zou ook botsen met de mensgerichtheid die centraal staat in zulke projecten. Schut: “Als een AI zegt ‘ik heb 55 patiëntvariabelen meegenomen en dit zijn de 4 waar je op moet letten’, zal de clinicus als eerste vragen ‘waarom?’ Dat moet je kunnen uitleggen.”

Op dat vlak is nog veel werk te doen als je zulke toepassingen succesvol wilt implementeren. Want begrip en vertrouwen gaan hand in hand. Een rondvraag twee jaar geleden onder laboratoriummedewerkers gaf aan dat het vaak schort aan specifieke kennis over AI. Twee derde van de ondervraagden verwachtte dat AI in de toekomst een rol zou gaan spelen in hun werk, maar de meesten gaven aan niet goed te weten hoe ze zich daarop moesten voorbereiden.

Dat is een van de redenen waarom Schut zoveel tijd in laboratoria doorbrengt. “We vatten mensgerichtheid breed op: niet alleen patiënten, maar iedereen die met deze technologie te maken krijgt. Het moet voor iedereen werken.”

Afweging door een computer voelt spannender

Dezelfde voorzichtigheid zie je terug in hoe een probleem als vals-negatieven wordt aangepakt. Dat is de term voor als iets over het hoofd wordt gezien dat er wel is, bijvoorbeeld een darmgezwel in het project van de Münchense onderzoekers. Datawetenschappers zijn gewend een balans te zoeken tussen vals-negatief en zijn tegenhanger vals-positief, de gevallen dat de AI alarm slaat als er niets aan de hand is. Door die balans komt je tot het hoogste aantal correcte analyses, het gebied onder de curve wordt dat genoemd. “Dat wil je als datawetenschapper zo hoog mogelijk krijgen”, vertelt Schut. “Je haalt 0,9, dan is het een heel grote stap naar 0,91, en zo probeer je steeds hoger te komen.”

Die afweging maakt ieder mens natuurlijk de hele dag, maar als je dat een computer laat doen, voelt het toch spannender. “De clinicus wil nul vals negatief”, zegt Schut. “Maar dat betekent dat je meer vals-positieven accepteert en daar wil je ook voorzichtig mee zijn. Dat betekent zorgen bij de patiënt en invasieve onderzoeken. Waar die balans ligt, dat is een dialoog die nu volop bezig is.”

Binnen de perken blijven

Wellicht de allergrootste uitdaging speelt helemaal aan het begin: welke data stop je in het model? Die bepalen voor een groot deel de uitkomsten van elke analyse en je wilt zeker weten dat die niet alleen van hoge kwaliteit zijn, maar ook van toepassing op de patiënt op wie het model wordt toegepast. Een model kan al gauw scheef liggen, een bias (vooringenomenheid) bevatten in jargon. Berucht is is het verschil tussen mannen en vrouwen bij hartonderzoek. De signalen van hartproblemen op de spreekwoordelijke wachtkamerposter waren in het verleden vooral op symptomen bij mannen gebaseerd. Pijn op de borst is een typisch mannensymptoom, bij vrouwen kun je beter op bijvoorbeeld pijn in de schouderbladen letten. Dergelijke bias wil je niet in een algoritme laten sluipen.

Ook Schut heeft voorbeelden van bias te over. “We wilden bijvoorbeeld proberen te achterhalen of de antibiotica die door een huisarts worden voorgeschreven goed werken. We merkten dat je dan heel goed moet kijken wat in deze praktijk de houding tegenover antibiotica is. Want die kan van grote invloed op uit de uitkomst zijn, maar je weet niet hoe. Daar wil je eerst duidelijkheid over hebben.”

Ook hier is het zoeken naar een balans tussen specifiek genoeg zijn en praktische werkbaarheid. Het vinden van onderscheid tussen zulke subpopulaties is een terrein waar nu veel onderzoek naar wordt gedaan. “Het ligt heel complex”, zegt Schut. “Als je zulke data aan een model voedt, dan vindt dat allemaal subpopulaties waarvoor de uitkomst verschilt. Dat maakt dus complexere modellen mogelijk die beter zullen werken. Er komt een lijst met ‘als... dan... -regels’ uit die soms heel specifiek zijn. Dat maakt dan vervolgens de lijst ook erg lang en onpraktisch. Een clinicus heeft niets aan een lijst beslisregels van drie pagina’s. Het moet binnen de perken blijven van wat wij kunnen begrijpen.”

Er zit ook een stuk business in

Terwijl het verkennen van de mogelijkheden volop doorgaat, brengt de vraag wie deze modellen gaat beheren andere dilemma’s met zich mee. Wanneer krijgt een AI toegang tot welke data, en wie is verantwoordelijk voor de verwerking? Regelgeving hierover staat nog in de kinderschoenen. Voor de bescherming van patiëntendata zijn er vrij strenge regels, zozeer dat toegang tot data volgens Schut een van de barrières is bij de ontwikkeling van AI in de zorg. Maar regelgeving over waar AI aan moet voldoen, is er wereldwijd nauwelijks, concludeerde een studie naar de beleidsvraagstukken op dit terrein.

Een verwante vraag is wie al deze techniek gaat ontwikkelen en wat dat betekent voor de transparantie. “Hierboven”, zegt Schut, wijzend naar de afdeling waar computerwetenschappers werken, “wordt veel met open source gewerkt”. Dat zijn programma’s die hun broncode vrijgeven, die daarmee voor iedereen inzichtelijk is. Maar bij veel projecten is het bedrijfsleven volop betrokken. Dat kan nauwelijk anders, zegt Schut. “Veel projecten die big tech doet, daar kunnen we met de publieke sector niet tegenop. In de regel worden goede afspraken gemaakt over zulke samenwerking en er komen prachtige dingen uit. Maar die verhouding tussen big tech en de academische wereld is een actuele discussie. Het blijft een afweging met plussen en minnen.”

Het is niet een discussie die snel beslecht zal zijn, denkt Schut. De afweging zal ook per toepassing verschillen. Maar één algemene stelregel wil hij wel noemen: complexiteit en bedrijfsgeheim kunnen niet ten koste gaan van de wetenschappelijke transparantie. “Wat er uit zo’n AI-toepassing komt, moet testbaar zijn. Daar moeten we garanties voor hebben.”

Lees ook:

Smartwatch kan woedeaanvallen voorkomen. ‘Vóór de uitbarsting wist het ding al dat het de verkeerde kant opging’

Jongeren met een strafblad en een kort lontje dragen een smartwatch, die trilt als de spanning in het lijf oploopt en er mogelijk een woede-uitbarsting dreigt. Zo leren jongeren bij ggz-instelling Arkin om zich te beheersen.

Wilt u iets delen met Trouw?

Tip hier onze journalisten

Op alle verhalen van Trouw rust uiteraard copyright.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar copyright@trouw.nl.
© 2023 DPG Media B.V. - alle rechten voorbehouden