De talrijke valkuilen van de medische statistiek

Beeld studio vonq

Statistiek is het werkpaard van de medische wetenschap. Het is de manier om te ontdekken of een geneesmiddel werkt, en of een leefstijl ongezond is. Maar het vak kent vele valkuilen, waarschuwde Saskia le Cessie in haar oratie.

Worden rokers eerder dement? Het klinkt niet onwaarschijnlijk. Roken is slecht voor de bloedvaten, dus op den duur zal die schadelijke invloed ook wel doorwerken in de hersenen. Als onderzoekers willen weten of het in de praktijk ook zo werkt, volgen ze doorgaans twee groepen - rokers versus niet-rokers - en proberen ze na te gaan of er na verloop van tijd verschillen optreden.

Daar zijn statistische technieken voor, maar het antwoord hangt af van de vraag die je stelt en de techniek die je gebruikt, waarschuwt Saskia le Cessie. "Als je je richt op de processen in de hersenen, dan komt die schade aan de vaten naar voren en is het antwoord ja. Roken vergroot het risico op dementie. Maar gebruik je een techniek die het risico vergelijkt met andere risico's van roken, longkanker of hart- en vaatziekten, wordt het nee. Veel rokers zijn immers al overleden vóór ze dement konden worden."

Het is een van de valkuilen waar de hoogleraar medische statistiek vorige week voor waarschuwde in haar oratie aan de Universiteit Leiden. Ze heeft een mooi vak, het zit wiskundig goed in elkaar, maar in de praktijk blijkt het vaak lastig oorzaak en gevolg te onderscheiden. Onlangs heette het dat het nuttigen van drie koppen koffie per dag gezond was. "Stel dat ze het onderzoek goed hebben uitgevoerd, dan nog is het de vraag of het de koffie is die het doet", vertelt ze op haar werkkamer op het Leidse UMC. "Mensen met een zwakke maag mijden vaak koffie, terwijl iemand met een rijk sociaal leven - wat goed is voor de gezondheid - vaak bezoekjes aflegt en daarbij een kopje koffie drinkt."

Volgens de Amerikaanse wetenschapper John Ioannidis kan zeker de helft van de medische publicaties de prullenbak in: ondeugdelijke opzet, slechte metingen, fouten in de statistiek. En zo is er meer kritiek, de medische wetenschap ligt onder vuur. Le Cessie: "Laat ik dit voorop stellen. Het bedenken van een goede vraag, het verzamelen van data; dat wordt door anderen gedaan. Ik ben van de statistiek, ik kan alleen vragen: wat wil je precies onderzoeken, heb je aan die zogeheten confounders (verstorende factoren, red) gedacht? Heb je bijvoorbeeld in dat koffie-onderzoek gevraagd of deelnemers maagtabletten slikken?"

Met het gebruik van de statistiek zelf gaat het de goede kant op, zegt ze. Wetenschappers zijn zich meer bewust van die valkuilen, publicaties in tijdschriften worden erop gecontroleerd. "Op allerlei manieren proberen we het peil op te krikken. Studenten leren wat ze wel en niet met statistiek kunnen. Dat een statistisch verband nog geen bewijs is."

Als een hogere kwaliteit het streven is, waarom is het dubbelblinde onderzoek dan niet de norm? Dat is toch de gouden standaard: de computer verdeelt de deelnemende patiënten willekeurig in twee groepen, dokter noch patiënt weet wie de werkzame pil krijgt en wie het nepmiddel?

"Natuurlijk, deze aanpak biedt de beste optie om alle verstorende factoren te elimineren. Maar het kan niet altijd. Neem dat voorbeeld van roken en dementie. Je kunt moeilijk een groep zestienjarigen in tweeën delen en dan tegen de ene helft zeggen: Gaat u maar roken, dan komen wij over zestig jaar kijken of u dement bent geworden. Bovendien: dubbelblind onderzoek is duur, en het duurt lang. En helemaal zuiver is het ook niet. De groepen worden weliswaar willekeurig verdeeld, maar vaak gaat er een selectie aan vooraf. Sommige mensen willen niet in die placebogroep terechtkomen, of juist geen proefkonijn voor een experimenteel middel zijn."

In haar oratie haalde Le Cessie een studie aan onder vrouwen die 36 weken zwanger waren en bij wie het vermoeden bestond dat het kind een groeiachterstand had. De vrouwen waren willekeurig in twee groepen verdeeld - bij de ene helft werd de bevalling ingeleid, bij de andere werd, onder zorgvuldige controle, afgewacht. "Het leek geen verschil te maken. Maar lang niet iedere vrouw die gevraagd was, had toegestemd. Die vrouwen hebben we wel gevolgd. En ondanks dat deze vrouwen hoger opgeleid waren, minder rookten en minder zwaar waren, waren de uitkomsten slechter. Vermoedelijk omdat deze vrouwen zo'n voorkeur hadden voor een natuurlijke bevalling dat soms te lang gewacht is met ingrijpen."

Is het alternatief, het observationele onderzoek - het volgen van groepen - veel slechter dan dubbelblind onderzoek?

"Nee hoor. Maar de opzet moet wel goed zijn. Er zijn twee varianten. In de basisvorm rekruteer je vooraf je onderzoeksgroep. Die breng je precies in kaart en vervolgens kijk je hoe iedereen zich ontwikkelt. Wij hebben dat hier heel uitgebreid gedaan met een groep 45- tot 65-jarigen met overgewicht, van wie we willen weten wie ziek wordt en wie niet. Omdat we zo zorgvuldig zijn begonnen, verwachten we over een tijdje te kunnen oogsten. Maar soms kan zo'n aanpak niet. Bij onderzoek naar trombose gaat het om heel kleine risico's. Het treft jaarlijks één op de duizend mensen. Dan moet je de groep wel heel groot maken om er iets statistisch relevants in te ontdekken. Meestal draai je het dan om, dan vergelijk je mensen die een trombose hebben gehad met mensen zonder trombose. Dat kunnen hun partners zijn - die hebben dezelfde levensomstandigheden - of een willekeurige groep. In dat geval moet je goed opletten dat je met je selectie geen vertekening aanbrengt."

En de tweede variant?

"Je kunt je data ook uit een archief plukken. Wij kunnen gebruik maken van bestaande databanken. Dat is fijn werken, maar er zitten risico's aan vast. We moeten goed beseffen dat de dokter niet willekeurig voorschrijft. Hij geeft de ene patiënt wel medicatie en de andere niet, of hij schrijft een lichtere variant voor. Hij houdt sommige patiënten nauwlettender in de gaten dan andere. Dat kan een systematische vertekening geven en wij moeten daar alert op zijn."

In deze tijden van big data geloven sommigen dat zulke vertekeningen verdwijnen als de aantallen maar groot genoeg zijn. Maar nee, zegt Le Cessie, een systematische vertekening verdwijnt niet door middeling. Ze noemt het voorbeeld van een grote Amerikaanse studie uit de jaren negentig naar de voor- en nadelen van hormoontherapie voor vrouwen na de overgang. Die studie toonde aan dat de hormonen de kansen op hart- en vaatziekten aanzienlijk verkleinden. "Maar een vervolgstudie, dubbelblind, liet juist zien dat die kansen groter werden. Later kwam daar ook nog een verhoogd risico op borstkanker bij. De vertekening ontstond vermoedelijk doordat de vrouwen die hormonen slikten, bewuster en gezonder leefden."

Op dit punt beland wil ze even een kritische noot kraken over de big data hype. En niet alleen omdat jan en alleman tegenwoordig in zo'n groot bestand kan gaan husselen en dan altijd wel een statistisch verband vindt. "Je moet weten hoe die gegevens geregistreerd zijn. Daar kunnen fouten in zitten. Wij hadden laatst een studie waarin opvallend veel personen voorkwamen die 80 centimeter lang waren en 170 of 180 kilo zwaar. Een kwestie van het verkeerde veld invullen, maar een computer merkt zulke eigenaardigheden uit zichzelf niet op. Ander voorbeeld: als een patiënt een zieke indruk maakt, laat de huisarts meer laboratoriumtests uitvoeren en komen er meer afwijkingen aan het licht. Op zulke vertekeningen moet je verdacht zijn."

Kun je zulke fouten überhaupt wel vermijden in een observationele studie? Hoe weet je of je in de analyse alle verstorende factoren hebt meegenomen?

"Om te beginnen door checks in te bouwen. Vraag bij zo'n studie naar roken of koffie ook naar het alcoholgebruik. Maar er blijven altijd vertekeningen mogelijk die je niet kent. Daar kun je niet voor corrigeren, maar je kunt wel onderzoeken hoe gevoelig je uitkomst daarvoor is. Stel dat er een gen zou zijn dat zowel je koffiegebruik beïnvloedt als een gezondheidseffect heeft. Dan kunnen we uitrekenen wat het effect van dat gen op je uitkomst zou zijn."

Dat klinkt een beetje als Maurice de Hond die ook altijd correcties toepast op zijn enquêtes omdat zijn steekproeven niet representatief zijn.

"Wiskundig klopt het wel wat hij doet. En zoals Maurice de Hond corrigeert voor het geringe aantal PVV-stemmers in zijn pool, doen wij dat ook. Mannen drinken bijvoorbeeld naar verhouding meer koffie. En net als opiniepeilers hebben wij last van sociaal wenselijke antwoorden. Zoals mensen vroeger verzwegen dat ze PVV stemden, zo hebben wij te maken met mensen die bij vragenlijsten bijvoorbeeld hun alcoholgebruik onderschatten. Maar wij kunnen dat wel proberen na te gaan, bijvoorbeeld door het alcoholgehalte in hun bloed te meten.

"Dat moet je natuurlijk wel allemaal gedaan hebben, voordat je de resultaten verwerkt. Daarom is het zo belangrijk dat onderzoekers beginnen met een scherpe vraagstelling. Wat wil ik precies weten? Hoe ga ik dat onderzoeken? Welke factoren kunnen de uitkomsten beïnvloeden? Hoe corrigeer ik daarvoor? En wellicht het belangrijkste: schrijf die aannames in je publicatie. De kwaliteit van observationeel onderzoek staat of valt met goed nadenken vooraf."

Statisticus met een ruim blikveld

Saskia le Cessie studeerde wiskunde in Utrecht en promoveerde in Leiden op medische statistiek. Sinds dit jaar is ze hoogleraar Statistische Methoden in Observationeel (Klinisch) Epidemiologisch Onderzoek aan de Universiteit Leiden. Haar oratie vorige week ging over de valkuilen van de medische statistiek.

Meer over

Wilt u iets delen met Trouw?

Tip hier onze journalisten

Op alle verhalen van Trouw rust uiteraard copyright. Linken kan altijd, eventueel met de intro van het stuk erboven.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar copyright@trouw.nl.
© 2020 DPG Media B.V. - alle rechten voorbehouden