Uw profiel is aangemaakt

U heeft een e-mail ontvangen met een activatielink. Vergeet niet binnen 24 uur uw profiel te activeren. Veel leesplezier!

In data gaat kennis verloren

Home

Willem Schoonen

Sally Wyatt, hoogleraar technologie en maatschappij. © Maartje Geels

Meten is weten. Dus hoe meer we meten hoe meer we weten, nietwaar? Niet waar. 'Er zijn problemen met big data die we onder ogen moeten zien.'

Data zijn brood en spelen van de wetenschap, álle wetenschappen, van natuurkunde tot godgeleerdheid. De mogelijkheden om data te genereren en te gebruiken groeien stormachtig. In veel takken van wetenschap draait het al niet meer om data maar om big data (zie kader). Er verschijnen publicaties waarin duizenden satellietopnamen van de aarde worden gevoerd aan de computer, die daarin iets ontwaart dat geen mens kan zien. Genetische data van honderden diersoorten worden gecombineerd om evolutionaire patronen bloot te leggen die een bioloog in het veld niet kan ontdekken.

Lees verder na de advertentie
Grote databestanden wekken de indruk dat ze compleet zijn. Dat kan tegenvallen

Datawetenschappers zijn de nieuwe tovenaars, voor wie niets onmogelijk lijkt. Maar het beeld dat zij schetsen is te rooskleurig, zegt Sally Wyatt, hoogleraar technologie en maatschappij aan de Universiteit Maastricht: "Big data wordt wel de nieuwe olie genoemd, een goedkope, vrijwel onuitputtelijke bron van rijkdom. Die vergelijking is positief bedoeld, maar olie heeft ook veel nadelen: het is een grote bron van vervuiling en het kost veel geld om het naar boven te halen. Dat geldt voor data ook. Die zijn geen goedkope bron van kennis die vanzelf opborrelt; het vergt veel inspanning en geld om data te genereren. De deeltjesversnellers van de fysici van Cern in Génève genereren genoeg data om het hele internet plat te leggen. De blockchain-technologie, waarmee virtuele munten worden gewonnen, vergt zoveel stroom dat die kan leiden tot een energiecrisis. Data zijn geen magie."

Onderschatting

Om te voorkomen dat ze met hun experimenten inderdaad het internet platleggen, bepalen de fysici van Cern van tevoren welke data ze zullen registeren en welke niet. Als ze elementaire deeltjes op elkaar laten botsen, komt er domweg te veel informatie uit hun detectoren; ze móeten kiezen. Wyatt: "Daarin kunnen ze de verkeerde keuze maken, zo werkt de wetenschap nu eenmaal. Maar het illustreert hoe moeilijk het kan zijn data te verzamelen en goed vast te leggen. Dat probleem speelt in alle wetenschappen. Het klassieke werk van archivarissen en bibliotheken wordt onderschat: die geven veel aandacht aan de vraag wat weg te gooien en wat te bewaren."

De groeiende technische mogelijkheden om data te genereren en op te slaan, maken het gemakkelijker die met andere onderzoekers te delen. De wereld is op weg naar 'open science', waarin niet alleen publicaties voor iedereen toegankelijk zijn maar ook de onderzoeksgegevens waarop die zijn gebaseerd. Het zou wetenschap transparanter moeten maken en beter controleerbaar.

Reken je nog niet rijk, zegt Wyatt: "De psychologie belandde een paar jaar geleden in een replicatiecrisis omdat studies die werden herhaald niet de oorspronkelijke uitkomsten bleken te geven. Dat was misschien slechte wetenschap, maar replicatie zal in de wetenschap in het algemeen alleen maar moeilijker worden. Met de digitalisering zijn data zo complex en omvangrijk geworden dat het bijna onmogelijk is om met andermans data te werken. Het wordt heel moeilijk en tijdrovend om iemands onderzoek te herhalen. En zeker in de sociale wetenschappen zijn data vergankelijk; een meting die je vandaag doet, kan anders uitpakken dan die van gisteren."

De rol van geesteswetenschapper

Wyatt veronschuldigt zich dat ze de juichende verhalen van datawetenschappers tempert. Maar dat is nu eenmaal de rol van de geesteswetenschapper: "We zijn er om van dingen die simpel ogen de complexiteit te tonen." Wyatt is in Maastricht verbonden aan de faculteit voor sociale en geesteswetenschappen, en een van de dingen die ze doet, is het bestuderen van wetenschap en technologie.

"Mensen denken vaak dat je dan iets tegen wetenschap hebt of anti-technologie bent. Maar dat ben ik helemaal niet. Integendeel: technologie fascineert me. Maar er zijn wel problemen met big data die we onder ogen moeten zien."

Data zijn niet onschuldig. De gegevens die we verzamelen zijn van afhankelijk van de meet­in­stru­men­ten en onze manier van waarnemen

Zo heeft dit tijdperk van digitalisering geleid tot het misverstand dat alles digitaal beschikbaar is. Dat klopt niet, zegt Wyatt. Een illustratief voorbeeld is de Koninklijke Bibliotheek die vrijwel alles verzamelt wat in Nederland in druk verschijnt. De collectie beslaat zo'n 7 miljoen boeken, kranten en tijdschriften. Daarvan is tot nu toe minder dan 10 procent gedigitaliseerd. Voor meer dan 90 procent van de verzameling geldt dat je naar Den Haag moet om die in te zien. Maar inzien kun je. Er zijn echter ook data die we niet meer kunnen doorgronden omdat we de onderliggende kennis missen.

Voorzichtigheid

Wyatt: "We hebben in Nederland volkstellingen die heel ver teruggaan. Maar daarin staan alleen de totalen, en dan vaak per leeftijdsgroep waarbij de ene stad weer een net iets andere indeling van leeftijdsgroepen hanteerde dan de andere. We hebben dus bergen data, maar we kunnen niet meer achterhalen hoeveel 23-jarigen er waren in 1795, om maar iets te noemen. "Datawetenschappers suggereren dat we geen wetenschappelijke theorieën meer nodig hebben. Want, zeggen ze, als je genoeg data hebt spreken de cijfers voor zich. Grote databestanden wekken snel de indruk dat ze compleet zijn. Dat kan tegenvallen. Bovendien vergeten ze dat we van heleboel dingen nauwelijks data hebben. Neem seksueel misbruik in de rooms-katholieke kerk: het is erg moeilijk daar betrouwbare data van te krijgen, maar het is wel gebeurd."

Doemscenario

Een wetenschap die meer en meer gaat steunen op grote dababestanden gaat dingen missen. Wyatt houdt een spiegel voor, waarin niet de kennis wordt getoond die we met big data krijgen, maar de kennis die verloren gaat als alleen data nog tellen.

"De wetenschap dreigt haar voorzichtigheid te verliezen. Data zijn niet onschuldig. De gegevens die we verzamelen zijn afhankelijk van de instrumenten waarmee we meten en van onze manier van waarnemen. Je kunt data niet voor lief nemen, je moet je steeds afvragen hoe die tot stand zijn gekomen. Wetenschappers die dit als geen ander weten zijn historici. Zij gaan er prat op dat ze heel zorgvuldig naar hun bronnen kijken. Bronnenkritiek is de kern van hun vak; het onderscheidt de goede historicus van de slechte. We moeten de kunst van de historici nu toepassen op digitale bronnen, en nog belangrijker: op de instrumenten en methoden die we gebruiken om data te verzamelen."

Pratend met Wyatt tekent zich een doemscenario af: al die groeiende dataverzamelingen zouden een feest moeten zijn voor de wetenschap, maar dreigen een vloek te worden. Je ziet bergen data voor je waarvan zin, herkomst en kwaliteit onduidelijk zijn, en die nauwelijks te reproduceren zijn. Gaat de wetenschap ten onder aan datarijkdom?

Wyatt: "Ik ben een optimist, dus dat geloof ik niet. Maar het wordt wel ingewikkelder. Om een voorbeeld te geven: de Oeso (Organisatie voor Economische Samenwerking en Ontwikkeling) heeft een paar jaar geleden wetenschappers van allerlei disciplines bijeengebracht om in kaart te brengen wat we weten van dementie. Dat is een ingewikkeld probleem, met heel verschillende aspecten en dus ook verschillende soorten data. De ene wetenschapper komt met een hersenscan, de ander met een genetische code. Die kun je niet zo maar langs elkaar leggen, ze vertellen verschillende verhalen."

Confronterend

De wetenschap moet leren werken met die verschillende verhalen. Wyatt was betrokken bij een onderzoek naar reizen in Nederland en de keuze die mensen maken uit de verschillende vervoersopties die ze hebben om te komen waar ze moeten zijn. "Als je wilt weten welke keuzes mensen maken, kun je ze dat vragen. Dat is klassiek sociaal-wetenschappelijk onderzoek, en het levert kwalitatieve data op. Hebben we in dit project gedaan; we hebben mensen geïnterviewd. Maar we hebben hen ook gevraagd om toegang tot de data van hun mobieltjes gedurende vijf weken. Die belgegevens zijn kwantitatieve data en laten zien waar mensen zijn geweest. En mensen doen natuurlijk anders dan ze zeggen te doen. We zijn met die telefoongegevens teruggegaan en hebben die aan de deelnemers laten zien. Dat was soms heel confronterend.

Voor de gemiddelde gees­tes­we­ten­schap­per was een com­pu­ter­we­ten­schap­per een soort loodgieter: doe dat rekenwerk voor me en stuur maar een rekening

"Een van de deelnemers was ervan overtuigd dat zij het altijd was die haar vriendin moest bellen en dat het nooit andersom ging, tot uit belgegevens het tegendeel bleek. Maar mensen zagen vooral hoe de vervoerskeuzes die ze in werkelijkheid maakten, afweken van hun idee. Het combineren van kwalitatieve en kwanitatieve data, niet alleen door de onderzoekers maar ook door de deelnemers, geeft je een dieper inzicht in de dynamiek van reizen."

Als dan het doemscenario uitblijft en de wetenschap niet bedolven raakt onder de data, kan het dan zijn dat big data de verschillende disciplines dichter bij elkaar brengt?

Wyatt: "Er komt in ieder geval meer respect voor elkaar. Voor de gemiddelde geesteswetenschapper was een computerwetenschapper een soort loodgieter: doe dat rekenwerk voor me en stuur maar een rekening. Zo werkt het niet meer. En omgekeerd moet de datawetenschapper verder kijken dan zijn rekenwerk en begrip hebben van de wetenschap waarvoor hij dat rekenwerk doet. De verschillende wetenschappen moeten met elkaar leren praten."

Wie is Sally Wyatt?

De Canadees-Britse Sally Wyatt (1959) studeerde economie aan McGill University in Montreal, verhuisde naar de universiteit van Sussex, Engeland, om zich te verdiepen in de theorie van economische planning, en reisde door naar Maastricht om daar te promoveren op een onderzoek naar informatietechologie en openbaar bestuur. Dat was twintig jaar geleden. Ze is er nu hoogleraar.

Haar publicatielijst is lang en divers, met artikelen over de invloed van de digitalisering op de samenleving maar ook verhandelingen over informatietechnologie en geesteswetenschappen.

Is ze nu econoom, socioloog of wetenschapsfilosoof? Wyatt: "Hoe ik mezelf omschrijf, hangt er een beetje van af met wie ik praat. Maar de constante factor in mijn werk is technologie. Toen ik studeerde hadden economen totaal geen oog voor de invloed van technologie; die werd weggeschreven als een onbelangrijke externe factor. Maar technologie heeft mij altijd gefascineerd. Mijn vader was een ingenieur, dat heeft er ongetwijfeld mee te maken. Wij zagen tijdens vakanties heel veel bruggen en elektriciteitscentrales."

Wyatt heeft het afgelopen jaar veel tijd gestoken in het opzetten van een nieuwe bacheloropleiding digitale samenleving, en hoopt komend jaar weer wat meer tijd te hebben voor onderzoek. Ze werkt aan een boek over 'het digitale gebod', het idee dat alles digitaal moet worden. "Ik wil onderzoeken wat dat doet met de wetenschap, de politiek maar ook met het dagelijks leven. Want als je een robot wilt zien als oplossing, moet je het probleem wel op een bepaalde manier formuleren."

En in een wat speels project wil ze voorbeelden verzamelen van 'hostile technologies', technologieën die zijn ontworpen om bepaald gedrag te remmen of te blokkeren. "Zoals de banken in het park die in het midden een extra leuning hebben, om bankslapende daklozen te weren."

Wat zijn data?

Data zijn gegevens, feiten, zegt Van Dale. En big data noemt het woordenboek 'een grote, complexe, snel veranderende verzameling die niettemin snel doorzoekbaar en analyseerbaar is en op grond waarvan (statistische) gegevens over bepaalde fenomenen kunnen worden verkregen'. Het woord data kan betrekkking hebben op van alles en nog wat: je bloeddruk, lichaamstemperatuur, het aantal tegels in je straat, de sterren aan je hemel, maar ook de dromen die je in je dagboek hebt genoteerd. Het Nederlands weet gelukkig nog dat 'data' meervoud is, zegt Sally Wyatt, het Engels is dat al vergeten.

Lees ook:

Discriminatie ligt op de loer bij gebruik van big data
Een staatscomputer, die beslissingen neemt. Het is steeds meer de realiteit. Meer transparantie daarover is cruciaal om discriminatie te voorkomen, meent Tweede-Kamerlid Kees Verhoeven (D66).

Lees ook:

Gezondere koeien dankzij big data
Het Nederlandse techbedrijf Connecterra ontwikkelde een sensor die het welzijn van koeien volgt. Tot ver over de grens kunnen boeren niet meer zonder hun digitale assistent.

Deel dit artikel

Grote databestanden wekken de indruk dat ze compleet zijn. Dat kan tegenvallen

Data zijn niet onschuldig. De gegevens die we verzamelen zijn van afhankelijk van de meet­in­stru­men­ten en onze manier van waarnemen

Voor de gemiddelde gees­tes­we­ten­schap­per was een com­pu­ter­we­ten­schap­per een soort loodgieter: doe dat rekenwerk voor me en stuur maar een rekening