null Beeld illustratie Fadi Nadrous
Beeld illustratie Fadi Nadrous

ReconstructieSelectiefouten

Hoe de Belastingdienst lage inkomens profileerde in de jacht op fraude

Om fraude beter te kunnen opsporen begon de Belastingdienst in 2013 met een zelflerend algoritme bij de controle op toeslagen. Dat keek vooral naar de allerlaagste inkomens.

Jan Kleinnijenhuis

Wat als de Belastingdienst aan de hand van de kleur en het merk auto dat je rijdt zou bepalen of je extra gecontroleerd wordt op fraude bij je aangifte inkomstenbelasting of het aanvragen van toeslagen? Of dat de maand waarin je geboren bent aanleiding is voor een extra check?

De eerlijkheid gebiedt te zeggen dat niemand een idee heeft of dit gebeurt of niet. Maar bovenstaande voorbeelden zijn niet voor niets gekozen. Het zijn precies de voorbeelden die voormalig algemeen directeur Belastingdienst Hans Blokpoel kiest, als hij in 2015 in een interview de onbegrensde mogelijkheden van big data – het zoeken naar patronen in alle gegevens die de fiscus over mensen bezit – schetst.

“Dan zou het dus zo kunnen zijn en dit is een puur hypothetisch voorbeeld – dat als jij in een grijze Golf rijdt, de kans groot is dat je een aangifte doet waar iets mis mee is”, zegt Blokpoel in het interview met De Correspondent. “Of dat mensen die in februari zijn geboren meer fouten maken. De volgende vraag is dan: Wat gaan we met die informatie doen?”

Die laatste vraag beantwoorden is nog niet zo makkelijk. Want wat heeft de Belastingdienst gedaan met alle patronen die het wist te vissen uit gegevens die het bezit? Op welke gronden werden mensen geselecteerd voor extra controle op fouten of fraude?

Als Hans Blokpoel zijn interview geeft in 2015, is de afdeling Toeslagen al een paar jaar bezig met de inzet van profilering op basis van big data. In 2012 werd de basis gelegd voor wat later het risicoclassificatiemodel ging heten. Dat model is feitelijk een zelflerend algoritme, dat zelfstandig bepaalt welke indicatoren erop zouden kunnen wijzen dat bepaalde aanvragen voor toeslagen een verhoogde kans op fouten of fraude kennen.

Die indicatoren komen niet uit de lucht vallen. In zogeheten ‘expertsessies’ werden ambtenaren van de afdeling Toeslagen gevraagd van welke gegevens zij verwachtten dat het de kans op fouten of fraude zou kunnen voorspellen. Gezamenlijk kwamen de ambtenaren tot een lijst van zo’n 100 indicatoren die een voorspellende waarde zouden kúnnen hebben. Waarom zij dat dachten, is niet bekend, want er is niets over vastgelegd. “In het algemeen kan worden gezegd dat er in ieder geval een statistisch verband werd verwacht tussen de indicator en de kans op een incorrecte toeslagaanvraag”, schrijft de Auditdienst Rijk (ADR) later in een onderzoek.

De analogie van Blokpoel

Om na te gaan of de indicatoren ook daadwerkelijk een voorspellende waarde hadden, werden zij gebruikt om een zelflerend model te trainen. Toeslagen selecteerde zo’n 30.000 aanvragen, waarvan het zelf aangaf of deze ‘goed’ of ‘fout’ zijn. Door die 30.000 dossiers te toetsen aan de grofweg 100 indicatoren, bepaalt de computer vervolgens welke indicatoren vaker voorkomen in de ‘foute’ aanvragen. Zo kan een statistisch verband aangetoond worden tussen een indicator en een ‘foute’ aanvraag voor toeslagen. In de analogie van voormalig Belastingdienst-directeur Blokpoel: wie in een grijze Golf rijdt, of in februari geboren is, komt vaker voor in de set ‘foute’ aanvragen.

“Bij de bouw van zo’n model kan in potentie heel veel misgaan”, zegt Cynthia Liem, universitair hoofddocent Kunstmatige Intelligentie aan de Technische Universiteit Delft. Zij keek op verzoek van Trouw en RTL Nieuws mee naar de werking van het risicoclassificatiemodel van Toeslagen.

Van groot belang is hoe Toeslagen de 30.000 voorbeelddossiers heeft gekozen. “Dat is de basis van het model. Je vertelt het algoritme: dit dossier is goed. En dit dossier is fout. Het algoritme kijkt slechts welke indicatoren passen bij goede of foute dossiers, maar wat goed of fout is, is door mensen bepaald.”

Toeslagen is zelf niet overtuigd van de kwaliteit van die voorbeelddossiers, zo schrijft het in een onderzoek uit maart van dit jaar dat Trouw en RTL Nieuws ter inzage kregen. De dossiers die als ‘goed’ bestempeld zijn, betreffen vooral aanvragen van dossiers die voor langere tijd niet zijn aangepast. Maar dat betekent niet automatisch dat er geen sprake is van fouten of fraude: wellicht werden die dossiers domweg niet gecontroleerd.

270.000 mensen stonden als ‘potentieel fraudeur’ vermeld

Dan de als ‘fout’ bestempelde dossiers. Vorig jaar lieten staatssecretarissen Hans Vijlbrief (Belastingdienst) en Alexandra van Huffelen (Toeslagen) aan de Tweede Kamer weten dat die (deels) gehaald zijn uit de zogeheten ‘zwarte lijst’ van de Belastingdienst, de Fraude Signalering Voorziening (FSV). Daarop stonden zo’n 270.000 mensen als ‘potentieel fraudeur’ vermeld, zonder bewijs en zonder dat zij dit wisten of zich daartegen konden verweren.

Het bestaan van FSV werd begin vorig jaar door Trouw en RTL Nieuws onthuld, en direct daarop door de Belastingdienst uit de lucht gehaald. De Autoriteit Persoonsgegevens (AP) oordeelde enkele weken geleden dat FSV jarenlang onrechtmatig is gebruikt. “Ruim een kwart miljoen mensen stond – vaak onterecht – veel te lang op deze fraudelijst zónder dat zij dit wisten.” zei AP-voorzitter Aleid Wolfsen.

null Beeld Fadi Nadrous
Beeld Fadi Nadrous

Nu bekend is dat vermelding op de zwarte lijst in veel gevallen onterecht, of twijfelachtig is, roept dat met terugwerkende kracht vragen op over de training van het risicoclassificatiemodel. Liem: “Nu gebleken is dat mensen om het minste of geringste en zelfs onterecht in FSV zijn geplaatst, moet je je afvragen wat de waarde van dat model is geweest. Door die dossiers als basis te kiezen, neemt je model alle foute overwegingen om iemand op die lijst te plaatsen over.”

Het aantal opvanguren was ook een indicator

Maar FSV speelt nog een andere rol. De zwarte lijst werd niet alleen gebruikt bij de training van het model, zo blijkt uit verschillende interne documenten van de Belastingdienst. Iemand die vermeldt staat in FSV ‘scoort hoger bij de risicoanalyse van Toeslagen’, schrijft de fiscus eind 2018. En in een onderzoek naar FSV van november 2019 staat dat ‘ook voor Toeslagen geldt dat een vermelding in FSV bij inschatting van het risico voedend werkt’. FSV was dus niet alleen een blauwdruk voor de bouw van het model, het werd ook gebruikt als indicator. Bij vermelding in FSV viel de risicoscore hoger uit.

Wat is een algoritme?

Een algoritme is niets meer dan een serie instructies die door een computer kan worden uitgevoerd. In veel huidige discussies rond algoritmes in besluitvorming wordt vaak gedoeld op zogenoemde ‘zelflerende’ algoritmes. Het gaat dan om algoritmes die op grond van veel datavoorbeelden en bijbehorende uitkomsten de belangrijkste patronen leren die tot die uitkomsten hebben geleid.

Wat vaak vergeten wordt is dat de datavoorbeelden en uitkomsten door mensen worden aangeleverd, en algoritmes alleen op grond van gegeven data kunnen optimaliseren. Een daadwerkelijk ‘menselijk intelligent’ breder begrip van de wereld hebben zij niet.

Discussies over maatschappelijk onwenselijke uitkomsten van algoritmes beperken zich vaak tot de techniek. Terwijl de rol van mensen in het aanleveren van data (met mogelijke vooroordelen) en het bepalen wat ‘goede’ en ‘foute’ uitkomsten zijn, veel belangrijker is bij de uiteindelijke besluitvorming.

Er zijn meer indicatoren bekend van het risicoclassificatiemodel. De bekendste is de indicator Nederlander/niet-Nederlander, waarmee geselecteerd wordt op het al dan niet hebben van de Nederlandse nationaliteit. Daarvan oordeelde de AP vorig jaar al dat deze discriminerend werkt. Daarnaast is uit inmiddels openbare documenten te achterhalen dat bijvoorbeeld de afstand tussen het woonadres van ouders en de locatie van de kinderopvang een indicator was, evenals de hoogte van de opvanguren, het aantal kinderen op de opvang, of het feit dat iemand geregistreerd stond als wanbetaler bij zijn ziektekostenverzekering.

Uiteindelijk waren zo’n 20 indicatoren ‘significant genoeg om door het algoritme gebruikt te worden in de risicobepaling’, zo liet de Belastingdienst in 2019 weten aan de zogeheten commissie-Donner, die de toeslagenaffaire onderzocht. Welke dat zijn, wil de Belastingdienst niet zeggen omdat dit het toezicht zou ondermijnen.

Hoog inkomen, lager risico

Aan diezelfde commissie-Donner legt de Belastingdienst uit dat er niet alleen indicatoren zijn die een hoger risico opleveren. Bepaalde indicatoren kunnen de risicoscore ook ver­lagen. Als voorbeeld noemt de Belastingdienst ‘een hoog inkomen’ of ‘bevestiging via contra-informatie’. Van dat laatste zegt de Belastingdienst nu dat het nooit een indicator is geweest in de risicoclassificatie.

Maar het inkomen, dat speelde wel degelijk een rol, bevestigt de fiscus. “In het verleden bleek uit de ervaringsgegevens die in het risicoclassificatiemodel Toeslagen werden gebruikt een statistisch verband tussen de hoogte van het inkomen en de kans op een (on)juiste aanvraag. Deze indicator werd in ieder geval vanaf maart 2016 diverse keren met variabele grenswaarden in het model van Toeslagen gebruikt”, laat een woordvoerder weten.

Bij navraag blijkt dat het inkomen zowel een positieve (hogere) bijdrage, als een negatieve bijdrage aan de score kan geven. Met andere woorden: een laag inkomen zorgt voor een hogere risicoscore, een hoog inkomen juist voor een lagere. Dat er geselecteerd is op inkomen, is volgens de woordvoerder ook te verdedigen. “De controles van Toeslagen waren (en zijn) gericht op het voorkomen van hoge terugvorderingen.” Omdat hoge terugvorderingen vooral voor mensen met een laag inkomen een probleem vormen, vindt de Belastingdienst het verdedigbaar dat zij ‘eerder in aanmerking komen voor controle op onjuistheden’.

Wat de ‘grenswaarden’ voor het inkomen zijn, zegt de Belastingdienst niet. Wel stelt de fiscus: “De impact van de individuele variabele ‘inkomen’ op de hoogte van de toeslag is klein. Dit geldt ook voor het gewicht van deze variabele in de controle op onjuistheden.”

Als de indicator ‘inkomen’ inderdaad maar licht meetelde in de risicoselectie, is er iets heel geks aan de hand. Feit is namelijk dat het model vooral lage inkomens een hoge risicoscore toekende, blijkt uit cijfers die de Belastingdienst zelf aan de commissie-Donner stuurde. Van de 1000 hoogste risicoscores uit het model, heeft 82,3 procent een huishoudinkomen van minder dan 20.000 euro. Dat is ruim elf keer zoveel als het percentage van alle aanvragers van toeslag: daar heeft 7,3 procent van de aanvragers een huishoudinkomen onder de 20.000 euro.

“Dat is een enorm verschil”, reageert Liem. “Hoe het model precies werkt, is op basis van openbare informatie niet na te gaan. Maar als de uitkomst zo inzoomt op een specifieke groep, in dit geval lage inkomens, dan moeten er alarmbellen afgaan bij de ambtenaren die met die modellen werken.”

Zonder precieze inzage in het model is het gissen naar een verklaring voor dat verschil. Een manier is dat de indicatoren die het model gekozen heeft, onderling verband houden. Bijvoorbeeld: als de postcode van mensen een indicator is, zegt dit indirect ook iets over het inkomen. “Als je een laag inkomen hebt, woon je waarschijnlijk niet in Wassenaar.”

Opvallend is ook het percentage alleenstaanden

Een laag inkomen is overigens niet het enige kenmerk dat eruit springt bij de hoogste risicoscores. Opvallend is ook het percentage alleenstaanden (86,9 procent, tegen 14 procent van alle aanvragers), en het aantal mensen met meer dan 200 uur opvang per maand (34,7 procent, tegen 1,2 procent van alle aanvragers). Het kost weinig moeite om het verband te zien tussen dit soort kenmerken. Alleenstaanden hebben doorgaans meer opvang nodig als zij werken, en hebben tegelijkertijd een lager huishoudinkomen, aangezien voor toeslagen de inkomens van beide partners worden opgeteld. Zo kan een laag inkomen via verschillende indicatoren een heel hoge risicoscore veroorzaken.

Een andere verklaring voor het enorme aandeel van lage inkomens, ligt in de start van het model. Onlangs gaven ambtenaren van de Belastingdienst al toe dat er ‘relatief veel lage inkomens’ in FSV stonden vermeld. “Op basis van die gegevens is het model getraind – dat is dus precies een manier waarop je fouten importeert in je model”, zegt Liem. “Zonder dat je het zelf wilt of ziet, selecteert je model dan op lage inkomens.”

De statistische term daarvoor is selectiebias: de selectie van gegevens waarvan het model denkt dat ze representatief zijn voor alle aanvragers van toeslagen, geven in werkelijkheid een vertekend beeld. Dat is een probleem als het onbewust gebeurt, maar bij Toeslagen heeft de manier waarop het model gebruikt is waarschijnlijk ook nog eens gezorgd voor ‘doorselectie’, een zichzelf versterkende selectiebias.

Controle betekent nog geen correctie

Dit artikel beschrijft de manier waarop de Belastingdienst aanvragen voor toeslagen selecteerde voor extra controle op fouten of fraude. Dat er sprake was van extra controle betekent echter niet automatisch dat die aanvragen ook gecorrigeerd, of zelfs volledig afgewezen worden. “Het model gaf een overzicht van aanvragen waar mogelijk een fout in zat en die moesten worden nagekeken, niet of de aanvraag zelf correct was”, zegt de Belastingdienst.

Uit de toeslagenaffaire is echter gebleken dat extra kans op controle wel degelijk gevolgen had. Zo stelt de commissie-Donner dat sprake was van ‘institutionele vooringenomenheid’. De commissie beschrijft de praktijk waarin bij vermoedens, ook als het ging om selectie door het risicoclassificatiemodel, vooral werd gezocht naar bevestiging. Dat blijkt ook uit de hoeveelheid correcties die er plaatsvonden bij controle: tussen 2014 tot en met 2019 werd bij 62 procent van de gecontroleerde aanvragen de toeslag naar beneden bijgesteld. Gemiddeld ging het dan om een vermindering van 45,2 procent van het aangevraagde toeslagbedrag.

Daar komt bij dat Toeslagen de afspraak had gemaakt jaarlijks minimaal 25 miljoen euro aan ‘fraude’ terug te pakken. Dat bedrag werd gebruikt om het risicoclassificatiemodel op te zetten en extra personeel aan te nemen om fraude op te sporen. In maart vorig jaar bleek dat Toeslagen extra inzette op controle van door hen bepaalde ‘hoge risico’s’ als de 25 miljoen euro niet gehaald werd. Bedoeld om ‘een hogere opbrengst te genereren’, staat in een verslag van het management van Toeslagen uit 2018. In 2019 zou de Belastingdienst gestopt zijn met het sturen op een minimale opbrengst.

Hoe zit dat? Toeslagen controleerde alleen de hoogste risicoscores die door het model werden bepaald. De uitkomsten daarvan werden gebruikt om het model verder te trainen. Het model versterkt zo zijn eigen vooroordelen: als het vermoedt dat bij lagere inkomens meer kans is op fraude, worden vooral die aanvragen gecontroleerd en zoomt het steeds verder in op lage inkomens. “Iedereen die iets weet van risicoselectie weet dat je alert moet zijn op selectiebias”, zegt Liem. Dat kan bijvoorbeeld door aselect steekproeven te trekken bij aanvragers van toeslagen, en de uitkomsten daarvan ook te gebruiken om het model te trainen. Of door bewust ook lagere risicoscores te controleren, om het model te trainen met aanvragen die een beter totaalbeeld geven.

Er is geen geld uitgetrokken om de selectiebias tegen te gaan

Die aselecte steekproeven en controles van lage risicoscores vonden de afgelopen jaren juist niet plaats, blijkt uit interne documenten van de Belastingdienst. “Wij onderzoeken alleen de hoge scores en er is geen toezichtproces dat ook andere kenmerken onderzoekt”, schrijft de fiscus in maart in een onderzoek. Dat daarmee selectiebias in de hand wordt gewerkt is bekend, maar er is voor gekozen geen tijd en geld uit te trekken om dat tegen te gaan. In juli vorig jaar werd besloten het risicoclassificatiemodel uit de lucht te halen, na een kritisch rapport van onderzoeksbureau KPMG. Oorspronkelijk was het plan om na wat kleine aanpassingen het model na vier tot zes weken weer in gebruik te nemen. Nader onderzoek liet zoveel gebreken zien dat de Belastingdienst gestart is met een pilot van het zogeheten behandelkeuzemodel, voorlopig alleen nog getest bij de huurtoeslag.

Volgens de Belastingdienst gebruikt het behandelkeuzemodel geen zelflerende algoritmen. “De selectie van aanvragen die worden gecontroleerd, wordt gedaan op basis van opvallende zaken”, zegt een woordvoerder. “Denk aan de situatie dat een aanvrager van huurtoeslag in korte tijd drie keer de huurprijs aanpast. Dit kan een signaal zijn dat de aanvrager niet weet welke huurprijs hij moet invoeren.” Ook krijgen zowel ambtenaren als burgers die gecontroleerd worden bij dit model informatie over de reden waarom de aanvraag is geselecteerd voor controle.

Hoofddocent Liem heeft zo haar twijfels over de nieuwe aanpak. “Bij algoritmes weet je welke systematiek is toegepast om tot een score te komen. Leidt die systematiek tot vragen of twijfels, dan kun je die herzien, en de herziene versie opnieuw systematisch toepassen. In het nieuwe model wordt alles overgelaten aan de behandelende ambtenaren. Beslissingen zijn overgeleverd aan individuen. Maakt dit de dienstverlening niet trager, onsystematischer, en gevoeliger voor persoonlijke willekeur en vooroordelen, die wij toch bewust of onbewust zullen hebben?”

Met dank aan Ilyaz Nasrullah

Lees ook:

Belastingdienst werkte zeer kritische Autoriteit Persoonsgegevens tegen

De Autoriteit Persoonsgegevens oordeelt keihard over de Belastingdienst. De AP werd tegengewerkt en onjuist voorgelicht tijdens haar onderzoek. ‘De Belastingdienst handelde discriminerend.’

‘De overheid speelt balletje-balletje met gegevens van burgers’

De Belastingdienst heeft de privacywet AVG ‘op ernstige wijze geschonden’ door de gegevens van circa een kwart miljoen burgers jarenlang te verwerken in een zwarte lijst.

Zwarte lijst brengt Belastingdienst verder in problemen: veel aanslagen mogelijk onrechtmatig

Het gebruik van een zwarte lijst door de Belastingdienst is onrechtmatig, concludeert de advocaat-generaal van de Hoge Raad. Als de fiscus door die zwarte lijst naheffingen heeft opgelegd, moeten die vervallen.

Wilt u iets delen met Trouw?

Tip hier onze journalisten

Op alle verhalen van Trouw rust uiteraard copyright.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar copyright@trouw.nl.
© 2022 DPG Media B.V. - alle rechten voorbehouden