Met de computer dreigtweets opsporen

home

Wybo Algra

Interview

Met persbureau ANP en de politie werkt hij aan slimme zoeksystemen om Twitter door te vlooien op nieuws, dreigtweets of vroege signalen van onraad à la Haren. Kinderen die gepest worden, of hun kwelgeesten, zou hij desgevraagd ook kunnen opsporen. Gisteren hield hoogleraar taaltechnologie Antal van den Bosch (43) zijn oratie aan de Radboud Universiteit in Nijmegen.

Van den Bosch' expertise ligt op het terrein van vertaalprogramma's, spellingscorrectoren en zoekmachines. Sommige wetenschappers vinden dat ze een computer daarvoor eerst een woordenschat en de grondbeginselen van de grammatica moeten aanleren. Van den Bosch behoort tot een andere stroming: hij stopt gewoon een heleboel teksten in zijn computer en laat die daar lekker mee stoeien.

Voor een taalwetenschapper is dat een essentieel verschil?
"Ja. Je kunt zinnen ontleden tot het niveau van de afzonderlijke woorden. Maar vaak mis je dan de betekenis. Niet bij een simpel zinnetje als 'daar ligt een rode bal'. Wel bij woordgroepen als 'een eigen huis'. Dat is niet alleen het huis waarin je woont, het is ook een koophuis. Vertaalsystemen die zijn getraind met een grote hoeveelheid vertaald materiaal, leren dergelijke betekenissen van woordgroepen te herkennen.

"Ander voorbeeld: als je een vertaalsysteem traint met teksten van het Europees Parlement, leert zo'n systeem dat 'beroep op' doorgaans wordt vertaald als 'appeal to' (een beroep doen op), en dat beroep hier doorgaans dus niet 'profession' betekent (beroep in de zin van broodwinning)."

Begrijpend lezen voor computers?
"Klopt. Dat ontwikkelen we niet alleen voor vertaalsystemen maar ook voor zoekprogramma's. We hebben met het Internationaal Instituut voor Sociale Geschiedenis (IISG) een classificatiesysteem opgezet om krantenartikelen op te sporen over dreigende stakingen. Als wetenschappers daar handmatig naar moeten zoeken, is dat ontstellend veel werk. Ga maar na: de krantendatabase van de Koninklijke Bibliotheek in Den Haag telt volgend jaar acht miljoen gescande krantenpagina's.

"Wij hebben de computer op basis van een verzameling krantenstukken over dreigende stakingen laten zoeken naar handige aanwijzingen. Dan kom je op logische termen als 'conflict', 'dreigend' en 'vakbondsleiders', maar ook 'rijksbemiddelaar'. Ik kende het woord niet eens. Het waren ambtenaren die op conflicten werden afgestuurd. De computer haalt ideeën uit de ruwe data die we zelf niet hadden kunnen verzinnen en soms niet eens meteen kunnen duiden."

Hoe gebruikt u die kennis voor het opsporen van nieuws- en dreigtweets?
"Op dezelfde manier, door de computer een heleboel van die tweets te voeren. Jammer is wel dat niemand tot dusver een bruikbare collectie doodsbedreigingen heeft verzameld, dus daar is het nog wat improviseren. Voor zoeken naar nieuws, of bijvoorbeeld toestanden zoals onlangs het uit de hand gelopen Facebook-feest in Haren, komt de computer met de simpelste en mooiste oplossingen. Je denkt zelf snel aan tijdsaanduidingen: 'vanavond', of 'volgende week'. Maar 'zin in' slaat eveneens op een toekomstige gebeurtenis, en is dus ook een woord waarop je kunt filteren als je zoekt naar nieuws. Zie het als een spamfilter: een bericht komt op grond van een verzameling criteria wel of niet door de selectie, waardoor je uit miljoenen tweets de bruikbare teksten kunt filteren."

Op dezelfde manier kunt u vast ook een pest-alert opzetten?
"Zeker. Volgens hetzelfde recept: voorbeelden verzamelen, in de computer stoppen en kijken wat er aan aanwijzingen uitrolt. Het begint met het zoeken naar een flinke hoeveelheid pest-tweets en Facebook-berichten. De moeilijkheid zit hier in het leren onderscheiden van humor, plagerijtjes en serieus pesten, want tekstueel kan dat dicht bij elkaar liggen."

Lees verder na de advertentie

Trouw.nl is vernieuwd. Ter kennismaking mag u nu gratis onze artikelen lezen.

Deel dit artikel

Advertentie