Uw profiel is aangemaakt

U heeft een e-mail ontvangen met een activatielink. Vergeet niet binnen 24 uur uw profiel te activeren. Veel leesplezier!

x

Met de computer dreigtweets opsporen

home

Wybo Algra

Interview

Met persbureau ANP en de politie werkt hij aan slimme zoeksystemen om Twitter door te vlooien op nieuws, dreigtweets of vroege signalen van onraad à la Haren. Kinderen die gepest worden, of hun kwelgeesten, zou hij desgevraagd ook kunnen opsporen. Gisteren hield hoogleraar taaltechnologie Antal van den Bosch (43) zijn oratie aan de Radboud Universiteit in Nijmegen.

Van den Bosch' expertise ligt op het terrein van vertaalprogramma's, spellingscorrectoren en zoekmachines. Sommige wetenschappers vinden dat ze een computer daarvoor eerst een woordenschat en de grondbeginselen van de grammatica moeten aanleren. Van den Bosch behoort tot een andere stroming: hij stopt gewoon een heleboel teksten in zijn computer en laat die daar lekker mee stoeien.

Voor een taalwetenschapper is dat een essentieel verschil?
"Ja. Je kunt zinnen ontleden tot het niveau van de afzonderlijke woorden. Maar vaak mis je dan de betekenis. Niet bij een simpel zinnetje als 'daar ligt een rode bal'. Wel bij woordgroepen als 'een eigen huis'. Dat is niet alleen het huis waarin je woont, het is ook een koophuis. Vertaalsystemen die zijn getraind met een grote hoeveelheid vertaald materiaal, leren dergelijke betekenissen van woordgroepen te herkennen.

"Ander voorbeeld: als je een vertaalsysteem traint met teksten van het Europees Parlement, leert zo'n systeem dat 'beroep op' doorgaans wordt vertaald als 'appeal to' (een beroep doen op), en dat beroep hier doorgaans dus niet 'profession' betekent (beroep in de zin van broodwinning)."

Begrijpend lezen voor computers?
"Klopt. Dat ontwikkelen we niet alleen voor vertaalsystemen maar ook voor zoekprogramma's. We hebben met het Internationaal Instituut voor Sociale Geschiedenis (IISG) een classificatiesysteem opgezet om krantenartikelen op te sporen over dreigende stakingen. Als wetenschappers daar handmatig naar moeten zoeken, is dat ontstellend veel werk. Ga maar na: de krantendatabase van de Koninklijke Bibliotheek in Den Haag telt volgend jaar acht miljoen gescande krantenpagina's.

"Wij hebben de computer op basis van een verzameling krantenstukken over dreigende stakingen laten zoeken naar handige aanwijzingen. Dan kom je op logische termen als 'conflict', 'dreigend' en 'vakbondsleiders', maar ook 'rijksbemiddelaar'. Ik kende het woord niet eens. Het waren ambtenaren die op conflicten werden afgestuurd. De computer haalt ideeën uit de ruwe data die we zelf niet hadden kunnen verzinnen en soms niet eens meteen kunnen duiden."

Hoe gebruikt u die kennis voor het opsporen van nieuws- en dreigtweets?
"Op dezelfde manier, door de computer een heleboel van die tweets te voeren. Jammer is wel dat niemand tot dusver een bruikbare collectie doodsbedreigingen heeft verzameld, dus daar is het nog wat improviseren. Voor zoeken naar nieuws, of bijvoorbeeld toestanden zoals onlangs het uit de hand gelopen Facebook-feest in Haren, komt de computer met de simpelste en mooiste oplossingen. Je denkt zelf snel aan tijdsaanduidingen: 'vanavond', of 'volgende week'. Maar 'zin in' slaat eveneens op een toekomstige gebeurtenis, en is dus ook een woord waarop je kunt filteren als je zoekt naar nieuws. Zie het als een spamfilter: een bericht komt op grond van een verzameling criteria wel of niet door de selectie, waardoor je uit miljoenen tweets de bruikbare teksten kunt filteren."

Op dezelfde manier kunt u vast ook een pest-alert opzetten?
"Zeker. Volgens hetzelfde recept: voorbeelden verzamelen, in de computer stoppen en kijken wat er aan aanwijzingen uitrolt. Het begint met het zoeken naar een flinke hoeveelheid pest-tweets en Facebook-berichten. De moeilijkheid zit hier in het leren onderscheiden van humor, plagerijtjes en serieus pesten, want tekstueel kan dat dicht bij elkaar liggen."

Trouw.nl is vernieuwd. Vanaf nu is onbeperkte toegang tot Trouw.nl alleen voor (proef)abonnees.

Deel dit artikel

Advertentie

Wilt u dit artikel verder lezen?

Maak vrijblijvend een profiel aan en krijg gratis 2 maanden toegang tot Trouw.nl.

Het e-mailadres bij dit profiel is nog niet bevestigd. Een link om te bevestigen kun je vinden in je inbox.
Ben je de link kwijt? Vraag hier een nieuwe aan.

Ongeldig e-mailadres

Wachtwoord is niet correct

tonen

Wachtwoord komt niet overeen

tonen

U moet akkoord gaan met de gebruiksvoorwaarden

Wij gaan vertrouwelijk om met uw gegevens. Lees onze privacy statement.