*

 

Computers leren parafrases herkennen

Door: redactie − 21/12/10, 16:53

De Universiteit van Tilburg kan zoekmachines zoals Google slimmer maken door computers te leren parafrases te herkennen. Specifiek zoeken naar informatie, teksten samenvatten en plagiaat opsporen, worden daardoor veel eenvoudiger.

  • Zoekmachine Google

Het instituut voor Cognitie en Communicatie van de Universiteit van Tilburg heeft een systeem ontwikkeld dat het voor computers mogelijk maakt om te herkennen wanneer twee sterk verschillende zinnen toch dezelfde betekenis hebben. Volgens de universiteit is dat een stap vooruit naar slimme zoekmachines en automatische taalverwerking.

De ontwikkelingen rond WikiLeaks hebben de afgelopen weken weer eens duidelijk gemaakt dat het ontzettend handig is als een computer heel specifiek naar informatie kan zoeken. Nog handiger is het als de computer uit zichzelf informatie herkent die hetzelfde is, maar anders geformuleerd, zogeheten parafrases. De Universiteit van Tilburg heeft ruim twee miljoen woorden verzameld om digitaal parafrases te herkennen. Deze dataset is voor professionals beschikbaar via de Centrale voor Taal- en Spraaktechnologie. Het verzamelen van de Nederlandse woorden en woordconstructies maakt deel uit van een internationaal taalprogramma, aldus de universiteit.

Hoe handig het herkennen van parafrases kan zijn illustreert de universiteit met dit voorbeeld. Twee openingszinnen van een nieuwsbericht, één van de Telegraaf en één van NRC Handelsblad, met hetzelfde onderwerp, formuleren heel verschillend wat er is gebeurd:

NRC: De 44-jarige Steve Irwin – bekend door zijn tv-programma’s over dieren – stierf maandagmiddag (plaatselijke tijd) nadat hij tijdens het duiken voor de Australische noordoostkust bij Port Douglas in zijn borstkas wordt gestoken door een giftige pijlstaartrog.

Telegraaf: Steve Irwin, de Australische televisiepresentator die bekend is als The Crocodile Hunter, is maandag overleden nadat hij tijdens een duikexpeditie was gestoken door een pijlstaartrog.

Een computer die alleen naar de woorden kijkt, herkent deze zinnen niet snel als parafrases. Wie op het internet zoekt naar informatie over ‘de dood van de Crocodile Hunter’, krijgt daarom alleen het Telegraafbericht, terwijl een zoekmachine die de parafrases herkent, beide artikelen kan aanbieden.

De universiteit ziet mogelijkheden in de journalistiek. Het systeem kan helpen bij het automatisch samenvatten van verschillende teksten over het zelfde onderwerp. Het is mogelijk om twee zinnen met grofweg dezelfde informatie samen te voegen, zodat lezers er veel sneller informatie uit kunnen halen. Ook kun je met deze methode plagiaat opsporen, waarbij de tekst niet exact is overgenomen, maar enigszins geparafraseerd.

mailIcon print |