Computer zoekt naar emotie en nieuws in de twittermassa

selectie | Al die miljoenen tweets vormen de rijkste stroom aan gedachten over wat er op enig moment op de wereld gebeurt.

Wie wil weten wat er nú in de wereld gebeurt, een journalist bijvoorbeeld, moet niet op Google zoeken maar op Twitter. Miljoenen tweets lezen kan hij echter niet. De computer kan dat wel, en die kan daarin nieuwswaardige gebeurtenissen zien aankomen en de emoties herkennen die gebeurtenissen oproepen.

Dat blijkt uit onderzoek van taaltechnoloog Florian Kunneman, die morgen promoveert aan de Radboud Universiteit Nijmegen. Kunneman zette zijn onderzoek breed op. Bewust, want als je weet naar welke gebeurtenis je zoekt, een Turkse demonstratie in Rotterdam bijvoorbeeld, dan is het niet zo moeilijk. Maar Kunneman liet de computer in vele miljoenen tweets zoeken naar allerhande gebeurtenissen, van 'spontane' demonstraties tot geplande voetbalwedstrijden. "Door de computer naar het twitterverkeer te laten kijken, zie je ook gebeurtenissen aankomen waaraan je niet direct denkt, zeg: een regionale bijeenkomst voor linkshandigen."

Kunneman liet de computer niet kijken naar de aantallen berichten over een onderwerp, want daarmee loop je achter de feiten aan. Het meest getwitterd wordt er immers tíjdens een gebeurtenis, terwijl het je om de aanloop gaat. De computer keek daarom naar verwijzingen in de tijd in tweets en naar bepaalde woorden. Zo was te zien dat als er veel wordt getweet over 'kaartjes', de wedstrijd over vier dagen zal worden gespeeld.

Volgende stap was te kijken welke emoties gebeurtenissen oproepen. Dat is voor een computer niet eenvoudig, emotieloos als hij is. Zelfs de mens heeft moeite met het ontdekken van een achterliggende emotie in berichtjes van 140 tekens. Maar Twitter biedt een bruikbaar handvat: de hashtag, het hekje plus categorie of trefwoord. De onderzoeker ging voor verscheidene hashtags na of die overeenkwamen met de emotionele inhoud van de tweet, en of de computer geheel zelfstandig in staat was diezelfde emotie te herkennen in andere tweets.

Dat blijkt te werken, voor sómmige hashtags. Een heel bruikbare hashtag is #zinin, die bijvoorbeeld voorkomt in berichten over een komend concert of festival.

Zijn tegenhanger, #geenzin, werkt juist níet. Je vindt hem vaak onderaan berichten waarin het over huiswerk gaat, zegt Kunneman, maar anders dan #zinin is hij niet direct te koppelen aan de tekst van de tweet zelf.

Dat heeft te maken met onze taal, die meer woorden heeft om positief vooruit te kijken dan negatief. Kunneman: "Je zegt: ik ga morgen lekker naar een concert. Maar je zegt niet: ik ga níet lekker huiswerk maken."

#zinin is een hashtag die overeenkomt met de emotionele inhoud van de tweet. #fml heeft dat ook: fuck my life. #geenzin is eerder een toevoeging aan de tweet en niet een samenvatting van het bericht zelf. En op #omg is helemaal geen peil te trekken; o my god wordt geplakt op allerlei emoties, positief én negatief. Een computer die wijs moet worden uit tweets kan er niets mee.

undefined

Anticipeleurstelling

Als de computer in tweets gebeurtenissen kan zien aankomen, én weet welke emoties die oproepen, dan moet hij 'anticipeleurstelling' op het spoor kunnen komen, was Kunnemans hoop. Het woord, anticipeleurstelling, stamt al uit de jaren zestig, maar wijdverbreid is het in het Nederlands nooit geworden. Het duidt hooggespannen verwachtingen aan en daarop volgende teleurstelling.

In tweets voor en na een gebeurtenis zou je dat kunnen zien, ware het niet dat mensen hun teleurstellingen zelden op Twitter zetten, zegt Kunneman.

Dat blijken ze alleen te doen bij zware tegenvallers, zoals een afgelast concert of een wedstrijd die hun favoriete club volkomen ten onrechte verliest. Er zijn voor teleurstelling ook weinig goede hashtags.

Bruikbare data trekken uit Twitter is niet zo maar een academische interesse. Netwerken als Facebook, Google en Twitter zelf, maar ook mediabedrijven en adverteerders doen het, om nog maar te zwijgen van justitie, politie en inlichtingendiensten.

Zolang mensen blijven twitteren, zijn tweets de rijkste stroom van gedachten over het wereldgebeuren van nu. Een stroom die zo groot is dat hij met mensenhanden nauwelijks te ontginnen is.

Een getrainde computer heeft nog altijd veel minder begrip van de betekenis van de taal in tweets dan een mens, benadrukt Kunneman, maar hij kan wel veel meer tweets verwerken. De belangstelling voor de ontwikkeling van deze taaltechnologie is daarom groot.

Kunneman zal na zijn promotie in Nijmegen verdergaan op dit pad, met onderzoek naar het ontwaren van emoties in twitterverkeer over vaccinaties. Dit in opdracht van het Rijksinstituut voor Volksgezondheid en Milieu.

undefined

Meer over

Wilt u iets delen met Trouw?

Tip hier onze journalisten

Op alle verhalen van Trouw rust uiteraard copyright.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar copyright@trouw.nl.
© 2021 DPG Media B.V. - alle rechten voorbehouden