Nieuws Wetenschap

Deze computer leerde bluffen en verslaat nu de beste pokeraars ter wereld

Een professionele pokerwedstrijd in Las Vegas. Beeld AP

Een Amerikaanse computer leerde zichzelf pokeren. Zo goed, dat zelfs de beste pokeraars kansloos tegen hem zijn.

Eén voordeel had hij al. Een pokerface hoefde de computer zich niet aan te meten. Maar dat een machine de beste pokerspelers ter wereld in de pan zou hakken, is toch zeer opmerkelijk. Bij het pokeren komt immers meer kijken dan alleen slimmigheid en kansberekening. Een pokeraar moet ook kunnen bluffen en misleiden. Ook in die typisch menselijke eigenschappen is een machine nu dus beter.

Al in 2017 claimden wetenschappers dat hun computer beter kon pokeren dan de mens. Dat was een mijlpaal. Dáárvoor immers had de computer gewonnen met spellen als dammen, schaken en go. Gecompliceerd door het grote aantal mogelijke zetten, maar nog altijd overzichtelijk. Alle informatie ligt letterlijk op tafel. Bij poker daarentegen weet je niet wat de ander in handen heeft. Dat maakt het voor een computer moeilijk om zijn kansen te berekenen.

Onberekenbare opponenten

Twee jaren geleden had hij dat dus onder de knie, maar dan wel met één tegenstander tegenover zich. Aan een echte pokertafel zitten doorgaans meer mensen en moet een speler zijn strategie op al die onberekenbare opponenten afstemmen. Dan worden de rekenhulpen uit de kanstheorie, waar de pokercomputer gebruik van maakte, al snel veel te ingewikkeld.

Computerwetenschappers van de universiteit van Pittsburgh en van Facebook pakten het daarom anders aan. Zij lieten hun computer, die ze Pluribus noemden, eerst vele pokerspelletjes met zichzelf spelen. Zo leerde hij het spel doorgronden, en wat zijn kansen waren bij de kaarten die hij te zien kreeg. Nu wist Pluribus wanneer hij goede kans had om te winnen en wanneer niet. Maar zo win je nog niet met poker. Immers, als iemand alleen met goede kaarten geld inzet en met slechte past, weten de anderen snel waar ze aan toe zijn.

Afwijkende strategie

Dus leerden ze Pluribus om zo nu en dan af te wijken van de voor de hand liggende strategie, en er rekening mee te houden dat zijn tegenstanders dat ook doen. Weer lieten ze hem talloze spelletjes met zichzelf spelen zodat hij de balans kon vinden tussen verstandig spelen en onvoorspelbaar blijven.

Toen was hij klaar voor de grote test. Pluribus speelde 10.000 spellen tegen vijf professionele pokeraars. En twee absolute toppers speelden eenzelfde sessie tegen vijf kopieën van Pluribus. In alle gevallen won de computer glansrijk, schrijven de wetenschappers donderdag in het vakblad Science.

Ze zijn vooral verrast door de strategieën die Pluribus heeft bedacht. Neem bijvoorbeeld de donk bet: je gaat eerst alleen mee, maar in de volgende biedronde verhoog je de inzet. Dat doen pokeraars zelden; je sticht er verwarring mee, maar het strategische nut ervan zien ze niet in. Pluribus wel, hij deed het heel vaak. Kennelijk is de donk bet zo dom nog niet.

Maar de kern van het succes van Pluribus is dat hij gemengde strategieën weet te gebruiken, zeggen de onderzoekers. Mensen proberen dat ook, maar het is de kunst om dit volledig willekeurig te doen en daar consistent in te zijn. “Dat kunnen mensen niet.”

Lees ook:
Hoe de computer de wereldkampioen go versloeg

AlphaZero leerde zich het moeilijkste bordspel ter wereld zelf. En verpletterde vervolgens iedereen

Meer over

Wilt u iets delen met Trouw?

Tip hier onze journalisten

Op alle verhalen van Trouw rust uiteraard copyright. Linken kan altijd, eventueel met de intro van het stuk erboven.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar copyright@trouw.nl.
© 2019 de Persgroep Nederland B.V. - alle rechten voorbehouden