Vi har förtydligat hur vi behandlar personuppgifter och cookies.
Du följer nu ämnet: STOCKHOLMS STAD (sparas i Mitt DN)
Vetenskap

Helt självlärd dator nästa steg mot en tänkande maskin

Other: Courtesy Everett Collection/IBL

En ny version av programmet Alphago, som besegrade Go-världsmästaren Lee Sedol förra året, har lärt sig spelet på egen hand, och på ett par dagar hittat tekniker som det tog människan tusentals år att upptäcka. Det är ytterligare ett steg mot datorer som kan tänka som människan.

Kan själv! säger tvååringen, och vägrar låta någon hjälpa henne att sätta på skorna. Hon kämpar och kämpar, och lyckas kanske till slut gå ut genom dörren med skorna på, förhoppningsvis också på rätt fot.

– Som människor har vi åtminstone två olika sätt att lära oss saker. Vi kan lära oss från experter som visar och talar om för oss hur vi ska göra. Och så kan vi lära oss genom att försöka själva, och ibland misslyckas och ibland lyckas. Det är det vi kallar trial and error, säger Satinder Singh, professor i data­vetenskap vid University of Michigan i USA.

Om vi ska skapa en tänkande maskin måste den också kunna lära sig av sina misstag, och själv upptäcka vilka strategier som ger ett bra resultat och vad som inte fungerar.

När programmet Alphago slog världsmästaren Lee Sedol med 4–1 i en tv-sänd match i det urgamla asiatiska spelet Go i mars förra året var det en milstolpe för utvecklingen av artificiell intelligens. Go kan vara det mest komplexa spel människan någonsin har skapat, och för att bemästra det måste datorn utveckla något som liknar mänsklig intuition.

Men nu har även den versionen av Alphago fått sin överman. Det nya programmet Alphago Zero vann med 100–0 över Alphago Lee, som utvecklarna på företaget Deepmind döpt den äldre varianten till, efter Lee Sedol. Alphago Zero behöver dessutom betydligt mindre datorresurser, och lärde sig spelet mycket snabbare.

Men den viktigaste skillnaden mellan programmen är att Alphago Zero har lärt sig Go helt på egen hand, utan hjälp eller inblandning från människor.

– Den avgörande idén är att Alphago Zero fick lära sig helt tabula rasa, som ett oskrivet blad, säger forskningsledaren David Silver i ett uttalande från Deepmind.

Tvååringen som kämpar med sina skor använder båda metoderna för inlärning. Hon har sett dig ta på dig dina skor, du har förmodligen hjälpt henne tidigare, och hon har lärt sig vad skor är till för och att man har dem på fötterna. Alphago Lee lärde sig också Go med båda metoderna. Programmet fick börja med att studera alla referat av Go-matcher som finns på nätet, fler än 100 000 stycken, och tränade på att förutsäga nästa drag, för att lära sig hur människor spelar. Dessutom lade utvecklarna in extra information, som vad en mänsklig Go-mästare skulle lägga mest vikt vid i en given spelsituation.

Sedan fick programmet träna själv, med trial and error, och spelade spelet 30 miljoner gånger mot sig själv för att bli bättre. Efter flera månader av träning blev Alphago det första program som någonsin har lyckats besegra en professionell Go-spelare, först Europamästaren Fan Hui, och sedan Lee Sedol.

Alphago Zero vet däremot ingenting om hur människan spelar Go. Programmet har bara fått spelets regler, och sedan testat vad som fungerar genom att spela mot sig själv. Det är som att ge ett par skor till ett barn som aldrig har sett några tidigare, utan förklaring, och låta henne lista ut själv hur de kan användas.

– När du lär dig något från en expert är det bästa du kan lyckas med att efterlikna, härma eller imitera. När du lär dig något genom trial and error blir det möjligt att hitta lösningar som ingen någonsin tänkt på tidigare. Alphago Zero har inte lärt sig att imitera människor, och kan därför upptäcka helt nya saker, säger Satinder Singh.

Det tog bara tre dagar för Alphago Zero att bli bättre än alla mänskliga spelare och samtliga tidigare versioner av programmet genom att spela nästan fem miljoner partier Go mot sig själv. Resultatet presenteras i veckans nummer av tidskriften Nature.

Spelet Go uppstod i Kina för mer än 3 000 år sedan, och spelas med svarta och vita stenar på ett bräde med 19 gånger 19 linjer. Målet är att omringa motståndarens stenar och hägna in en så stor del av spelbrädet som möjligt. Spelet har några få enkla regler, men variationerna är nästan oändliga. Antalet möjliga kombinationer av stenar på brädet är en etta med 170 nollor efter, eller fler än alla atomer i hela universum.

Det finns fler än 2 000 professionella Go-spelare. Japan, Kina och Sydkorea har speciella skolor där barn lär sig spela Go i stället för att gå i vanlig skola.

Läs mer: Världen tar stormsteg mot tänkande maskiner

Datorn Deep Blue, som besegrade Garry Kasparov i schack 1997, går inte alls att jämföra med Alphago Lee och Alphago Zero. I schack finns det i genomsnitt 20 olika drag en spelare kan göra varje omgång. I Go finns det ungefär 200 möjligheter, alltså 10 gånger fler, vid varje drag. Det är därför omöjligt att bygga en dator som räknar ut alla möjliga drag som kan utföras. Go handlar mer om intuition än uträkningar, och om mönsterigenkänning och de undermedvetna processer som vår mänskliga hjärna är så bra på att hantera.

Deep Blue kan inte användas till något annat än att spela just schack. Målet för Deepmind är att skapa en dator som kan användas till nästan vad som helst.

– Vi är alla oerhört glada över hur långt Alphago Zero har kommit. Att vi har sett att ett program kan nå en så hög nivå i något så komplicerat som Go betyder att vi nu kan börja ta itu med mänsklighetens största utmaningar, säger David Silver i Deepminds uttalande.

Nu kan vi äntligen få svar på ifall vi verkligen har lärt oss något, eller om det vi håller på med bara är som grymtningar från grottmänniskor.

Alphago Zero har på egen hand upptäckt speltekniker som det tog människan många tusen år att komma fram till, och har övergett vissa av dem för egna, bättre varianter.

– Vi Go-spelare studerar fortfarande partier från 1600-talet för att förstå hur spelet bör spelas. Nu kan vi äntligen få svar på ifall vi verkligen har lärt oss något, eller om det vi håller på med bara är som grymtningar från grottmänniskor, säger Andrew Jackson, vice vd i American Go association.

En öppen fråga är hur de första dragen ska göras.

– Det måste finnas ett korrekt svar. Och Alphago Zero använder en del av våra mönster. Det betyder att vi inte har varit helt fel ute, säger Andrew Jackson.

För honom är Go som att föra ett samtal med någon.

– Det handlar om vad du tycker är värdefullt. I schack är det uppenbart att kungen är den mest värdefulla pjäsen. Men i Go är det mycket svårare att se. Du för ett samtal om vad du värderar mest: en liten säker vinst nu eller en större, mer osäker, längre fram. Att lära sig Go är som att lära sig ett språk, säger han.

Schackmästaren och Go-spelaren Edward Lasker sa en gång att ”reglerna för Go är så eleganta, organiska och strängt logiska, så att om det finns intelligent liv någon annanstans i universum är det nästan säkert att de spelar Go”.

– Jag älskar det citatet. Spelet är så enkelt och samtidigt komplext. Det är faktiskt troligt att andra intelligenta varelser också har uppfunnit Go, säger Andrew Jackson.

Läs mer: Linus Larsson: Jag frågade Googles AI om folkmord och den sa okej då, men svär inte

Så här jobbar DN med kvalitetsjournalistik: uppgifter som publiceras ska vara sanna och relevanta. Rykten räcker inte. Vi strävar efter förstahandskällor och att vara på plats där det händer. Trovärdighet och opartiskhet är centrala värden för vår nyhetsjournalistik. Läs mer här.
Kommentera artikeln
I samarbete med tjänsten Ifrågasätt erbjuder DN möjligheten att kommentera vissa artiklar. Håll dig till ämnet och håll en god ton. Visa respekt för andra skribenter och berörda personer i artikeln. Vi tar bort inlägg som vi bedömer är olämpliga.