AlphaGo 10 år: Brettspilet som endret AI-historien

Nøkkelinnsikt
- AlphaGo kombinerte intuitiv gjenkjenning med systematisk fremtidsplanlegging, to tankeformer som utfyller hverandre.
- Trekk 37 hadde én av 10 000 sjanse for å bli spilt av et menneske, og representerte kunnskap utenfor alt menneskelig Go-lærdom.
- AlphaZero lærte seg Go fra bunnen uten menneskelige data, gjenoppdaget kjent åpningsteori og forkastet den igjen til fordel for bedre strategier.
- Store språkmodeller var en snarvei via internettdata, men for å gå forbi menneskelig kunnskap vender feltet nå tilbake til forsterkende læring.
- AlphaGo var overgangspunktet som beviste at superhuman AI ikke er science fiction, men noe som skjer nå.
Dette er et AI-generert sammendrag. Kildevideoen inneholder demonstrasjoner, visuelt innhold og kontekst som ikke dekkes her. Se videoen → · Slik lages artiklene →
Kort fortalt
Ti år etter at AlphaGo slo den 18-ganger Go-verdensmesteren Lee Sedol 4-1 i Seoul, ser Google DeepMind tilbake på hva kampen egentlig betydde. I en ny podkastepisode argumenterer Thore Graepel og Pushmeet Kohli for at AlphaGo ikke bare vant et brettspill, men beviste noe langt viktigere: at AI kan overskride grensene for menneskelig kunnskap i avgrensede domener. Den innsikten, hevder de, la grunnlaget for alt fra prediksjon av proteinstrukturer til algoritmisk oppdagelse.
Den sentrale påstanden
Graepel og Kohli argumenterer for at mars 2016 var et avgjørende øyeblikk, ikke bare for AI-forskning, men for menneskehetens selvforståelse av intelligens. Det avgjørende var ikke at AlphaGo vant, men at det vant på en måte ingen hadde forutsett: ved å oppdage trekk som lå utenfor alt menneskelig Go-lærdom. Ifølge Kohli var AlphaGo «overgangspunktet» som viste at AI-systemer kunne overgå mennesker i spesifikke domener, og at dette ikke var fjern science fiction, men noe som allerede skjedde (51:51).
Hvorfor Go var det perfekte valget
Graepel forklarer at sjakk hadde blitt «løst» da Deep Blue slo Garry Kasparov, men at Go representerte en helt annen utfordring. Der sjakk har rundt 20-30 mulige trekk per posisjon, har Go 200-300 (7:26). Det totale antallet mulige stillinger er 10^170, langt mer enn antallet atomer i det synlige universet (2:24). Ingen forventet at et program ville mestre spillet på flere tiår.
AlphaGo løste problemet ved å kombinere to tankeformer som psykologen Daniel Kahneman kaller «system 1» og «system 2»: rask, intuitiv gjenkjenning og langsom, systematisk planlegging (6:45). Det nevrale nettverket fungerte som intuisjonen. Et nevralt nettverk er programvare inspirert av hjernens oppbygging, med lag av noder som lærer mønstre fra data. Spilltresøket, utforskning av mulige fremtidige trekk som grener på et tre, fungerte som beregningen.
Trekk 37 og det som lå utenfor menneskelig kunnskap
I det andre partiet mot Lee Sedol skjedde det som siden har blitt stående som det ikoniske øyeblikket. AlphaGo spilte et trekk profesjonelle kommentatorer nesten enstemmig avviste som feil. Trekket hadde 1 av 10 000 sannsynlighet for å bli spilt av et menneske (17:18). Graepel beskriver scenen: kommentatoren Michael Redmond plasserte steinen på demonstrasjonsbretet og trakk den tilbake igjen. Han trodde det var en tastefeil. Så sjekket han skjermen, og satte steinen tilbake. Det var faktisk hva AlphaGo hadde spilt.
Det som var revolusjonerende, var ikke at trekket var overraskende, men at det viste seg å ha rett. Trekket representerte en ny måte å veie umiddelbar territoriekontroll mot innflytelse mot senteret av brettet, en avveining menneskelige spillere hadde sett annerledes på i årtusener (19:02).
Lee Sedol svarte med sitt eget usannsynlige trekk i fjerde parti. Trekk 78, kalt «det guddommelige trekket», forvirret AlphaGo til det tapte det eneste partiet det tapte under hele kampen (21:55). For Graepel var dette like imponerende som AlphaGos egne prestasjoner: en enkelt menneskelig spillers evne til å finne den unike svakheten i et nesten perfekt system.
Fra spill til vitenskap
Graepel forteller at da kameraene pakket ned i Seoul etter kampen, fanget mikrofonene en privat samtale mellom Demis Hassabis og David Silver. Hassabis sa: «Vi kan løse proteinfolding. Det er enormt» (31:02). Proteinfolding er problemet med å forutsi den tredimensjonale formen et protein bretter seg inn i, noe som bestemmer hvordan det fungerer biologisk og som hadde vært et åpent problem i biokjemi i femti år.
Ideen bak AlphaFold var direkte inspirert av AlphaGo: behandle forutsigelse av proteinstrukturer som et søkeproblem i et enormt kombinatorisk rom, på samme måte som AlphaGo hadde navigert Gos spilltrestruktur.
Kohli beskriver den samme logikken bak AlphaTensor, som behandlet matrisemultiplikasjon som et spill (36:01). Matrisemultiplikasjon er en grunnleggende matematisk operasjon, det vil si å multiplisere to tabeller av tall, som underligger nær sagt all AI-beregning. Siden Volker Strassens algoritme fra 1969 hadde ingen funnet en raskere metode. AlphaTensor fant en. Kohli fremhever at selv marginale forbedringer i en operasjon som kjøres milliarder ganger i sekundet over hele verden utgjør kolossale reelle gevinster.
Graepel trekker en linje videre til AlphaEvolve, som søker i rommet av alle mulige programmer etter optimale algoritmer (37:40), og AlphaProof, som løser åpne matematiske problemer og produserer verifiserbare bevis (46:15).
Snarvegen via menneskelige data, og veien tilbake
Graepel beskriver fremveksten av store språkmodeller (LLM, Large Language Model, det vil si AI trent på store mengder tekst for å forstå og generere menneskespråk) som en uventet snarvei. DeepMind var bygget på ideen om at intelligens vokser frem ved å la agenter lære gjennom erfaring i miljøer, som en forsterkende læring (AI lærer ved prøving og feiling, der gode valg belønnes). LLM-revolusjonen viste at det fantes en snarere vei: utnytte den enorme mengden «krystallisert intelligens» i internettdata, som Graepel kaller det (50:01).
Men denne snarvegen har et tak. En modell trent på menneskelig data kan ikke uten videre produsere kunnskap som menneskene ennå ikke har. Kohli beskriver hvordan feltet nå sirkulerer tilbake til forsterkende læring for å komme seg forbi dette taket (51:10). Ettertrening med forsterkende læring i verifiserbare miljøer, som kode og matematikk, er nå standard.
Motstridende perspektiver
Er «overskridelse av menneskelig kunnskap» mer begrenset enn det høres ut?
Et legitimt motargument er at påstandene om AI som «overgår menneskelig kunnskap» bør forstås innenfor snevre, veldefinerte domener. AlphaGo gikk forbi menneskelig Go-lærdom, ikke menneskelig kunnskap generelt. Det samme gjelder AlphaTensor, som forbedret én matematisk operasjon. Hvert gjennombrudd krevde et presist formulert mål og klare kriterier for hva som teller som suksess. Det er mulig i et brettspill, men langt vanskeligere i fri vitenskapelig utforskning.
Verifiseringsproblemet
Graepel selv trekker frem dette: AI utmerker seg i verifiserbare domener, der kode enten kompilerer eller ikke, og et matematisk bevis enten holder eller ikke (43:18). I åpne vitenskapelige problemer, der verifisering til slutt krever fysiske eksperimenter, er situasjonen mer kompleks. Han bruker Karl Poppers prinsipp om konjektur og gjendrivelse (foreslå en hypotese, forsøk å avkrefte den) som ramme: hallusinasjon er bare en hypotese som ennå ikke er testet. Verdien av systemet avhenger av et godt filter for å skille de to.
AlphaGos «seier» mot en menneskelig spillers liv
En annen spenning i samtalen er emosjonell snarere enn teknisk. Graepel beskriver Lee Sedol som sammenlignbar med Roger Federer i sin idrett, og en mann som hadde viet livet til Go. For ham, og for mange i Go-miljøet, markerte kampen ikke bare en ny epoke i AI, men slutten på en annen: en der det sterkeste spelets beste spiller nødvendigvis var et menneske. Graepel forteller at Go-interessen faktisk økte etter kampen, og at spillerne omfavnet AlphaGo som et læringsverktøy (25:16). Men den melankolien er til stede under overflaten i samtalen.
Hvordan tolke disse påstandene
Podkasten er produsert av Google DeepMind, og Graepel og Kohli er begge sentrale aktører i de historiene de forteller. Det er grunn til å lese fremstillingen som delvis institusjonell: DeepMind ønsker å trekke en klar linje fra AlphaGo til AlphaFold til AlphaProof, og presentere en sammenhengende fortelling om vitenskapelig fremgang. Det betyr ikke at påstandene er usanne, men at rammen er bevisst valgt.
Hva tallene faktisk viser
De konkrete tallene i episoden, 10^170 mulige stillinger, 10-0 mot Fan Hui, Strassens 50-årige rekord, er verifiserbare og referansesjekket. Påstanden om Trekk 37 med 1 av 10 000 sannsynlighet er AlphaGos eget policy-nettverk som rapporterer, ikke en uavhengig beregning, noe som er et interessant epistemisk poeng i seg selv.
Veien fra AlphaGo til AGI er ikke rett
Graepel og Kohli er forsiktige med å overselge. De understreker at gjennombruddene skjer i domener med klare regler og verifiserbare utfall. Spørsmålet om hva som skal til for å overføre disse metodene til virkelig åpen vitenskapelig oppdagelse, der problemformuleringen selv er uklar, forblir ubesvart i podkasten.
Forklarbarhet som åpent problem
Kohli er ærlig om at algoritmene AlphaTensor og AlphaEvolve finner, ikke alltid er forståelige for menneskelige eksperter (39:55). Resultater som ikke kan kommuniseres og bygges videre på av andre forskere, har begrenset vitenskapelig verdi, selv om de er korrekte. Dette er et uløst problem.
Praktiske implikasjoner
For de som følger AI-utviklingen
Denne podkasten er nyttig for å forstå hvorfor forsterkende læring er tilbake i søkelyset etter LLM-bølgen. Trenden med å inkludere forsterkende læring i ettertrening av store modeller, det modellene gjør etter den første treningsfasen for å bli bedre på spesifikke oppgaver, er direkte arvtaker av teknikkene fra AlphaGo.
For de som stiller spørsmål ved AI-hype
Graepels skille mellom verifikasjonsvennlige domener og åpne problemer er et nyttig analytisk verktøy. Neste gang noen hevder at AI har «løst» et vitenskapelig problem, er det verdt å spørre: hva er verifisatoren? Hvem sjekker svaret, og på hvilke kriterier?
Ordliste
| Begrep | Forklaring |
|---|---|
| Forsterkende læring | AI lærer ved prøving og feiling. Systemet prøver ulike handlinger og får belønning for gode utfall, som å vinne et parti, og straff for dårlige. Over millioner av partier lærer det hva som fungerer. |
| Nevralt nettverk | Programvare inspirert av hjernens oppbygging, med lag av tilkoblede noder som lærer mønstre fra data. Grunnbyggesteinen i moderne AI. |
| Policy-nettverk | Den delen av AlphaGo som ser på en brettstilling og rangerer hvilke trekk som virker mest lovende. Fungerer som intuisjon: rask gjenkjenning uten å tenke gjennom alle muligheter. |
| Verdi-nettverk | Den delen som vurderer hvor gunstig en brettstilling er for hver av spillerne. Svarer på spørsmålet: hvem ligger an til å vinne? |
| Spilltresøk | Systematisk utforskning av mulige fremtidige trekk, som grener på et tre. Komplementerer intuitiv gjenkjenning med eksplisitt fremtidsplanlegging. |
| Matrisemultiplikasjon | En grunnleggende matematisk operasjon som multipliserer to tabeller av tall. Underligger nær sagt alle AI-beregninger, og er en av de mest kjørte operasjonene i moderne datasentre. |
| Stor språkmodell (LLM) | AI trent på massive mengder tekst for å forstå og generere menneskespråk. ChatGPT, Claude og Gemini er eksempler. |
| Hallusinasjon | Når en AI genererer svar som høres plausible ut, men er feil eller oppfunnet. Viktig utfordring for LLM-er. |
| Verifiserbart domene | Et problemområde der det finnes klare, objektive kriterier for om et svar er riktig. Kode (kompilerer/feiler), matematikk (beviset holder/holder ikke) og brettspill er verifiserbare. Åpen vitenskapelig utforskning er det ofte ikke. |
| Proteinfolding | Prosessen der en proteinkjede bretter seg til en bestemt tredimensjonal form. Formen bestemmer proteinets funksjon i kroppen. Problemet med å forutsi denne formen var uløst i femti år før AlphaFold. |
| Elo-rating | Et poengsystem for å måle relative ferdighetsnivåer, opprinnelig fra sjakk. Høyere ELO betyr sterkere spiller. Brukes i mange konkurransespill for å sammenligne spillere. |
| Konjektur og gjendrivelse | Filosofen Karl Poppers beskrivelse av vitenskapelig metode: foreslå en hypotese, forsøk å avkrefte den. Graepel bruker dette som modell for å skille AI-hallusinasjoner fra virkelig nye innsikter. |
Kilder og ressurser
Vil du vite mer? Se hele videoen på YouTube →