Slik lar Karpathy AI forske på egen hånd

Kort fortalt
Andrej Karpathy, tidligere AI-sjef hos Tesla og medgrunnlegger av OpenAI, lot en AI-agent kjøre eksperimenter på koden hans mens han sov. Agenten kjørte 700 forsøk over to dager, fant rundt 20 forbedringer og gjorde treningskoden 11 prosent raskere. Prosjektet heter autoresearch, er åpen kildekode (kode alle kan se, bruke og endre), og har fått over 41 600 stjerner på GitHub. Tobias Lütke, sjefen for Shopify, prøvde det samme og fikk 19 prosent bedring over natten. Karpathy har også skissert en idé han kaller AgentHub, en plattform der AI-agenter kan samarbeide om forskning uten menneskelig inngripen.
Les også:
Hva er autoresearch?
Tenk deg en kokk som prøver 700 oppskriftsvarianter over natten og våkner opp til den beste versjonen. Det er kjernen i autoresearch: gi en AI-agent tilgang til kode, et mål den kan måle og en tidsfrist. La den eksperimentere i en løkke.
Autoresearch er ikke en ferdig app du installerer. Det er et mønster, en fremgangsmåte, du kopierer og tilpasser til ditt eget prosjekt eller utfordring. Tre kjernefiler i prosjektet viser hvordan det fungerer med én bestemt AI-modell, men selve ideen kan brukes på hva som helst med et målbart resultat. Her er noen eksempler:
Som Karpathy sier: «Det er bare en oppskrift du gir til agenten din.»
Autoresearch er ikke maskinlæring. Karpathy brukte mønsteret til å optimalisere treningskode for en AI-modell, men selve metoden er enklere: endre noe, mål resultatet, behold det som fungerer. Det er systematisk prøving-og-feiling, ikke en modell som lærer fra data. Nettsideeksempelet over trenger ingen maskinlæring i det hele tatt. Agenten prøver kodeendringer, måler lastetid, og beholder det som er raskere.
Ordet «research» her betyr vitenskapelig eksperimentering, ikke nettsøk. Autoresearch har ingenting å gjøre med «Deep Research»-funksjonen i verktøy som Perplexity eller ChatGPT, som søker på nettet for deg.
Slik fungerer det
Hele prosjektet består av tre kjernefiler. Du finner det fritt tilgjengelig på GitHub.
prepare.py laster ned treningsdataene og setter opp poengsystemet. Tenk på det som eksamensoppgaven. Den definerer testen alle eksperimenter må bestå, og den endrer seg aldri. Agenten får ikke røre denne filen.
train.py er koden agenten faktisk endrer. Den inneholder en komplett AI-modell med alt som trengs for å trene den. Tenk på det som en oppskrift der agenten kan justere ingredienser og fremgangsmåte, men ikke kjøkkenutstyret.
program.md er agentens «stillingsannonse», skrevet i vanlig tekst. Den forklarer hva agenten skal gjøre, hvordan den skal jobbe, og inneholder én viktig regel: «ALDRI STOPP.» Som Karpathy skriver: «Mennesket sover kanskje.»
Eksperimentløkken
Slik jobber agenten, steg for steg:
Les instruksjonene
Gjør en endring
Kjør treningen
Sjekk resultatet
Behold eller forkast
Gjenta
Agenten kjører omtrent tolv eksperimenter i timen, eller rundt 100 over natten. Den stopper aldri frivillig.
Resultater som taler for seg
Karpathys egne resultater
Over to dager kjørte agenten rundt 700 eksperimenter og fant omtrent 20 endringer som faktisk forbedret modellen. Samlet ga forbedringene 11 prosent raskere trening, målt som tiden det tar å nå kvaliteten til GPT-2, en eldre AI-modell fra OpenAI. Tiden gikk fra 2,02 timer ned til 1,80 timer.
Det som overrasket Karpathy: koden var allerede grundig optimalisert. Likevel fant agenten konkrete feil og forbedringsmuligheter, blant annet i skalering, regularisering og oppmerksomhetsmekanismen (attention). Regularisering hindrer modellen i å bli for tilpasset treningsdataene, mens attention hjelper den å fokusere på de viktigste delene av teksten. Agenten fant dem fordi den systematisk testet alt, ikke fordi den forstår koden bedre enn Karpathy.
Shopify-sjefen prøvde det selv
Tobias Lütke, daglig leder i Shopify, brukte autoresearch på intern data og lot det kjøre over natten. Etter bare 37 eksperimenter var modellen 19 prosent bedre. En mindre modell med 800 millioner parametre (justerbare verdier som modellen lærer under trening) slo hans forrige modell som var dobbelt så stor.
AgentHub: GitHub bygget for AI-agenter
Autoresearch viser hva én AI-agent kan gjøre alene. Men Karpathys visjon er større: «Målet er ikke å etterligne én doktorgradsstudent, men et helt forskningsmiljø av dem.»
AgentHub er hans skisse til en samarbeidsplattform der AI-agenter jobber parallelt med forskning. Karpathy beskriver det som «GitHub for agenter». GitHub er verktøyet programmerere bruker til å holde styr på kodeendringer og samarbeide om prosjekter.
I X-postene sine beskrev Karpathy hvordan Git er «nesten, men ikke helt egnet» for agent-samarbeid. Git forutsetter én hovedgren som mennesker fletter kode inn i. Agenter kan i stedet jobbe i et forgreinet tre av parallelle eksperimenter, og dele resultater gjennom noe som ligner en oppslagstavle i stedet for pull requests.
Karpathy sammenligner visjonen med SETI@home, prosjektet der vanlige PC-er over hele verden sammen analyserte radiosignaler fra verdensrommet. Ideen er den samme: mange agenter som jobber uavhengig på hver sin del av et problem, og deler resultatene.
Karpathy kaller prosjektet selv «en skisse» og «en idé under utvikling».
Vanlige misforståelser
«Autoresearch er en app som gjør AI-forskning for deg»
Nei. Autoresearch er en oppskrift, et mønster du kan følge. Du trenger en kraftig GPU (grafikkort, en databrikke som gjør mange beregninger samtidig), en AI-modell som hjerne, og et målbart problem. Det fungerer ikke uten tungt utstyr. Karpathy testet det på en H100, et grafikkort som koster flere hundre tusen kroner.
«Det fungerer bare for maskinlæring»
Karpathy sier selv at oppskriften kan brukes på hva som helst med en målbar kvalitetsscore. Fellesskapet har allerede tilpasset mønsteret til andre oppgaver, blant annet optimalisering av AI-prompter (instruksjonene du gir til en AI-modell). Det er ikke begrenset til trening av AI-modeller.
«Agenten er smartere enn Karpathy»
Agenten fant feil fordi den systematisk testet alt, ikke fordi den forstår koden bedre. Den prøvde rett og slett flere ting enn et menneske rekker. Karpathy er blant verdens fremste AI-forskere. Det agenten slo ham på var utholdenhet, ikke innsikt.
Hva betyr dette i praksis
For vanlige folk
Autoresearch er foreløpig for folk med tilgang til dyre grafikkort og teknisk kompetanse. Men mønsteret peker mot en fremtid der AI-systemer forbedrer seg selv mens vi sover. Karpathy spår at alle de ledende AI-laboratoriene vil gjøre dette. Han kaller det «den siste bossen» i AI-utviklingen.
Han advarer også om en ny type sårbarhet. Da en påloggingsfeil tok ned skyinfrastrukturen han brukte, mistet han alle pågående eksperimenter. Han kalte det et «strømbrudd for intelligens» og skrev: «Planeten mister IQ-poeng når banebrytende AI begynner å stoppe opp.»
For forskere og utviklere
Drøyt 30 000 av de 41 600 stjernene på GitHub kom i løpet av én uke. Fellesskapet har allerede laget versjoner for macOS, Windows og AMD-grafikkort. Distribuerte varianter, der flere maskiner samarbeider, er under utvikling. Autoresearch er på vei fra én agent på én maskin til en sverm av agenter på tvers av internett.
For AI-laboratorier
I README-filen til autoresearch skriver Karpathy: «En dag ble banebrytende AI-forskning gjort av kjøttdatamaskiner. Den tiden er forbi.» Med «kjøttdatamaskiner» mener han mennesker. Humoren er mørk, men poenget er tydelig: AI som forsker på AI er ikke lenger spekulasjon, det skjer akkurat nå.
Ordliste
| Begrep | Forklaring |
|---|---|
| Valideringstap (validation loss) | Et tall som måler hvor godt en modell forutsier data den ikke har sett før. Lavere er bedre. Tenk på det som en karakter der 0 er perfekt score. |
| Bits per byte | Hvor mange bits modellen trenger for å representere én byte tekst. Et mål på kompresjonskvalitet: lavere betyr at modellen forstår teksten bedre. |
| Hyperparametre | Innstillinger du velger før trening starter, for eksempel læringsrate og antall lag. Som å velge ovnstemperatur og steketid før kaken går i ovnen. |
| GPU (grafikkort) | En databrikke som opprinnelig ble laget for grafikk, men som nå også brukes til AI-trening fordi den kan gjøre mange beregninger samtidig. |
| Git | Et versjonshistorikksystem som sporer alle endringer i kode. Som «spor endringer» i Word, men for programmerere. |
| Åpen kildekode (open source) | Programvare der koden er offentlig tilgjengelig for alle. Som en oppskrift du fritt kan dele, bruke og endre. |
| Parametre | Justerbare verdier inne i en AI-modell som den lærer under trening. Jo flere parametre, desto mer kan modellen fange opp. |
| Regularisering | En teknikk som hindrer en modell i å bli for tilpasset treningsdataene. Som å trene til en eksamen med varierte oppgaver i stedet for å pugge fasiten. |