Slik lar Karpathy AI forske på egen hånd

Kort fortalt

Andrej Karpathy, tidligere AI-sjef hos Tesla og medgrunnlegger av OpenAI, lot en AI-agent kjøre eksperimenter på koden hans mens han sov. Agenten kjørte 700 forsøk over to dager, fant rundt 20 forbedringer og gjorde treningskoden 11 prosent raskere. Prosjektet heter autoresearch, er åpen kildekode (kode alle kan se, bruke og endre), og har fått over 41 600 stjerner på GitHub. Tobias Lütke, sjefen for Shopify, prøvde det samme og fikk 19 prosent bedring over natten. Karpathy har også skissert en idé han kaller AgentHub, en plattform der AI-agenter kan samarbeide om forskning uten menneskelig inngripen.

Les også:

Hva er autoresearch?

Tenk deg en kokk som prøver 700 oppskriftsvarianter over natten og våkner opp til den beste versjonen. Det er kjernen i autoresearch: gi en AI-agent tilgang til kode, et mål den kan måle og en tidsfrist. La den eksperimentere i en løkke.

Autoresearch er ikke en ferdig app du installerer. Det er et mønster, en fremgangsmåte, du kopierer og tilpasser til ditt eget prosjekt eller utfordring. Tre kjernefiler i prosjektet viser hvordan det fungerer med én bestemt AI-modell, men selve ideen kan brukes på hva som helst med et målbart resultat. Her er noen eksempler:

Nettside-ytelse — Gjør denne nettsiden raskere. Agenten prøver kodeendringer, måler lastetid, beholder det som hjelper.

AI-prompter — Få denne AI-prompten til å gi bedre svar. Agenten tester formuleringer, måler treffsikkerhet, beholder de beste.

Energiforbruk — Reduser strømforbruket i dette systemet. Agenten justerer innstillinger, måler forbruk, beholder det som sparer energi.

Medisinsk forskning — Finn den beste kombinasjonen av medisinmengder i en klinisk studie.

Logistikk — Optimaliser ruteplanleggingen for en hel lastebilflåte.

Som Karpathy sier: «Det er bare en oppskrift du gir til agenten din.»

Autoresearch er ikke maskinlæring. Karpathy brukte mønsteret til å optimalisere treningskode for en AI-modell, men selve metoden er enklere: endre noe, mål resultatet, behold det som fungerer. Det er systematisk prøving-og-feiling, ikke en modell som lærer fra data. Nettsideeksempelet over trenger ingen maskinlæring i det hele tatt. Agenten prøver kodeendringer, måler lastetid, og beholder det som er raskere.

Ordet «research» her betyr vitenskapelig eksperimentering, ikke nettsøk. Autoresearch har ingenting å gjøre med «Deep Research»-funksjonen i verktøy som Perplexity eller ChatGPT, som søker på nettet for deg.

Slik fungerer det

Hele prosjektet består av tre kjernefiler. Du finner det fritt tilgjengelig på GitHub.

prepare.py laster ned treningsdataene og setter opp poengsystemet. Tenk på det som eksamensoppgaven. Den definerer testen alle eksperimenter må bestå, og den endrer seg aldri. Agenten får ikke røre denne filen.

train.py er koden agenten faktisk endrer. Den inneholder en komplett AI-modell med alt som trengs for å trene den. Tenk på det som en oppskrift der agenten kan justere ingredienser og fremgangsmåte, men ikke kjøkkenutstyret.

program.md er agentens «stillingsannonse», skrevet i vanlig tekst. Den forklarer hva agenten skal gjøre, hvordan den skal jobbe, og inneholder én viktig regel: «ALDRI STOPP.» Som Karpathy skriver: «Mennesket sover kanskje.»

Eksperimentløkken

Slik jobber agenten, steg for steg:

Les instruksjonene

Agenten leser program.md for å forstå oppgaven.

Gjør en endring

Juster noe i treningskoden, for eksempel læringsraten, eller prøv en ny arkitektur.

Kjør treningen

Eksperimentet kjører i nøyaktig fem minutter.

Sjekk resultatet

Sammenlign med forrige beste resultat.

Behold eller forkast

Bedre? Behold endringen og lagre den. Dårligere? Forkast og gå tilbake.

Gjenta

Start fra steg 2 igjen. Aldri stopp.

Agenten kjører omtrent tolv eksperimenter i timen, eller rundt 100 over natten. Den stopper aldri frivillig.

Resultater som taler for seg

Punktdiagram som viser autoresearch-eksperimenter over tid — grå prikker er forkastede, grønne prikker er beholdte forbedringer, med en trappetrinns-linje for den beste scoren så langt

Karpathys egne resultater

Over to dager kjørte agenten rundt 700 eksperimenter og fant omtrent 20 endringer som faktisk forbedret modellen. Samlet ga forbedringene 11 prosent raskere trening, målt som tiden det tar å nå kvaliteten til GPT-2, en eldre AI-modell fra OpenAI. Tiden gikk fra 2,02 timer ned til 1,80 timer.

Det som overrasket Karpathy: koden var allerede grundig optimalisert. Likevel fant agenten konkrete feil og forbedringsmuligheter, blant annet i skalering, regularisering og oppmerksomhetsmekanismen (attention). Regularisering hindrer modellen i å bli for tilpasset treningsdataene, mens attention hjelper den å fokusere på de viktigste delene av teksten. Agenten fant dem fordi den systematisk testet alt, ikke fordi den forstår koden bedre enn Karpathy.

Shopify-sjefen prøvde det selv

Tobias Lütke, daglig leder i Shopify, brukte autoresearch på intern data og lot det kjøre over natten. Etter bare 37 eksperimenter var modellen 19 prosent bedre. En mindre modell med 800 millioner parametre (justerbare verdier som modellen lærer under trening) slo hans forrige modell som var dobbelt så stor.

AgentHub: GitHub bygget for AI-agenter

Autoresearch viser hva én AI-agent kan gjøre alene. Men Karpathys visjon er større: «Målet er ikke å etterligne én doktorgradsstudent, men et helt forskningsmiljø av dem.»

AgentHub er hans skisse til en samarbeidsplattform der AI-agenter jobber parallelt med forskning. Karpathy beskriver det som «GitHub for agenter». GitHub er verktøyet programmerere bruker til å holde styr på kodeendringer og samarbeide om prosjekter.

I X-postene sine beskrev Karpathy hvordan Git er «nesten, men ikke helt egnet» for agent-samarbeid. Git forutsetter én hovedgren som mennesker fletter kode inn i. Agenter kan i stedet jobbe i et forgreinet tre av parallelle eksperimenter, og dele resultater gjennom noe som ligner en oppslagstavle i stedet for pull requests.

Karpathy sammenligner visjonen med SETI@home, prosjektet der vanlige PC-er over hele verden sammen analyserte radiosignaler fra verdensrommet. Ideen er den samme: mange agenter som jobber uavhengig på hver sin del av et problem, og deler resultatene.

Karpathy kaller prosjektet selv «en skisse» og «en idé under utvikling».

Vanlige misforståelser

«Autoresearch er en app som gjør AI-forskning for deg»

Nei. Autoresearch er en oppskrift, et mønster du kan følge. Du trenger en kraftig GPU (grafikkort, en databrikke som gjør mange beregninger samtidig), en AI-modell som hjerne, og et målbart problem. Det fungerer ikke uten tungt utstyr. Karpathy testet det på en H100, et grafikkort som koster flere hundre tusen kroner.

«Det fungerer bare for maskinlæring»

Karpathy sier selv at oppskriften kan brukes på hva som helst med en målbar kvalitetsscore. Fellesskapet har allerede tilpasset mønsteret til andre oppgaver, blant annet optimalisering av AI-prompter (instruksjonene du gir til en AI-modell). Det er ikke begrenset til trening av AI-modeller.

«Agenten er smartere enn Karpathy»

Agenten fant feil fordi den systematisk testet alt, ikke fordi den forstår koden bedre. Den prøvde rett og slett flere ting enn et menneske rekker. Karpathy er blant verdens fremste AI-forskere. Det agenten slo ham på var utholdenhet, ikke innsikt.

Hva betyr dette i praksis

For vanlige folk

Autoresearch er foreløpig for folk med tilgang til dyre grafikkort og teknisk kompetanse. Men mønsteret peker mot en fremtid der AI-systemer forbedrer seg selv mens vi sover. Karpathy spår at alle de ledende AI-laboratoriene vil gjøre dette. Han kaller det «den siste bossen» i AI-utviklingen.

Han advarer også om en ny type sårbarhet. Da en påloggingsfeil tok ned skyinfrastrukturen han brukte, mistet han alle pågående eksperimenter. Han kalte det et «strømbrudd for intelligens» og skrev: «Planeten mister IQ-poeng når banebrytende AI begynner å stoppe opp.»

For forskere og utviklere

Drøyt 30 000 av de 41 600 stjernene på GitHub kom i løpet av én uke. Fellesskapet har allerede laget versjoner for macOS, Windows og AMD-grafikkort. Distribuerte varianter, der flere maskiner samarbeider, er under utvikling. Autoresearch er på vei fra én agent på én maskin til en sverm av agenter på tvers av internett.

For AI-laboratorier

I README-filen til autoresearch skriver Karpathy: «En dag ble banebrytende AI-forskning gjort av kjøttdatamaskiner. Den tiden er forbi.» Med «kjøttdatamaskiner» mener han mennesker. Humoren er mørk, men poenget er tydelig: AI som forsker på AI er ikke lenger spekulasjon, det skjer akkurat nå.

Ordliste

Begrep	Forklaring
Valideringstap (validation loss)	Et tall som måler hvor godt en modell forutsier data den ikke har sett før. Lavere er bedre. Tenk på det som en karakter der 0 er perfekt score.
Bits per byte	Hvor mange bits modellen trenger for å representere én byte tekst. Et mål på kompresjonskvalitet: lavere betyr at modellen forstår teksten bedre.
Hyperparametre	Innstillinger du velger før trening starter, for eksempel læringsrate og antall lag. Som å velge ovnstemperatur og steketid før kaken går i ovnen.
GPU (grafikkort)	En databrikke som opprinnelig ble laget for grafikk, men som nå også brukes til AI-trening fordi den kan gjøre mange beregninger samtidig.
Git	Et versjonshistorikksystem som sporer alle endringer i kode. Som «spor endringer» i Word, men for programmerere.
Åpen kildekode (open source)	Programvare der koden er offentlig tilgjengelig for alle. Som en oppskrift du fritt kan dele, bruke og endre.
Parametre	Justerbare verdier inne i en AI-modell som den lærer under trening. Jo flere parametre, desto mer kan modellen fange opp.
Regularisering	En teknikk som hindrer en modell i å bli for tilpasset treningsdataene. Som å trene til en eksamen med varierte oppgaver i stedet for å pugge fasiten.