Karpathy: Fra vibe-koding til agentic engineering

Dette er et AI-generert sammendrag. Kildevideoen kan inneholde demonstrasjoner, visuelt innhold og ytterligere kontekst.
Kort fortalt
For ett år siden fant Andrej Karpathy, tidligere AI-sjef i Tesla og medgrunnlegger av OpenAI, på uttrykket «vibe-koding». På Sequoia Capitals AI Ascent-konferanse i 2026 forklarer han hvorfor det ikke lenger er nok.
Vibe-koding gjør det lettere for alle å lage programvare. Men profesjonell programvare må fortsatt holde høy kvalitet. Den må være sikker, stabil og forståelig. Her mener Karpathy at en ny disiplin er i ferd med å vokse fram: agentic engineering, altså systematisk ingeniørarbeid med AI-agenter.
Les også:
Vendepunktet i desember
Karpathy åpner med en overraskende innrømmelse: Han har aldri følt seg mer bakpå som programmerer. Det høres dramatisk ut, men han mener det ikke negativt. Det er en erkjennelse av at noe faktisk har endret seg.
I desember 2025 hadde han ferie og mer tid til å eksperimentere. Han brukte verktøy som Claude Code, og de nyeste modellene begynte å levere hele kodebiter som bare fungerte. Etter hvert sluttet han nesten å rette dem. Han stolte mer og mer på systemet, og plutselig satt han og vibe-kodet hele tiden.
Sideprosjekt-mappen hans er nå full av små eksperimenter, sier han.
Poenget er ikke at Karpathy har blitt treg. Poenget er at selv en av dem som har vært med på å bygge moderne AI, måtte endre måten han jobber på i løpet av noen få uker.
Programvare 3.0: når prompten blir programmet
Karpathy forklarer skiftet med sin egen modell for Programvare 3.0:
- Programvare 1.0: Du skriver kode. Logikken er eksplisitt, linje for linje.
- Programvare 2.0: Du «programmerer» ved å samle datasett og trene nevrale nett. Vektene i modellen erstatter mye av koden.
- Programvare 3.0: Du skriver tekst. Prompten blir programmet, og en stor språkmodell tolker det du ber om.
Kontekstvinduet er alt modellen ser når den svarer. Det fungerer som en arbeidsbenk: alt du legger der, kan modellen bruke. Det du ikke legger der, finnes ikke for den.
Et godt eksempel er installasjonen av OpenClaw, AI-kodeverktøyet til Peter Steinberger. Tradisjonelt ville et slikt verktøy hatt et langt bash-skript som prøver å dekke ulike operativsystemer, maskiner og særtilfeller. Slike skript blir ofte lange, skjøre og vanskelige å forstå.
OpenClaw-installasjonen er i stedet en tekstblokk du limer inn i AI-agenten din. Agenten leser instruksjonene, undersøker maskinen din, feilsøker underveis og får det til å fungere.
Du gir ikke lenger bare kommandoer. Du beskriver hva du vil oppnå.
Når appen ikke trenger å finnes
Karpathy bygde et eksperiment han kaller MenuGen. Ideen var enkel: ta bilde av en restaurantmeny og få bilder av rettene tilbake. Han vibe-kodet en webapp, kjørte den på Vercel, brukte OCR (tekstgjenkjenning fra bilder) til å lese menyen og en bildegenerator til å lage bilder av rettene.
Så så han Programvare 3.0-versjonen: ta bildet, gi det til Gemini og be den bruke Nano Banana til å legge illustrasjonene rett oppå menybildet. Resultatet er samme menybilde, men med små bilder av rettene lagt inn.
Da gikk det opp for ham at hele MenuGen-appen egentlig var overflødig. Den var bygget etter den gamle måten å tenke på. I den nye måten er bildet prompten, bildet er svaret, og modellen gjør arbeidet i mellom.
Det handler altså ikke bare om at apper blir raskere å lage. Noen apper trenger kanskje ikke å finnes i det hele tatt.
Hvorfor AI-en er ujevn
De fleste har opplevd det: en modell løser en avansert oppgave, men bommer på noe helt banalt. Karpathy bruker et eksempel: hvordan kan en toppmodell refaktorere en kodebase på 100 000 linjer eller finne alvorlige sikkerhetshull, men samtidig foreslå at du bør gå til en bilvask 50 meter unna når poenget er å vaske bilen?
Han kaller dette ujevn intelligens, eller jagged intelligence.
Forklaringen ligger delvis i hvordan modellene trenes. Forsterkende læring er en metode der modellen lærer ved å prøve og feile og får belønning for gode svar. Det fungerer best når svaret kan verifiseres. Matematikk, kode og logikk er relativt enkle å sjekke. Hverdagsfornuft, smak, empati og humor er mye vanskeligere.
Derfor blir modellene svært gode på områder der svaret kan kontrolleres, men mer uforutsigbare på områder der kvaliteten er vanskeligere å måle.
Karpathy peker også på at AI-laboratoriene bestemmer hva modellene trenes på. Et eksempel er sjakk: da GPT-3.5 ble til GPT-4 forbedret sjakkferdighetene seg dramatisk fordi noen i OpenAI bestemte seg for å legge inn store mengder sjakkpartier i treningsdataene. Du jobber derfor alltid med en modell som har en usynlig historikk og noen skjulte prioriteringer.
Hvis problemet ditt ligger innenfor det modellen er godt trent på, går det raskt. Hvis ikke, må du kanskje finjustere modellen eller bygge egne treningsopplegg.
Vibe-koding senker terskelen. Agentic engineering holder kvaliteten oppe.
Stephanie Zhan spør hva forskjellen er mellom vibe-koding og agentic engineering.
Karpathy svarer at vibe-koding handler om å senke terskelen. Flere kan lage programvare, også uten dyp teknisk bakgrunn. Det er stort.
Men profesjonell programvare må fortsatt holde kvalitet. Du kan ikke introdusere sikkerhetshull bare fordi du brukte AI. Du er fortsatt ansvarlig for at systemet virker, er trygt og gjør det det skal.
Agentic engineering handler om å bruke AI-agenter på en strukturert måte uten å miste kontrollen. Karpathy beskriver agentene som kraftige, men uforutsigbare hjelpere. De kan gjøre mye, men må styres.
Han mener potensialet er langt større enn den gamle ideen om «10x-utvikleren», altså en utvikler som er ti ganger mer produktiv enn gjennomsnittet. De beste som virkelig behersker agentic engineering, kan komme langt forbi det.
Dette får også konsekvenser for ansettelser. Små kodeoppgaver og puslespill holder ikke lenger. I stedet bør kandidater få store prosjekter, bruke AI-verktøy og vise at de kan bygge noe som er både funksjonelt, sikkert og robust. Karpathy foreslår selv at man kan sette ti Codex-agenter til å prøve å knekke løsningen etterpå.
Spøkelser, ikke dyr
Karpathy har også skrevet om hvorfor LLM-er ikke bør forstås som dyr, men som spøkelser. Det høres mystisk ut, men poenget er praktisk.
Et dyr har motivasjon, nysgjerrighet, kropp og instinkter. En språkmodell har ikke noe av dette. Den er et statistisk system, trent på enorme mengder tekst og justert med forsterkende læring.
Hvis du roper til en LLM, jobber den ikke bedre. Den bryr seg ikke. Den kan ikke bry seg.
Dette er ikke bare filosofi. Det handler om å bruke riktig mental modell. Hvis du behandler en AI-agent som en kollega du kan motivere, blir du fort skuffet. Hvis du behandler den som et kraftig, statistisk system som må styres med tydelige instrukser, gode rammer og kritisk kontroll, kommer du lenger.
Det du ikke kan delegere
Til slutt spør Zhan hva som fortsatt er verdt å lære når intelligens blir billigere.
Karpathy viser til en formulering han har tenkt mye på: Du kan delegere tenkingen din, men ikke forståelsen din.
Du kan la agentene skrive kode, lage planer og gjøre research. Men du må fortsatt vite hva du prøver å bygge, hvorfor det er verdt å bygge, og hvordan arbeidet skal styres.
Mennesket blir fortsatt flaskehalsen, ikke fordi vi skriver tregere, men fordi vi er de som må forstå hva som betyr noe.
Derfor er Karpathy opptatt av LLM-baserte kunnskapsbaser. Han bruker dem til å lage wikier av artikler og dokumenter, stille spørsmål og se stoffet fra flere vinkler. Målet er ikke å erstatte forståelse, men å forsterke den.
Ordliste
| Begrep | Forklaring |
|---|---|
| Vibe-koding | Å lage programvare ved å beskrive hva du vil til en AI og la den skrive koden. |
| Agentic engineering | Systematisk ingeniørarbeid der AI-agenter brukes til å bygge raskere, samtidig som mennesker beholder ansvar for kvalitet, sikkerhet og design. |
| Programvare 3.0 | En måte å programmere på der du styrer en AI-modell med tekst, bilder eller annen kontekst, i stedet for bare å skrive kode direkte. |
| LLM, stor språkmodell | En AI-modell trent på enorme mengder tekst, som svarer ved å beregne hva som sannsynligvis bør komme videre. |
| Kontekstvindu | Alt modellen ser når den svarer. Det kan være prompten, filer, tidligere meldinger, bilder eller annen informasjon du gir den. |
| Forsterkende læring | En treningsmetode der modellen lærer gjennom belønning for gode svar eller handlinger. |
| Verifiserbarhet | Hvor lett det er å sjekke om et svar er riktig. AI gjør det ofte best på områder der svaret kan kontrolleres tydelig. |
| Ujevn intelligens | At AI kan være svært god på vanskelige oppgaver, men samtidig bomme på enkle ting. |
| Finjustering | Å tilpasse en ferdig AI-modell med egne data for å gjøre den bedre på et bestemt område. |
Kilder og ressurser
Vil du vite mer? Se hele videoen på YouTube →