Sju forskere slo Claude Opus uten finjustering

Nøkkelinnsikt

Poetiq fikk 55 % på Humanity's Last Exam og slo Claude Opus 4.6 (53,1 %), bygget oppå eksisterende modeller uten noen form for finjustering
På ARC-AGI v2 oppnådde Poetiq 54 % til $32 per oppgave mot Gemini 3 Deep Thinks 45 % til ~$70, altså bedre resultater til halve prisen
Hele optimaliseringen for Humanity's Last Exam kostet under $100 000, mot hundrevis av millioner for å trene grunnmodeller

KildeYouTube

Publisert 27. februar 2026

Y Combinator — Lightcone

Vertskap:Lightcone-panelet (Y Combinator)

Gjest:Ian Fischer (CEO) — Poetiq

Dette er et AI-generert sammendrag. Kildevideoen kan inneholde demonstrasjoner, visuelt innhold og ytterligere kontekst.

Se videoen · Slik genereres artiklene

Kort fortalt

Poetiq er en oppstartsbedrift med sju ansatte, grunnlagt av tidligere Google DeepMind-forskere. I stedet for å bruke millioner på å finjustere en modell som blir utdatert med neste versjon, bygger de et «resonneringssystem» oppå eksisterende grunnmodeller som automatisk gjør dem bedre. I denne episoden av Y Combinators (YC) Lightcone-podkast forklarer Poetiq-sjef Ian Fischer hvordan deres rekursive selvforbedringssystem tok førsteplassen på ARC-AGI v2 og slo Claude Opus 4.6 på Humanity's Last Exam, alt for under 100 000 dollar i optimaliseringskostnader.

Finjusteringsfellen

Episoden åpner med et problem mange AI-oppstartsbedrifter kjenner. Fischer beskriver den tradisjonelle tilnærmingen: samle titusenvis av eksempler, finjustere (fine-tuning, trene modellen videre på spesialiserte data) en grunnmodell (foundation model, de mest avanserte AI-modellene som finnes) og bruke store mengder datakraft på prosessen. Resultatet fungerer bedre enn grunnmodellen, men innen du er ferdig, har en ny modell kommet ut som overgår din finjusterte versjon (2:07).

En av Lightcone-vertene sier det rett ut: du bruker millioner til hundrevis av millioner dollar på finjustering og setter så pengene i brann når neste grunnmodell slippes (2:17).

Fischer hevder denne dynamikken er spesielt farlig for oppstartsbedrifter. Store laboratorier som Anthropic, OpenAI og Google kan tåle kostnaden ved å trene om modeller fordi det er kjernevirksomheten deres. En oppstartsbedrift som satser alt på en finjustert modell risikerer konkurs når neste generasjon kommer (4:01).

«Stylter» for språkmodeller — hva Poetiq faktisk bygger

I stedet for å endre selve modellen, bygger Poetiq det Fischer kaller et resonneringssystem (eng. «reasoning harness»), en kombinasjon av kode, instruksjoner og data som legges oppå én eller flere språkmodeller (8:43). Nøkkelforskjellen fra manuell instruksjonsskriving (prompt engineering, kunsten å skrive bedre instruksjoner til AI): Poetiqs «metasystem» genererer og optimaliserer disse systemene automatisk gjennom rekursiv selvforbedring (recursive self-improvement), en prosess der systemet bruker sine egne resultater til å gjøre seg selv bedre.

Fischer forklarer verdiforslaget: når en ny grunnmodell slippes, er resonneringssystemet umiddelbart kompatibelt med den. Ingen omtrening nødvendig. Det samme systemet som forbedret Gemini 3 Pro fungerer også med neste utgave, og Poetiq kan fortsette å optimalisere for hvilken modell kunden måtte ønske (4:35).

Vertene bruker ordet «stylter» gjentatte ganger gjennom episoden: ideen om at uansett hvilken modell som slippes, kan Poetiq gjøre deg høyere enn modellen rett ut av boksen (6:06).

ARC-AGI v2: Slo Gemini til halve prisen

Poetiq kom ut av en hemmeligholdsfase (stealth, hemmelig utviklingsmodus) i desember 2025 ved å ta førsteplassen på ARC-AGI v2-testen (benchmark, en standardisert test som måler AI-ytelse). ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence) er en test som måler om AI kan tenke abstrakt og løse nye problemer. På det tidspunktet hadde Gemini 3 Deep Think nettopp tatt ledelsen med 45 %. To dager senere publiserte Poetiq resultater som viste 54 %, en forbedring på 9 prosentpoeng (5:19).

Kostnadssammenligningen er slående. Poetiq brukte Gemini 3 Pro (en mye billigere modell enn Deep Think) som grunnlag, og oppnådde resultatene til omtrent 32 dollar per oppgave mot rundt 70 dollar for Gemini 3 Deep Think (6:14). Bedre resultater til halve prisen, på en billigere underliggende modell.

Humanity's Last Exam: Slo Claude Opus

Det ferskeste resultatet er fra Humanity's Last Exam (HLE), en test utviklet av Scale AI og Center for AI Safety i samarbeid med over 500 fageksperter fra universiteter verden over. Testen inneholder 2 500 spørsmål på tvers av fag som matematikk, fysikk, biologi, juss og filosofi, alle designet for å være vanskelige selv for doktorgradsforskere innenfor sine egne fagfelt (6:44). Målet er å finne ut om AI-systemer nærmer seg ekspertnivå på menneskelig kunnskap. Ingen AI har bestått testen ennå.

Poetiq fikk 55 %, nesten to prosentpoeng over forrige rekord: Claude Opus 4.6 med 53,1 %, publisert bare en uke tidligere (7:04).

Optimaliseringskostnaden? Fischer sier under 100 000 dollar (7:36). Vertene påpeker kontrasten: hver treningsrunde for en grunnmodell koster hundrevis av millioner dollar, mens Poetiq oppnådde en ny rekord med sju personer og en brøkdel av budsjettet.

Hvordan metasystemet fungerer

Fischer er forsiktig med å avsløre spesifikke detaljer om Poetiqs tilnærming. Det han deler: «Poetiq-metasystemet» er et rekursivt selvforbedrende system som produserer resonneringssystemer for vanskelige problemer (9:13).

Metasystemet gjør det et menneskelig team normalt ville gjort: det undersøker dataene, identifiserer svakheter og oppdager resonneringsstrategier, men gjør det automatisk og til en brøkdel av kostnaden (9:37).

Fischer beskriver også et bruksområde nummer to: oppstartsbedrifter som allerede har sin egen AI-agent (et program som kan ta beslutninger og utføre handlinger på egen hånd) kan ta den med til Poetiq for optimalisering. Metasystemet kan optimalisere spesifikke deler (bare instruksjonene, bare resonneringsstrategiene, eller hele systemet) avhengig av kundens behov (10:12).

En av vertene rammer dette inn som en ny S-kurve (et vekstmønster som starter sakte, akselererer og flater ut) utover forsterkende læring (reinforcement learning, en treningsmetode der AI-en lærer gjennom prøving og belønning). Fischer er enig, og legger til at etter hvert som både metasystemet og de underliggende modellene blir bedre, fortsetter ytelsestaket å flytte seg oppover (11:05).

Fra 5 % til 95 % — hva resonneringsstrategier kan gjøre

Fischer deler et konkret eksempel fra en artikkel publisert mens han fortsatt jobbet i DeepMind. Teamet arbeidet med et svært vanskelig problem ved hjelp av Gemini 1.5 Flash. Etter grundig manuell optimalisering av instruksjoner nådde de 5 % ytelse. Da de la til resonneringsstrategier, altså kodebaserte tilnærminger i stedet for bare bedre instruksjoner, hoppet ytelsen til 95 % (14:09).

Dette illustrerer et poeng Fischer gjør om automatiserte instruksjonsoptimaliserings-verktøy som DSPy (et rammeverk som automatisk finjusterer instruksjoner til språkmodeller): de kan forbedre resultatene, men de er langt fra alt man kan oppnå når man tenker på resonneringsstrategier skrevet i kode i stedet for bare bedre instruksjoner (14:33).

En bemerkelsesverdig detalj: metasystemet genererte noen eksempler for ARC-AGI som Fischer sier tydelig ikke er noe et menneske ville ha skrevet, inkludert ett eksempel som faktisk var feil. Teamet valgte å ikke rette det, og behandlet systemets resultat som produktet i stedet for noe som skulle justeres manuelt (12:21).

Ian Fischer: Fra YC-gründer til DeepMind til Poetiq

Fischers vei til Poetiq er uvanlig. For over ti år siden grunnla han Portable, en YC-støttet oppstartsbedrift som porterte mobilapper mellom plattformer. Google kjøpte selskapet, og i stedet for å fortsette med mobilverktøy brukte Fischer overgangen til å dreie fullstendig over i AI- og robotikkforskning (16:45).

Han innrømmer at robotikk var mer en drøm enn praktisk gjennomførbart. Maskinvare er vanskelig. I stedet kastet han seg inn i maskinlæringsforskning og tilbrakte omtrent ti år i Google Research og deretter DeepMind (18:07).

Hans råd til ingeniører som vil inn i AI: prøv noe nytt hver dag, press deg selv til å finne grensene for hva AI kan gjøre, og ikke vær redd for å bygge ting utenfor komfortsonen. Fischer selv bygde en iPhone-app på en helg med hjelp fra GPT-5, noe han ikke hadde gjort på ti år (18:38).

Slik bør du tolke dette

Poetiqs resultater er imponerende, men flere ting er verdt å vurdere før man trekker brede konklusjoner.

Tester er ikke produkter. Å score 55 % på Humanity's Last Exam viser kapasitet, men det forteller oss ikke hvor godt systemet fungerer på virkelige oppgaver som kundeservice, kodegenerering eller fagspesifikk resonnering. Testresultater har historisk sett vært en dårlig indikator på nytte i praksis.

At episoden er markedsføring betyr noe. Dette er en Y Combinator Lightcone-episode med et YC-selskap. Vertene er entusiastiske og støttende. Dette er nærmere en pitch enn en uavhengig evaluering. Ingen eksterne forskere eller skeptikere er til stede for å utfordre påstandene.

Poetiq har ikke lansert noe ennå. Selskapet er i tidlig tilgangsmodus. Teknologien er demonstrert på tester, men har ikke blitt prøvd i produksjonsmiljøer (virkelig bruk hos kunder i stor skala). Fischer sier oppstartsbedrifter kan registrere seg på poetiq.ai, men ingenting er offentlig tilgjengelig på opptakstidspunktet (14:57).

Kostnadssammenligningene trenger kontekst. De «under 100 000 dollar i optimaliseringskostnader» sammenlignes med «hundrevis av millioner for trening.» Dette er en gyldig sammenligning for treningssteget, men inkluderer ikke kostnaden ved å kjøre systemet i stor skala. Hvert resonneringssystem gjør flere kall til språkmodellen per oppgave, og driftskostnaden (inference cost, kostnaden for å kjøre AI-en) i produksjon kan være betydelig.

Rekursiv selvforbedring er en dristig påstand. Fischer posisjonerer Poetiqs system som genuint rekursivt selvforbedrende. Dette er et ladet begrep i AI, historisk knyttet til teoretiske AGI-scenarioer (Artificial General Intelligence, AI som kan matche mennesker i alle intellektuelle oppgaver). Det Poetiq beskriver ser ut til å være automatisert optimalisering av resonneringssystemer, noe som er imponerende, men en smalere påstand enn hva «rekursiv selvforbedring» kan antyde.

Ordliste

Begrep	Forklaring
Finjustering (fine-tuning)	Å ta en forhåndstrent AI-modell og trene den videre på et spesialisert datasett. Dyrt og blir utdatert når en bedre grunnmodell slippes — det Fischer kaller «finjusteringsfellen.»
Resonneringssystem (reasoning harness)	Et system av kode, instruksjoner og data som pakker rundt en eksisterende språkmodell for å forbedre ytelsen på spesifikke oppgaver. Poetiq genererer disse automatisk i stedet for å bygge dem for hånd.
Rekursiv selvforbedring	Et system som kan gjøre seg selv bedre til å gjøre seg selv bedre. I Poetiqs tilfelle optimaliserer metasystemet resonneringssystemer, og metasystemet selv kan også forbedres over tid.
ARC-AGI	Abstraction and Reasoning Corpus for Artificial General Intelligence — en test som måler evnen til abstrakt resonnering. Versjon 2 (v2) er den nyeste utgaven. Poetiq har toppscoren med 54 %.
Humanity's Last Exam	En test med 2 500 ekspertnivå-spørsmål designet for å utfordre selv doktorgradsforskere. Laget som et vanskeligere alternativ til eksisterende tester. Ingen AI har bestått den ennå.
S-kurve	Et mønster der en teknologi forbedres sakte i starten, deretter raskt, og så flater ut. Fischer hevder at Poetiq representerer en ny S-kurve utover det forsterkende læring alene kan oppnå.
DSPy	Et populært rammeverk for automatisert optimalisering av instruksjoner til språkmodeller. Fischer anerkjenner at det gir forbedringer, men hevder at resonneringsstrategier i kode gir langt mer.
The bitter lesson	Et konsept fra AI-forskeren Rich Sutton om at tilnærminger som utnytter mer datakraft alltid vinner i det lange løp. Vertene antyder at Poetiq «vaksinerer» oppstartsbedrifter mot dette ved å gjøre dem modelluavhengige.