Anthropic gir kontroll over hvor lenge Claude tenker

Dette er et AI-generert sammendrag. Kildevideoen kan inneholde demonstrasjoner, visuelt innhold og ytterligere kontekst.
Kort fortalt
Matt Bleifer fra Anthropic ba Claude lage den samme trafikksimuleringen tre ganger: først raskt, så grundigere, og til slutt med maksimal innsats. Da modellen fikk bruke ti ganger mer tid og ti ganger flere tokens, ble resultatet klart bedre: mer realistiske kjøremønstre, flere biltyper og et trafikklys som faktisk stod ved siden av veien.
Det var utgangspunktet for foredraget hans på Anthropics utviklerkonferanse Code with Claude. Temaet var hvordan utviklere kan styre hvor hardt Claude skal jobbe med en oppgave. Anthropic kaller dette en «thinking lever», altså en tenkehendel: en skala fra «low» til «max» som balanserer tid, kostnad og kvalitet.
Les også:
Trafikksimuleringen som forklarer poenget
Bleifer er produktsjef i Anthropics forskningsteam. For å vise hva dette betyr i praksis, brukte han et enkelt eksempel: samme oppgave, samme modell, men ulik mengde arbeidstid. Oppgaven var å lage en realistisk simulering av biler som kjører ned en enveiskjørt gate og stopper ved et trafikklys.
På «low effort» brukte Opus 4.7 rundt 50 sekunder og 4 600 tokens. Bilene kjørte, og de stoppet på rødt. Trafikklyset stod riktignok midt i veien, men simuleringen fungerte.
Da han skrudde opp til «high», brukte modellen omtrent dobbelt så lang tid og dobbelt så mange tokens. Resultatet fikk flere biltyper, og trafikklyset ble flyttet ut til siden av veien.
På «max effort» brukte modellen ti ganger så lang tid og ti ganger så mange tokens som på laveste nivå. Den laget også det Bleifer kalte en «intelligent driver model», der hver bil reagerte mer individuelt på bilene rundt seg. Resultatet ble betydelig bedre, men kostet også betydelig mer.
Poenget er enkelt: Når Claude får bruke mer tid og flere tokens på et problem, blir resultatet ofte bedre. Spørsmålet er hvor mye bedre resultatet må bli for at det skal være verdt prisen.
Tre typer tokens Claude bruker
For å forstå hva som skjer når Claude «tenker», må vi skille mellom tre typer tokens.
Tenketokens er modellens interne arbeidsrom. Her kan Claude resonnere steg for steg, vurdere alternativer og arbeide seg gjennom problemet før den svarer.
Verktøy-tokens brukes når Claude gjør noe utenfor selve samtalen, for eksempel søker i kode, leser filer eller kaller et API. Det er slik modellen samhandler med omgivelsene sine.
Tekst-tokens er svaret du ser. Det kan være statusoppdateringer underveis, en oppsummering til slutt eller et direkte svar på spørsmålet ditt.
Alle tre koster noe, både i penger og ventetid. Derfor trenger utviklere en måte å styre hvor mye Claude skal bruke.
Innsatsnivåer og budsjetter
Anthropic gir utviklere to hovedvalg. Det første er innsatsnivået, med fem trinn: low, medium, high, extra high og max. Du forteller Claude hvor grundig den skal jobbe, og modellen fordeler selv tokens mellom tenking, verktøybruk og tekst.
Det andre er budsjetter. Et budsjett setter en øvre grense. Du kan for eksempel be Claude bruke maksimalt 100 000 tokens før den stopper og sjekker med deg. Budsjettet kan også handle om tid eller kostnad.
Bleifer mener slike budsjetter blir viktigere etter hvert som AI-modeller jobber lenger med samme problem. I dag handler det ofte om sekunder eller minutter. På sikt mener han at Claude kan jobbe i dager, uker, måneder eller til og med år på vanskelige oppgaver.
Adaptiv tenking: Claude velger selv
Tidlige resonneringsmodeller fulgte et fast mønster: først tenke, så bruke verktøy, deretter svare. Anthropic forbedret dette med flettet tenking, der Claude kan tenke mellom hver gang den bruker et verktøy.
Nå tar Anthropic dette videre med adaptiv tenking. Da kan Claude selv avgjøre når og hvor mye den skal tenke. Den kan starte med å svare brukeren, hente informasjon med et verktøy, tenke over resultatet, bruke flere verktøy, gi en oppdatering og fortsette slik til oppgaven er løst. For enkle spørsmål kan den også la være å bruke ekstra tenking.
Bleifer beskriver adaptiv tenking som Anthropics innstilling for å få mest mulig intelligens ut av modellen, samtidig som brukeropplevelsen blir bedre enn med mer rigide mønstre.
Slik velger du riktig nivå
Bleifer ga flere praktiske råd.
Max passer for de vanskeligste oppgavene, men gir ikke alltid nok ekstra kvalitet til å forsvare prisen. Test det på de mest krevende bruksområdene, men ikke anta at det alltid er best.
Extra high ble introdusert med Opus 4.7 og er standardvalget i Claude Code og claude.ai for denne modellen. Bleifer anbefaler dette for de fleste kode- og agentoppgaver.
High er et godt utgangspunkt når kvalitet er viktig, men du fortsatt vil passe på tokenbruk og kostnad.
Medium passer når kostnad betyr mye, og du kan akseptere litt lavere kvalitet for å få svaret raskere.
Low passer for korte oppgaver eller situasjoner der lav ventetid er viktig. Men lav innsats betyr ikke nødvendigvis dum strategi.
Da Anthropic lot Claude spille Pokémon Red på lav innsats, behandlet modellen spillet nesten som et speedrun. Den hoppet over trenerkamper for å spare tid, brukte helsegjenstander i stedet for å gå tilbake til Pokémon-sentre, og brukte «repel» for å unngå tilfeldige møter i huler.
Bleifers poeng var at lav innsats ikke alltid betyr lav intelligens. Noen ganger betyr det at modellen finner smarte snarveier for å nå målet raskere.
Hans enkle råd for kodeoppgaver er derfor: Bruk extra high dersom du ikke har egne tester som sier noe annet.
Liten modell eller stor modell på lav innsats?
Utviklere må også velge modell. Skal de bruke en stor modell på lav innsats, eller en mindre modell på høy innsats?
Bleifers tommelfingerregel er at lav innsats på en stor modell fungerer godt når oppgaven krever intelligens, men du fortsatt trenger fart. I trafikkeksempelet brukte Opus 4.7 på lav innsats omtrent like mange tokens som Haiku 4.5 på maks innsats, men leverte et bedre resultat.
Små modeller passer best til enklere oppgaver som skal kjøres mange ganger, for eksempel klassifisering, informasjonsuthenting og enkle oppsummeringer. De er også gode når det er viktig at svaret begynner å komme raskt.
Bleifer oppsummerte det slik: Bruk små modeller når du trenger rask tid til første token. Bruk større modeller på lavere innsats når du vil ha rask tid til siste token.
Hva dette betyr i praksis
Anthropic beveger seg mot et system der du setter kvalitetskrav og budsjett, mens Claude selv finner ut hvordan regnekraften bør brukes.
For utviklere betyr dette at valget ikke lenger bare står mellom en stor, treg modell og en liten, rask modell. Nå får de en ekstra kontroll innenfor samme modell: hvor hardt modellen skal jobbe.
Bleifers viktigste råd er å lage egne tester. Mål kvalitet, tid og kostnad mot hverandre. Finn kurven som passer ditt bruksområde. Og les gjennom resultatene for å forstå hvordan Claude faktisk jobber på hvert innsatsnivå.
Ordliste
| Begrep | Forklaring |
|---|---|
| Test-time compute | Regnekraften modellen bruker når den svarer, ikke når den trenes. |
| Tenketokens | Tokens modellen bruker i sitt interne arbeidsrom for å resonnere før svaret kommer. |
| Verktøy-tokens | Tokens brukt når Claude kaller eksterne verktøy, som søk, filer eller API-er. |
| Innsatsnivå | Skala fra low til max som styrer hvor mye tid og tokens Claude bruker. |
| Adaptiv tenking | Claude bestemmer selv når og hvor mye den skal tenke. |
| Oppgavebudsjett | Øvre grense for hvor mange tokens, hvor mye tid eller hvor mye penger Claude kan bruke på en oppgave. |
| Resonneringsmodell | Språkmodell som kan arbeide seg gjennom problemer steg for steg. |
| Tankerekke | Modellens trinnvise resonnement. |
| Tid til første token | Hvor raskt modellen begynner å produsere svaret. |
| Flettet tenking | Claude kan tenke mellom hver gang den bruker et verktøy, ikke bare før eller etter. |
Kilder og ressurser
Vil du vite mer? Se hele videoen på YouTube →