AgentOps: Tre lag AI-agentene dine trenger

Nøkkelinnsikt

AgentOps fyller hullet mellom demo og produksjon. De fleste agentprosjekter dør ikke fordi agenten ikke virker, men fordi ingen bygde infrastrukturen for å bevise at den virker.
De tre lagene må brukes i rekkefølge: du kan ikke optimalisere det du ikke kan evaluere, og du kan ikke evaluere det du ikke kan observere.
Healthcare-tallene viser at agenter slår mennesker på kvalitet, ikke bare hastighet: 78% godkjent på første forsøk mot 52% manuelt.

Publisert 30. mars 2026

IBM Technology

Vertskap:Bri Kopecki

Dette er et AI-generert sammendrag. Kildevideoen kan inneholde demonstrasjoner, visuelt innhold og ytterligere kontekst.

Se videoen · Slik genereres artiklene

Kort fortalt

Bri Kopecki fra IBM forklarer AgentOps (Agent Operations) — rammeverket for å drifte AI-agenter i produksjon (altså ute hos ekte brukere) på en ansvarlig måte. De fleste team som kjører agenter i dag opererer i blinde: de vet ikke hva agentene gjør, hvorfor de gjør det, eller om det gikk bra. AgentOps løser dette med tre lag som bygger på hverandre: innsyn (se hva som skjer), evaluering (vurder om det var bra) og optimalisering (gjør det bedre). Et helseeksempel med forhåndsgodkjenning av medisiner viser hva dette betyr i praksis: en prosess som tok 3-5 dager manuelt, fullføres nå på under 4 timer.

Les også:

Fra programvare til agenter

DevOps (et sett med metoder for å levere og vedlikeholde programvare) ga oss verktøyene for å lansere programvare pålitelig. MLOps (et tilsvarende rammeverk for maskinlæringsmodeller) tok det videre til AI-modeller. AgentOps er neste steg: hva du trenger når AI-en din ikke bare svarer på spørsmål, men faktisk handler i verden. Den åpner saker, oppdaterer registre, kaller API-er og tar beslutninger. Da holder det ikke å håpe at det går bra.

Du kan ikke forbedre det du ikke kan måle, og du kan ikke måle det du ikke kan se. Det er utgangspunktet for alle tre lagene.

Tavle som viser de tre AgentOps-lagene: observability, evaluering og optimalisering med nøkkelmetrikker for hvert lag. — Bilde: Skjermbilde fra YouTube.

Lag 1: Innsyn

Innsyn betyr at du kan rekonstruere nøyaktig hva agenten din gjorde, steg for steg. Hvert verktøykall, hver overlevering mellom agenter, hvert svar fra en språkmodell (AI-hjernen som genererer tekst) skal kunne spores tilbake.

Tre nøkkelmetrikker (måletall):

Total sporingstid er totaltiden fra bruker sender en forespørsel til svar kommer tilbake. Jo høyere tall, jo lenger venter brukeren. Hvis dette tallet er høyt, hjelper det ikke at alt annet fungerer.
Agent-til-agent overlevering måler forsinkelsen når én agent sender arbeidet videre til en annen. I systemer med mange agenter kan disse forsinkelsene hope seg opp og bli en skjult flaskehals som bremser hele prosessen.
Kostnad per forespørsel er beløpet du betaler i API-kall (forespørsler til eksterne tjenester) per interaksjon. Finn dette tallet før finansavdelingen spør.

Lag 2: Evaluering

Innsyn forteller hva som skjedde. Evaluering sier om det var bra nok.

Tre metrikker: Fullføringsgrad (task completion rate) måler hvor mange av hundre forespørsler som løses uten at et menneske griper inn. Regelbrudd (guardrail violation rate) sier noe om hvor ofte agenten prøver å gjøre noe den ikke skal, som å lekke sensitiv informasjon. Og treffsikkerhet på fakta (factual accuracy rate) sjekker om agentens diagnosekoder, medisindoser og referansenumre faktisk stemmer.

I regulerte bransjer som helse og finans er det siste ikke valgfritt.

Lag 3: Optimalisering

Når du kan se hva som skjer og vurdere om det er bra, kan du begynne å gjøre det bedre.

Token-effektivitet i prompter handler om å få samme kvalitet med færre tokens (ordbitene AI-en leser og skriver, som du betaler per stykk). Etter prompttuning kan du oppnå 40% kortere instruksjoner med identisk kvalitet, noe som gir reelle besparelser på hver eneste forespørsel. Treffsikkerhet ved søk (retrieval precision at K) måler hvor relevante dokumentene agenten henter faktisk er. K er antallet dokumenter du ber den hente, for eksempel 5. Henter agenten fem dokumenter og bare to er nyttige, jobber den med unødvendig informasjon som forvirrer resultatet. Overleveringsrate måler om agenter faktisk lykkes med å sende arbeid til hverandre. En andel på 98% høres bra ut, men ved tusenvis av forespørsler om dagen representerer 2% feil mange tapte transaksjoner.

Forhåndsgodkjenning i praksis

Her er hva disse tre lagene betyr for et konkret eksempel. Forhåndsgodkjenning (prior authorization) er prosessen der forsikringsselskapet må godkjenne en medisin før pasienten kan hente den. Tradisjonelt tar dette 3-5 virkedager: telefoner, fakser og papirer frem og tilbake mens pasienten venter.

Med to AI-agenter gjøres dette på under fire timer, og 94% av forespørslene trenger aldri et menneske.

Agent 1 kobler seg til sykehusets elektroniske pasientjournal (EPJ) og samler alt som trengs: diagnose-koder, laboratoriesvar, tidligere behandlinger som ikke virket. Agent 2 tar den pakken og sender den til forsikringsportalen, overvåker statusen, og koordinerer med Agent 1 om forsikringsselskapet ber om mer dokumentasjon.

AgentOps Dashboard som viser arbeidsflyten for forhåndsgodkjenning med to agenter, metrikker og resultater. — Bilde: Skjermbilde fra YouTube.

Innsyn: Gjennomsnittlig godkjenning tar 2,8 timer, ned fra 3-5 dager. En 85% reduksjon. Agent-til-agent-overleveringen tar 340 millisekunder i snitt, godt innenfor et mål på 500 ms. Kostnad per forespørsel: $0,47 mot rundt $25 for manuell behandling.

Evaluering: 94,2% av godkjenningene fullføres uten at et menneske rører dem. Diagnose-kode-nøyaktigheten er 99,4%, laboratorieverdier 99,8%. Regelbrudd utløses i 0,8% av tilfellene, og disse settes automatisk til manuell gjennomgang. Et panel av farmasøyter vurderer 5% av innsendingene, og 97,3% vurderes som medisinsk korrekte.

Og agentene er ikke bare raskere, de er faktisk bedre: 78% godkjenningsrate på første forsøk, mot bransjens 52% for manuelle innsendinger.

Optimalisering: Etter prompttuning er prompts kuttet fra 1 800 til 1 100 tokens med samme kvalitet. Det er en 39% kostnadsreduksjon per forespørsel. Optimal arbeidsflyt tar seks steg; de kjører i snitt 7,2. De ekstra stegene oppstår nesten alltid når det første journaloppslaget er ufullstendig og utløser en ny forespørsel. Nå vet de nøyaktig hvor de skal fokusere.

Agenter uten innsyn er en risiko

5 milliarder dollar i agenter ble levert i 2024. Anslaget for 2030 er 50 milliarder. Mange team kommer til å lansere agenter. Mange kommer til å slite med å drifte dem.

De som investerer i AgentOps tidlig er de som fortsatt kjører agentene sine om ett år: pålitelig, trygt og i stort omfang. Det finnes ingen snarveier. Se hva som skjer, vurder om det er bra, og gjør det bedre. Det er alt AgentOps handler om.

Ordliste

Begrep	Forklaring
AgentOps	Rammeverket for å drifte AI-agenter i produksjon: overvåke, evaluere og forbedre dem.
Innsyn (observability)	Evnen til å se nøyaktig hva et system gjør, steg for steg. Som et dashbord-kamera for AI.
Forhåndsgodkjenning (prior authorization)	Prosessen der forsikringsselskapet må godkjenne en medisin før pasienten kan hente den.
Rekkverk (guardrail)	Regler som hindrer en AI-agent i å gjøre ting den ikke skal, som å lekke pasientdata.
Overlevering (handoff)	Når én AI-agent sender arbeidet videre til en annen agent.
Treffsikkerhet ved søk (retrieval precision at K)	Andelen av de K dokumentene agenten hentet som faktisk var relevante.
EPJ (Elektronisk pasientjournal, EHR)	Digitalt system der sykehus lagrer all pasientinformasjon.
Token-effektivitet i prompter (prompt token efficiency)	Hvor mye kvalitet du får per input-token — færre tokens, samme kvalitet betyr spart penger.