Slik fungerer AI-agenter: OpenClaw og agent-løkken

Dette er et AI-generert sammendrag. Kildevideoen kan inneholde demonstrasjoner, visuelt innhold og ytterligere kontekst.
Kort fortalt
En chatbot kan forklare deg presist hvordan du avtaler et møte. Den kan ikke gå inn i kalenderen og legge det inn for deg. Det er gapet en AI-agent fyller, og på IBM Technology bruker Cedric Clyburn (Senior Developer Advocate i Red Hat) elleve minutter på å vise hvordan det skjer i praksis. Eksempelet han bruker er OpenClaw, open source-agenten som Peter Steinberger lanserte i fjor.
Les også:
Gapet mellom å vite og å gjøre
Når du ber en chatbot hjelpe med en e-post, er det fortsatt du som gjør jobben. Du kopierer tekst ut av Gmail, limer inn i prompten, skifter mellom faner, klikker på knapper og sender all konteksten modellen trenger. Chatboten skriver svaret, men det er du som må trykke på knappene.
Be den samme chatboten om å avtale et møte, og du får en perfekt steg-for-steg-forklaring som ingen kommer til å gjennomføre. Det Clyburn kaller "gapet mellom å vite og å gjøre", lukkes når en stor språkmodell (LLM) får verktøy den kan bruke på egen hånd. Da kan den faktisk åpne kalenderen, finne en ledig tid og avtale møtet selv.
Hva er en AI-agent?
En AI-agent er et system som kombinerer en stor språkmodell (LLM, samme type modell som ligger bak ChatGPT og Claude) med to ekstra ingredienser: et knippe verktøy den kan kalle, og friheten til å bruke dem selv. En chatbot tar én runde: prompt inn, svar ut. En agent jobber annerledes: den lever i en såkalt agentic-loop (agent-løkke), der den fortsetter å tenke og handle helt til oppgaven er løst.
Agentic-loopen, steg for steg
En oppgave lander hos agenten. Den kan komme fra Slack, iMessage, WhatsApp eller en hvilken som helst annen kanal.
Det første agenten gjør, er ikke å spørre modellen. Den samler kontekst: samtalehistorikk, langtidsminne fra tidligere oppgaver, systeminstrukser som definerer agentens rolle, og en liste over verktøy modellen kan bruke. Alt det pakkes sammen og sendes til språkmodellen.
Så starter resonneringen. Modellen ser på forespørselen og spør seg selv: trenger jeg et verktøy for å svare på dette? Hvis ja, velger den ett. Det kan være å kjøre en terminalkommando, lese en fil, søke på nett eller kalle et API. Resultatet kommer tilbake og legges til i konteksten. Så gjentas løkken. Resonner, handle, observer. Resonner, handle, observer. Når modellen mener at ingen flere verktøy trengs, leverer den et endelig svar tilbake til kanalen oppgaven kom fra.
Dette kalles ReAct-mønsteret, en sammenslåing av "Reasoning + Acting" (resonnere og handle). Det stammer fra en forskningsartikkel av Yao og kolleger fra 2022 og er, som Clyburn sier, kjernemønsteret bak alle agent-rammeverk du har hørt om.
Slik er OpenClaw bygget opp
OpenClaw er en gratis AI-agent med åpen kildekode, lansert mot slutten av 2025, og er blitt et av GitHubs mest populære prosjekter. Det interessante for forståelsen av agenter er hvordan den er strukturert, for de samme formene går igjen i de fleste agent-systemer.
OpenClaw kjører lokalt på din egen maskin: laptop, server, eller til og med en bittesmå datamaskin som en Raspberry Pi. Ingenting går innom en skytjeneste.
Tenk på oppbygningen som et sentralbord. Alt som skjer (meldinger fra Slack, kommandoer du sender til agenten, svar tilbake) går via én og samme sentral. Den heter gateway, og den holder en åpen linje hele tiden, slik at meldinger kan strømme begge veier når som helst. Gateway-en videresender meldinger, koordinerer flere samtaler parallelt, lar deg starte flere agenter samtidig, og holder styr på hvilke verktøy som brukes.
Rundt sentralbordet sitter resten av delene. Adapterne er små oversettere, én for hver kanal (Slack, Teams, Discord, iMessage), som gjør innkommende meldinger om til ett felles internt format. Verktøy-laget er alt agenten faktisk kan gjøre: styre en nettleser, kjøre terminalkommandoer, og så videre. Og så er det skills.
Skills: slik lærer agenten nye triks
Skills gjør OpenClaw nyttig på områder skaperne aldri tenkte på. En skill er bare en mappe som inneholder en markdown-fil, skrevet som vanlig tekst, som lærer agenten hvordan den utfører én bestemt oppgave: oppdatere en Trello-tavle, styre en Google-kalender, bygge et Docker-image, snakke med et CRM-system.
Det smarte er hva OpenClaw ikke gjør. Den laster ikke alle skills inn i modellens kontekstvindu (tekstmengden språkmodellen kan holde oversikt over på én gang). Det ville fylt opp plassen på sekunder. I stedet sender OpenClaw bare en kort beskrivelse med metadata for hver skill, lar modellen velge hvilken som ser relevant ut, og laster den fulle instruksjonen ved behov. Per i dag finnes det tusenvis av skills i miljøet, fra kalendere og CRM-er til containerbygging. Agenten kan også styres med cron-jobber (planlagte oppgaver som starter automatisk på fast tid).
Sikkerheten har en pris
Kraft koster. Fordi OpenClaw kjører lokalt og kan lese filsystemet ditt, kjøre kommandoer i terminalen og nå inn i alle integrasjonene dine, er et feilkonfigurert oppsett i praksis en bakdør på din egen maskin. Clyburn påpeker at det allerede finnes tusenvis av OpenClaw-installasjoner som er åpent eksponert mot internett. De fleste er rene feilkonfigurasjoner.
Den andre risikoen er prompt injection: en angriper gjemmer instruksjoner inne i data som agenten leser, for eksempel en e-post, en nettside eller en kalenderinvitasjon. Modellen utfører dem som om de var legitime ordrer. Det finnes ingen ren løsning ennå. Forsvarstiltakene Clyburn anbefaler er praktiske: kjør agenten i et isolert miljø, gå gjennom hver skill før du installerer den, og krypter passord og nøkler før de noen gang når en språkmodell.
Fra samtale til orkestrering
I årevis var AI en samtale. Du spurte, modellen svarte, og selve arbeidet lå hos deg. Med agenter blir modellen orkestratoren. Den planlegger, utfører og observerer helt til oppgaven er ferdig.
OpenClaw er én tilnærming. Det finnes andre. LangGraph er et populært alternativ for utviklere som vil ha mer detaljert kontroll over løkken. Det grunnleggende mønsteret er likevel det samme som Clyburn tegnet på tavlen: samle kontekst, resonner, handle, observer, gjenta. Når du først ser den løkken, begynner alle andre agent-rammeverk å se ut som varianter av samme idé.
Ordliste
| Begrep | Forklaring |
|---|---|
| LLM (stor språkmodell) | En AI-modell trent på enorme tekstmengder. Kan svare på spørsmål, skrive tekst og resonnere rundt problemer. |
| Agentic-loop | Løkken hvor agenten resonnerer, velger et verktøy, kjører det, observerer resultatet og avgjør hva den skal gjøre videre, helt til oppgaven er løst. |
| ReAct-mønster | "Reasoning + Acting" (resonnere og handle), der modellen veksler mellom å tenke høyt og bruke verktøy. Introdusert av Yao m.fl. i 2022. |
| Verktøy (i agent-sammenheng) | En funksjon modellen kan kalle: kjøre en terminalkommando, lese en fil, søke på nett, kalle et API. |
| Gateway | OpenClaws sentrale WebSocket-server. Videresender meldinger, styrer økter og koordinerer verktøyene. |
| Adapter | En liten oversetter som konverterer innkommende meldinger (Slack, iMessage, Discord) til ett felles internt format. |
| Skill | En mappe med en markdown-fil som lærer agenten hvordan den utfører én bestemt oppgave, for eksempel å oppdatere Trello eller bygge et Docker-image. |
| Kontekstvindu | Tekstmengden en språkmodell kan holde oversikt over på én gang: prompt, samtalehistorikk og verktøyresultater. Begrenset størrelse. |
| Prompt injection | Når en angriper gjemmer instruksjoner i data agenten leser, i håp om at modellen utfører dem som ekte kommandoer. |
| Cron-jobb | En planlagt oppgave som kjører automatisk på fast tid (for eksempel hver hverdag klokken 08). |
Kilder og ressurser
- IBM Technology — What is OpenClaw? Inside AI Agents, LLMs and the Agentic Loop (YouTube)
- OpenClaw — offisiell side
- OpenClaw på GitHub
- Cedric Clyburn — personlig nettside
- IBM Technology på YouTube
- ReAct: Synergizing Reasoning and Acting in Language Models (Yao et al., 2022)
- LangGraph — agent-rammeverk
Vil du vite mer? Se hele videoen på YouTube →