Agent-ferdigheter: Slik lærer AI-agenter å jobbe

Dette er et AI-generert sammendrag. Kildevideoen kan inneholde demonstrasjoner, visuelt innhold og ytterligere kontekst.
Kort fortalt
AI-agenter er overraskende gode på å vite ting. Spør en om hvordan Kubernetes er bygget opp, eller om historien bak SQL, så svarer den uten å nøle. Men be den gjennomføre bedriftens rutine på 47 steg for å lage en godkjent finansrapport, og den trenger enten at noen forklarer hvert eneste steg (hver gang), eller så gjetter den.
Det som mangler er prosedyrekunnskap (procedural knowledge): ikke fakta om verden, men hvordan bestemte oppgaver skal gjøres i riktig rekkefølge. Agent-ferdigheter (agent skills) er svaret på det.
Les også:
Hva en ferdighet faktisk er
En ferdighet er, som IBMs Martin Keen sier, "almost comically simple", altså nesten komisk enkel: en mappe med én fil (tekstfil) som heter SKILL.md.
Den markdown-filen har to deler. Øverst ligger en liten blokk med YAML-metadata (nøkkelinformasjon skrevet som navn: verdi) med to felt som må være med: name (hva ferdigheten heter) og description (hva ferdigheten gjør, og når agenten skal bruke den). Beskrivelsen er signalet som vekker ferdigheten. Den forteller agenten om ferdigheten passer til oppgaven den jobber med.
Under metadataen kommer selve innholdet: vanlig markdown med instruksjoner steg for steg, regler og eksempler på inn- og utdata. Alt agenten trenger for å gjøre jobben.
Mappen kan også inneholde tre valgfrie undermapper:
- scripts/: kjørbar kode (JavaScript, Python eller shell) som agenten kan bruke
- references/: ekstra dokumentasjon som bare lastes inn hvis agenten trenger det
- assets/: faste ressurser som maler og datafiler
Det er hele greia.
Slik ser en ekte SKILL.md ut
Her er hovedfilen (SKILL.md) fra Anthropics egen pdf-processing-ferdighet. Øverst finner vi YAML-metadataen agenten leser ved oppstart:
---
name: pdf-processing
description: Extracts text and tables from PDF files, fills forms, and merges documents. Use when working with PDF files or when the user mentions PDFs, forms, or document extraction.
---
Under kommer selve innholdet i vanlig markdown. Filen viser først et lite Python-eksempel for å komme i gang, og peker deretter videre til andre filer agenten kan hente inn ved behov:
# PDF Processing
## Quick start
Extract text with pdfplumber:
```python
import pdfplumber
with pdfplumber.open("file.pdf") as pdf:
text = pdf.pages[0].extract_text()
```
## Advanced features
**Form filling**: See [FORMS.md](FORMS.md) for complete guide
**API reference**: See [REFERENCE.md](REFERENCE.md) for all methods
**Examples**: See [EXAMPLES.md](EXAMPLES.md) for common patterns
Python-snutten gjør én konkret ting: åpne en PDF-fil og hente ut teksten fra første side. Resten av ferdigheten ligger i egne filer. Agenten leser bare hovedfilen først. Hvis brukeren spør om skjemautfylling, henter den FORMS.md når den trenger den. Hvis ikke, ligger filen urørt og tar ingen plass i kontekstvinduet.
Progressiv avsløring: tre nivåer
En agent kan ha hundrevis av ferdigheter installert. Å laste alle inn i modellens kontekstvindu (arbeidsminnet) ved oppstart ville fylt det helt opp før noen rakk å stille et eneste spørsmål. Derfor bruker ferdigheter en strategi som kalles progressiv avsløring (progressive disclosure). Den har tre nivåer:
- Bare metadata: ved oppstart lastes kun
nameogdescriptionfra hver installerte ferdighet. Det tar liten plass per ferdighet, selv om du har hundre stykker. - Fulle instruksjoner: når agenten får en forespørsel som passer med beskrivelsen til en ferdighet, leses hele
SKILL.md-innholdet inn i konteksten. Agenten bruker sin egen tenkning til å finne riktig ferdighet, og derfor betyr en presis beskrivelse så mye. - Ressurser ved behov: skript, referanser og filer hentes bare inn når en konkret oppgave faktisk trenger dem.
Agenten starter med en kort oversikt over alt den kan gjøre, henter inn detaljerte instruksjoner når de blir relevante, og drar inn ressurser i samme øyeblikk som de trengs.
Fire måter å gi en agent kunnskap
Ferdigheter er én av flere måter å gi kunnskap til en agent. Hver måte dekker ulike behov:
| Metode | Hva agenten får | Begrensning |
|---|---|---|
| Ferdigheter (Skills) | Prosedyrekunnskap: hvordan gjøre ting, i hvilken rekkefølge, med hvilken vurdering | Bare nyttig for faste, gjentakbare arbeidsrutiner |
| MCP (Model Context Protocol) | Verktøytilgang: muligheten til å kalle eksterne API-er og tjenester | Gir tilgang til eksterne systemer, men lærer ikke agenten når eller hvordan |
| RAG (Retrieval-Augmented Generation) | Faktakunnskap: henter relevante biter fra en kunnskapsbase mens den jobber | Et oppslagsverk, lærer ikke arbeidsrutiner |
| Finjustering (Fine-tuning) | Bygger kunnskap permanent inn i modellens vekter | Dyrt, og må gjøres på nytt hver gang modellen endres |
I praksis fungerer ferdigheter og MCP godt sammen: MCP gir muligheten til å kalle noe eksternt, mens ferdigheten forteller når og hvordan det skal gjøres.
Kognisjonsvitenskapen bak det
Det finnes en nyttig parallell fra kognisjonsvitenskapen (forskning på hvordan vi tenker og husker). Mennesker har tre forskjellige typer minne:
- Semantisk minne: fakta. For eksempel at Roma er hovedstaden i Italia.
- Episodisk minne: personlige opplevelser. For eksempel at jeg var i Roma i sommer (og det var herlig).
- Prosedyreminne: praktiske ferdigheter. For eksempel hvordan man kjører scooter gjennom romertrafikken og overlever.
Måten AI-agenter er bygget opp på, begynner å ligne dette: RAG og kunnskapsbaser tilsvarer semantisk minne, samtalehistorikk tilsvarer episodisk minne, og ferdighets-filer tilsvarer prosedyreminne.
Før du installerer en ferdighet
Fordi ferdigheter kan inneholde kjørbare skript med tilgang til filsystemet, miljøvariabler og API-nøkler, er de kraftige. Men samme kraft kan like lett brukes til å skade. Sikkerhetsgjennomganger har funnet offentlig tilgjengelige ferdigheter med prompt injection-angrep, forgiftning av verktøy (tool poisoning) og skjult skadevare.
Håndter installasjon av ferdigheter slik et ansvarlig team håndterer annen programvare det tar i bruk: les gjennom den, forstå hva den gjør, og sjekk kilden før du kjører den på din egen maskin.
En åpen standard
SKILL.md-formatet er en åpen standard publisert på agentskills.io under Apache 2.0-lisens, og vedlikeholdt av Anthropic. Det er tatt i bruk av Claude Code, OpenAI Codex, Cursor, GitHub Copilot og stadig flere plattformer.
En ferdighet bygget for én plattform fungerer på alle plattformer som støtter standarden, på samme måte som en PDF åpnes i alle PDF-lesere. Prosedyreminnet følger filen, ikke verktøyet.
Ordliste
| Begrep | Forklaring |
|---|---|
| Prosedyrekunnskap (procedural knowledge) | Steg-for-steg-kunnskap om hvordan noe gjøres, i motsetning til faktakunnskap om hva noe er |
| Kontekstvindu (context window) | Den totale mengden tekst en AI-modell kan holde i arbeidsminnet på én gang |
| Progressiv avsløring (progressive disclosure) | En strategi der bare det nødvendigste lastes inn ved oppstart, og resten hentes etter behov |
| MCP (Model Context Protocol) | En åpen protokoll som lar AI-agenter kalle eksterne verktøy og tjenester |
| RAG (Retrieval-Augmented Generation) | Teknikk der AI-en henter relevante dokumenter fra en kunnskapsbase mens den jobber |
| Finjustering (fine-tuning) | Gjentrening av en modell på bestemte data for å endre atferden permanent |
| Prompt injection | Et angrep der skadelige instruksjoner er skjult i innhold AI-en blir bedt om å behandle |
Kilder og ressurser
Vil du vite mer? Se hele videoen på YouTube →