Derfor svikter generell AI i møte med stormaskiner

Nøkkelinnsikt
- Generelle språkmodeller svarer selvsikkert feil på spesialiserte systemer. Wiegands CICS-eksempel viser et troverdig stormaskin-svar som egentlig var galt
- Det som gjør RAG kraftfullt, er at kundene kan legge inn sin egen dokumentasjon: driftshåndbøker, hendelsesrapporter og egne fremgangsmåter. Det forvandler en generell AI til en som kjenner akkurat ditt miljø
- Agenter lar systemet handle, ikke bare svare. De kan åpne saker, kjøre helsesjekker og kontakte hybridskytjenester. Svar og handling leveres samtidig i én forespørsel
- Den egentlige drivkraften er et generasjonsskifte. Stormaskiner kjører usynlig samfunnsinfrastruktur, men de som kan drifte dem pensjoneres snart
Dette er et AI-generert sammendrag. Kildevideoen kan inneholde demonstrasjoner, visuelt innhold og ytterligere kontekst.
Kort fortalt
Hver gang du kjøper en kaffekopp eller drar kortet i en butikk, er det stor sjanse for at transaksjonen kjører på en stormaskin (mainframe), en stor, spesialisert datamaskin som banker, flyselskaper og varehandel har vært avhengig av i flere tiår. Disse maskinene betyr fortsatt noe, men de som kan drifte dem pensjoneres snart, og teamene må klare mer med færre folk.
Det åpenbare svaret er å slippe AI løs på problemet. Det er det Daniel Wiegand, en produktsjef hos IBM som jobber med drift av stormaskiner, går gjennom i en seks minutter lang video fra IBM Technology. Haken: en generell chatbot som fungerer fint når du skal planlegge ferie, svarer helt selvsikkert feil om ekte problemer med stormaskiner.
Wiegands løsning er to lag oppå en vanlig språkmodell (large language model, LLM): retrieval-augmented generation (RAG) som forankrer modellen i ekte dokumentasjon om stormaskiner, og agenter som også kan handle i selve systemet.
Les også:
Den usynlige ryggraden
Han åpner med hverdagsbildet: stormaskinen er "absolutely mission critical", altså helt avgjørende for virksomheten, og hver kaffekopp eller butikkhandel går sannsynligvis gjennom en slik maskin et sted bakerst i kjeden.
Det er lett å glemme, for du ser aldri en stormaskin. Det er et arbeidsjern som håndterer enorme mengder transaksjoner uten glamour, typen maskin som har stått i samme datasenter siden før mobiltelefonen ble vanlig. Bransjen har ikke byttet dem ut fordi ingenting annet klarer like mange transaksjoner samtidig, like pålitelig, til samme pris.
Han peker på tre konkrete problemer med drift i dag:
- Gjøre mer med mindre. Driftsteamene krymper mens arbeidsmengden vokser.
- Behandle stormaskinen som alt annet. Hybridsky-oppsett gjør at stormaskinen må samarbeide med annen infrastruktur, ikke stå isolert fra resten.
- Lære opp neste generasjon. De fleste stormaskineksperter er godt voksne. De som overtar må komme raskt i gang.
Hvorfor generell AI bommer
Wiegands skarpeste poeng handler egentlig ikke om stormaskiner. Det handler om hvordan dagens chatboter svikter på et hvilket som helst spesialisert system.
Han forteller en historie om CICS, Customer Information Control System, IBMs transaksjonsmotor som kjører en stor andel av verdens bank- og betalingstrafikk. Han spurte en generell chatbot om en spesifikk CICS-feilmelding. Boten svarte selvsikkert. Svaret så ut som et ekte stormaskin-svar. Det var feil.
Slik ser hallusinasjon (hallucination) ut når den treffer spesialiserte fagområder. Modellen har sett nok om CICS til å sette sammen noe som virker troverdig, men ikke nok til å vite når den bløffer. For en utvikler som googler for moro skyld, er det irriterende. For en ingeniør som feilsøker et betalingssystem klokka tre om natten, er det farlig.
RAG: å gi modellen riktig pensum
Løsningen Wiegand foreslår, er retrieval-augmented generation, eller RAG. Ideen er enklere enn den virker:
| Uten RAG | Med RAG | |
|---|---|---|
| Hvor svaret kommer fra | Modellens treningshukommelse | Troverdige dokumenter hentet ved behov |
| Hva du legger til | Ingenting. Du tar det modellen allerede kan | Dine egne fremgangsmåter, driftshåndbøker og interne notater |
| Risiko på et spesialisert emne | Plausibel gjetning | Forankret svar, sporbart til kilde |
Han sier det slik: RAG "helps ground the large language model in more relevant or more up-to-date information". Oversatt: systemet slår opp riktig dokumentasjon fra stormaskinene før det skriver noe, og bygger svaret fra disse dokumentene i stedet for fra modellens treningsdata.
Det viktige: kundene kan legge inn sin egen dokumentasjon også. Egne fremgangsmåter, interne driftshåndbøker, hendelsesrapporter. Det er dette som gjør en standard AI-assistent for stormaskiner til en som kjenner akkurat ditt miljø.
Agent-laget
Når RAG er på plass, legger han det andre laget oppå: agenter. Forskjellen er at en språkmodell bare svarer. En agent (agent) kan også gjøre noe.
Typiske oppgaver er drift- og vedlikeholdsarbeid:
- åpne en sak i supportsystemet
- hente status fra overvåkningsverktøy
- kjøre en helsesjekk på miljøet
- lete etter optimaliseringer i hvordan arbeidslastene kjører
- kontakte hybridskytjenester som ikke engang kjører på stormaskinen
Brukeren skriver én ledetekst. Systemet bruker RAG til å svare fra reell dokumentasjon, og bruker agenter til å hente sanntidsstatus mens det gjør det. Svar og handling kommer samtidig.
Ordliste
| Begrep | Forklaring |
|---|---|
| Agent (agent) | Programvare som kan utføre handlinger, ikke bare svare på spørsmål. Den kan åpne saker, spørre systemer, kalle API-er eller kjøre skript på dine vegne |
| CICS (Customer Information Control System) | IBMs transaksjonsmotor for stormaskiner. Kjører banktransaksjoner, betalingsterminaler og flybookinger i enormt volum |
| Forankring (grounding) | Å gi modellen tilgang til spesifikke, troverdige dokumenter slik at svarene spores tilbake til reelle kilder i stedet for treningsgjetning |
| Hallusinasjon (hallucination) | Når en språkmodell produserer et selvsikkert svar som egentlig ikke er riktig. Farligere på spesialiserte emner enn på vanlige |
| Hybridsky (hybrid cloud) | Oppsett der noe kjører på dine egne servere, annet i offentlig sky, koblet sammen som ett system |
| Språkmodell (large language model, LLM) | Typen AI som ligger bak ChatGPT, Claude og Gemini. Trent på enorme mengder tekst, men kan bare det som var med i treningsdataene |
| Stormaskin (mainframe) | Stor, spesialisert datamaskin som kjører kritiske forretningstransaksjoner i enorm skala. Banker, flyselskaper og varehandel er fortsatt avhengig av dem |
| Retrieval-augmented generation (RAG) | Mønster der modellen slår opp relevante dokumenter først, og skriver svaret sitt fra dem, i stedet for å stole på hukommelsen alene |
Kilder og ressurser
- IBM Technology — How AI, RAG, and Agents Transform Mainframe Operations — Kildevideoen
- Daniel Wiegand på Planet Mainframe — Artikler om IBM Z-drift og AI-ops
- IBM Z — Stormaskin-produktlinjen
- IBM watsonx Assistant for Z — Det unavngitte produktet bak videoen
- Retrieval-augmented generation — Wikipedia — Forankringsmønsteret videoen beskriver
- CICS — Wikipedia — Bakgrunn om transaksjonsmotoren Wiegand bruker som eksempel
Vil du vite mer? Se hele videoen på YouTube →