Slik fungerer multimodal AI

Nøkkelinnsikt

Delte vektorrom lar AI resonnere om tekst og bilde samtidig, uten å måtte oversette mellom to separate systemer
Fusjon på funksjonsnivå dominerer fortsatt i bedrifts-AI fordi det er billigere og mer modulært, selv om informasjon går tapt
Videoforståelse krever tid som en egen dimensjon, ikke bare flere enkeltbilder. Bevegelse bygges inn i selve dataenheten.
Vilkårlig-til-vilkårlig generering betyr at AI kan ta inn én datatype og svare med en helt annen, alt fra samme felles rom

Publisert 6. april 2026

IBM Technology

Vertskap:Martin Keen

Dette er et AI-generert sammendrag. Kildevideoen kan inneholde demonstrasjoner, visuelt innhold og ytterligere kontekst.

Se videoen · Slik genereres artiklene

Kort fortalt

Multimodal AI er en AI-modell som kan jobbe med mer enn én type data samtidig: tekst, bilder, lyd, video og mer. Martin Keen, Senior Inventor hos IBM, forklarer hvordan dette faktisk fungerer: den eldre metoden der to modeller er koblet sammen, nativ multimodalitet der alt deler det samme matematiske rommet, og modeller som kan generere video ut fra en tekstforespørsel.

Les også:

Hva er en modalitet?

Før noe av dette gir mening, trenger du å kjenne ett ord: modalitet. Det betyr bare en type data. Tekst er én modalitet. Bilder er en annen. Lyd, video, termisk avbildning og LIDAR (laserbasert avstandsmåling) er også modaliteter.

Keen formulerer det enkelt: "when we say modal, we are talking about data." AI-modeller som bare jobber med tekst er enkelt-modalitetsmodeller. En multimodal modell kan håndtere flere typer data på én gang. Det er hele greia. Ordet høres komplisert ut, men ideen er enkel.

Den eldre tilnærmingen: to modeller tapet sammen

Den første måten ingeniører bygde multimodal AI på var å ta en eksisterende tekstmodell og skru på en ekstra modell ved siden av. Denne ekstra modellen, kalt en bildekoder (vision encoder), kikket på bildet og oversatte det til en liste med tall. En tallbasert oppsummering som tekstmodellen kunne jobbe med.

Tenk deg at du ringer en venn og ber dem beskrive et maleri for deg over telefonen. Du får grovt sett det viktigste, men du jobber med vennens beskrivelse av maleriet, ikke selve maleriet. Noe informasjon forsvinner alltid i den overgangen.

Som Keen beskriver det: "the LLM is essentially only seeing a summarized description of the data, instead of the raw signal." En LLM (stor språkmodell) er kjernemodellen som behandler tekst. Med fusjon på funksjonsnivå (feature-level fusion) ser LLM-en aldri det faktiske bildet, bare tallene som er hentet ut fra det.

Denne tilnærmingen kalles fusjon på funksjonsnivå, og den brukes fortsatt i mange bedriftssystemer i dag. Hvorfor? Fordi det er billigere å bygge og enklere å vedlikeholde. Du kan bytte ut bildekoderdelen uten å rive ned hele systemet. Et praktisk valg, selv om det ikke er det beste.

Nativ multimodalitet: alt i samme rom

Den bedre metoden kalles nativ multimodalitet. I stedet for to separate modeller som sender meldinger frem og tilbake, behandles alt i ett felles matematisk rom: et delt vektorrom (shared vector space).

Slik fungerer det: i en vanlig tekstmodell blir hvert ord omgjort til et punkt i et gigantisk matematisk rom. Ordet "katt" blir ett bestemt punkt. "Hund" blir et punkt i nærheten. Ord med lignende betydning havner nær hverandre. Dette kalles en embedding, en måte å representere mening som en plassering i rommet.

Med nativ multimodalitet gjennomgår bilder den samme prosessen. Et bilde stykkes opp i små biter (kalt flater eller patches), og hver bit får sitt eget punkt i det samme rommet. Det samme gjelder lyd. Alt bor i samme matematiske nabolag, så modellen kan resonnere om alt på én gang uten at noe trenger å oversettes.

Katten-analogien Keen bruker gjør dette tydelig: hvis du legger et bilde av en katt inn i dette delte rommet, havner det nær ordet "katt" fordi de betyr det samme. Modellen trenger ikke å "oversette" bildet til tekst, den snakker allerede samme språk.

Dette løser også et reelt problem med den eldre tilnærmingen. Med fusjon på funksjonsnivå "behandler bildekoderdelen bildet ditt før den vet hvilket spørsmål du stiller." Den kan forkaste akkurat den detaljen du trengte. Med et delt vektorrom ser modellen på spørsmålet ditt og bildet samtidig, og vet dermed hvor den skal fokusere.

Video: når tid er en del av dataene

Bilder er todimensjonale: bredde og høyde. Men video legger til en tredje dimensjon: tid. Det er her det blir virkelig interessant.

Tidlige multimodale systemer håndterte video ved å plukke ut noen enkeltbilder og kjøre dem gjennom bildekoderdelen. Raskt og billig, men all bevegelse kastes bort. Keens eksempel gjør problemet tydelig: "show me a single frame of somebody holding a water bottle, and I can tell you that there is a person and a water bottle, but I can't tell you if they're putting it down or if they're picking it up."

Den informasjonen finnes i rekkefølgen av bilder, ikke i noe enkelt bilde.

Nyere modeller løser dette med spatiotemporale flater (spatiotemporal patches): i stedet for flate 2D-biter brukes små 3D-kuber som fanger et lite område av bildet over et kort tidsvindu, for eksempel 8 videobilder på én gang. Bevegelse er bakt inn i selve dataenheten, så modellen slipper å gjette hva som skjer mellom to enkeltbilder. Den bare ser det.

Vilkårlig inn, vilkårlig ut

Så langt har vi snakket om hva som sendes inn i en multimodal modell. Men fordi alt bor i det samme delte vektorrommet, kan modellen også svare på tvers av modaliteter.

Hvilken som helst type data inn, hvilken som helst type data ut. Keens eksempel: spør modellen om hvordan man knyter et slips, og den kan svare med noen tekstsetninger og deretter generere et kort videoklipp som viser fremgangsmåten. Begge deler bor i det samme rommet og kan genereres derfra.

Dette er hva "vilkårlig-til-vilkårlig generering" (any-to-any generation) betyr, og det er det som gjør nativt multimodale modeller fundamentalt annerledes enn eldre systemer. Det handler ikke bare om å forstå flere typer inndata. Det handler om å kunne svare i det formatet som faktisk hjelper.

Ordliste

Begrep	Forklaring
Modalitet (modality)	En type data. Tekst, bilder, lyd og video er alle ulike modaliteter
Stor språkmodell (large language model, LLM)	Kjernemodellen som behandler og genererer tekst
Bildekoder (vision encoder)	En separat modell som gjør om bilder til tall en tekstmodell kan behandle
Fusjon på funksjonsnivå (feature-level fusion)	Metoden der en bildekoder og en tekstmodell kobles sammen og sender tallbaserte oppsummeringer mellom seg
Delt vektorrom (shared vector space)	Et felles matematisk rom der alle datatyper representeres som punkter, slik at modellen kan resonnere om dem samlet
Embedding	Prosessen med å gjøre om et ord, en bildebite eller en lydbit til et punkt i et vektorrom
Flate (patch)	En liten bit av et bilde (eller en 3D-kube av videobilder) som får sitt eget punkt i vektorrommet
Spatiotemporal flate (spatiotemporal patch)	En 3D-videoenhet som fanger piksler over både rom og tid. Bevegelse er bakt inn, ikke beregnet i etterkant.
Vilkårlig-til-vilkårlig generering (any-to-any generation)	Evnen til å ta inn hvilken som helst kombinasjon av datatyper og produsere hvilken som helst kombinasjon tilbake: tekst inn, video ut, for eksempel

Kilder og ressurser

IBM Technology — What is Multimodal AI? How LLMs Process Text, Images, and More (YouTube) — Originalvideoen av Martin Keen
Martin Keen på LinkedIn — Senior Inventor hos IBM
Meet Martin Keen — IBM Think — IBMs profil av Martin Keen