Slik fungerer multimodal AI

Nøkkelinnsikt
- Delte vektorrom lar AI resonnere om tekst og bilde samtidig, uten å måtte oversette mellom to separate systemer
- Fusjon på funksjonsnivå dominerer fortsatt i bedrifts-AI fordi det er billigere og mer modulært, selv om informasjon går tapt
- Videoforståelse krever tid som en egen dimensjon, ikke bare flere enkeltbilder. Bevegelse bygges inn i selve dataenheten.
- Vilkårlig-til-vilkårlig generering betyr at AI kan ta inn én datatype og svare med en helt annen, alt fra samme felles rom
Dette er et AI-generert sammendrag. Kildevideoen kan inneholde demonstrasjoner, visuelt innhold og ytterligere kontekst.
Kort fortalt
Multimodal AI er en AI-modell som kan jobbe med mer enn én type data samtidig: tekst, bilder, lyd, video og mer. Martin Keen, Senior Inventor hos IBM, forklarer hvordan dette faktisk fungerer: den eldre metoden der to modeller er koblet sammen, nativ multimodalitet der alt deler det samme matematiske rommet, og modeller som kan generere video ut fra en tekstforespørsel.
Les også:
Hva er en modalitet?
Før noe av dette gir mening, trenger du å kjenne ett ord: modalitet. Det betyr bare en type data. Tekst er én modalitet. Bilder er en annen. Lyd, video, termisk avbildning og LIDAR (laserbasert avstandsmåling) er også modaliteter.
Keen formulerer det enkelt: "when we say modal, we are talking about data." AI-modeller som bare jobber med tekst er enkelt-modalitetsmodeller. En multimodal modell kan håndtere flere typer data på én gang. Det er hele greia. Ordet høres komplisert ut, men ideen er enkel.
Den eldre tilnærmingen: to modeller tapet sammen
Den første måten ingeniører bygde multimodal AI på var å ta en eksisterende tekstmodell og skru på en ekstra modell ved siden av. Denne ekstra modellen, kalt en bildekoder (vision encoder), kikket på bildet og oversatte det til en liste med tall. En tallbasert oppsummering som tekstmodellen kunne jobbe med.
Tenk deg at du ringer en venn og ber dem beskrive et maleri for deg over telefonen. Du får grovt sett det viktigste, men du jobber med vennens beskrivelse av maleriet, ikke selve maleriet. Noe informasjon forsvinner alltid i den overgangen.
Som Keen beskriver det: "the LLM is essentially only seeing a summarized description of the data, instead of the raw signal." En LLM (stor språkmodell) er kjernemodellen som behandler tekst. Med fusjon på funksjonsnivå (feature-level fusion) ser LLM-en aldri det faktiske bildet, bare tallene som er hentet ut fra det.
Denne tilnærmingen kalles fusjon på funksjonsnivå, og den brukes fortsatt i mange bedriftssystemer i dag. Hvorfor? Fordi det er billigere å bygge og enklere å vedlikeholde. Du kan bytte ut bildekoderdelen uten å rive ned hele systemet. Et praktisk valg, selv om det ikke er det beste.
Nativ multimodalitet: alt i samme rom
Den bedre metoden kalles nativ multimodalitet. I stedet for to separate modeller som sender meldinger frem og tilbake, behandles alt i ett felles matematisk rom: et delt vektorrom (shared vector space).
Slik fungerer det: i en vanlig tekstmodell blir hvert ord omgjort til et punkt i et gigantisk matematisk rom. Ordet "katt" blir ett bestemt punkt. "Hund" blir et punkt i nærheten. Ord med lignende betydning havner nær hverandre. Dette kalles en embedding, en måte å representere mening som en plassering i rommet.
Med nativ multimodalitet gjennomgår bilder den samme prosessen. Et bilde stykkes opp i små biter (kalt flater eller patches), og hver bit får sitt eget punkt i det samme rommet. Det samme gjelder lyd. Alt bor i samme matematiske nabolag, så modellen kan resonnere om alt på én gang uten at noe trenger å oversettes.
Katten-analogien Keen bruker gjør dette tydelig: hvis du legger et bilde av en katt inn i dette delte rommet, havner det nær ordet "katt" fordi de betyr det samme. Modellen trenger ikke å "oversette" bildet til tekst, den snakker allerede samme språk.
Dette løser også et reelt problem med den eldre tilnærmingen. Med fusjon på funksjonsnivå "behandler bildekoderdelen bildet ditt før den vet hvilket spørsmål du stiller." Den kan forkaste akkurat den detaljen du trengte. Med et delt vektorrom ser modellen på spørsmålet ditt og bildet samtidig, og vet dermed hvor den skal fokusere.
Video: når tid er en del av dataene
Bilder er todimensjonale: bredde og høyde. Men video legger til en tredje dimensjon: tid. Det er her det blir virkelig interessant.
Tidlige multimodale systemer håndterte video ved å plukke ut noen enkeltbilder og kjøre dem gjennom bildekoderdelen. Raskt og billig, men all bevegelse kastes bort. Keens eksempel gjør problemet tydelig: "show me a single frame of somebody holding a water bottle, and I can tell you that there is a person and a water bottle, but I can't tell you if they're putting it down or if they're picking it up."
Den informasjonen finnes i rekkefølgen av bilder, ikke i noe enkelt bilde.
Nyere modeller løser dette med spatiotemporale flater (spatiotemporal patches): i stedet for flate 2D-biter brukes små 3D-kuber som fanger et lite område av bildet over et kort tidsvindu, for eksempel 8 videobilder på én gang. Bevegelse er bakt inn i selve dataenheten, så modellen slipper å gjette hva som skjer mellom to enkeltbilder. Den bare ser det.
Vilkårlig inn, vilkårlig ut
Så langt har vi snakket om hva som sendes inn i en multimodal modell. Men fordi alt bor i det samme delte vektorrommet, kan modellen også svare på tvers av modaliteter.
Hvilken som helst type data inn, hvilken som helst type data ut. Keens eksempel: spør modellen om hvordan man knyter et slips, og den kan svare med noen tekstsetninger og deretter generere et kort videoklipp som viser fremgangsmåten. Begge deler bor i det samme rommet og kan genereres derfra.
Dette er hva "vilkårlig-til-vilkårlig generering" (any-to-any generation) betyr, og det er det som gjør nativt multimodale modeller fundamentalt annerledes enn eldre systemer. Det handler ikke bare om å forstå flere typer inndata. Det handler om å kunne svare i det formatet som faktisk hjelper.
Ordliste
| Begrep | Forklaring |
|---|---|
| Modalitet (modality) | En type data. Tekst, bilder, lyd og video er alle ulike modaliteter |
| Stor språkmodell (large language model, LLM) | Kjernemodellen som behandler og genererer tekst |
| Bildekoder (vision encoder) | En separat modell som gjør om bilder til tall en tekstmodell kan behandle |
| Fusjon på funksjonsnivå (feature-level fusion) | Metoden der en bildekoder og en tekstmodell kobles sammen og sender tallbaserte oppsummeringer mellom seg |
| Delt vektorrom (shared vector space) | Et felles matematisk rom der alle datatyper representeres som punkter, slik at modellen kan resonnere om dem samlet |
| Embedding | Prosessen med å gjøre om et ord, en bildebite eller en lydbit til et punkt i et vektorrom |
| Flate (patch) | En liten bit av et bilde (eller en 3D-kube av videobilder) som får sitt eget punkt i vektorrommet |
| Spatiotemporal flate (spatiotemporal patch) | En 3D-videoenhet som fanger piksler over både rom og tid. Bevegelse er bakt inn, ikke beregnet i etterkant. |
| Vilkårlig-til-vilkårlig generering (any-to-any generation) | Evnen til å ta inn hvilken som helst kombinasjon av datatyper og produsere hvilken som helst kombinasjon tilbake: tekst inn, video ut, for eksempel |
Kilder og ressurser
- IBM Technology — What is Multimodal AI? How LLMs Process Text, Images, and More (YouTube) — Originalvideoen av Martin Keen
- Martin Keen på LinkedIn — Senior Inventor hos IBM
- Meet Martin Keen — IBM Think — IBMs profil av Martin Keen
Vil du vite mer? Se hele videoen på YouTube →