Inni Gemma 4: Hva Googles åpne modeller kan

Nøkkelinnsikt
- Apache 2.0-lisensen kan bety mer enn selve modellen. Tidligere Gemma-versjoner hadde restriksjoner som drev utviklere til Llama og Qwen i stedet. Nå kan hvem som helst bruke, tilpasse og selge produkter basert på Googles beste åpne modell.
- MoE-arkitekturen gir stor-modell-intelligens til brøkdel av prisen. 26 milliarder parametere totalt, men bare 3,8 milliarder er aktive per token. Du får omtrent det samme som en 27B-modell, til kostnaden av en 4B-modell.
- Innebygd lyd, syn og funksjonskalling gjør separate verktøykjeder unødvendige. Tidligere måtte du koble til Whisper for lyd og separate biblioteker for bildeforståelse. Nå er alt én modell.
- Edge-modellene viser at ekte AI på telefonen din begynner å bli praktisk. E2B med 128K kontekstvindu, syn, lyd og tenkning i en modell liten nok for en Raspberry Pi.
Dette er et AI-generert sammendrag. Kildevideoen kan inneholde demonstrasjoner, visuelt innhold og ytterligere kontekst.
Kort fortalt
Google DeepMind slapp fire nye Gemma 4-modeller denne uken, og de kan tenke, se, høre og kalle på eksterne verktøy. Alt dette ville vært nok til å gjøre dem interessante. Men det virkelig overraskende er noe annet: for første gang distribuerer Google sine åpne modeller under en Apache 2.0-lisens. Det betyr ingen restriksjoner, ingen særvilkår og ingen begrensninger på kommersiell bruk.
Sam Witteveen, medgründer i Red Dragon AI og Google Developer Expert innen maskinlæring, gikk gjennom arkitekturen og kjørte live-demoer med den minste modellen i familien.
Les også:
Lisensen er den egentlige nyheten
Teknologien i Gemma 4 er imponerende. Men spør du utviklere som har fulgt Google-modellene over tid, er det én ting de snakker om først:
«Det interessante er lisensen. Gemma 4 leveres under en Apache 2-lisens. Ikke en tilpasset lisens med rare restriksjoner og den type 'åpne vekter, men du får ikke konkurrere med oss'-klausuler. Dette er en ekte Apache 2-lisens, som betyr at du for første gang kan ta Googles beste åpne modell, modifisere den, finjustere den, distribuere den kommersielt, gjøre hva du vil med den. Ingen forbehold.»
Apache 2.0 (en tillatelse som sier «gjør hva du vil med dette, inkludert å tjene penger på det») var det som manglet i tidligere Gemma-versjoner. Mange utviklere gikk da til Meta Llama eller kinesiske Qwen i stedet, selv om Googles modeller teknisk sett var gode. Hent modellene fra Hugging Face og bruk dem fritt.
Tidspunktet er neppe tilfeldig. Flere kinesiske leverandører av åpne modeller har nylig trukket tilbake sine nyeste utgivelser og sluttet å gjøre dem åpne. Google beveger seg i motsatt retning.
To familier for to brukstilfeller
Gemma 4 kommer i fire modeller fordelt på to nivåer.
Arbeidsstasjon: Disse er laget for kraftige maskiner og servere.
- 26B MoE (26 milliarder parametere totalt, 3,8 milliarder aktive) med 256K kontekstvindu
- 31B tett modell med 256K kontekstvindu
Edge-modeller (E2B og E4B): Små nok til å kjøre lokalt på telefonen, PC-en eller en Raspberry Pi, uten å sende noe til skyen. Begge har 128K kontekstvindu, lyd, syn og tenkning.
Kontekstvinduet er hvor mye modellen kan «huske» i én samtale. 128K tokens tilsvarer omtrent en hel bok. 256K tilsvarer to bøker. Hvis du har chattet med en AI og den begynner å rote og glemme hva dere snakket om, er kontekstvinduet fullt.
Ytelsestallene for den tette 31B-modellen er sterke: 85,2 % på MMLU (bred kunnskap), 89,2 % på AIME 2026 (matematikk) og 80,0 % på LiveCodeBench v6 (kodegenerering).
Arbeidsstasjon-modellene er trent på 140 språk i grunnopplæringen og har instruksjonsfinjustering på 35 språk. Norsk er med.
Arkitekturen: 128 spesialister i ett rom
Workstation-varianten med 26 milliarder parametere er bygget på en arkitektur som heter blanding av eksperter, på engelsk Mixture of Experts (MoE). Tenk deg en skoleklasse med 128 elever som alle er eksperter på hvert sitt smale felt. Når du stiller et spørsmål, er det bare de 8 elevene som kan svaret best, som rekker opp hånden. De andre sitter stille.
Det er slik MoE fungerer. Modellen har 26 milliarder parametere totalt, men for hvert enkelt ord den prosesserer, aktiveres bare 3,8 milliarder. Resultatet: omtrent samme intelligens som en modell med 27 milliarder aktive parametere, til en brøkdel av regnekostnaden.
Den tette 31B-varianten tar en annen vei. Der er alle 31 milliarder parametere aktive hele tiden, som en klasse der alle svarer simultant. Mer grundig, men dyrere å kjøre. Den har fått oppgradert oppmerksomhetsmekanisme (attention) og normalisering som er optimalisert for lang kontekst, noe som gjør den spesielt egnet som lokal kodingsassistent.
Google slipper også QAT-sjekkpunkter (kvantiseringsbevisst trening), en teknikk som krymper modellen uten å miste kvalitet, som å pakke en koffert smartere slik at alt fortsatt får plass, men med halvparten av vekten.
Alt er innebygd, ingenting er limt på
Før Gemma 4 måtte du sette sammen flere systemer for å bygge en lokal AI-assistent som kunne lytte, se og bruke verktøy. Du kjørte én modell for tekst, la til Whisper for lydtranskribering, koblet på en separat bildemodell, og håpet at alt fungerte sammen. Gemma 4 har alt dette innebygd fra arkitekturnivå.
Tenkning: Modellen kan resonnere over lengre kjeder av tanker før den svarer, det som kalles chain-of-thought (trinnvis tankeresonnering). Du aktiverer det med én kodelinje: enable_thinking=True. Fungerer ikke bare for tekst, men også for bilder og lyd.
Funksjonskalling (function calling) er bakt inn fra bunnen av, ikke avhengig av at modellen gjetter seg frem basert på instruksjoner. Det betyr at Gemma 4 kan be om hjelp fra eksterne verktøy midt i en samtale, som en kokk som ringer leverandøren for en manglende ingrediens mens maten er på komfyren. Det er tilpasset arbeidsflyter der modellen styrer flere verktøy i sekvens, med støtte for flertrinnsoppgaver.
Syn og video: Den nye bildekoderen håndterer naturlige bildeformater (aspect ratio) riktig, noe tidligere Gemma-varianter slet med. Det betyr bedre tekstgjenkjenning i bilder (OCR) og dokumentforståelse. Edge-modellenes bildekoder er halvert fra 300-350 millioner til 150 millioner parametere og dermed mye raskere.
Lyd: Edge-modellene E2B og E4B støtter automatisk talegjenkjenning (ASR) og tale-til-oversatt-tekst direkte. Lydkoderen er halvert i størrelse fra Gemma 3N: fra 681 millioner til 305 millioner parametere, og diskplassen falt fra 390 MB til 87 MB. Responstiden ble også bedre: fra 160 millisekunder ned til 40 millisekunder per ramme.
Hva den minste modellen klarer
Witteveen kjørte E2B live i videoen. Noen konkrete resultater:
Bildeforståelse: Han sendte inn et bilde av en jente og en hund på en strand og ba modellen beskrive hva som skjedde. Modellen ga en presis og detaljert beskrivelse av scenen, personene og stemningen.
Lydtranskribering: Han spilte av en lydfil med to stemmer som sang. Modellen transkriberte begge stemmene nøyaktig, med korrekt tekst for både mannen og kvinnen.
Tale til oversettelse: Han ba modellen ta en engelsk lydfil og oversette innholdet til japansk. Modellen transkriberte først på engelsk, deretter ga den en japansk oversettelse. En rask sjekk i Google Translate bekreftet at oversettelsen var riktig.
Alt dette i en modell liten nok til å kjøre på en enkelt T4-GPU (et mellomklasse grafikkort) uten tilpasninger.
«Ikke glem at dette bare er E2B-modellen. Dette er en veldig liten modell.»
Hvem er dette for?
Witteveen peker på tre klare brukstilfeller:
Lokal kodingsassistent: 31B-modellen er kraftig nok til å fungere som en IDE-assistent (et verktøy integrert i kodeeditoren din) for kodegenerering, fullføring og feilretting.
Edge-enheter og telefoner: E2B og E4B er designet for å kjøre på telefoner, Raspberry Pi og lignende. For deg som vil ha en stemmeassistent som ikke sender noe til skyen, er dette det nærmeste du kommer i dag med åpne modeller.
Serverløs sky: Google Cloud Run støtter nå serverløs kjøring med GPU. Det betyr at du kan kjøre de store arbeidsstasjon-modellene uten å holde en server varm hele tiden. Den skrur seg av når den ikke brukes, og starter igjen på forespørsel.
Ordliste
| Begrep | Forklaring |
|---|---|
| Blanding av eksperter (Mixture of Experts, MoE) | Arkitektur der modellen har mange spesialiserte deler, men bare aktiverer noen få av dem per spørsmål. Gir stor-modell-kvalitet til lav-modell-kostnad. |
| Tett modell (dense model) | En modell der alle deler er aktive hele tiden, i motsetning til MoE. Grundigere, men krever mer regnekraft. |
| Apache 2.0-lisens | En åpen lisens som lar deg bruke, endre og selge produkter basert på koden, uten restriksjoner. |
| Funksjonskalling (function calling) | Modellens evne til å be om hjelp fra eksterne verktøy eller systemer midt i en samtale. |
| Kontekstvindu (context window) | Hvor mye tekst modellen kan «huske» i én samtale. 128K tokens tilsvarer omtrent én hel roman. |
| Edge-modell (edge model) | En AI som kjører lokalt på enheten din uten internettforbindelse. Ingenting sendes til skyen. |
| Kvantiseringsbevisst trening (QAT, Quantization-Aware Training) | Teknikk for å krympe en modell slik at den tar mindre plass og kjører raskere, uten at kvaliteten faller merkbart. |
| Automatisk talegjenkjenning (ASR, Automatic Speech Recognition) | Teknologi som konverterer tale til tekst, det som skjer når du dikterer en melding på telefonen. |
| Multimodal (multimodal) | En modell som forstår mer enn tekst: bilder, lyd og video i tillegg. |
Kilder og ressurser
- Sam Witteveen — Gemma 4 Has Landed! (YouTube) — Kildevideo med live-demoer og gjennomgang av arkitekturen
- Google Blog — Gemma 4 — Offisiell lansering
- Google DeepMind — Gemma 4 — Modellside med benchmarks
- Google AI — Gemma-dokumentasjon — Offisiell utviklerdokumentasjon
- Gemma 4-samlingen (Hugging Face) — Nedlasting av modellvekter
Vil du vite mer? Se hele videoen på YouTube →