NVIDIAs Nemotron 3 Super er gratis, åpen og rask

Nøkkelinnsikt

NVIDIA ga bort ikke bare modellen, men også en 51-siders teknisk rapport med full dokumentasjon av treningsdata og metodikk. Slik åpenhet i denne skalaen er sjelden og setter en ny standard for åpen AI-utvikling.
Hastighet er den egentlige overskriften. Å matche de beste lukkede modellene fra 18 måneder siden er imponerende. Å gjøre det 7 ganger raskere enn tilsvarende åpne modeller er en helt annen prestasjon.
Fire tekniske optimaliseringer (komprimering, parallell tekstgenerering, smartere minnebruk og feilkorrigering) virker sammen for å levere hastighetsgevinsten. Ingen er nye i seg selv. Bragden er å få alle fire til å fungere samtidig uten at nøyaktigheten svekkes.
Jensen Huangs investering av titalls milliarder i åpne AI-systemer er en forretningsstrategi, ikke bare sjenerøsitet. Jo flere som kjører populære åpne modeller, jo større etterspørsel etter NVIDIAs egne brikker.

Publisert 7. april 2026

Two Minute Papers

Vertskap:Dr. Károly Zsolnai-Fehér

Dette er et AI-generert sammendrag. Kildevideoen kan inneholde demonstrasjoner, visuelt innhold og ytterligere kontekst.

Se videoen · Slik genereres artiklene

Kort fortalt

«Hold on to your papers!» sier Dr. Károly Zsolnai-Fehér fra Two Minute Papers, som alltid, når han åpner videoen. Denne gangen har han god grunn. NVIDIA har lansert Nemotron 3 Super, en AI-assistent med 120 milliarder parametere som er gratis for alle, for alltid. Det som gjør den uvanlig er ikke bare selve modellen. De publiserte også en 51-siders teknisk rapport som dokumenterer hvert eneste steg i utviklingen, inkludert hvilke treningsdata som ble brukt. Dr. Károly Zsolnai-Fehér fra Two Minute Papers forklarer hvorfor det betyr noe, og hvorfor hastighetstallene er den virkelige historien.

Les også:

Full åpenhet, ikke bare gratis kode

De fleste AI-systemer er lukkede og eid av selskapet som laget dem. Du betaler abonnement, og ingen forteller deg hva modellen er trent på, hvordan den ble bygd, eller hvilke avgjørelser som ble tatt underveis. Åpne modeller er et fremskritt, men selv mange "åpne" lanseringer er ufullstendige: vektene deles, mens oppskriften på treningen holdes tilbake.

Nemotron 3 Super er annerledes. NVIDIA ga ikke bare bort modellen. De ga bort det Dr. Zsolnai-Fehér beskriver som den hellige bibelen for å lage et slikt system: en komplett teknisk rapport med full dokumentasjon av hvert steg og treningsdataene. Den typen åpenhet er sjelden i denne skalaen. Det betyr at forskere og utviklere kan lære av det, verifisere det og bygge videre på det.

Omfanget er verdt å merke seg: 25 billioner tokens (omtrent ord eller orddeler) ble brukt som treningsdata, inn i en modell med 120 milliarder parametere (de interne verdiene en modell lærer under trening; flere parametere gir som regel høyere kapasitet). Resultatet matcher omtrent de beste lukkede toppmodellene (de mest avanserte AI-systemene som fantes på det tidspunktet) fra rundt halvannet år siden. Modeller som kostet milliarder av dollar å bygge og holdt alle detaljer hemmelig. Nå kan du bare laste ned dette.

Hastighetstallene endrer regnestykket

Benchmarkene (standardiserte tester for å sammenligne AI-modeller) viser Nemotron 3 Super nær toppen av resultatlisten for åpne modeller i de fleste tester. Det alene hadde vært et solid resultat. Men det er en annen historie skjult i dataene.

NVIDIA lanserte to varianter: BF16 (standardformat med høy presisjon) og NVFP4 (det komprimerte formatet). De holder omtrent samme nøyaktighet. Men NVFP4-varianten er 3,5 ganger raskere enn NVIDIAs tidligere tilsvarende modell, og opptil 7 ganger raskere enn tilsvarende smarte åpne modeller. Historien er ikke bare den "like smarte" delen. Historien er 7 ganger raskere mens den er like smart.

Det endrer kostnadene ved å kjøre AI. Raskere svartid betyr at hvert spørsmål du stiller modellen koster mindre å beregne, noe som gjør den tilgjengelig for langt flere.

Fire ingeniørtriks bak hastigheten

Hvordan gjør du en modell med 120 milliarder parametere 7 ganger raskere uten å miste nøyaktighet? NVIDIA brukte fire teknikker i kombinasjon. Ingen er helt nye i seg selv. Bragden er å få alle fire til å fungere ryddig sammen.

NVFP4-kvantisering er den mest synlige. Kvantisering (quantization) betyr å komprimere matematikken en AI bruker ved å runde av sifre i beregningene, slik at den kjører raskere med mindre minne. Normalt fører dette til at nøyaktigheten faller raskt: rund for aggressivt, og modellen produserer tull. NVIDIAs tilnærming bruker avrunding bare der det ikke gjør meningsfull skade, og lar de sensitive beregningene være urørt. Resultatet er dramatisk mindre beregningsarbeid uten merkbart tap av nøyaktighet.

Flertokenpredikering (multi-token prediction) endrer måten modellen genererer tekst på. Standard AI-modeller skriver ett token (omtrent ett ord) om gangen. Denne modellen beregner 7 tokens samtidig og verifiserer dem i ett steg. Å skrive sju ord på den tiden det pleide å ta å skrive ett er, som Dr. Zsolnai-Fehér sier, nok en massiv hastighetsgevinst.

Mamba-lag (mamba layers) løser et minneproblem. Tradisjonelle AI-systemer fungerer som en student som leser hele pensum på nytt for hvert eneste spørsmål som stilles. Mamba-lag endrer dette: les materialet én gang, ta komprimerte notater, behold det viktige, kast fyllordet. Systemet kan behandle store mengder kontekst uten at minnebruken vokser tilsvarende.

Stokastisk avrunding (stochastic rounding) løser et problem de tre andre teknikkene skaper. Når du runder av tall i hvert steg, akkumuleres små feil. Over mange beregningssteg forsterkes disse feilene, litt som å gå 100 skritt mot bilen din der hvert skritt er litt kortere enn det burde være: du kommer aldri helt frem. Stokastisk avrunding legger til nøye utformet tilfeldig støy, slik at noen skritt er litt lengre og noen litt kortere, og feilene jevner seg ut over mange steg. Presis ankomst, hver gang.

Jensens åpne veddemål

Jensen Huang i NVIDIA investerer angivelig titalls milliarder dollar i fullt åpne AI-systemer som dette. Det høres ut som ekstraordinær sjenerøsitet fra et av verdens mest verdifulle selskaper.

Det gir også god forretningsmessig mening. Hver åpen modell NVIDIA lanserer skaper etterspørsel etter NVIDIAs maskinvare. Å kjøre en modell med 120 milliarder parametere krever seriøs datakraft, nærmere bestemt GPUer (grafikkprosessorer som er tilpasset AI-beregninger). Jo flere mennesker og organisasjoner som kjører kraftige åpne modeller, jo flere kraftige grafikkort kjøper de. For NVIDIA er åpen AI en maskinvarestrategi, ikke veldedighet.

Det svekker ikke hva Nemotron 3 Super betyr for alle andre. Lukket AI pleide å dominere. Det er i ferd med å endre seg. Forbrukere og utviklere har nå tilgang til ytelse på toppnivå, gratis, med en fullstendig teknisk forklaring av hvordan det fungerer. Uansett hva som driver det: det er en reell forandring. Som Dr. Zsolnai-Fehér avslutter: «What a time to be alive!»

Ordliste

Begrep	Forklaring
Parametere (parameters)	De interne verdiene en AI-modell lærer under trening. Flere parametere gir som regel høyere kapasitet. Nemotron 3 Super har 120 milliarder.
Kvantisering (quantization, NVFP4)	Å komprimere matematikken en AI bruker ved å runde av sifre i beregningene, slik at den kjører raskere med mindre minne. NVFP4 er NVIDIAs tilnærming som gjør dette selektivt for å unngå nøyaktighetstap.
Flertokenpredikering (multi-token prediction)	I stedet for å generere ett ord om gangen predikerer modellen flere ord samtidig og verifiserer dem i ett steg.
Mamba-lag (mamba layers)	En minnearkitektur som leser inndata én gang og tar komprimerte notater, i stedet for å lese alt på nytt for hvert spørsmål.
Stokastisk avrunding (stochastic rounding)	Å legge til nøye utformet tilfeldig støy i beregningene slik at små avrundingsfeil jevner seg ut over mange steg i stedet for å forsterkes.
Modell med åpne vekter (open-weight model)	En AI-modell der de trente vektene er offentlig tilgjengelige for alle som vil laste ned og kjøre dem.
Benchmark	En standardisert test for å sammenligne AI-modeller mot hverandre. Fungerer som en karakterskala.
Inference (svartid)	Når en ferdigtrent AI-modell beregner et svar på et spørsmål. Det er dette som skjer hver gang du bruker ChatGPT eller lignende. Raskere inference betyr lavere kostnad per spørsmål.

Kilder og ressurser

NVIDIA's New AI Just Changed Everything — Two Minute Papers — Original video av Dr. Károly Zsolnai-Fehér, 7. april 2026
NVIDIA Nemotron 3 Super Technical Report — Fullstendig 51-siders rapport med arkitektur, treningsdata og benchmarks
Jensen Huang — Wikipedia — Administrerende direktør og medgründer av NVIDIA
Dr. Károly Zsolnai-Fehér — TU Wien — Vert for Two Minute Papers, forsker ved TU Wien