Nano Banana: Slik lærte Google AI å lage bilder av deg

Nøkkelinnsikt
- At AI-bilder faktisk ligner personen er ikke bare et spørsmål om størrelsen på modellen. Det krevde grundig utvelgelse og kvalitetssikring av treningsdata, og teammedlemmer som var besatt av å løse enkeltproblemer, som at tekst i bilder skal se riktig ut.
- For visuell AI holder ikke automatiske målinger alene. Du kan bare vurdere ansiktslikhet på ansikter du kjenner, og det er nettopp derfor Google bruker interne menneskelige tester, kunstnere og ledere som testpersoner.
- Moro var en bevisst inngangsport til praktisk bruk. Folk kom for figuriner og røde løpere, og ble for bilderedigering og læring. Selv foreldre og tanter har begynt å bruke Gemini.
- Chatbot-grensesnittet begynner å bli en flaskehals for visuelt kreativt arbeid. De neste konkurransefortrinnene vil ligge i skreddersydde verktøy for ulike kreative oppgaver.
Dette er et AI-generert sammendrag. Kildevideoen kan inneholde demonstrasjoner, visuelt innhold og ytterligere kontekst.
Kort fortalt
Da Google lanserte Nano Banana, bildegeneratoren bygget inn i Gemini, spredte det seg som ild i tørt gress. Grunnen var enkel: bildene den laget så faktisk ut som deg. Ikke en tilfeldig versjon av deg. Deg.
Nicole Brichtova og Hansa Srinivasan er henholdsvis produktsjef og ingeniørsjef for Gemini Image hos Google DeepMind. I denne samtalen med Sequoia Capital-partnerne Stephanie Zhan og Pat Grady forteller de historien bak modellen: hva som faktisk gjorde det mulig at bildene ligner personen, hvorfor menneskelig vurdering slår automatiske tester, og hvordan et kodenavn fra klokken to om natten ble et markedsføringsfenomen.
Les også:
Det som ingen andre hadde fått til
Forsøket hadde startet som en intern test. Nicole tok et bilde av seg selv, ba modellen plassere henne på den røde løperen i full glamour, og fikk tilbake noe hun ikke hadde forventet: et bilde som faktisk lignet henne.
«Jeg sammenlignet det med alle modellene vi hadde hatt før. Ingen av dem lignet meg på ordentlig. Og da ble jeg virkelig begeistret.»
Det høres kanskje enkelt ut. Men det er det ikke.
«Du kan egentlig bare vurdere ansiktslikhet på deg selv», forklarer Nicole. Ser du et AI-bilde av en fremmed, godtar du kanskje ansiktet. Men personen selv ville sagt at nesa er litt feil, øynene sitter litt for høyt. Akkurat det er grunnen til at Google nå tester modellen med bilder av egne teammedlemmer. Det er den eneste måten å vite om modellen faktisk leverer.
At AI-genererte bilder faktisk ligner personen de skal forestille, hadde vært et kjent problem i bransjen i årevis. Annonsørene visste det. En t-skjorte i en livsstilsfoto må se ut som din t-skjorte, ellers kan du ikke bruke bildet i en reklame. Google visste at det var en mangel, og de mente de hadde riktig oppskrift til å løse det.
Oppskriften: data, kontekstvindu og besatte mennesker
Hva er så oppskriften? Hansa peker på tre ting.
For det første er Nano Banana bygget på Gemini, en AI-modell som håndterer tekst, bilde, lyd og video i samme system, trent på store mengder data og god til å bruke det den har lært på nye oppgaver. Det betyr at modellen ikke bare har lært å gjenskape ansikter, men å forstå dem.
For det andre gir Geminis lange kontekstvindu (mengden informasjon modellen kan holde i «hodet» samtidig) muligheten til å holde på detaljer over flere steg. Tidligere måtte du gi AI-en 10 bilder av deg og 20 minutters tilpasning. Det var for mye jobb for vanlige brukere og tok aldri av skikkelig. Nå holder ett bilde, og du kan prøve deg frem i en vanlig samtale.
For det tredje handler det om folk. «Mye av det vi blir bedre på, skyldes at det er én person på teamet som er besatt av å få det til å fungere», sier Hansa. Tekstgjengivelse i bilder, at bokstaver faktisk ser riktige ut, er et eksempel. Teamet har én person som ikke kan gi slipp på det problemet. Og det syns.
Det er håndverket i AI. Vi snakker sjelden om det, men det betyr like mye som regnekraft.
Menneskelige tester slår tallene
Å vurdere bildekvalitet er ikke som å sjekke om regnestykket er riktig. Du kan ikke bare si at modellen er «10% bedre» og forvente at noen skjønner hva det betyr. Derfor har Google satset tungt på menneskelige vurderinger.
«Menneskelig evaluering har vært avgjørende for oss», sier Hansa. Artister internt hos Google og Google DeepMind tester modellene. Ledere spiller med dem. Og teamet ser på hva som faktisk treffer folk, ikke bare hva tallene sier.
Det er en viktig forskjell. En ytelsestest kan vise at ansiktslikhet er bedre. Men det kan ikke vise at noen nå for første gang kan gjenopprette et familieportrett som ble klippet i stykker da de var fem år. Det er den type historier som forteller deg at modellen er god på ordentlig.
Kodenavnet som kom klokken to
Klokken var rundt to om natten da modellen skulle ut på Arena, en plattform der anonyme AI-modeller konkurrerer mot hverandre og brukere stemmer på hvem som er best. Alle modeller trenger et kodenavn. Noen sendte en melding til Nina, en produktsjef på teamet: hva kaller vi den?
Hun var sliten. Hun svarte med det første som falt henne inn: Nano Banana.
«Det var en slags genistrek som kom til henne klokken to», sier Hansa med et smil. Og det viste seg å fungere. Lett å uttale. Morsomt. Har en emoji, noe teamet mener er avgjørende for merkevarebygging i dag. Og det føltes typisk Google: lekent og jordnært.
Da modellen ble offentlig ble folk forvirret. Folk ropte «Nano Banana, Nano Banana», men visste ikke at det bare var Gemini. Google endte opp med å sette banansymboler i appen for å gjøre det lettere å finne modellen.
Moro som inngangsport
Det er lett å avfeie bildegenerering som lek. Men Nicole og Hansa ser noe mer i det.
Folk kom til Gemini for å lage 3D-figurer av seg selv. For å sette seg selv på den røde løperen. For å leve ut barndomsdrømmer om yrker. Det er morsomt. Men det er ikke bare moro. Når folk først er inne i appen, begynner de å bruke den til andre ting. Studere. Løse mattestykker. Fjerne folk fra bakgrunnen på et bilde. Lage visuelle notater av kompliserte fagartikler.
Nicole forteller om en mann som brukte modellen til å lage visuelle notater av farens forelesninger. Faren er kjemiker, og for første gang på tiår kunne de to ha en ordentlig samtale om forskningen hans.
Hansas mor oppdaget at hun kunne bruke Gemini til å fjerne uønskede folk fra bilder. Det begynte som tull, ble til noe nyttig.
Nicole mener det er undervurdert å bare ha litt moro. Det senker terskelen. Folk prøver noe som ikke føles skummelt. Og så oppdager de resten.
Hva kommer videre
På spørsmål om fremtiden peker Nicole på personalisert undervisning: «Det er ingen grunn til at vi og du skal lære fra den samme læreboken hvis vi har ulike læringsstiler og ulikt utgangspunkt.» En AI-tutor som vet at du forstår fysikk bedre med basketballanaloger. En lærebok tilpasset deg.
Hansa peker på noe annet: 95% av det AI-en produserer i dag er tekst. Men vi tar ikke til oss informasjon bare som tekst. Wikipedia har bilder. Khan Academy startet på YouTube. Fremtidens AI bør selv vurdere om svaret best forklares med et diagram, et bilde eller en kort video, i stedet for å vente på at du ber om det.
Begge peker på chatbot-grensesnittet som en flaskehals. Det er en fin inngangsport, men det holder ikke for visuelt kreativt arbeid. De neste verktøyene trenger mer presise kontroller: en kreativ arbeidsflate, ikke bare en tekstboks. Det er rom for startups her. Ikke for å bygge enda en chatbot, men for å bygge spesialiserte verktøy for spesifikke kreative prosesser.
Sikkerhet i bakgrunnen
Et spørsmål som alltid følger kraftige bildegeneratorer: hva med deepfakes (forfalskede bilder og videoer laget med AI)? Google har to lag med beskyttelse. Alle bilder fra Gemini har et synlig merke som viser at de er AI-generert. I tillegg er SynthID bakt inn: usynlig vannmerking i selve bildet som lar deg verifisere at noe er AI-laget selv om det synlige merket fjernes. Det er Googles standard på tvers av alle modeller: Gemini, Veo og resten av familien.
Ordliste
| Begrep | Forklaring |
|---|---|
| Gjenkjennbare ansikter (character consistency) | At en AI-generert person ser lik ut på tvers av ulike bilder og scener — ansiktstrekk, hudtone og proporsjoner bevares |
| Multimodal | En AI-modell som forstår og genererer flere typer innhold (tekst, bilde, video, lyd) i samme system |
| Menneskelig evaluering (human evaluation) | Å la mennesker vurdere AI-output i stedet for å stole bare på automatiske målinger |
| SynthID | Googles teknologi for usynlig vannmerking av AI-generert innhold — lar deg verifisere om noe er AI-laget uten at det synes |
| Arena (Chatbot Arena) | En plattform der anonyme AI-modeller konkurrerer mot hverandre — brukere stemmer på hvilken som er best |
Kilder og ressurser
Vil du vite mer? Se hele videoen på YouTube →