Å bygge et AI-kamera, med en agent som viser veien

Kort fortalt

ImageGenCam er et byggesett fra OpenAI: et digitalkamera du lager selv, som sender bildene gjennom AI og forvandler dem mens du fotograferer.
Du trenger ikke kode. En AI-agent ved navn Codex bygger og setter opp alt, og du styrer det med vanlige ord på ditt eget språk.
Tre lag bruker samme grep: bildeoppskriftene, Magic-knappen og agentens egne kjøreregler er alle skrevet i klartekst, ikke i kode.
Det egentlige poenget er ikke kameraet, men at språk er blitt grensesnittet: du kan bygge noe ekte ved å beskrive det med ord.

Les også:

Dette er en gjennomgang av et prosjekt fra OpenAI som heter ImageGenCam: et digitalkamera du bygger selv, som sender bildene gjennom AI og forvandler dem mens du fotograferer. Tanken er ikke å kode for hånd, men å styre hele prosessen med en AI-assistent, stille spørsmål underveis og skrive ned det vi lærer.

Du trenger ikke være utvikler for å være med. En AI-assistent som heter Codex tar seg av all kodingen. Du skriver eller snakker med vanlige ord, på ditt eget språk. ImageGenCam er tenkt som et helgeprosjekt for nysgjerrige folk flest, fra ivrige skoleelever til kunstnere, håndverkere og ingeniører. Er du allerede vant til Codex, Raspberry Pi (en liten datamaskin) og 3D-printing, kan du være i gang på under en time.

Først: å hente prosjektet hjem

Alt starter med en lenke til et repo. Er du ikke teknisk? Tenk på et repo (kort for "repository") som en mappe med filer som ligger på nett, hos en tjeneste som heter GitHub.

Du trenger ikke laste ned noe manuelt. Du ber rett og slett Codex, OpenAIs AI-assistent, om å hente prosjektet, så ordner den resten. Det den gjør under panseret kalles å klone: den henter en kopi som fortsatt henger sammen med originalen. Det er den koblingen som gjør at du senere kan få oppdateringer hvis OpenAI gjør endringer.

Hva er ImageGenCam?

ImageGenCam er ikke en app man bare installerer. Det er et byggesett for et fysisk kamera.

Alle delene lagt utover: 3D-printet kamerahus, Raspberry Pi Zero, PiSugar-batteri, skjerm med fire knapper, kamera og micro-SD-kort

Her er hver del forklart:

PiSugar-batteri: et oppladbart batteri, så kameraet kan brukes uten å være koblet til strøm.
Raspberry Pi Zero: en bitteliten datamaskin, på størrelse med en fyrstikkeske. Dette er hjernen som styrer alt.
LCD-skjerm med fire knapper: kameraets skjerm, samme flatskjerm-teknologi som i mobiler og tv-er. Den er både søker (det du ser før du knipser) og meny du styrer med knappene.
Micro-SD-kort: lagringen. Her ligger både programmet som får kameraet til å virke, og bildene du tar.
Raspberry Pi-kamera: selve "øyet", den lille linsa som fanger bildet.
3D-printet kamerahus: skallet som holder alle delene samlet og beskyttet, det du printer selv.

Du setter sammen delene vist i bildet over og kler dem i et hus du printer selv. Tar du et bilde, sendes det til OpenAIs bildemodell, som forvandler det etter en oppskrift du har valgt. De innebygde oppskriftene er veldig forskjellige: én gjør alle i bildet til ost, én tegner det om til en klønete krusedull laget med datamusen, én gjør personen i bildet til en fargerik anime-figur, og én forvandler deg til en liten goblin. Hva kameraet ditt skal gjøre, er det bare du som bestemmer.

Før og etter: en helt vanlig bil til venstre, samme bil forvandlet til ost til høyre

Oppskriftene er bare et utgangspunkt. En oppskrift er ikke kode, bare en kort tekst som forteller AI-en hva bildet skal bli. Du kan endre dem, lage dine egne og finjustere helt til kameraet føles som ditt. En liten app på mobilen kobler seg til kameraet, så du kan laste ned bildene og bytte oppskrifter rett fra telefonen.

Hva trenger du for å sette i gang? Delene i bildet over, en Mac med Codex Desktop installert, et stabilt wifi og en OpenAI-konto. Bruker du ChatGPT fra før, har du allerede en konto.

Det aller mest spennende er måten prosjektet er ment å bygges på. Hele bygge- og oppsettsprosessen er laget for å styres av en AI-agent. Man skriver bare "hjelp meg å lage ImageGenCam" til agenten, så leser den prosjektet og guider steg for steg gjennom hele monteringen og oppsettet. Det er derfor prosjektet har to ulike "lesemeg"-filer: én skrevet for mennesker, og én skrevet for AI-agenten som skal gjøre jobben. Det er en helt ny måte å gi et prosjekt videre til andre på, og du møter den igjen lenger ned.

Codex Desktop på en Mac, med prompten "Help me make ImageGenCam" klar til å sende

Hjelp meg å lage ImageGenCam https://github.com/openai/imagegencam

Hva er Codex? Det er en AI-assistent fra OpenAI, samme selskap som lager ChatGPT. Du bruker den på nesten samme måte: åpne et chatvindu og skriv hva du vil ha gjort, på ditt eget språk. Forskjellen er at mens ChatGPT svarer med tekst, kan Codex faktisk utføre oppgaver på maskinen din. Den leser prosjektet, setter opp ting og fikser feil underveis. Det er derfor den kan bygge dette kameraet sammen med deg, steg for steg, i stedet for bare å forklare hvordan.

Kartet over prosjektet

Når man åpner mappen for første gang, kan listen av filer virke overveldende. Men dette er noe du strengt tatt ikke trenger å bry deg om: Codex tar seg av alt det tekniske. Vil du likevel vite hvordan ting henger sammen, er hele listen her forklart:

imagegencam/
├── README.md          "Les meg" for mennesker: deleliste, knapper, oppskrifter
├── AGENTS.md          "Les meg" for AI-agenten som bygger prosjektet
├── 3d model/          Selve kamerahuset, klart til 3D-printer
├── software/          Koden som kjører inni kameraet
│   ├── src/           Selve hjernen i koden ("src" = source, kildekoden)
│   ├── scripts/       Små hjelpeprogrammer som kjører på kameraet
│   ├── deploy/        Verktøy for å få koden over på kameraet
│   ├── data/          Ferdige bilde-oppskrifter med mer
│   ├── tests/         Automatiske kontroller som sjekker at koden virker
│   └── ARCHITECTURE.md  Forklaring på hvordan koden henger sammen
├── docs/              Guider, blant annet de agenten følger steg for steg
├── scripts/           Hjelpeprogrammer som kjører på en Mac, ikke på kameraet
├── assets/            Bilder brukt i dokumentasjonen
├── LICENSE / NOTICE   Det juridiske: lov til å bruke og endre dette fritt
└── SECURITY.md        Rutiner hvis man finner et sikkerhetsproblem

Det er hele oversikten. Prosjektet er hentet hjem på datamaskinen din, du vet hva det er, og kartet er på plass. Videre går du inn i selve hjernen: hvordan koden inni kameraet er bygget opp.

Inni hjernen: koden som får kameraet til å virke

I kartet fikk mappen software/src/ navnet "selve hjernen i koden". Inni den ligger sju små filer, alle skrevet i programmeringsspråket Python, som er grunnen til at navnene ender på .py. Koden følger to enkle regler. Den første: la kameraet gjøre minst mulig om gangen, for Raspberry Pi-en er en svak liten datamaskin og blir lett overbelastet. Den andre: et bilde du har tatt skal aldri gå tapt, selv om nettet faller ut eller batteriet dør.

Tre av filene gjør mesteparten av jobben.

Den første er oppstarteren (app.py). Den gjør jobben sin i det øyeblikket du slår på kameraet: den vekker alle delene og kobler dem sammen, både kameraet, skjermen, AI-en og mobil-appen. Selve filen er bitteliten, bare rundt 70 linjer, for den skal kun koble ting sammen, ikke gjøre alt arbeidet selv.

Den andre er hjertet (controller.py). Dette er den største filen, og den jobber uten pause så lenge kameraet er på. Om og om igjen gjør den det samme: henter inn det linsa ser mange ganger i sekundet og viser det på skjermen som en levende søker, følger med om du trykker på en knapp, tar bildet når du klikker, og holder styr på albumet og hvor mye batteri du har igjen. Alt du opplever som selve kameraet, skjer her inne.

Den tredje er mobil-appen (web.py). Kameraet lager sin egen lille nettside helt selv, en slags fjernkontroll du åpner på telefonen. Er telefonen din på samme wifi, kan du åpne den siden og laste ned bilder, bytte oppskrifter og se det kameraet ser akkurat nå. Siden finnes bare på ditt eget nettverk, ikke ute på det åpne internett. Det er gjort med vilje, av hensyn til sikkerheten.

Men hva om du vil ut og gå med kameraet, og du er langt unna wifi-en din hjemme? Da slår du på internettdeling (hotspot) på telefonen, så lager den sitt eget lille wifi-nett som kameraet kobler seg til. Telefonen dekker begge behov på én gang: mobildata gir kameraet internett, så AI-en virker, og hotspoten er det felles nettet, så mobil-appen fortsatt finner kameraet.

De fire siste er hjelpere som gjør én ting hver:

AI-praten (openai_client.py): all kontakt med OpenAI samlet på ett sted. Den sender bildet ditt ut til OpenAI, der det forvandles, og henter det ferdige tilbake.
Hukommelsen (config.py): husker oppskriftene og innstillingene dine, så kameraet er likt neste gang du slår det på.
Køen (job_store.py): en liten "huskeliste" på minnekortet over bilder som venter på å bli forvandlet.
Wifi-styringen (wifi_manager.py): lar deg prøve et nytt wifi-nett trygt fra kameraet: virker det ikke, kobler kameraet seg selv tilbake til det gamle.

Verdt å vite:

Verdt å vite: Hva skjer hvis nettet faller ut eller batteriet dør akkurat idet AI-en jobber? Kameraet lagrer alltid bildet ditt på minnekortet først, før det sendes til OpenAI. Selve forvandlingsjobben legges også i kø på minnekortet, ikke bare i kameraets midlertidige minne. Forskjellen er viktig: minnekortet husker selv om strømmen går, mens det midlertidige minnet tømmes i samme øyeblikk. Ryker strømmen, plukkes jobben opp igjen og prøves på nytt når kameraet starter. Derfor kan du fortsette å knipse mens forrige bilde fortsatt forvandles i bakgrunnen, og ingenting går tapt på veien.

Det er hele hjernen: én fil som starter alt, én som er selve kameraet, én for telefonen, og noen små hjelpere rundt. Videre ser du hvordan du faktisk bruker kameraet i hånden: knappene, søkeren og albumet.

Kameraet i hånden: knapper, søker og album

Når kameraet er ferdig montert, ser det kanskje litt rart ut, men i bruk minner det om et helt vanlig pek-og-knips-kamera: du sikter, trykker på utløseren, og bildet blir tatt. Det spesielle er det som skjer etterpå, når AI-en forvandler bildet. Først knappene.

ImageGenCam sett forfra med alle knappene merket: Magic-knapp og ladeport oppe til venstre, utløser/av-på oppe til høyre, to funksjonsknapper på venstre side, og opp/ned på høyre side

Den viktigste knappen sitter oppe til høyre: utløseren, som også er av- og på-knappen. Et kort trykk tar bildet. Et langt trykk skrur kameraet av. For å slå det på igjen er det en liten egen rytme: kort trykk, slipp, langt trykk, slipp.

Verdt å vite:

Verdt å vite: Hvorfor en så tungvint kombinasjon bare for å slå på? Det er gjort med vilje. En enkelt på-knapp ville lett blitt dyttet inn i lomma eller sekken, og da ville kameraet våknet av seg selv og tappet batteriet. Den lille rytmen fungerer som en lås, omtrent som mønsteret du må taste for å vekke en telefon. Kameraet starter bare når du faktisk mener det.

På venstre side sitter to knapper, merket "Function 1" og "Function 2" på diagrammet. De nøytrale navnene er et poeng i seg selv: knappene er ikke låst til én oppgave. Som standard åpner den øverste oppskriftsmenyen: her velger du hvilken forvandling bildet skal få, ost, goblin, anime eller hva du nå har lagt inn. Den nederste åpner albumet, der alle bildene dine ligger. Men du kan be Codex gi dem en helt annen funksjon senere.

Knappene på høyre side, opp og ned, bruker du til å bla. Står du i oppskriftsmenyen eller albumet, flytter de markøren oppover og nedover i listen.

Helt for seg selv står Magic-knappen oppe til venstre. Tenk på den som kameraets jokerknapp. Den har ingen fast jobb: du bestemmer selv hva den skal gjøre, og ber Codex sette den opp slik du vil. Mer om den lenger ned, når du lager dine egne oppskrifter.

Så til selve øyeblikket. Du sikter, og trykker på utløseren. Søkeren fryser et lite øyeblikk, som en stillbilde-kvittering på at bildet er fanget, før den viser det vanlige kamerabildet igjen. Selve forvandlingen skjer i bakgrunnen. Du trenger ikke vente: du kan knipse videre med en gang, mens forrige bilde fortsatt er hos AI-en. Det er den lille køen på minnekortet i arbeid. Når et forvandlet bilde er ferdig, gnistrer album-ikonet til, et lite signal om at noe nytt venter på deg der inne.

Vil du ha bildene over på telefonen, kobler du til mobil-appen, fjernkontrollen. Kameraet viser en QR-kode du skanner for å åpne den, så lenge telefonen er på samme wifi.

Oppskriftsmenyen gir deg de innebygde forvandlingene, men de er bare et utgangspunkt. Videre ser du hvordan du lager dine egne.

Skriv dine egne oppskrifter

En oppskrift høres avansert ut, men er det motsatte. Det er bare en vanlig beskjed til AI-en, skrevet i klartekst. Ingen kode, ingen innstillinger å fikle med. Du forteller med ord hva bildet skal bli, og AI-en gjør så godt den kan. Kanskje har du hørt ordet «prompt». Det betyr akkurat det samme: en instruksjon skrevet med ord.

De innebygde oppskriftene er skrevet på engelsk, men de er ikke noe mer mystisk enn vanlige setninger. Du kan like gjerne skrive dine egne på språket du snakker. Kameraet kommer med fire av dem. De to ytterpunktene viser hele spennet, fra én enkelt linje til et helt avsnitt:

"Ost"-oppskriften er bare én eneste setning: behold alt i bildet, bortsett fra at alle gjøres om til ost. Fordi den sier så lite om hvordan, fyller AI-en inn resten selv: noen ganger blir det smelteost, andre ganger en fast gulost med hull. Du har bestemt retningen, men overlatt detaljene til kameraet. Vil du alltid ha en fast gulost med hull, må det stå i oppskriften.

"Goblin" nederst er det motsatte ytterpunktet. Den fyller et helt avsnitt og pirker borti hver detalj: store spisse ører, alt for store gule øyne, små hoggtenner, farger, strek og bakgrunn. Der "ost" lot det meste være åpent, spikrer "goblin" nesten alt.

Der ligger hele poenget. Jo mer presist du beskriver hva du vil, jo mer bestemmer du selv hvordan resultatet blir. Sier du lite, improviserer AI-en. Sier du mye, holder du den i tøylene.

Men hvor skriver du dem? Du trenger ikke åpne koden eller koble til noe ekstra. Alt skjer i mobil-appen på telefonen. Du åpner den med QR-koden fra kameraet, som før. Inne i appen finner du oppskriftene.

Hver oppskrift ligger der som et lite kort med to felter: en tittel og selve teksten. Vil du endre en, skriver du rett i tekstfeltet. Vil du lage en ny fra bunnen, trykker du på "Add" og fyller inn tittel og instruksjon. Og vil du kvitte deg med en du aldri bruker, fjerner du den. Det eneste kravet er at minst én oppskrift alltid står igjen, så kameraet har noe å forvandle bildene til.

Du trenger ikke trykke lagre. Endringene fester seg av seg selv mens du skriver, omtrent som når du retter et notat i en notat-app. Neste gang du knipser med den oppskriften, er det den nye teksten som gjelder.

Husker du osten som ble tilfeldig smelteost den ene gangen og gulost den neste? Nå kan du bestemme selv. Åpne "ost" og bytt setningen mot noe mer presist, for eksempel en fast gulost med store hull. Fra da av gjetter ikke AI-en. Den gjør som du sier.

Men du må ikke finne på alt selv. Kameraet kan også lage en oppskrift for deg, helt på egen hånd. Det er der Magic-knappen kommer inn.

Magic-knappen: la kameraet finne på selv

Du møtte den allerede blant knappene: jokerknappen oppe til venstre, med et løfte om mer senere. Her er den.

Så langt har du skrevet oppskriftene selv, enten ved å endre de innebygde eller dikte opp dine egne. Magic-knappen snur det på hodet: nå skriver kameraet oppskriften, og du ser hva det fant på.

Det skjer i to steg. Først sikter du på noe og trykker på Magic. Kameraet tar et raskt blikk på det du peker mot. Så ber det AI-en finne én ting som stikker seg ut: en farge, en gjenstand, en positur, hva som helst pussig nok til å bygge en idé rundt. AI-en skriver en fersk oppskrift og gir den et kort navn på et par ord. Det er som en venn som ser seg rundt, fester seg ved én rar detalj, og sier «la oss få alt til å se ut som det».

Så kommer steg to: du knipser. Oppskriften kameraet nettopp fant på, stemples på bildet ditt på vanlig måte. Du vet ikke på forhånd hva du får, og det er hele poenget. Magic-knappen er kameraets måte å overraske deg på.

Noen av påfunnene blir treff, andre bom. Derfor husker kameraet dem. Hver oppskrift Magic lager, havner i en egen historikk, så du kan gå tilbake og se hva den fant på. Liker du en spesielt godt, kan du forfremme den til den faste menyen, der den står side om side med ost og goblin. Et tilfeldig blink blir til en oppskrift du eier.

Og vil du noe helt annet, er knappen fortsatt en joker. Den må ikke finne på oppskrifter i det hele tatt. Du kan be Codex gi den en helt annen jobb. Videre ser du hvor langt du kan ta det.

Bygg det om slik du vil

Oppskrifter og Magic-knappen forandret bildene kameraet lager. Men selve kameraet er ikke ferdig av den grunn. Knappene, utseendet på skjermen, måten det starter på: ingenting av det er hugget i stein. Tenk på kameraet som leire du kan forme om igjen og igjen, ikke en forseglet dings du aldri får åpnet. Den samme Codex som hentet prosjektet hjem og bygde det, kan bygge om hvilken som helst del.

Du trenger fortsatt ikke kode selv. Du skriver hva du vil ha, Codex endrer koden. Du kan be den bytte oppstartsskjermen, altså bildet som vises idet kameraet skrus på. Du kan endre hele utseendet, både på kameraets egen skjerm og i appen på telefonen (det som med et fagord kalles UI, brukergrensesnittet: alt du ser og trykker på). Du kan gi Magic-knappen en fast jobb, så jokeren blir til noe forutsigbart. Eller du kan finne på noe helt eget som ingen har tenkt på ennå.

Til og med huset rundt elektronikken kan formes om. Den 3D-printede kassen følger med som en .step-fil, en slags digital byggetegning du kan åpne i et modelleringsprogram. Kan du litt 3D-modellering, lager du nye former og detaljer selv. Vil du heller pynte den utenpå eller designe en helt egen kasse, er det også lov. Hele kameraet er ditt å forme, både innsiden og utsiden.

Gjør det nyttig, gjør det rart, gjør det vakkert, gjør det til ditt eget. Men før du kan bygge det om, må det faktisk bygges. Videre ser du hvordan delene blir til et ekte kamera du kan holde i hånden.

Fra deler til kamera

Du har allerede sett delene, og du vet hva kameraet skal kunne. Nå settes det sammen. Dette er et helgeprosjekt, og er du vant til Codex, Raspberry Pi og 3D-print fra før, kan du være ferdig på under en time. Også her slipper du å famle alene: når du ber Codex om hjelp, tar den deg gjennom monteringen ett steg av gangen, og passer på at delene festes i riktig rekkefølge.

Selve sammensettingen er fire korte steg.

1. Minnekortet inn

Det vesle minnekortet bærer både operativsystemet (grunnprogrammet datamaskinen starter på når den skrus på) og plassen til bildene dine. Det glir inn i en egen spalte på Raspberry Pi-en. Ligger minnekortet allerede på plass i et ferdig sett, hopper du over dette.

2. Kamerakabelen

Kameraet henger sammen med datamaskinen via en tynn, flat kabel, en såkalt ribbon-kabel. På Raspberry Pi-en sitter en liten kontakt med en mørk klaff. Løft klaffen forsiktig opp, skyv kabelen rett inn, og trykk klaffen ned igjen. De blanke metallstripene på kabelen skal vende mot kontaktene inni sporet. Går den ikke inn, ikke press: sjekk heller at den vender riktig vei.

3. Batteriet

PiSugar-en er batteri og strømstyring i ett. Den klikkes fast på baksiden av Raspberry Pi-en sammen med selve battericellen. Det er den som lar kameraet gå uten å henge i en ledning.

4. Skjermen

Til slutt trykkes skjermen, den med de fire knappene, ned på radene av små metallpinner som stikker opp fra Raspberry Pi-en. Pinnene kalles «headers»: de holder skjermen på plass og gir den kontakt med datamaskinen. Når den sitter, er all elektronikken ferdig koblet.

Da gjenstår bare å gi det liv. Sett USB-C-strøm i PiSugar-en. For å slå kameraet på bruker du av-på-knappen på PiSugar-en, den samme knappen som blir utløseren når alt ligger i kassen: et kort trykk, slipp, så et langt trykk på rundt åtte sekunder, og slipp. Skjermen våkner med en oppstartsskjerm, og rett etter dukker en wifi-velger opp, der du kobler kameraet til samme nettverk som maskinen din. Det som starter nå, er bare grunnsystemet, ikke det ferdige kameraet.

Når skjermen lyser og kameraet er på nett, er den fysiske jobben gjort. Den 3D-printede kassen er skallet du til slutt legger elektronikken i, og det kan du gjøre når som helst, før eller etter første oppstart. Men noe må fortsatt gjøre den om til et fungerende kamera: hente programmet, koble til OpenAI og starte det hele. Videre ser du hvordan AI-agenten gjør akkurat det, uten at du skriver en eneste linje kode.

Kameraet som kom med sin egen lærer

Helt i starten sto det at prosjektet har to lesemeg-filer: én skrevet for mennesker, og én skrevet for AI-agenten. Du har brukt den første hele veien. Nå er det den andre sin tur, for det er der noe av det mest uvanlige ved ImageGenCam ligger.

Den filen heter AGENTS.md. Endelsen .md betyr bare at det er en tekstfil, vanlig skrift du kan lese rett fram. Men innholdet er uvanlig: den forteller ikke hva kameraet består av eller hvordan det bygges, men hvordan agenten selv skal oppføre seg mens den hjelper deg. Et sett kjøreregler, ikke en byggeplan. Agenten leser dem helt i det stille.

Tonen er bestemt med vilje. Slik åpner filen, ordrett:

# ImageGenCam Codex Guide

## Operating Style
- Act like the tutorial guide, not like a docs search engine.
- Guide one step at a time.
- Before each command, say what it does and why it happens now.
- After each step, say what success looks like.
- If a step fails, stop and diagnose before continuing.
- Do not ask the user to paste API keys, Pi passwords, or Codex auth tokens into chat.
...

Det er hele manualen i miniatyr: vanlige setninger, ingen kode. Agenten skal være en tålmodig lærer, ikke et oppslagsverk. Ett steg av gangen. Forklar hva hver handling gjør før den skjer. Si hva som teller som suksess. Stopp og feilsøk hvis noe ryker, i stedet for å buldre videre. Aldri legg fram hele planen på en gang. Det aller første agenten er bedt om å si, er en rolig håndsrekning:

Agentens åpning (ordrett fra AGENTS.md): «You are in the right place. I will walk you through this one step at a time, and you can stop me with questions at any point.»

En av tingene agenten hjelper deg med, er å koble kameraet til OpenAI. For å forvandle bilder må kameraet sende dem dit, og til det trenger det din egen API-nøkkel: en slags personlig adgangskode til OpenAI. Du lager den på OpenAIs nettside, og agenten viser deg steg for steg hvor du finner den og hvor den skal limes inn. Dere gjør det sammen, akkurat som med resten av oppsettet.

Reglene verner også deg. De forbyr de farlige snarveiene: agenten skal aldri be deg lime nøkkelen eller et passord inn i chatten. Nøklene skal bli liggende lokalt, på din egen maskin. Den skal ikke kjøre skjulte kommandoer du ikke ser på skjermen. De risikable øyeblikkene er forutsett og stengt før de kan gå galt.

Og reglene lar agenten lese situasjonen. Fikk du et ferdig sett eller løse deler? Kjører agenten på Mac-en din eller på selve kameraet? Filen forteller hvordan den skal kjenne forskjellen og velge riktig vei, uten å tvinge deg gjennom en forvirrende meny av valg.

Legg merke til hva alt dette har til felles. Da du skrev dine egne oppskrifter, brukte du vanlige ord for å styre hva bildet skulle bli. Her har OpenAI gjort nøyaktig det samme med agenten: skrevet en oppskrift for oppførsel, i ren tekst, ikke i kode. Det betyr at hvem som helst kan åpne filen, lese den og endre den. Vil du ha en agent som er kjappere, morsommere eller strengere, bytter du ut ordene. Hele prosjektet, fra bildene til byggehjelpen, styres av språk du selv kan forme.

Det er en ny måte å dele et prosjekt på: ikke bare delene og koden, men en lærer som følger med i esken. Videre, helt til slutt, er det verdt å stoppe opp og se på hva det egentlig betyr.

Det egentlige prosjektet var språket

Tenk over hva du faktisk har gjort. Du forvandlet et bilde til ost med én setning. Du ga kameraet nye knapper, en ny oppstartsskjerm, en helt egen form, ved å beskrive det med ord. Og du lot en agent bygge hele kameraet sammen med deg, fordi noen hadde skrevet ned hvordan den skulle oppføre seg, i klartekst. Tre forskjellige lag, samme grep hver gang: vanlig språk, ingen kode.

Det er her det virkelig nye ligger. Ikke i kameraet i seg selv, men i måten det deles på. De fleste prosjekter gir deg delene og koden, og overlater resten til deg. Dette legger en lærer på kjøpet: en fil i ren tekst som hvem som helst kan åpne, lese og endre. Terskelen flyttes. Du må ikke kunne språket maskinen snakker, bare ditt eget.

Det betyr at det viktigste du tar med deg inn i et prosjekt som dette, ikke er teknisk kunnskap. Det er nysgjerrighet, og mot til å spørre. Agenten møter deg der du står, ett steg av gangen, og forklarer underveis. Står du fast, sier du det med ord, og den hjelper deg videre. Du trenger ikke vite svaret på forhånd. Du trenger bare å tørre å begynne.

Et kamera som forvandler verden til ost er en leken start. Men det egentlige prosjektet var aldri kameraet. Det var oppdagelsen av at du kan bygge noe ekte ved å snakke til det, på ditt eget språk. Og den oppdagelsen kan du ta med deg videre, til nesten hva som helst.

Alle bilder i denne posten er hentet fra OpenAIs ImageGenCam-repo på GitHub: github.com/openai/imagegencam. Prosjektet er åpen kildekode under Apache 2.0-lisensen, som gir fri rett til å bruke og bygge videre, så lenge opphavet krediteres.

Ordliste

Begrep	Forklaring
ImageGenCam	OpenAIs byggesett for et selvbygd kamera som forvandler bilder med AI i sanntid.
Repo	Kort for "repository". En mappe med prosjektfiler som ligger på nett, for eksempel på GitHub.
Klone	Å hente en egen kopi av et repo som fortsatt henger sammen med originalen, så du kan få oppdateringer.
Codex	OpenAIs AI-assistent som kan utføre oppgaver på maskinen din, ikke bare svare med tekst.
Raspberry Pi	En bitteliten, rimelig datamaskin. Her er den hjernen som styrer kameraet.
PiSugar	Batteri og strømstyring i ett, som lar kameraet gå uten å være koblet til strøm.
Ribbon-kabel	En tynn, flat kabel som kobler kameramodulen til Raspberry Pi-en.
Oppskrift (prompt)	En instruksjon skrevet i klartekst som forteller AI-en hva bildet skal bli.
Magic-knappen	En "jokerknapp" der kameraet selv finner på en oppskrift ut fra det du peker på.
AGENTS.md	En tekstfil med kjøreregler for hvordan AI-agenten skal oppføre seg mens den hjelper deg.
API-nøkkel	En personlig adgangskode som lar kameraet nå OpenAIs bildemodell. Holdes lokalt, aldri i chatten.
Hotspot	Internettdeling fra telefonen, som lager et lite wifi-nett kameraet kan koble seg til ute.
Headers	Radene av små metallpinner på Raspberry Pi-en som skjermen trykkes ned på.
.step-fil	En digital byggetegning av kamerahuset, til bruk i et 3D-modelleringsprogram.

Kilder og ressurser

ImageGenCam på GitHub. Selve prosjektet: kildekode, deleliste, byggeguider og lisens (Apache 2.0).
Turn the world into cheese (or anything really) with this camera (YouTube). OpenAIs egen video som viser kameraet i bruk.
OpenAI. Selskapet bak ImageGenCam, Codex og bildemodellen.
OpenAI Codex. AI-assistenten som bygger og setter opp kameraet sammen med deg.
OpenAI Platform: API-nøkler. Der du lager API-nøkkelen kameraet trenger.
Raspberry Pi. Den lille datamaskinen som er hjernen i kameraet.
Pimoroni Display HAT Mini. Skjermen med de fire knappene i byggesettet.