OpenAI vil bli legens sikkerhetsnett. Hvem sjekker OpenAI?

Nøkkelinnsikt

OpenAI evaluerer sine egne modeller med sitt eget referansemål (HealthBench), noe som er vanlig i AI-forskning men langt fra tilstrekkelig i et felt der feil kan koste liv
Penda Health-studien er det sterkeste kortet: ekte pasienter, publiserte resultater. Men det er én studie i ett marked, med OpenAI involvert
Løftet om å aldri trene på helsedata er et tillitssignal, men det betyr også at de mest verdifulle dataene for å forbedre helse-AI forblir utilgjengelige
Waymo-analogien antyder at AI bør føles tryggere enn menneskelig vurdering. Det er en dristig påstand som snur bevisbyrden

Publisert 16. mars 2026

OpenAI

Vertskap:Andrew Mayne

Dette er et AI-generert sammendrag. Kildevideoen kan inneholde demonstrasjoner, visuelt innhold og ytterligere kontekst.

Se videoen · Slik genereres artiklene

Kort fortalt

Hver dag spør 40 millioner mennesker ChatGPT om helsespørsmål, hevder OpenAI. Selskapet har bygget et eget helseprodukt kalt ChatGPT Health, laget et referansemål i samarbeid med 262 leger, og testet en AI-assistent i klinikker i Nairobi gjennom Penda Health. Resultatene viser færre diagnosefeil og behandlingsfeil. Men det er OpenAI som forteller denne historien, på sin egen podcast, med sitt eget evalueringsverktøy. Ingen uavhengige stemmer er invitert, regulatoriske spørsmål glir forbi, og ansvaret når AI-en tar feil blir aldri diskutert.

Les også:

Påstanden: AI som sikkerhetsnett for hele helsevesenet

Dr. Nate Gross er visepresident for helse i OpenAI og medgründer av Doximity og Rock Health. Han deler jobben inn i tre bøtter: hev gulvet (gjør AI tilgjengelig for alle), fei gulvet (fjern papirarbeid så leger får mer tid med pasienter), og hev taket (nye muligheter som ikke fantes før). Karan Singhal, som leder helse-AI-forskningen og tidligere jobbet i Google DeepMind, fyller på med en visjon der ChatGPT kobles til elektroniske pasientjournaler, smartklokker og laboratorieprøver for å bli en kontekstklar helseassistent.

Gross beskriver dagens helsevesen som reaktivt: det griper inn først når folk allerede er syke. Pasienter har 364 dager i året uten meningsfull kontakt med legene sine. Han sammenligner den ideelle AI-assistenten med en ektefelle som følger med på konsultasjonen med skriveblokk, husker alt og følger opp etterpå. Tanken er at ChatGPT kan bli den oppmerksomme hjelperen som husker medisinlisten din, minner deg på å ta blodprøve, og tilpasser middagsforslaget etter treningsdataene fra smartklokken.

Singhal legger til at modellene er trent til å håndtere usikkerhet bedre enn før. For halvannet år siden var overselvsikre feilsvar, såkalte hallusinasjoner, blant de vanligste problemene. Nå hevder han at modellen oftere innrømmer at den ikke vet svaret og foreslår oppfølging hos lege i stedet.

Bevisene: HealthBench og Penda Health

HealthBench: OpenAIs egen målestokk

HealthBench er OpenAIs åpne referansemål for helse-AI. Det ble utviklet over ett år i samarbeid med 262 leger som bidro med over 5 000 samtaler og 48 562 vurderingskriterier. Referansemålet dekker rundt 49 000 ulike dimensjoner, forklarer Singhal. Det tester alt fra om modellen tilpasser språket til mottakeren (en kreftlege trenger et annet svar enn en pasient uten medisinsk bakgrunn) til om den ber om mer kontekst når spørsmålet er vagt. Han bruker eksempelet «det brenner»: tidligere ville modellen gjettet, men nå spør den tilbake om hva som brenner, hvor det brenner, og i hvilken sammenheng.

OpenAIs modeller scorer konsekvent best på HealthBench. Men det er altså OpenAI selv som har laget testen.

Penda Health-studien: AI-assistent for leger i Nairobi

Den mest konkrete dokumentasjonen er en studie utført sammen med Penda Health, en klinikkjede i Nairobi. Studien dekket 15 klinikker og 39 849 pasientbesøk. En AI-assistent (et verktøy som overvåker det legen skriver i pasientjournalen og varsler ved mulige feil) kjørte i bakgrunnen og grep bare inn når noe så potensielt galt ut.

Resultatet: 16 prosent færre diagnosefeil og 13 prosent færre behandlingsfeil blant leger som brukte verktøyet, sammenlignet med en kontrollgruppe uten AI.

Da Penda Health vurderte en oppfølgingsstudie, nølte teamet. Singhal gjengir at de mente det var «farlig å ha en gruppe klinikere som ikke brukte AI-en». Det er en sterk påstand, men den kommer fra samarbeidspartneren i studien.

Gjenbruk av legemidler

Gross nevner også at AI begynner å finne nye bruksområder for medisiner som har ligget på hylla uten tydelig verdi. Dette er et felt der AI kan analysere enorme mengder forskningsdata og oppdage sammenhenger som mennesker ikke ser. Det høres lovende ut, men podcasten gir ingen konkrete eksempler på hvilke medisiner eller hvilke nye bruksområder det er snakk om.

Hva som mangler fra podcasten

Ingen uavhengige stemmer

Episoden er en intern OpenAI-samtale fra start til slutt. Andrew Mayne, som er ansatt i OpenAI, leder samtalen med selskapets egne helseledere. Ingen uavhengige forskere, leger utenfor studien, regulatorer eller pasienter kommer til orde. Det betyr ikke at det de sier er usant, men det betyr at ingen stiller de ubehagelige spørsmålene. Vertens spørsmål er gjennomgående vennlige og åpne, uten oppfølging på svake punkter.

Regulatorisk stillhet

Helseteknologi er tungt regulert, men podcasten går knapt inn på regulatoriske spørsmål. I USA krever Food and Drug Administration (FDA) godkjenning for medisinsk programvare som gir kliniske råd. Hvordan ChatGPT Health skal navigere dette regelverket, forblir ubesvart. I Europa vil tilsvarende krav komme gjennom EUs AI-forordning. I Kenya, der studien fant sted, er det et eget regelverk i utvikling.

Ansvar når det går galt

Hvis en AI-assistent overser en alvorlig diagnose, hvem bærer ansvaret? Legen som stolte på verktøyet? OpenAI som laget det? Klinikken som tok det i bruk? I tradisjonell medisin er ansvarsfordelingen tydelig. Når AI blir en del av beslutningskjeden, blir linjene uklare. Podcasten nevner aldri dette.

Helsedata og forretningsmodell

Gross lover at OpenAI aldri vil trene på brukernes helsedata. Det er et viktig tillitssignal, og noe mange brukere forventer. Men her oppstår et paradoks: de mest verdifulle dataene for å gjøre helse-AI bedre, er nettopp de dataene de lover å ikke bruke. Hvordan skal modellen forbedres over tid uten tilgang til de ekte samtalene der folk beskriver symptomene sine? Podcasten gir ikke noe svar på dette.

Hvordan tolke disse påstandene

Waymo-analogien fortjener et kritisk blikk

Singhal sammenligner helse-AI med å sykle ved siden av en selvkjørende Waymo-bil: han føler seg tryggere enn ved siden av en menneskelig sjåfør. Analogien antyder at AI bør gi en «beskyttende effekt» i helsevesenet, akkurat som i trafikken. Men Waymo har millioner av kjørte kilometer med uavhengig overvåking og offentlig tilgjengelig ulykkesstatistikk. Helse-AI har foreløpig én publisert klinisk studie fra ett marked.

Eget referansemål er ikke uavhengig validering

Det er vanlig i AI-forskning at selskaper lager egne referansemål. Men i et felt der feil kan koste liv, er ikke selvvurdering tilstrekkelig. At OpenAIs modeller scorer best på OpenAIs eget referansemål, er omtrent like overraskende som at en bilprodusent vinner sin egen sikkerhetstest. Det som trengs, er uavhengige evalueringer fra institusjoner uten økonomiske interesser i resultatet.

Én studie beviser ikke visjonen

Penda Health-studien er reell og publisert, og resultatene er oppmuntrende. Men 15 klinikker i Nairobi er ikke det amerikanske helsevesenet, det norske, eller det indiske. Ulike helsesystemer har ulike utfordringer med journalsystemer, språk, ressurser og kultur. Studien må gjenskapes av uavhengige grupper i andre markeder før den kan bære vekten av en global visjon.

Hva sterke bevis ville sett ut som

Uavhengig replikasjon i minst to-tre ulike helsesystemer. Langtidsdata som viser at feilreduksjonen holder seg over tid. Evaluering fra institusjoner uten tilknytning til OpenAI. Åpen metodikk som lar andre forskere etterprøve resultatene. Penda Health-studien er et godt startpunkt, men bare et startpunkt.

Praktiske implikasjoner

For pasienter

ChatGPT Health kan gi verdi som en informert samtalepartner mellom legeavtaler. Men all helseinformasjon fra en AI bør alltid bekreftes med en lege, særlig for alvorlige tilstander. Verktøyet er et supplement, ikke en erstatning.

For helsepersonell

AI-assistent-konseptet har potensial som sikkerhetsnett for travle klinikere, spesielt der ressursene er begrensede. Likevel bør leger som vurderer slike verktøy spørre: hvem evaluerte dette, og hvem har tilgang til mine pasientdata?

For beslutningstakere

Før helse-AI rulles ut i stor skala, trengs regulatorisk klarhet om ansvar, datahåndtering og krav til uavhengig evaluering. Én lovende studie fra Kenya er et godt utgangspunkt for videre forskning, men bør ikke alene bli grunnlaget for politiske beslutninger.

Ordliste

Begrep	Forklaring
Klinisk AI-assistent	Et AI-verktøy som kjører i bakgrunnen under en legekonsultasjon og varsler ved mulige feil.
HealthBench	OpenAIs referansemål for å måle hvor gode AI-modeller er på helsespørsmål. Utviklet sammen med 262 leger.
Elektronisk pasientjournal	Digitalt system der sykehus og legekontor lagrer pasientinformasjon. Ofte forkortet EPJ.
Tilpasset lesenivå	At AI-en tilpasser språket etter hvem den snakker med, for eksempel lege versus pasient.
Referansemål	En standardisert test for å sammenligne ytelsen til ulike AI-modeller. På engelsk: benchmark.
Hallusinasjon	Når en AI-modell gir et selvsikkert svar som er feil, altså «finner opp» fakta som ikke stemmer.
Gjenbruk av legemidler	Å finne nye bruksområder for medisiner som allerede er godkjent for andre tilstander.
Overvåking etter lansering	Å følge med på hvordan et AI-system fungerer etter at det er tatt i bruk med ekte brukere.