OpenAI vil bli legens sikkerhetsnett. Hvem sjekker OpenAI?

Nøkkelinnsikt
- OpenAI evaluerer sine egne modeller med sitt eget referansemål (HealthBench), noe som er vanlig i AI-forskning men langt fra tilstrekkelig i et felt der feil kan koste liv
- Penda Health-studien er det sterkeste kortet: ekte pasienter, publiserte resultater. Men det er én studie i ett marked, med OpenAI involvert
- Løftet om å aldri trene på helsedata er et tillitssignal, men det betyr også at de mest verdifulle dataene for å forbedre helse-AI forblir utilgjengelige
- Waymo-analogien antyder at AI bør føles tryggere enn menneskelig vurdering. Det er en dristig påstand som snur bevisbyrden
Dette er et AI-generert sammendrag. Kildevideoen inneholder demonstrasjoner, visuelt innhold og kontekst som ikke dekkes her. Se videoen → · Slik lages artiklene →
Kort fortalt
40 millioner mennesker spør ChatGPT om helsespørsmål hver dag, ifølge OpenAI. Selskapet har bygget et eget helseprodukt kalt ChatGPT Health, laget et referansemål i samarbeid med 262 leger, og testet en AI-assistent i klinikker i Nairobi gjennom Penda Health. Resultatene viser færre diagnosefeil og behandlingsfeil. Men det er OpenAI som forteller denne historien, på sin egen podcast, med sitt eget evalueringsverktøy. Ingen uavhengige stemmer er invitert, regulatoriske spørsmål glir forbi, og ansvaret når AI-en tar feil blir aldri diskutert.
Påstanden: AI som sikkerhetsnett for hele helsevesenet
Dr. Nate Gross er visepresident for helse i OpenAI og medgründer av Doximity og Rock Health. Han deler jobben inn i tre bøtter: hev gulvet (gjør AI tilgjengelig for alle), fei gulvet (fjern papirarbeid så leger får mer tid med pasienter), og hev taket (nye muligheter som ikke fantes før). Karan Singhal, som leder helse-AI-forskningen og tidligere jobbet i Google DeepMind, fyller på med en visjon der ChatGPT kobles til elektroniske pasientjournaler, smartklokker og laboratorieprøver for å bli en kontekstklar helseassistent.
Gross beskriver dagens helsevesen som et system som bare reagerer når folk allerede er syke: pasienter har 364 dager i året uten meningsfull kontakt med legene sine. Han sammenligner den ideelle AI-assistenten med en ektefelle som følger med på konsultasjonen med skriveblokk, husker alt og følger opp etterpå. Tanken er at ChatGPT kan bli den oppmerksomme hjelperen som husker medisinlisten din, minner deg på å ta blodprøve, og tilpasser middagsforslaget etter treningsdataene fra smartklokken.
Singhal legger til at modellene er trent til å håndtere usikkerhet bedre enn før. For halvannet år siden var overselvsikre feilsvar, såkalte hallusinasjoner, blant de vanligste problemene. Nå hevder han at modellen oftere innrømmer at den ikke vet svaret og foreslår oppfølging hos lege i stedet.
Bevisene: HealthBench og Penda Health
HealthBench: OpenAIs egen målestokk
HealthBench er OpenAIs åpne referansemål for helse-AI. Det ble utviklet over ett år i samarbeid med 262 leger som bidro med over 5 000 samtaler og 48 562 vurderingskriterier. Singhal forklarer at referansemålet dekker rundt 49 000 ulike dimensjoner. Det tester alt fra om modellen tilpasser språket til mottakeren (en kreftlege trenger et annet svar enn en pasient uten medisinsk bakgrunn) til om den ber om mer kontekst når spørsmålet er vagt. Han bruker eksempelet «det brenner» som et spørsmål der modellen tidligere ville gjettet, men nå spør tilbake om hva som brenner, hvor det brenner, og i hvilken sammenheng.
OpenAIs modeller scorer konsekvent best på HealthBench. Det er verdt å merke seg at OpenAI selv står bak testen.
Penda Health-studien: AI-assistent for leger i Nairobi
Den mest konkrete dokumentasjonen er en studie utført sammen med Penda Health, en klinikkjede i Nairobi. Studien dekket 15 klinikker og 39 849 pasientbesøk. En AI-assistent (et verktøy som overvåker det legen skriver i pasientjournalen og varsler ved mulige feil) kjørte i bakgrunnen og grep bare inn når noe så potensielt galt ut.
Resultatet: 16 prosent færre diagnosefeil og 13 prosent færre behandlingsfeil blant leger som brukte verktøyet, sammenlignet med en kontrollgruppe uten AI.
Singhal trekker frem at Penda Health-teamet nølte med å gjennomføre en oppfølgingsstudie, fordi de mente det var «farlig å ha en gruppe klinikere som ikke brukte AI-en». Det er en sterk påstand, men den kommer fra samarbeidspartneren i studien.
Gjenbruk av legemidler
Gross nevner også at AI begynner å finne nye bruksområder for medisiner som har ligget på hylla uten tydelig verdi. Dette er et felt der AI kan analysere enorme mengder forskningsdata og oppdage sammenhenger som mennesker ikke ser. Det høres lovende ut, men podcasten gir ingen konkrete eksempler på hvilke medisiner eller hvilke nye bruksområder det er snakk om.
Hva som mangler fra podcasten
Ingen uavhengige stemmer
Hele episoden er en intern OpenAI-samtale. Vert Andrew Mayne er ansatt i OpenAI. Gjestene er OpenAIs egne ledere for helse. Ingen uavhengige forskere, leger utenfor studien, regulatorer eller pasienter kommer til orde. Det betyr ikke at det de sier er usant, men det betyr at ingen stiller de ubehagelige spørsmålene. Spørsmålene fra verten er gjennomgående vennlige og åpne, uten oppfølging på svake punkter.
Regulatorisk stillhet
Helseteknologi er tungt regulert, men podcasten nevner knapt regulatoriske myndigheter. I USA krever Food and Drug Administration (FDA) godkjenning for medisinsk programvare som gir kliniske råd. Hvordan ChatGPT Health skal navigere dette regelverket, forblir ubesvart. I Europa vil tilsvarende krav komme gjennom EUs AI-forordning. I Kenya, der studien fant sted, er det et eget regelverk i utvikling.
Ansvar når det går galt
Hvis en AI-assistent overser en alvorlig diagnose, hvem bærer ansvaret? Legen som stolte på verktøyet? OpenAI som laget det? Klinikken som tok det i bruk? I tradisjonell medisin er ansvarsfordelingen tydelig. Når AI blir en del av beslutningskjeden, blir linjene uklare. Podcasten nevner aldri dette.
Helsedata og forretningsmodell
Gross lover at OpenAI aldri vil trene på brukernes helsedata. Det er et viktig tillitssignal, og noe mange brukere forventer. Men det skaper en spenning: de mest verdifulle dataene for å gjøre helse-AI bedre, er nettopp de dataene de lover å ikke bruke. Hvordan skal modellen forbedres over tid uten tilgang til de ekte samtalene der folk beskriver symptomene sine? Podcasten gir ikke noe svar på dette.
Hvordan tolke disse påstandene
Waymo-analogien fortjener et kritisk blikk
Singhal sammenligner helse-AI med å sykle ved siden av en selvkjørende Waymo-bil: han føler seg tryggere enn ved siden av en menneskelig sjåfør. Analogien antyder at AI bør gi en «beskyttende effekt» i helsevesenet, akkurat som i trafikken. Men Waymo har millioner av kjørte kilometer med uavhengig overvåking og offentlig tilgjengelig ulykkesstatistikk. Helse-AI har foreløpig én publisert klinisk studie fra ett marked.
Eget referansemål er ikke uavhengig validering
Det er vanlig i AI-forskning at selskaper lager egne referansemål. Men i et felt der feil kan koste liv, er ikke selvvurdering tilstrekkelig. At OpenAIs modeller scorer best på OpenAIs eget referansemål, er omtrent like overraskende som at en bilprodusent vinner sin egen sikkerhetstest. Det som trengs, er uavhengige evalueringer fra institusjoner uten økonomiske interesser i resultatet.
Én studie beviser ikke visjonen
Penda Health-studien er reell og publisert, og resultatene er oppmuntrende. Men 15 klinikker i Nairobi er ikke det amerikanske helsevesenet, det norske, eller det indiske. Ulike helsesystemer har ulike utfordringer med journalsystemer, språk, ressurser og kultur. Studien må gjenskapes av uavhengige grupper i andre markeder før den kan bære vekten av en global visjon.
Hva sterke bevis ville sett ut som
Uavhengig replikasjon i minst to-tre ulike helsesystemer. Langtidsdata som viser at feilreduksjonen holder seg over tid. Evaluering fra institusjoner uten tilknytning til OpenAI. Åpen metodikk som lar andre forskere etterprøve resultatene. Penda Health-studien er et godt startpunkt, men bare et startpunkt.
Praktiske implikasjoner
For pasienter
ChatGPT Health kan gi verdi som en informert samtalepartner mellom legeavtaler. Men all helseinformasjon fra en AI bør alltid bekreftes med en lege, særlig for alvorlige tilstander. Verktøyet er et supplement, ikke en erstatning.
For helsepersonell
AI-assistent-konseptet har potensial som sikkerhetsnett for travle klinikere, spesielt der ressursene er begrensede. Likevel bør leger som vurderer slike verktøy spørre: hvem evaluerte dette, og hvem har tilgang til mine pasientdata?
For beslutningstakere
Før helse-AI rulles ut i stor skala, trengs regulatorisk klarhet om ansvar, datahåndtering og krav til uavhengig evaluering. Én lovende studie fra Kenya er et godt utgangspunkt for videre forskning, men bør ikke alene bli grunnlaget for politiske beslutninger.
Ordliste
| Begrep | Forklaring |
|---|---|
| Klinisk AI-assistent | Et AI-verktøy som kjører i bakgrunnen under en legekonsultasjon og varsler ved mulige feil. |
| HealthBench | OpenAIs referansemål for å måle hvor gode AI-modeller er på helsespørsmål. Utviklet sammen med 262 leger. |
| Elektronisk pasientjournal | Digitalt system der sykehus og legekontor lagrer pasientinformasjon. Ofte forkortet EPJ. |
| Tilpasset lesenivå | At AI-en tilpasser språket etter hvem den snakker med, for eksempel lege versus pasient. |
| Referansemål | En standardisert test for å sammenligne ytelsen til ulike AI-modeller. På engelsk: benchmark. |
| Hallusinasjon | Når en AI-modell gir et selvsikkert svar som er feil, altså «finner opp» fakta som ikke stemmer. |
| Gjenbruk av legemidler | Å finne nye bruksområder for medisiner som allerede er godkjent for andre tilstander. |
| Overvåking etter lansering | Å følge med på hvordan et AI-system fungerer etter at det er tatt i bruk med ekte brukere. |
Kilder og ressurser
- OpenAI — Building AI for better healthcare — the OpenAI Podcast Ep. 14 (YouTube) (30 min)
- ChatGPT Health — OpenAI
- HealthBench — OpenAI
- Penda Health
- AI-based Clinical Decision Support for Primary Care: A Real-World Study (arXiv)
- Nate Gross — personlig nettside
- Karan Singhal — personlig nettside
- Doximity
- Rock Health
Vil du vite mer? Se hele videoen på YouTube →