Ny forskning undersöker hur storskaliga språkmodeller fungerar i en mängd olika medicinska situationer, inklusive verkliga akutmottagningsfall. Där verkar åtminstone en modell vara mer exakt än mänskliga läkare.
Studien, som publicerades denna vecka i tidskriften Science, är ett forskningsteam som leds av läkare och datavetare från Harvard Medical School och Beth Israel Deaconess Medical Center. Forskarna sa att de genomförde olika experiment för att mäta hur OpenAIs modeller jämfört med mänskliga läkare.
I ett experiment fokuserade forskarna på 76 patienter som kom till Beth Israels akutmottagning och jämförde diagnoserna från två behandlande internister med diagnoserna genererade av OpenAI:s o1- och 4o-modeller. Dessa diagnoser utvärderades av två andra primärvårdsläkare, men det var oklart vilka som var mänskliga och vilka som var AI-baserade.
”Vid varje diagnostisk beröringspunkt presterade O1 nominellt bättre än eller lika med två primärvårdsläkare och 4O,” sade studien och tillade att skillnaden var ”särskilt uttalad vid den första diagnostiska beröringspunkten (tidig ER-triage), när den minsta informationen är tillgänglig om patienten och att fatta rätt beslut är mest brådskande.”
I ett pressmeddelande från Harvard Medical School om studien betonade forskarna att ”ingen dataförbehandling utfördes”. AI-modellen presenterades med samma information som fanns tillgänglig i den elektroniska journalen vid tidpunkten för varje diagnos.
Med hjälp av den informationen kunde o1-modellen ge en ”exakt eller mycket nära diagnos” i 67 % av triagefallen. Samtidigt hade en läkare rätt eller mycket nära diagnosen 55 % av gångerna, och den andra läkaren hade rätt 50 % av gångerna.
”Vi testade AI-modellen mot nästan alla riktmärken, och den överträffade både tidigare modeller och läkares baslinjer”, säger Arjun Manraj, chef för AI-labbet vid Harvard Medical School och en av studiens huvudförfattare, i ett pressmeddelande.
tech crunch event
San Francisco, Kalifornien
|
13-15 oktober 2026
För att vara tydlig, hävdar denna studie inte att AI är redo att fatta faktiska beslut på liv eller död på akuten. Istället sa det att resultaten visar ”ett akut behov av framtida kliniska prövningar för att utvärdera dessa teknologier i verkliga patientvårdsmiljöer.”
Forskarna noterade också att de bara studerade hur modellen beter sig när den förses med textbaserad information, och att ”befintlig forskning tyder på att nuvarande underliggande modeller är mer begränsade i sina slutsatser om icke-textindata.”
Adam Rodman, en läkare i Beth Israel och en av studiens huvudförfattare, varnade i The Guardian att det ”för närvarande inte finns något formellt ramverk för ansvarighet” för AI-diagnostik, och att patienter fortfarande ”vill att människor ska vägleda dem genom beslut på liv och död och vägleda dem genom svåra behandlingsbeslut.”
I ett inlägg om studien sa akutläkaren Kristen Pantagani att det var en ”intressant AI-studie som ledde till några mycket hypade rubriker”, särskilt för att den jämförde AI-diagnos med en internist snarare än en akutläkare.
”Om du vill jämföra ett AI-verktyg med en läkares kliniska förmåga, bör du börja med att jämföra det med en läkare som faktiskt utövar den specialiteten,” sa Pantagani. ”Jag skulle inte bli förvånad om en LLM kunde slå en hudläkare på neurokirurgistyrelsens prov,[men]det är inte särskilt användbart att veta.”
Hon hävdade också, ”Som akutläkare är mitt huvudsakliga mål när jag träffar en patient för första gången inte att gissa den slutliga diagnosen. Mitt huvudsakliga mål är att avgöra om du har en potentiellt dödlig sjukdom.”
Det här inlägget och rubriken har uppdaterats för att återspegla det faktum att studiediagnosen kom från den behandlande läkaren i internmedicin och för att inkludera kommentarer från Kristen Pantagani.
Om du köper via länkar i våra artiklar kan vi tjäna en liten provision. Detta påverkar inte det redaktionella oberoendet.
