OpenAI meddelade på torsdagen att dess API nu kommer att inkludera en mängd nya röstintelligensfunktioner utformade för att hjälpa utvecklare att skapa appar som kan tala, transkribera och översätta konversationer med användare.
Företagets nya GPT-Realtime-2 är en annan röstmodell byggd för att skapa realistiska röstsimuleringar som kan kommunicera med användare. Men till skillnad från den tidigare versionen (GPT-Realtime-1.5), är den här byggd med GPT-5-klass slutledning, och OpenAI säger att den skapades för att hantera mer komplexa förfrågningar från användare.
Företaget lanserar också GPT‑Realtime‑Translate. Som namnet antyder är den designad för att tillhandahålla översättningstjänster i realtid som ”håller din takt” i ett konversationsformat. Den här funktionen inkluderar över 70 inmatningsspråk (det vill säga de språk du förstår) och 13 utgångsspråk (det vill säga de språk som du vidarebefordrar till dina högtalare).
Slutligen tillkännagav företaget också en ny transkriptionsfunktion, GPT-Realtime-Whisper. Detta ger användare live tal-till-text-funktioner som fångar interaktioner när de inträffar.
”Tillsammans flyttar modellerna vi lanserar realtidsljud från enkelt samtal och svar till ett fungerande röstgränssnitt som lyssnar, sluter sig till, översätter, transkriberar och vidtar åtgärder när konversationen utvecklas”, sa företaget.
Vem kommer att dra nytta av dessa uppdateringar? Det uppenbara målet är företag som vill utöka sin kundservicekapacitet. Men OpenAI säger också att dess nya funktioner kommer att gynna ett brett utbud av sektorer, inklusive utbildning, media, evenemang och skaparplattformar.
Även om dessa verktyg kan verka användbara ur ett företagsperspektiv, har de också stor potential för missbruk. Företaget sa att det har byggt skyddsräcken för att säkerställa att de nya funktionerna inte missbrukas för att begå skräppost, bedrägerier och andra former av onlinemissbruk. Enligt OpenAI har systemet vissa triggers inbyggda som kan ”stoppa en konversation om det upptäcks att det bryter mot riktlinjerna för skadligt innehåll.”
tech crunch event
San Francisco, Kalifornien
|
13-15 oktober 2026
Alla nya röstmodeller ingår i OpenAI:s Realtime API. Translate och Whisper debiteras per minut, medan GPT-Realtime-2 debiteras baserat på tokenförbrukning.
Om du köper via länkar i våra artiklar kan vi tjäna en liten provision. Detta påverkar inte det redaktionella oberoendet.
