Men 1 000 tokens per sekund är faktiskt blygsamt med Cerebras standarder. Företaget mätte 2 100 tokens per sekund på Llama 3.1 70B och rapporterade 3 000 tokens per sekund på OpenAI:s egenutvecklade öppenviktsmodell gpt-oss-120B. Detta tyder på att Codex-Sparks relativt långsamma hastighet återspeglar omkostnadsbeloppet för större eller mer komplexa modeller.
AI-kodningsagenter har haft ett genombrottsår, med verktyg som OpenAIs Codex och Anthropics Claude Code som har nått nya nivåer av användbarhet för att snabbt bygga prototyper, gränssnitt och standardkod. OpenAI, Google och Anthropic tävlar alla om att leverera mer kapabla kodningsagenter, men latens är det som skiljer vinnarna åt. Modeller som accelererar kod tillåter utvecklare att iterera snabbare.
Mot bakgrund av intensiv konkurrens från Anthropic har OpenAI snabbt utvecklat sin Codex-linje, släppt GPT-5.2 i december och skickat GPT-5.3-Codex för bara några dagar sedan efter att VD Sam Altman utfärdade ett internt ”Code Red”-memo angående konkurrenstrycket från Google.
Diversifierar bort från Nvidia
Sparks djupare hårdvaruhistoria kan ha en mer betydande inverkan än benchmarkpoäng. Den här modellen körs på Cerebras Wafer Scale Engine 3. Det är chipet i middagstallrikstorlek som Cerebras har byggt en verksamhet på sedan åtminstone 2022. OpenAI och Cerebras tillkännagav sitt partnerskap i januari, och Codex-Spark är den första produkten som kommer ut ur det.
OpenAI har systematiskt minskat sitt beroende av Nvidia under det senaste året. Företaget tecknade ett massivt flerårigt avtal med AMD i oktober 2025, undertecknade ett avtal om molndatorer på 38 miljarder dollar med Amazon i november och har designat sina egna anpassade AI-chips för eventuell tillverkning av TSMC.
Samtidigt har en planerad infrastrukturaffär på 100 miljarder dollar med NVIDIA hittills fallit igenom, även om NVIDIA sedan dess har åtagit sig att investera 20 miljarder dollar. Reuters rapporterade att OpenAI har blivit frustrerad över hastigheten på vissa Nvidia-chips för slutledningsuppgifter. Det här är precis den typ av arbetsbelastning som OpenAI designade Codex-Spark för.
Oavsett vilket chip som sitter inuti är hastigheten viktig, även om noggrannheten kan offras. För utvecklare som tillbringar sina dagar med att vänta i en kodredigerare på AI-förslag kan 1 000 tokens per sekund vara mer som att köra en såg än att försiktigt styra en sticksåg. Titta på vad du skär.
