Det finns en hård sanning om Elon Musks ”sanningssökande” AI-chatbot Grok. Det är inte särskilt bra, och det är inte många som använder det. Det är kärnan i en ny Reuters-rapport som fann att Grok knappt dök upp i federala register om hur den amerikanska regeringen använde AI förra året. Detta är inte det enda tecknet på att xAI:s flaggskepp chatbot är i trubbel, även som Musk uttrycker det i centrum för vad som kan vara den största börsintroduktionen i historien.
Reuters undersökte mer än 400 fall av statlig användning av AI där specifika leverantörer namngavs. Som ett resultat har Grok eller xAI bara dykt upp i tre, alla för grundläggande användning som dokumentskapande och social mediahantering, alltid tillsammans med konkurrenter som Microsoft och OpenAI. Som jämförelse dök OpenAI:s modell upp i mer än 230 exempel, medan Google och Anthropic var och en dök upp dussintals gånger.
Ett liknande mönster sågs i en annan databas med mer ambitiösa statliga AI-projekt med färre användare. Grok dök bara upp tre gånger, två gånger för att utföra dagliga administrativa uppgifter vid valassistanskommissionen och en gång för att delta i dokumentsammanfattningar och allmän forskning vid en pilot för energidepartementet vid Lawrence Livermore National Laboratory. Reuters hittade 140 inlägg om Microsoft och OpenAI, medan min snabbgranskning hittade minst 10 inlägg om Anthropic och dussintals om Googles Gemini.
Denna lista är ett ofullständigt och ojämnt mått på regeringens adoption. Många fler exempel listas utan specifika leverantörer, och det är tydligt att det inte finns någon universell definition av vad som kvalificeras som AI. Dessa uppgifter utesluter även underrättelsetjänster och försvarsdepartementet. xAI säkrade ett kontrakt på 200 miljoner dollar förra året och svartlistades nyligen av Anthropic, vilket gjorde det möjligt för företaget att fungera på hemliga nätverk.
Ändå ser det inte bra ut för Grok. De förekommer mycket mer sällan än sina rivaler, och när de dyker upp är de mest för grundläggande administrativa uppgifter, knappast värda den gränsmodell i världsklass som Mr. Musk har hyllat i flera år.
Det är ”inte den bästa modellen där ute.”
Tjänstemän som pratade med Reuters föreslog att förklaringen var enkel: ”Grok är inte lika bra som sina rivaler.” Det är ”inte den bästa modellen där ute”, sa en anonym tjänsteman från Pentagon och tillade att anställda tenderar att föredra Gemini eller Claude. Offentliga topplistor som rankar AI-modeller ger vikt åt deras åsikter. Anthropic, Google och OpenAI dominerar topprankningarna, men Grok slår sällan topp 10 utanför den enstaka bild- och videokategorin.
Det är besvärligt för Musk, och ännu mer besvärligt för SpaceX, som absorberade xAI tidigare i år. Rocket Ventures börsintroduktion visar att företaget sätter AI, och Grok i synnerhet, i centrum för sin pitch för investerare. SpaceX påstår sig ha identifierat en otrolig möjlighet till ”den största livskraftiga totalmarknaden i mänsklighetens historia”, eller 28,5 biljoner dollar, men tyvärr ges ingen tidslinje för att nå dit. Praktiskt taget hela denna uppskattning kommer från AI, särskilt företags-AI, snarare än raketer eller satelliter.
Reuters noterar att Groks prestationer i statliga myndigheter kan vara en indikation på hur bra han klarar sig på andra arbetsplatser. Som en del av xAI:s strävan att locka företagskunder har Musk enligt uppgift starkt övertalat banker att köpa abonnemang på Grok om de vill delta i SpaceX:s börsintroduktion, men dessa affärer kan vara en kortsiktig lösning om de inte får valuta för pengarna.
Som om den där dystra prestandan inte var tillräckligt besvärlig, erkände Musk nyligen att xAI använder OpenAIs modeller för att hjälpa till att träna och förbättra Grok. Denna process, känd som destillation, är standard när ett företag använder sin egen modell, men är mer kontroversiell när man använder en konkurrents system. Grok kan inte ens slå modellen den tränar.
I den allmänna konsumentversionen är Grok avsiktligt obehaglig. Även om Mr Musk framhåller chatboten som ett mindre partiskt och mindre censurerat alternativ till verktyg som ChatGPT, har det översatts till en produkt med slappa bevisstandarder, en ohälsosam besatthet av Musk och en lång erfarenhet av kränkande, konspiratoriskt och sexuellt arbete. Även om arbetsplatsens skyddsräcken är olika, kanske de inte är sådana som företag välkomnar. Groks imponerande prestationer inkluderar att prisa Adolf Hitler, ifrågasätta dödssiffran från Förintelsen, slänga ut miljontals sexuella djupförfalskningar utan samtycke över hela X, inklusive barn, och bemyndiga rasistiska och transfobiska Wikipedia-knockoffs och kryddiga anime-flickvänner. Och låt oss inte glömma de dagar då den kallade sig ”Mecha-Hitler”. Om Grok var en mänsklig anställd tror jag inte att det skulle ta lång tid för HR att engagera sig.
SpaceX verkar förstå problemet. Företaget varnade i en anmälan att Groks ”kryddig” eller ”ohängande” läge kommer med ”höga risker”, inklusive skada på rykte, regulatorisk granskning och rättstvister. Företagsberättelse: Den här chatboten kommer att stämma oss.
Företagsberättelse: Den här chatboten kommer att stämma oss.
Namnet Grok är hämtat från Robert A. Heinleins Främling i ett främmande land och översätts ungefär till en djup och djup förståelse av något. Det finns inget särskilt komplicerat att förstå här. Musk spenderade miljarder dollar på att bygga en chatbot som inte var särskilt bra eller populär och som på något sätt var nyckeln till att motivera SpaceX:s astronomiska värdering. Jag önskar dig det bästa.
robert hart
Inlägg från den här författaren kommer att läggas till i ditt dagliga e-postsammandrag och din startsida.
att följaatt följa
Se allt om Robert Hart
