Så medan det nya chippet möjliggör snabbare träning, säger Google också att varje volt den pumpar in i TPU 8t möjliggör mer användbara beräkningar. Företaget säger att det har en 97% ”bra pute”, vilket innebär mindre väntetid och bortkastad ansträngning. Med förbättrad hantering av oregelbundna minnesåtkomster, automatisk hantering av hårdvarufel och realtidstelemetri över alla anslutna chips, spenderar TPU 8t mer tid på att aktivt köra modellträning.
När den väl har tränats körs AI-modellen i inferensläge och genererar tokens. Det här är processen som sker bakom kulisserna när du säger åt din modell att göra något. Detta kräver inte mycket hästkrafter, så att använda samma hårdvara för båda delarna av AI-livscykeln är ineffektivt. Som sådan är inferens tillämpningsområdet för TPU 8i och är designad för att vara effektivare med mindre latens när du kör flera specialiserade agenter. TPU 8i-chipsen körs också i större kapslar med 1 152 marker, jämfört med bara 256 marker i föregående generations Ironwood-inferenskluster. Detta ger 11,6 EFlops per pod, vilket är mycket lägre än TPU 8t pod.
TPU 8i har lägre råeffekt än TPU 8t.
Kredit: Google
TPU 8i har lägre råeffekt än TPU 8t.
Kredit: Google
Google har tredubblat mängden on-chip SRAM i varje TPU 8i till 384 MB. Detta gör att företagets nya kretsar kan behålla större nyckel-värde-cacher på chipet, vilket gör att modeller kan snabba upp med längre sammanhangsfönster. Den 8:e generationens AI-accelerator är också den första Google-acceleratorn som uteslutande förlitar sig på Googles anpassade Axion ARM CPU-värd, med en CPU för varannan TPU. I Ironwood hanterade varje x86-processor fyra TPU-chips. Google säger att detta ”full stack” ARM-baserade tillvägagångssätt ger betydande effektivitetsvinster.
effektivt spel
Det är ingen överraskning att effektivitet är en central del av Googles nya TPU-inställning. Att träna och köra banbrytande AI-modeller är dyrt och avkastningen på investeringen är osäker. Företag spenderar fortfarande pengar på generativ AI i hopp om att en dag konvertera effektivitet. Kanske Googles nya TPU:er kan eller kanske inte hjälper till att nå dit, men företaget gör anmärkningsvärda förbättringar.
