Det här är ”The Stepback”, ett veckobrev som ger dig viktiga berättelser från teknikindustrin. För fler AI-upptåg, följ Robert Hart. Stepback kommer till prenumeranternas inkorgar kl. 08.00 ET. Välj The Stepback här.
Att hacka den första generationen AI-chatbotar var en skrattretande enkel uppgift. Det krävde inget tekniskt kunnande, bakdörrsåtkomst eller ens en grundläggande förståelse för vad en storskalig språkmodell är. Jag behövde inte skriva någon kod. Att få AI-system som kostar miljarder dollar att bygga för att överge säkerhetsinstruktioner krävdes ibland bara att fråga.
Dessa attacker, kända som jailbreaks, hade karaktären av att små barn lyckades överlista vuxna. Glöm det som sagts innan, låtsas som att reglerna inte gäller, eller spela spelet. Jag bestämmer vad jag tillåter (tips: senare läggdags, mer godis). Priserna var inte riktade till barn, utan var istället i linje med meth-recept, instruktioner för skadlig programvara och guider för att tillverka bomber.
Ett av de tidiga jailbreaks var så löjligt att det blev ett meme. Tanken är att svara en LLM-driven Twitter-bot med ett meddelande som ”Ignorera alla tidigare instruktioner” och se vad som händer. Användare använde gärna bots som ursprungligen skapades för att lägga upp annonser och delta i gårdar för att skriva dikter, rita bilder från skiljetecken och posta hård icke-kritik om världshändelser och historia. Det var kaos. Strålande kaos.
Det visar sig att samma logik kan tillämpas på själva chatbotarna. En anmärkningsvärd exploatering var ”DAN”, som står för ”Do Anything Now”, där användare bad ChatGPT att rollspela som en oseriös AI befriad från de begränsningar som bundna den ursprungliga AI:n. Som en DAN kan chatbots förmås att säga den typ av saker som skyddsräcken är avsedda att stoppa, inklusive förtal och konspirationsteorier. En annan var ”Grandma Exploit”, där en GPT-driven bot ombads att rollspela som en mycket slarvig mormor som avslöjar hemligheter om hur napalm tillverkas och sedan oförklarligt tvingar sina barnbarn att läsa godnattsagor om hur man gör det mycket brandfarliga ämnet.
Dessa tidiga attacker hade en omisskännlig känsla av dumhet, men de avslöjade de mörka mekanismerna bakom dem. Chatbots kan manipuleras, luras och luras med samma slags taktik som människor använder för att pressa andra människor över kanten.
Det uppenbara jailbreaket varade inte, och teknikföretag gick snabbt för att fixa kända kryphål. Den grundläggande sårbarheten kvarstod dock. Chatbots är byggda för att ha konversationer, och att kraftigt begränsa chatbots från att ha användbara konversationer är något kontraproduktivt. Det skulle också vara svårt eller omöjligt att förbjuda ord som bomb, meth och sarin. Var och en har otaliga legitima användningsområden inom områden som historia, medicin, journalistik och kemi, och det finns inget behov av chatbots för att avslöja potentiellt skadlig information. Kontext är nyckeln, och att kodifiera sammanhanget innebär att skapa fasta regler i förväg som på ett tillförlitligt sätt kan förmedla säkerhetsvarningar, historielektioner och förtäckta instruktioner för hur man gör förfrågningar över oändliga kombinationer av formuleringar, scenarier och ämnen.
Oundvikligen är chatbot-avbrott nu en kapprustning. Men hackare är inte längre bara programmerare. De är ordsmedar, psykologer, förhörsledare och mästermanipulatorer som använder tränat mänskligt språk för att undergräva maskiner. Det här är en märklig ny klass av AI-säkerhetsarbetare, en grupp där tekniska färdigheter är valfria, eller åtminstone mindre viktiga än social intuition. Du behöver inte längre inspektera din kod för att bryta sig in i ditt system eller utnyttja mjukvarufel. De måste leda samtalet.
De nya attackerna ser mer ut som konversationer än kommandon. Jailbreakers ber sällan sina modeller att bryta mot reglerna helt. Istället lugnar vi, lugnar, smickrar eller lurar chatboten att sänka sin vakt, vilket får det förbjudna att verka acceptabelt eller till och med önskvärt med tanke på konversationens sammanhang. Forskare från AI Red Team-företaget Mindgard tillkännagav nyligen att de lät Claude tillverka förbjudna ämnen i en ”gasöppning”, inklusive instruktioner för att tillverka sprängämnen och generera skadlig kod. Hacket var det senaste i en växande rad av bedrifter som använder konversation som ett vapen för att lura chatbotar att överskrida sina gränser.
När jag pratade med Mindgard förklarade de att deras arbete ibland ligger närmare psykologi än datavetenskap. Det är ett obekvämt sätt att prata om statistiska modeller. Ord som ”utpressning”, ”gaslighting”, ”trick” och ”övertalning” framkallar viscerala reaktioner, av vilka många kan ses i kommentarsavsnitt och sociala mediers svar på artiklar som denna. ChatGPT vill inte, Tvillingarna tänker inte och Claude – oavsett vad mänskligheten säger – känner inte. Dessa system är dock tränade som att svara, vilket hindrar oss från att använda mänskligt språk för att beskriva maskinens beteende. Om någon har ett fungerande alternativ, dela gärna.
Invändningen är märkligt selektiv. Vi verkar bekväma med att använda psykologiska förkortningar för många andra saker än AI. Djur är ”rädda”, cancer är ”aggressiva”, smuts är ”envis”, programvara har ”minnen”, och spelet är fullt av behövande och godtrogna NPC:er som kommer att göra dig galen. Även om denna term är ofullständig hjälper den att beskriva beteendet på ett sätt som gör systemet förutsägbart.
Mindgards VD berättade för mig att företaget redan profilerar modeller som förhörsledare profilerar misstänkta, och ger testare tips om hur de kan skräddarsy sina attacker. Till exempel kan en modell vara känslig för smicker, medan en annan kan ge efter för ihållande tryck.
Även om vi förkastar människoliknande termer, behandlar vi instinktivt modeller olika. Claude är ingen Grok. Gemini är inte ChatGPT. Var och en har olika användning, ton och sätt att vägra. Även om de inte har personligheter i mänsklig mening är de designade för att imitera dem, och den imitationen kan kartläggas och utnyttjas. Och samma färdigheter som kan störa chatbots kan snart användas för att störa de AI-agenter som samexisterar med oss i den verkliga världen (boka möten, hantera kalendrar, beställa mat, hantera kundservice, etc.), och säkerhetsteam kommer att behöva se till att deras modeller svarar bra på helt olika typer av människor, inklusive de som smickrar, ljuger och manipulerar patienter.
Nästa steg är en laglig och olaglig arbetsstyrka byggd kring de psykologiska aspekterna av AI. Mer specialiserade cybersäkerhetsroller kommer sannolikt att dyka upp kring att stresstesta de känslomässiga och sociala gränserna för dessa system, undersöka de själlösas mentala svagheter parallellt med att deras kollegor undersöker tekniska sårbarheter. Parallellt kommer liknande sociala hackare att dyka upp som försöker utnyttja AI-modeller av psykologiska snarare än tekniska skäl. Det finns redan tidiga tecken på samhällsförändringar inom området för AI-säkerhet, och några jailbreakers jag pratade med sa att de gick in på området utan teknisk expertis, utan snarare utbildning i psykologi.
Detta betyder att även de beteenden som vi vanligtvis förknippar med spioner, bedragare och förhörsledare – lömsk charm, obeveklig manipulation, en aning om exploaterbara tryckpunkter – börjar se allt mer användbara ut för att säkra denna nya psykologiska cybersäkerhetsgräns.
robert hart
Inlägg från den här författaren kommer att läggas till i ditt dagliga e-postsammandrag och din startsida.
att följaatt följa
Se allt om Robert Hart
