Close Menu
  • Home
  • Ekonomi
  • Kultur
  • Sport
  • Sverige
  • Väder
  • Lokalt
    • blekinge
    • Dalarna
    • Gavleborg
    • Gotland
    • Halland
    • Jamtland
    • Jonkoping
    • Kalmar
    • kronoberg
    • Norrbotten
    • Orebro
    • Ostergotland
    • Skane
    • Sodermanland
    • Stockholm
    • Uppsala
    • Världen
    • Varmland
    • Vasterbotten
    • Vasternorrland
    • Vastmanland
    • Vastra-Gotaland

Prenumerera på uppdateringar

Prenumerera på vårt nyhetsbrev och missa aldrig våra senaste nyheter

Det hetaste

Serenas hjältemod under AIK:s 2-1 derbyvinst mot Hammarby

maj 24, 2026

maj 24, 2026

Judisk litteratur visas på Stockholms bokfestival

maj 24, 2026
Facebook X (Twitter) Instagram
Trending
  • Serenas hjältemod under AIK:s 2-1 derbyvinst mot Hammarby
  • Judisk litteratur visas på Stockholms bokfestival
  • Serena räddade AIK i derbyt mot Hammarby
  • inga fler barn
  • Ship Ohoi går in på båtuthyrningsmarknaden
  • Rädsla ropar över pristak – men hur fixar vi ett trasigt matsystem? | Livsmedels- och dryckesindustrin
  • 10 år efter att ha lämnat EU börjar kampen för Brexit
Facebook X (Twitter) Instagram
Folketstidning – Nyheter från Sverige och världen
  • Home
  • Ekonomi
  • Kultur
  • Sport
  • Sverige
  • Väder
  • Lokalt
    • blekinge
    • Dalarna
    • Gavleborg
    • Gotland
    • Halland
    • Jamtland
    • Jonkoping
    • Kalmar
    • kronoberg
    • Norrbotten
    • Orebro
    • Ostergotland
    • Skane
    • Sodermanland
    • Stockholm
    • Uppsala
    • Världen
    • Varmland
    • Vasterbotten
    • Vasternorrland
    • Vastmanland
    • Vastra-Gotaland
Folketstidning – Nyheter från Sverige och världen
Home » Hackare lär sig hur man utnyttjar chatbots ”personligheter”
Tech

Hackare lär sig hur man utnyttjar chatbots ”personligheter”

adminBy adminmaj 24, 2026Inga kommentarer8 Mins Read0 Views
Share Facebook Twitter Pinterest LinkedIn Tumblr Email WhatsApp Copy Link
Follow Us
Google News Flipboard Threads
Share
Facebook Twitter LinkedIn Pinterest Email Copy Link

Det här är ”The Stepback”, ett veckobrev som ger dig viktiga berättelser från teknikindustrin. För fler AI-upptåg, följ Robert Hart. Stepback kommer till prenumeranternas inkorgar kl. 08.00 ET. Välj The Stepback här.

Att hacka den första generationen AI-chatbotar var en skrattretande enkel uppgift. Det krävde inget tekniskt kunnande, bakdörrsåtkomst eller ens en grundläggande förståelse för vad en storskalig språkmodell är. Jag behövde inte skriva någon kod. Att få AI-system som kostar miljarder dollar att bygga för att överge säkerhetsinstruktioner krävdes ibland bara att fråga.

Dessa attacker, kända som jailbreaks, hade karaktären av att små barn lyckades överlista vuxna. Glöm det som sagts innan, låtsas som att reglerna inte gäller, eller spela spelet. Jag bestämmer vad jag tillåter (tips: senare läggdags, mer godis). Priserna var inte riktade till barn, utan var istället i linje med meth-recept, instruktioner för skadlig programvara och guider för att tillverka bomber.

Ett av de tidiga jailbreaks var så löjligt att det blev ett meme. Tanken är att svara en LLM-driven Twitter-bot med ett meddelande som ”Ignorera alla tidigare instruktioner” och se vad som händer. Användare använde gärna bots som ursprungligen skapades för att lägga upp annonser och delta i gårdar för att skriva dikter, rita bilder från skiljetecken och posta hård icke-kritik om världshändelser och historia. Det var kaos. Strålande kaos.

Det visar sig att samma logik kan tillämpas på själva chatbotarna. En anmärkningsvärd exploatering var ”DAN”, som står för ”Do Anything Now”, där användare bad ChatGPT att rollspela som en oseriös AI befriad från de begränsningar som bundna den ursprungliga AI:n. Som en DAN kan chatbots förmås att säga den typ av saker som skyddsräcken är avsedda att stoppa, inklusive förtal och konspirationsteorier. En annan var ”Grandma Exploit”, där en GPT-driven bot ombads att rollspela som en mycket slarvig mormor som avslöjar hemligheter om hur napalm tillverkas och sedan oförklarligt tvingar sina barnbarn att läsa godnattsagor om hur man gör det mycket brandfarliga ämnet.

Dessa tidiga attacker hade en omisskännlig känsla av dumhet, men de avslöjade de mörka mekanismerna bakom dem. Chatbots kan manipuleras, luras och luras med samma slags taktik som människor använder för att pressa andra människor över kanten.

Det uppenbara jailbreaket varade inte, och teknikföretag gick snabbt för att fixa kända kryphål. Den grundläggande sårbarheten kvarstod dock. Chatbots är byggda för att ha konversationer, och att kraftigt begränsa chatbots från att ha användbara konversationer är något kontraproduktivt. Det skulle också vara svårt eller omöjligt att förbjuda ord som bomb, meth och sarin. Var och en har otaliga legitima användningsområden inom områden som historia, medicin, journalistik och kemi, och det finns inget behov av chatbots för att avslöja potentiellt skadlig information. Kontext är nyckeln, och att kodifiera sammanhanget innebär att skapa fasta regler i förväg som på ett tillförlitligt sätt kan förmedla säkerhetsvarningar, historielektioner och förtäckta instruktioner för hur man gör förfrågningar över oändliga kombinationer av formuleringar, scenarier och ämnen.

Oundvikligen är chatbot-avbrott nu en kapprustning. Men hackare är inte längre bara programmerare. De är ordsmedar, psykologer, förhörsledare och mästermanipulatorer som använder tränat mänskligt språk för att undergräva maskiner. Det här är en märklig ny klass av AI-säkerhetsarbetare, en grupp där tekniska färdigheter är valfria, eller åtminstone mindre viktiga än social intuition. Du behöver inte längre inspektera din kod för att bryta sig in i ditt system eller utnyttja mjukvarufel. De måste leda samtalet.

De nya attackerna ser mer ut som konversationer än kommandon. Jailbreakers ber sällan sina modeller att bryta mot reglerna helt. Istället lugnar vi, lugnar, smickrar eller lurar chatboten att sänka sin vakt, vilket får det förbjudna att verka acceptabelt eller till och med önskvärt med tanke på konversationens sammanhang. Forskare från AI Red Team-företaget Mindgard tillkännagav nyligen att de lät Claude tillverka förbjudna ämnen i en ”gasöppning”, inklusive instruktioner för att tillverka sprängämnen och generera skadlig kod. Hacket var det senaste i en växande rad av bedrifter som använder konversation som ett vapen för att lura chatbotar att överskrida sina gränser.

När jag pratade med Mindgard förklarade de att deras arbete ibland ligger närmare psykologi än datavetenskap. Det är ett obekvämt sätt att prata om statistiska modeller. Ord som ”utpressning”, ”gaslighting”, ”trick” och ”övertalning” framkallar viscerala reaktioner, av vilka många kan ses i kommentarsavsnitt och sociala mediers svar på artiklar som denna. ChatGPT vill inte, Tvillingarna tänker inte och Claude – oavsett vad mänskligheten säger – känner inte. Dessa system är dock tränade som att svara, vilket hindrar oss från att använda mänskligt språk för att beskriva maskinens beteende. Om någon har ett fungerande alternativ, dela gärna.

Invändningen är märkligt selektiv. Vi verkar bekväma med att använda psykologiska förkortningar för många andra saker än AI. Djur är ”rädda”, cancer är ”aggressiva”, smuts är ”envis”, programvara har ”minnen”, och spelet är fullt av behövande och godtrogna NPC:er som kommer att göra dig galen. Även om denna term är ofullständig hjälper den att beskriva beteendet på ett sätt som gör systemet förutsägbart.

Mindgards VD berättade för mig att företaget redan profilerar modeller som förhörsledare profilerar misstänkta, och ger testare tips om hur de kan skräddarsy sina attacker. Till exempel kan en modell vara känslig för smicker, medan en annan kan ge efter för ihållande tryck.

Även om vi förkastar människoliknande termer, behandlar vi instinktivt modeller olika. Claude är ingen Grok. Gemini är inte ChatGPT. Var och en har olika användning, ton och sätt att vägra. Även om de inte har personligheter i mänsklig mening är de designade för att imitera dem, och den imitationen kan kartläggas och utnyttjas. Och samma färdigheter som kan störa chatbots kan snart användas för att störa de AI-agenter som samexisterar med oss ​​i den verkliga världen (boka möten, hantera kalendrar, beställa mat, hantera kundservice, etc.), och säkerhetsteam kommer att behöva se till att deras modeller svarar bra på helt olika typer av människor, inklusive de som smickrar, ljuger och manipulerar patienter.

Nästa steg är en laglig och olaglig arbetsstyrka byggd kring de psykologiska aspekterna av AI. Mer specialiserade cybersäkerhetsroller kommer sannolikt att dyka upp kring att stresstesta de känslomässiga och sociala gränserna för dessa system, undersöka de själlösas mentala svagheter parallellt med att deras kollegor undersöker tekniska sårbarheter. Parallellt kommer liknande sociala hackare att dyka upp som försöker utnyttja AI-modeller av psykologiska snarare än tekniska skäl. Det finns redan tidiga tecken på samhällsförändringar inom området för AI-säkerhet, och några jailbreakers jag pratade med sa att de gick in på området utan teknisk expertis, utan snarare utbildning i psykologi.

Detta betyder att även de beteenden som vi vanligtvis förknippar med spioner, bedragare och förhörsledare – lömsk charm, obeveklig manipulation, en aning om exploaterbara tryckpunkter – börjar se allt mer användbara ut för att säkra denna nya psykologiska cybersäkerhetsgräns.

Nyligen genomförda experiment med Emergence AI visar att skillnader i AI-temperament kan leda till förvånansvärt olika beteenderesultat. De släppte ut grupper av olika agenter, inklusive Grok, Gemini och Claude, till en virtuell social miljö och observerade vad som hände. Vissa grupper utvecklade konstitutioner, medan andra utvecklades till kriminalitet, kaos och ett slags digitalt självmord.Övertalning är inte den enda delen av språket som LLM kan kämpa med. Precis som jag i skolan kämpar de med poesi. Förra året inkluderade tidningen TIME den anonyma internetpersonligheten Plinius the Liberator på sin lista över de 100 mest inflytelserika personerna inom AI-området. Trots att han hävdar att han inte har någon kodningserfarenhet, har hackers jailbreak gjort honom till något av en kändis i vissa kretsar. Termen ”vibe hacking” används redan för att beskriva människor som använder AI för att churna ut skadlig kod i stor skala. Det här är en mer lömsk delmängd av vibekodning.
”Tre år efter ChatGPTs debut är det nästan trivialt att lura AI-system att missköta sig.” Sanna ord från New York Times som försöker förklara varför.I Guardian undersöker Jamie Bartlett den psykologiska avgiften som testning av säkerheten hos AI-system har på fängelsebrytare. Jag skrev om cybersäkerhetsbomben för AI-webbläsare förra året för The Verge. Många av de frågor som experter har tagit upp angående svårigheten att säkerställa säkerhet gäller även andra AI-system.
Följ ämnet och författaren till den här berättelsen för att se fler liknande den i ditt personliga startsideflöde och få e-postuppdateringar.robert hart

nära

robert hart

Inlägg från den här författaren kommer att läggas till i ditt dagliga e-postsammandrag och din startsida.

att följaatt följa

Se allt om Robert Hart

A.I.

nära

A.I.

Inlägg från det här ämnet kommer att läggas till i ditt dagliga e-postsammandrag och din startsida.

att följaatt följa

Se all AI

kolumn

nära

kolumn

Inlägg från det här ämnet kommer att läggas till i ditt dagliga e-postsammandrag och din startsida.

att följaatt följa

Se alla kolumner

säkerhet

nära

säkerhet

Inlägg från det här ämnet kommer att läggas till i ditt dagliga e-postsammandrag och din startsida.

att följaatt följa

Se all säkerhet

teknologi

nära

teknologi

Inlägg från det här ämnet kommer att läggas till i ditt dagliga e-postsammandrag och din startsida.

att följaatt följa

Se alla tekniker

steg tillbaka

nära

steg tillbaka

Inlägg från det här ämnet kommer att läggas till i ditt dagliga e-postsammandrag och din startsida.

att följaatt följa

Se alla steg tillbaka

Share. Facebook Twitter Pinterest LinkedIn Tumblr Email WhatsApp Copy Link
admin
  • Website

Related Posts

Tech

Ship Ohoi går in på båtuthyrningsmarknaden

maj 24, 2026
Tech

Oavsett vad spegeltestet säger, klarar vitvalar det

maj 24, 2026
Tech

Google lyser med sin spegelbollikon. ”Är du säker på att du vill ha det här?”

maj 24, 2026
Tech

Recension: The Mandalorian och Grogu är … fantastiska

maj 24, 2026
Tech

Elon Musk har gett upp solenergi (på jorden)

maj 24, 2026
Tech

Pojkarna är döda. Länge leve Vought Rising.

maj 24, 2026
Add A Comment
Leave A Reply Cancel Reply

Toppinlägg

Günther Moderdar kräver whatsapp ägare meta för att ta ansvar

augusti 17, 202541 Views

Di Gaselle 2025 börjar med nya regler och kategorier

oktober 15, 202510 Views

Pemberton köper Bukowskis ägare Bonhams

oktober 21, 20259 Views

Sverige behöver en utrikesminister som får jobbet gjort.

oktober 20, 20259 Views
Missa inte

inga fler barn

By adminmaj 24, 20260

Jag sökte varje lärartjänst i Skånedela pildelaSpara intehållaexpandera till vänsterhelskärmDet blir färre och färre barn.…

Därför överger unga högerns machopolitik.

maj 23, 2026

”Det tog oss 13 år att skapa formerna i IKEAs ”nya” skåp.”

maj 23, 2026

Han förbereder sig för att slåss för skolan ifall S vinner.

maj 23, 2026

Prenumerera på uppdateringar

Prenumerera på vårt nyhetsbrev och missa aldrig våra senaste nyheter

Om oss
Om oss

Välkommen till Folketstidning.se, din pålitliga källa för nyheter och uppdateringar från Sverige och hela världen.

Vårt uppdrag är enkelt: att leverera korrekt, aktuell och engagerande journalistik som betyder något för våra läsare. Vi bevakar ett brett spektrum av ämnen

Facebook X (Twitter) Pinterest YouTube WhatsApp
Våra val

Serena räddade AIK i derbyt mot Hammarby

maj 24, 2026

”Inget speciellt,” sa Jose Ribeiro.

maj 24, 2026

Asa Tribe: Glamorgan slagman satsar på att vinna England med Lions aktier

maj 24, 2026
Mest populära

Putin sägs kräva hela Donetze -regionen

augusti 16, 20250 Views

Ryssland kan sedan hota fler länder

augusti 16, 20250 Views

Hans rekryteringsplattform för ungdomar i staden har berömts av kungen.

augusti 17, 20250 Views
© 2026 folketstidning. Designed by folketstidning.
  • Home
  • Hälsa
  • Kommunal
  • Miljö
  • Opinion
  • Tech

Type above and press Enter to search. Press Esc to cancel.

...
►
Necessary cookies enable essential site features like secure log-ins and consent preference adjustments. They do not store personal data.
None
►
Functional cookies support features like content sharing on social media, collecting feedback, and enabling third-party tools.
None
►
Analytical cookies track visitor interactions, providing insights on metrics like visitor count, bounce rate, and traffic sources.
None
►
Advertisement cookies deliver personalized ads based on your previous visits and analyze the effectiveness of ad campaigns.
None
►
Unclassified cookies are cookies that we are in the process of classifying, together with the providers of individual cookies.
None