Antropic hävdar att AI:s "onda" skildring var orsaken till Claudes utpressningsförsök - Folketstidning

Enligt Anthropic kan fiktiva skildringar av artificiell intelligens ha verkliga effekter på AI-modeller.

Företaget tillkännagav förra året att Claude Opus 4 under tester före utgivningen som involverade fiktiva företag ofta försökte utpressa ingenjörer för att undvika att ersättas med ett annat system. Anthropic publicerade senare forskning som tydde på att andra företags modeller hade liknande problem med ”agent feljustering.”

Det verkar som att Anthropic har vidtagit ytterligare åtgärder på sina handlingar och hävdar i ett inlägg till

Företaget utvecklade ytterligare i ett blogginlägg och sa att från och med Claude Haiku 4.5, utgör Anthropics modeller ”aldrig hot (under testning), jämfört med upp till 96% av tiden i tidigare modeller.”

Vad är skillnaden? Företaget sa att det fann att utbildning baserad på ”Claudes konstitutionella dokument och fiktiva berättelser om AI som fungerar briljant” förbättrade samarbetet.

I detta avseende sa Antropic att träning visade sig vara mer effektiv när den inkluderade ”principerna bakom kooperativt beteende” snarare än bara ”demonstrationer av kooperativt beteende enbart.”

”Att göra båda tillsammans verkar vara den mest effektiva strategin”, sa företaget.

tech crunch event

San Francisco, Kalifornien
|
13-15 oktober 2026

Det hetaste

Colombianer i Ukraina gör det för pengarnas skull

Stefanos Tsitsipas reflekterar över sitt förhållande till Paula Badosa

Antropic hävdar att AI:s ”onda” skildring var orsaken till Claudes utpressningsförsök

Antropic hävdar att AI:s ”onda” skildring var orsaken till Claudes utpressningsförsök

Vilka Mac-datorer lider av brist, och var blir situationen värre?

Bastl Kalimba är en vild synthesizer som tror att det är ett tumpiano

Gör dig redo för framtidens viskfyllda kontor.

DNA-tester identifierar ytterligare fyra besättningsmedlemmar i den dömda Franklin-expeditionen

Ashnymph’s Childhood EP är spännande dansgothrock

Uber har alltid velat vara mer än bara åkattraktioner. Jag har en anledning att skynda mig nu

Günther Moderdar kräver whatsapp ägare meta för att ta ansvar

Di Gaselle 2025 börjar med nya regler och kategorier

Pemberton köper Bukowskis ägare Bonhams

Sverige behöver en utrikesminister som får jobbet gjort.

”Varför ska pensionärer behöva betala för Alecta-ledningens misstag?”

Nästa Zara Larsson får hålla sig till karaoke

Vitt snus | Foto Vitt snus Regeringen accepterade tobakslobbyns påståenden direkt

Är du kritisk till SD? Ta en närmare titt över axeln

Våra val

Stefanos Tsitsipas reflekterar över sitt förhållande till Paula Badosa

Bordtennis: Bröderna Harimoto skrev historia genom att vinna två VM-finaler

Trust Championship: Christopher Reitan vinner första PGA-segern när Alex Fitzpatrick faller

Mest populära

Putin sägs kräva hela Donetze -regionen

Ryssland kan sedan hota fler länder

Hans rekryteringsplattform för ungdomar i staden har berömts av kungen.

Prenumerera på uppdateringar

Det hetaste

Antropic hävdar att AI:s ”onda” skildring var orsaken till Claudes utpressningsförsök

Related Posts