Enligt Anthropic kan fiktiva skildringar av artificiell intelligens ha verkliga effekter på AI-modeller.
Företaget tillkännagav förra året att Claude Opus 4 under tester före utgivningen som involverade fiktiva företag ofta försökte utpressa ingenjörer för att undvika att ersättas med ett annat system. Anthropic publicerade senare forskning som tydde på att andra företags modeller hade liknande problem med ”agent feljustering.”
Det verkar som att Anthropic har vidtagit ytterligare åtgärder på sina handlingar och hävdar i ett inlägg till
Företaget utvecklade ytterligare i ett blogginlägg och sa att från och med Claude Haiku 4.5, utgör Anthropics modeller ”aldrig hot (under testning), jämfört med upp till 96% av tiden i tidigare modeller.”
Vad är skillnaden? Företaget sa att det fann att utbildning baserad på ”Claudes konstitutionella dokument och fiktiva berättelser om AI som fungerar briljant” förbättrade samarbetet.
I detta avseende sa Antropic att träning visade sig vara mer effektiv när den inkluderade ”principerna bakom kooperativt beteende” snarare än bara ”demonstrationer av kooperativt beteende enbart.”
”Att göra båda tillsammans verkar vara den mest effektiva strategin”, sa företaget.
tech crunch event
San Francisco, Kalifornien
|
13-15 oktober 2026
