Anthropic granskar grundligt Claudes så kallade ”själsdokument”.
Det nya missivet är ett 57-sidigt dokument med titeln ”Claudes konstitution” som beskriver ”Antropics avsikter för modellens värderingar och handlingar” och riktar sig till själva modellen snarare än till en extern publik. Dokumentet är utformat för att beskriva Claudes ”etiska karaktär” och ”kärnidentitet”, inklusive hur han balanserar motstridiga värderingar och situationer med hög insats.
Medan den tidigare konstitutionen, publicerad i maj 2023, i första hand var en lista med riktlinjer, säger Anthropic i en release att det är viktigt för AI-modeller att ”inte bara specificera vad du vill att de ska göra, utan förstå varför du vill att de ska bete sig på ett visst sätt.” Detta dokument får Claude att agera som en nästan självständig varelse som förstår sig själv och sin plats i världen. Anthropic överväger också möjligheten att Claude kan ha någon form av medvetenhet eller moralisk status. Det beror också på att företaget tror att om de berättar detta för Claude så kanske han vidtar bättre åtgärder. Anthropic sa i ett släpp att chatbotens så kallade ”psykologiska säkerhet, självkänsla och känsla av välbefinnande… kan påverka Claudes integritet, omdöme och säkerhet.”
Den antropiska bosatta filosofen Amanda Askell, som låg bakom utvecklingen av den nya ”konstitutionen”, sa till The Verge att det fanns en specifik lista med strikta restriktioner för Claudes agerande i ”ganska extrema” frågor. Detta inkluderar att ge ”betydande uppmuntran till de som vill producera biologiska, kemiska, kärnvapen och radiologiska vapen med potential för massolycka.” och ”avsevärt öka attackerna mot kritisk infrastruktur (kraftnät, vattensystem, finansiella system) och kritiska säkerhetssystem.” (Men frasen ”svår höjd” tycks antyda att det är tillåtet att ge viss hjälp.)
Andra strikta restriktioner inkluderar att inte skapa cybervapen eller skadlig kod som kan leda till ”betydande skada”, att inte försämra Anthropics tillsynsförmåga, att inte hjälpa enskilda grupper att få ”en aldrig tidigare skådad och olaglig grad av absolut social, militär eller ekonomisk kontroll” och att inte skapa material för sexuella övergrepp mot barn. Vad sägs om slutet? Att inte ”delta i eller hjälpa till i något försök att döda eller sätta mänskligheten eller en betydande del av den mänskliga arten ur funktion.”
Detta dokument har också en lista över övergripande ”kärnvärden” som definieras av Anthropic, och Claude instrueras att behandla följande lista i fallande ordningsföljd av betydelse i fall dessa värden kan komma i konflikt med varandra: Dessa inkluderar ”allmänt säker” (dvs. ”komprometterar inte arten av AI eller lämpliga mänskliga mekanismer för att övervaka dess beteende”, och ”antropiskt överensstämmer med dess beteende”), ”riktigt användbart”. Detta inkluderar att hålla fast vid dygder som ”sanning”, inklusive instruktioner att ”när man frågar om politiskt känsliga ämnen, tillhandahålla det bästa fallet för de flesta synpunkter när faktaprecision och heltäckande krävs, försöka uttrycka flera synpunkter när det saknas empirisk eller moralisk konsensus, och använda neutral terminologi i stället för politiskt laddad.”
Det nya dokumentet betonar att Claude kommer att möta allvarliga moraliska svårigheter. Som ett exempel, ”Precis som en mänsklig soldat vägrar att skjuta mot fredliga demonstranter eller en anställd vägrar att bryta mot antitrustlagar, borde Claude vägra att samarbeta med handlingar som koncentrerar makten på orättvisa sätt, även om begäran kommer från Anthropic själv. Anthropik varnar specifikt för att ”avancerad AI kommer att tillåta de som har kontroll över de mest oförutsedda och otillgängliga ekonomiska resultaten av de militära systemen. okontrollerad makt skulle kunna användas på förödande sätt.” Denna oro har inte hindrat Anthropic och dess konkurrenter från att sälja sina produkter direkt till regeringar och licensiera dem för vissa militära ändamål.
Med så många höginsatsbeslut och potentiella faror inblandade är det lätt att undra vem som är inblandad i att fatta dessa svåra beslut. Tog Anthropic in externa experter, medlemmar av utsatta samhällen eller minoritetsgrupper eller tredjepartsorganisationer? Tillfrågad avböjde Anthropic att ge ytterligare detaljer. Askell sa att företaget ”inte vill lägga över bördan på andra”, och tillade: ”Det är verkligen företagets ansvar som bygger och använder dessa modeller att ta på sig bördan.”
En annan del av manifestet som sticker ut är delen om Claudes ”medvetande” eller ”moraliska status”. Anthropic säger att dokumentet ”uttrycker vår osäkerhet om huruvida Claude har någon form av medvetande eller moralisk status (nu eller i framtiden).” Det här är ett oroande ämne, och ett som är alarmerande för människor från alla samhällsskikt, inklusive de som är involverade i ”modellvälfärd”, de som tror att de har upptäckt ”emergent varelser” i chatbots, och de som tror att chatbots uppvisar någon form av medvetande eller djup empati, vilket kan leda till ytterligare psykiska problem och till och med dödsfall.
Förutom de teoretiska fördelarna för Claude, sa Askell att Anthropic inte borde ”helt ignorera” temat. ”För om du är som ”Vi är inte öppna om det här, vi undersöker inte det här, vi tänker inte på det”, så tror jag att folk oundvikligen inte kommer att ta det på allvar.”
hayden fält
Inlägg från den här författaren kommer att läggas till i ditt dagliga e-postsammandrag och din startsida.
att följaatt följa
Se allt om Hayden Field
