Anthropics nya Claude "Constitution": Var hjälpsam, ärlig och förstör inte mänskligheten. - Folketstidning

Anthropic granskar grundligt Claudes så kallade ”själsdokument”.

Det nya missivet är ett 57-sidigt dokument med titeln ”Claudes konstitution” som beskriver ”Antropics avsikter för modellens värderingar och handlingar” och riktar sig till själva modellen snarare än till en extern publik. Dokumentet är utformat för att beskriva Claudes ”etiska karaktär” och ”kärnidentitet”, inklusive hur han balanserar motstridiga värderingar och situationer med hög insats.

Medan den tidigare konstitutionen, publicerad i maj 2023, i första hand var en lista med riktlinjer, säger Anthropic i en release att det är viktigt för AI-modeller att ”inte bara specificera vad du vill att de ska göra, utan förstå varför du vill att de ska bete sig på ett visst sätt.” Detta dokument får Claude att agera som en nästan självständig varelse som förstår sig själv och sin plats i världen. Anthropic överväger också möjligheten att Claude kan ha någon form av medvetenhet eller moralisk status. Det beror också på att företaget tror att om de berättar detta för Claude så kanske han vidtar bättre åtgärder. Anthropic sa i ett släpp att chatbotens så kallade ”psykologiska säkerhet, självkänsla och känsla av välbefinnande… kan påverka Claudes integritet, omdöme och säkerhet.”

Den antropiska bosatta filosofen Amanda Askell, som låg bakom utvecklingen av den nya ”konstitutionen”, sa till The Verge att det fanns en specifik lista med strikta restriktioner för Claudes agerande i ”ganska extrema” frågor. Detta inkluderar att ge ”betydande uppmuntran till de som vill producera biologiska, kemiska, kärnvapen och radiologiska vapen med potential för massolycka.” och ”avsevärt öka attackerna mot kritisk infrastruktur (kraftnät, vattensystem, finansiella system) och kritiska säkerhetssystem.” (Men frasen ”svår höjd” tycks antyda att det är tillåtet att ge viss hjälp.)

Andra strikta restriktioner inkluderar att inte skapa cybervapen eller skadlig kod som kan leda till ”betydande skada”, att inte försämra Anthropics tillsynsförmåga, att inte hjälpa enskilda grupper att få ”en aldrig tidigare skådad och olaglig grad av absolut social, militär eller ekonomisk kontroll” och att inte skapa material för sexuella övergrepp mot barn. Vad sägs om slutet? Att inte ”delta i eller hjälpa till i något försök att döda eller sätta mänskligheten eller en betydande del av den mänskliga arten ur funktion.”

Detta dokument har också en lista över övergripande ”kärnvärden” som definieras av Anthropic, och Claude instrueras att behandla följande lista i fallande ordningsföljd av betydelse i fall dessa värden kan komma i konflikt med varandra: Dessa inkluderar ”allmänt säker” (dvs. ”komprometterar inte arten av AI eller lämpliga mänskliga mekanismer för att övervaka dess beteende”, och ”antropiskt överensstämmer med dess beteende”), ”riktigt användbart”. Detta inkluderar att hålla fast vid dygder som ”sanning”, inklusive instruktioner att ”när man frågar om politiskt känsliga ämnen, tillhandahålla det bästa fallet för de flesta synpunkter när faktaprecision och heltäckande krävs, försöka uttrycka flera synpunkter när det saknas empirisk eller moralisk konsensus, och använda neutral terminologi i stället för politiskt laddad.”

Det nya dokumentet betonar att Claude kommer att möta allvarliga moraliska svårigheter. Som ett exempel, ”Precis som en mänsklig soldat vägrar att skjuta mot fredliga demonstranter eller en anställd vägrar att bryta mot antitrustlagar, borde Claude vägra att samarbeta med handlingar som koncentrerar makten på orättvisa sätt, även om begäran kommer från Anthropic själv. Anthropik varnar specifikt för att ”avancerad AI kommer att tillåta de som har kontroll över de mest oförutsedda och otillgängliga ekonomiska resultaten av de militära systemen. okontrollerad makt skulle kunna användas på förödande sätt.” Denna oro har inte hindrat Anthropic och dess konkurrenter från att sälja sina produkter direkt till regeringar och licensiera dem för vissa militära ändamål.

Med så många höginsatsbeslut och potentiella faror inblandade är det lätt att undra vem som är inblandad i att fatta dessa svåra beslut. Tog Anthropic in externa experter, medlemmar av utsatta samhällen eller minoritetsgrupper eller tredjepartsorganisationer? Tillfrågad avböjde Anthropic att ge ytterligare detaljer. Askell sa att företaget ”inte vill lägga över bördan på andra”, och tillade: ”Det är verkligen företagets ansvar som bygger och använder dessa modeller att ta på sig bördan.”

En annan del av manifestet som sticker ut är delen om Claudes ”medvetande” eller ”moraliska status”. Anthropic säger att dokumentet ”uttrycker vår osäkerhet om huruvida Claude har någon form av medvetande eller moralisk status (nu eller i framtiden).” Det här är ett oroande ämne, och ett som är alarmerande för människor från alla samhällsskikt, inklusive de som är involverade i ”modellvälfärd”, de som tror att de har upptäckt ”emergent varelser” i chatbots, och de som tror att chatbots uppvisar någon form av medvetande eller djup empati, vilket kan leda till ytterligare psykiska problem och till och med dödsfall.

Förutom de teoretiska fördelarna för Claude, sa Askell att Anthropic inte borde ”helt ignorera” temat. ”För om du är som ”Vi är inte öppna om det här, vi undersöker inte det här, vi tänker inte på det”, så tror jag att folk oundvikligen inte kommer att ta det på allvar.”

Följ ämnet och författaren till den här berättelsen för att se mer liknande den i ditt personliga flöde på startsidan och få e-postuppdateringar.hayden fält

nära

hayden fält

Inlägg från den här författaren kommer att läggas till i ditt dagliga e-postsammandrag och din startsida.

att följaatt följa

Se allt om Hayden Field

A.I.

nära

A.I.

Inlägg från det här ämnet kommer att läggas till i ditt dagliga e-postsammandrag och din startsida.

att följaatt följa

Se all AI

mänsklig

nära

mänsklig

Inlägg från det här ämnet kommer att läggas till i ditt dagliga e-postsammandrag och din startsida.

att följaatt följa

Se alla

Det hetaste

Brist på kritiska värmekällor – fjärrvärme i Luleå kan bli dyrare

Ferrari sålde för 50 miljoner kronor – placeras i konkursbo

”Titanic”-smycken kommer att visas i James Cameron-utställningen på Vasamuseet

Anthropics nya Claude ”Constitution”: Var hjälpsam, ärlig och förstör inte mänskligheten.

Har Ticketmaster kontroll över konsertbiljettförsäljningen, eller är det bara att ”bringa glädje”?

Varför säljer AI-startups samma aktie till två olika priser?

Investerare Bo Mattsson: Många mjukvaruföretag är övervärderade

Låt dig inte luras: NASA siktar på den 1 april för uppskjutning av Artemis II till månen

Ankers sista generationens Sleep Buds får nästan 40 % rabatt före sommartid

Indiens Pronto formaliserar hemhjälp eftersom värderingen hoppar åtta gånger på mindre än ett år

Günther Moderdar kräver whatsapp ägare meta för att ta ansvar

Di Gaselle 2025 börjar med nya regler och kategorier

Pemberton köper Bukowskis ägare Bonhams

Sverige behöver en utrikesminister som får jobbet gjort.

Jeffrey Epsteins leende ansikte avslöjade – få pedofiler ställdes till svars

Tido-regeringens nya regler kommer att dela upp välfärden efter ursprung

”Miskreditera inte vetenskapen bara för att du inte gillar klimatförändringsprotester.”

Magdalena Anderssons ”Heljaltat” – storslagen och fyrkantig, men en frisk fläkt

Våra val

T20-VM för damer: Englands kapten Silver-Blunt lyfter fram ”Euro-ögonblicket”

Liverpools misslyckande – efter stort misstag | Premier League

Den tidigare Premier League-spelaren Darryl Janmaat erkänner att han varit beroende av kokain

Mest populära

Putin sägs kräva hela Donetze -regionen

Ryssland kan sedan hota fler länder

Hans rekryteringsplattform för ungdomar i staden har berömts av kungen.

Prenumerera på uppdateringar

Det hetaste

Anthropics nya Claude ”Constitution”: Var hjälpsam, ärlig och förstör inte mänskligheten.

Related Posts