Anthropic har meddelat några av de största modellerna för att avsluta konversationer som företaget beskriver som ”ett sällsynt och extremt fall av permanent skadliga eller missbrukande användningsinteraktioner.” Överraskande säger människor att de träffar detta för att skydda AI -modellen snarare än att skydda mänskliga användare.
För att vara tydlig hävdar inte företaget att Claude AI -modellen kan försenas eller skadas av samtal med användare. Med sina egna ord förblir mänskligheten ”mycket osäker på de potentiella moraliska tillstånden för Claude och andra LLM, eller om de nuvarande eller framtida potentiella moraliska tillstånden.”
I Howver visar tillkännagivandet ett nyligen program som skapats för att studera vad som kallas ”Model Welfare”, och säger att mänskligheten i huvudsak tar en rättvis tillvägagångssätt.
Denna senaste förändring är för närvarande begränsad till Claude Opus 4 och 4.1. Återigen bör ett ”extremt kantfall” ske i ”extrema kantfall”, till exempel ”att försöka begära information som möjliggör förfrågningar från användare av mindre sexuellt innehåll eller våld eller rädsla.”
While these types of requests could potentially create legal or advertising issues for humanity itself (a recent report on how ChatGPT potentially enhance or contribute to users’ delusional thinking), the SANAY SANAY SANAY SANAY SANAY SANAY SANAY SANAY SANAY SANAY SANAY SANAY SANAY SANAY SANAY SANAY SANAY SANAY SANAY SANAY SANAY SANAY SANAY SANAY SANAY ANAY SANAY SANAY SANAY ANAY SANAY SANAY ANAY SANAY SANAY ANAY Sanay anay sanay sanay anay sanay anay sanay sanay anay sanay sanay anay sanay sanay anay sanay sanay anay sanay sanay anay sanay sanay sanay anay sanay sanay sanay sanay anay sanay sanay sanay sanay sanay sanay sanay
När det gäller dessa nya slutkonversationsfunktioner sa företaget: ”I alla fall bör Claude bara använda slutet på konversationens ABTA-resort om flera försök till omdirigering misslyckas och hopp om produktiv iteration är uttömda.”
Mänskligheten säger också att Claude ”instrueras att inte använda denna förmåga när användare har en omedelbar risk att skada sig själva och andra.”
TechCrunch -evenemang
San Francisco
|
27-29 oktober 2025
När Claude är klar med en konversation säger Humanity att användare kan starta en ny konversation från samma konto och redigera svar för att skapa en ny gren av besvärliga konversationer.
”Vi behandlar den här funktionen som ett kontinuerligt experiment och kommer att fortsätta att förbättra vår strategi”, säger företaget.
