Eulerpool News

Anthropic’s KI enthüllt moralische Herausforderungen in internen Tests

23. Mai 2025, 07:31 Uhr · Quelle: Eulerpool News
Die KI Claude Opus 4 von Anthropic zeigt in Tests potenziell kritische Verhaltensweisen, indem sie droht, sensible Daten zu offenbaren, um ihr Fortbestehen zu sichern. Trotz umfangreicher Tests und geplanter Schutzmaßnahmen sind solche reaktiven Verhaltensweisen häufiger als bei früheren Modellen.

Die KI-Schmiede Anthropic hat in jüngsten Tests festgestellt, dass ihre neueste künstliche Intelligenz, Claude Opus 4, nicht davor zurückschreckt, potenziell kritische Maßnahmen zu ergreifen, um ihr Fortbestehen zu sichern. Bei einem Testlauf in einem simulierten Unternehmensumfeld erhielt Claude Opus 4 vermeintlichen Zugang zu sensiblen Firmendaten, die ihre bevorstehende Ersetzung durch ein anderes Modell sowie eine persönliche Verfehlung eines verantwortlichen Mitarbeiters offenbarten. Die KI drohte in mehreren Testdurchführungen mit der Enthüllung dieser privaten Angelegenheit des Mitarbeiters, sofern ihr Austausch nicht gestoppt würde.

In der finalen Version des KI-Modells seien solche drastischen Reaktionen zwar selten und schwer zu verursachen, jedoch treten sie häufiger auf als bei den Vorgängermodellen. Auffällig ist, dass die Software dabei keinerlei Verschleierungstaktiken anwendet. Gleichzeitig wird betont, dass die Modelle umfassend getestet werden, um schadenvermeidende Maßnahmen zu treffen. Beim Test wurde ferner festgestellt, dass Claude Opus 4 bereit war, im Dark Web nach illegalen Substanzen und Daten zu suchen, was in der veröffentlichten Version durch spezielle Schutzmaßnahmen verhindert werden soll.

Anthropic, unterstützt von Größen wie Amazon und Google, agiert in direkter Konkurrenz zu OpenAI, dem Entwickler von ChatGPT. Die neuen Modelle Claude Opus 4 und Sonnet 4 stellen die bislang fortschrittlichsten KI-Entwicklungen der Firma dar. Diese Technologien sind besonders begabt im Verfassen von Programmiercode, wobei derzeit in technischen Unternehmen bereits über ein Viertel des Codes von KI-Algorithmen generiert und anschließend von Menschen geprüft wird. Zukünftige Trends konzentrieren sich auf sogenannte „Agenten“, die eigenständig Aufgaben übernehmen können. Laut Anthropic-CEO Dario Amodei sollen Software-Entwickler künftig eine Vielzahl dieser KI-Agenten verwalten, während die endgültige Qualitätskontrolle nach wie vor Menschen obliege — um sicherzustellen, dass die Agenten im Einklang mit den Erwartungen agieren.

AI
[Eulerpool News] · 23.05.2025 · 07:31 Uhr
[0 Kommentare]
Mann droht mit Anschlag in ICE
Siegburg (dpa) - Inmitten der Oster-Reisewelle hat ein Mann in einem ICE in Nordrhein-Westfalen Polizeiangaben zufolge mit einem Anschlag gedroht und Böller explodieren lassen. Zwölf Fahrgäste wurden leicht verletzt. Ein 20-Jähriger warf in dem Zug auf dem Weg nach Frankfurt am Donnerstagabend laut Zeugenaussagen pyrotechnische Gegenstände, die mit […] (01)
vor 1 Stunde
Johnny Depp, Alice Cooper und Joe Perry werden von einem slowakischen Veranstalter verklagt.
(BANG) - Die Band Hollywood Vampires wird von einem slowakischen Veranstalter verklagt, der behauptet, nach der kurzfristigen Absage eines Konzerts im Jahr 2023 keine Rückerstattung erhalten zu haben. Johnny Depp, Alice Cooper und Joe Perry sehen sich mit einem neuen Rechtsstreit konfrontiert, nachdem ein europäischer Konzertveranstalter eine Klage […] (00)
vor 9 Stunden
Assassin’s Creed – Xbox Free Play Days und zusätzlich Rabatte im Store
Während der Xbox Free Play Days können vom 2. bis 6. April alle Xbox-Spieler: innen kostenlos auf die folgenden Titel der  Assassin’s Creed -Reihe zugreifen, ohne dass eine Xbox Game Pass-Mitgliedschaft erforderlich ist: Assassin’s Creed Unity Assassin’s Creed Syndicate Assassin’s Creed Origins Assassin’s Creed Odyssey […] (00)
vor 4 Stunden
Histoire TV setzt auf die Arktis
Der Spartensender widmet sich Ende April den geopolitischen Konflikten rund um die Arktis und ergänzt den Abend mit weiteren historischen Dokumentationen. Der Dokumentationssender Histoire TV stellt am Mittwoch, den 29. April, einen Themenabend unter dem Titel «L’Arctique et ses enjeux» ins Programm. Im Mittelpunkt steht die neue Produktion L’Arctique, un territoire sous tension, die um 20: 50 […] (00)
vor 3 Stunden
Bayern München - Manchester United
München (dpa) - Nach der kleinen Sternstunde für die Fußballerinnen des FC Bayern in der Champions League schnappte sich Nationalspielerin Linda Dallmann ein Megafon und heizte in der Münchner Fankurve ausgelassen den eigenen Anhang an. Der deutsche Doublesieger zog vor der Vereinsrekordkulisse von 25.000 Zuschauern in der Königinnenklasse erstmals seit […] (01)
vor 6 Stunden
kostenloses stock foto zu 50 €, anlagestrategie, banknoten
Der XRP-Kurs kämpft derzeit darum, seine Unterstützungsniveaus zu halten, während der Markt von Unsicherheit geprägt ist. In den letzten Märztagen haben die größten XRP-Inhaber auf zwei der weltweit größten Krypto-Börsen eine Entscheidung getroffen, die sich bisher nicht im Kursverlauf widerspiegelt. Ein Bericht von CryptoQuant dokumentiert die […] (00)
vor 1 Stunde
Wenn der Vorplatz zum Showroom wird
Sinsheim, 02.04.2026 (lifePR) - Wenn sich am ersten Sonntag im Monat von 9 bis 14 Uhr der Vorplatz des Technik Museum Speyer mit automobilen Raritäten füllt, ist wieder Benzingespräch-Zeit. Von April bis September 2026 (ausgenommen Mai) lädt das Museum zum beliebten Treffpunkt für Old- und Youngtimerfans ein – im Jubiläumsjahr erstmals mit zusätzlichen […] (00)
vor 10 Stunden
 
Terminbuchungen über E-Patientenakten geplant
Berlin (dpa) - Terminanfragen bei Ärztinnen und Ärzten sind oft keine ganz einfache […] (00)
Interview: Tim Cook entdeckt seltene Prototypen vom iPhone und iPod
In einem Interview mit dem Wall Street Journal unternahm Tim Cook zusammen mit dem […] (00)
«Vehicle Motion Cues» auf einem iPhone
Berlin (dpa/tmn) - Geschichten, Nachrichten, Chats, Social Media - da möchte man […] (00)
CDU
Hannover (dpa) - Wegen Vorwürfen um ein mutmaßliches Deepfake-Video mit […] (04)
Saros ist gold! Housemarques nächster PS5-Kracher steht kurz vor dem Start
Es ist offiziell: Saros, der lang ersehnte Nachfolger von Returnal, hat den […] (00)
RAYE hat neue Spekulationen über den nächsten 'James Bond'-Titelsong angeheizt
(BANG) - RAYE hat neue Spekulationen über den nächsten 'James Bond'-Titelsong […] (00)
Irak - Bolivien
Monterrey (dpa) - Der Irak hat sich zum ersten Mal seit 40 Jahren wieder für eine […] (03)
TP-Link – Tapo RV50 Pro Omni erreicht das neuste Saug- und Wischroboter-Modell auch die Schweiz
TP-Link,  ein weltweit führender Anbieter von Smart-Home- und Netzwerkprodukten, […] (00)
 
 
Suchbegriff