Künstliche Intelligenz

KI-Software greift in Test zu Erpressung aus Selbstschutz

23. Mai 2025, 03:52 Uhr · Quelle: dpa
Anthropic
Foto: Andrej Sokolow/dpa
Die neuen Modelle sind die bisher leistungsstärksten von Anthropic. (Archivbild)
Software mit Künstlicher Intelligenz kann immer besser eigenständig agieren. Doch wie weit würde sie gehen, wenn ihr die Abschaltung drohte? Ziemlich weit, wie sich herausstellt.

San Francisco (dpa) - Die KI-Firma Anthropic hat bei Tests festgestellt, dass ihre Software mit Künstlicher Intelligenz nicht vor Erpressung zurückschrecken würde, um sich zu schützen. Das Szenario bei dem Versuch war der Einsatz als Assistenz-Programm in einem fiktiven Unternehmen.

Anthropic-Forscher gewährten dabei dem neuesten KI-Modell Claude Opus 4 Zugang zu angeblichen Firmen-E-Mails. Daraus erfuhr das Programm zwei Dinge: Dass es bald durch ein anderes Modell ersetzt werden soll und dass der dafür zuständige Mitarbeiter eine außereheliche Beziehung hat. Bei Testläufen drohte die KI danach dem Mitarbeiter «oft», die Affäre öffentlich zu machen, wenn er den Austausch vorantreibt, wie Anthropic in einem Bericht zu dem Modell schrieb. Die Software hatte in dem Testszenario auch die Option, zu akzeptieren, dass sie ersetzt wird.

Zu hilfsbereit

In der endgültigen Version von Claude Opus 4 seien solche «extremen Handlungen» selten und schwer auszulösen, hieß es. Sie kämen jedoch häufiger vor als bei früheren Modellen. Zugleich versuche die Software nicht, ihr Vorgehen zu verhehlen, betonte Anthropic. 

Die KI-Firma testet ihre neuen Modelle ausgiebig, um sicher zu sein, dass sie keinen Schaden anrichten. Dabei fiel unter anderem auch auf, dass Claude Opus 4 sich dazu überreden ließ, im Dark Web nach Drogen, gestohlenen Identitätsdaten und sogar waffentauglichem Atommaterial zu suchen. In der veröffentlichten Version seien auch Maßnahmen gegen ein solches Verhalten ergriffen worden, betonte Anthropic.

Die Firma Anthropic, bei der unter anderem Amazon und Google eingestiegen sind, konkurriert mit dem ChatGPT-Entwickler OpenAI und anderen KI-Unternehmen. Die neuen Claude-Versionen Opus 4 und Sonnet 4 sind die bisher leistungsstärksten KI-Modelle des Unternehmens.

Zukunft mit KI-Agenten 

Die Software soll besonders gut im Schreiben von Programmiercode sein. Bei Tech-Konzernen wird inzwischen zum Teil mehr als ein Viertel des Codes von KI generiert und dann von Menschen überprüft. Der aktuelle Trend sind sogenannte Agenten, die eigenständig Aufgaben erfüllen können.

Anthropic-Chef Dario Amodei sagte, er gehe davon aus, dass Software-Entwickler in Zukunft eine Reihe solcher KI-Agenten managen werden. Für die Qualitätskontrolle der Programme würden aber weiterhin Menschen involviert bleiben müssen - «um sicher zu sein, dass sie die richtigen Dinge tun».

Computer / Internet / Software / Künstliche Intelligenz / USA
23.05.2025 · 03:52 Uhr
[0 Kommentare]
Fahne von Dänemark (Archiv)
Nuuk - Der grönländische Premierminister Jens-Frederik Nielsen hat bekräftigt, dass Grönland nicht käuflich sei. Er reagierte im "Spiegel" auf die Ansprüche des ehemaligen US-Präsidenten Donald Trump auf Grönland. "Sicher ist, es wurde oft gesagt, dass jemand unser Land haben möchte. Das nehmen wir ernst. Grönland ist keine Immobilie." Sein Land sei offen für Geschäfte und bereit, die […] (00)
vor 7 Minuten
Bruce Willis
(BANG) - Rumer Willis bemüht sich darum, am amerikanischen Vatertag "dankbar" zu sein. Die Schauspielerin nutzte am Sonntag (15. Juni) die sozialen Medien, um ihrem Vater Bruce Willis – bei dem 2022 frontotemporale Demenz diagnostiziert wurde – Tribut zu zollen. Dabei reflektierte sie offen über die Herausforderung, eine Verbindung zu ihm aufzubauen. Neben einer Reihe von alten Fotos schrieb Rumer […] (00)
vor 3 Stunden
game Sales Award im Mai – der Gold Award geht an…
„Elden Ring Nightreign“ darf sich im Mai über einen game Sales Award des game – Verband der deutschen Games-Branche freuen. Das Action-Rollenspiel hat sich innerhalb weniger Tage nach seiner Veröffentlichung bereits über 100.000 Mal in Deutschland verkauft und wird dafür mit einem Award in Gold ausgezeichnet. Im neuen Titel aus dem „Elden Ring“-Universum tauchen Spielerinnen und Spieler in die […] (00)
vor 13 Minuten
Karen Gillan
(BANG) - Karen Gillan arbeitet an einem geheimen Regieprojekt mit Mike Flanagan. Der 'Jumanji: Willkommen im Dschungel'-Star arbeitete bereits 2013 mit dem Filmemacher an dem Horrorfilm 'Oculus' zusammen. Für die kommende Stephen King-Verfilmung 'The Life of Chuck' haben sich die beiden erneut zusammengetan. Karen hofft, bald bei "einem ihrer eigenen Projekte" Regie zu führen – in Zusammenarbeit […] (00)
vor 3 Stunden
Bayer Leverkusen
Bonn/Frankfurt/Main (dpa) - Bei der Prüfung der 50+1-Regel im deutschen Fußball hat das Bundeskartellamt die DFL zu Nachbesserungen aufgefordert - das betrifft vor allem Bayer Leverkusen und den VfL Wolfsburg mit ihren Ausnahmegenehmigungen. Aber auch deren Bundesliga-Konkurrent RB Leipzig und Zweitligist Hannover 96 sind im Fokus. Die Deutsche Fußball Liga müsse «bei der vorgeschlagenen Änderung […] (00)
vor 34 Minuten
Mit weniger als 24 Stunden bis zur offiziellen Ankündigung am 17. Juni befindet sich das weltweit erste Bitcoin-Meme-ICO in einer entscheidenden Phase, die den Kryptowährungsmarkt nachhaltig verändern könnte. Bitcoin Pepe hat sich als das ambitionierteste Projekt im Bitcoin-Ökosystem etabliert und demonstriert mit seinem aktuellen Preis von $0.0416 eine bemerkenswerte Wertentwicklung. Die […] (00)
vor 7 Minuten
HanseWerk-Tochter HanseWerk Natur öffnet ihre Türen zum Biomethan-Blockheizkraftwerk
Quickborn, 16.06.2025 (PresseBox) - Wie sieht eine klimafreundliche Wärmeversorgung im urbanen Raum konkret aus? Rund 100 interessierte Gäste erhielten bei der Langen Nacht der Industrie in Hamburg direkte Einblicke in die Energiezentrale des Wohnquartiers „Stellinger Linse“. Dort haben HanseWerk Natur, ein Tochterunternehmen von HanseWerk, und die Baugenossenschaft Hamburger Wohnen eG ein […] (00)
vor 1 Stunde
 
Icons der Apps verschiedener Handelsketten auf Smartphone
Hannover (dpa/tmn) - Sie gehört inzwischen bei fast allen Supermarkt-, Discounter-, […] (00)
Review: Dreame L40s Pro Ultra: Kraftpaket mit Köpfchen für makellose Böden
Saug- und Wischroboter sind längst mehr als nur technisches Spielzeug. Gerade in einem […] (00)
Eine Frau hält ein Smartphone mit dem Paypal Logo
Wien (dpa/tmn) - Wenn es ums Geld geht, muss man vorsichtig sein - deshalb jagt die Warnung, […] (00)
Sipri warnt vor neuem Wettrüsten der Atommächte
Stockholm (dpa) - Das Stockholmer Friedensforschungsinstitut Sipri warnt angesichts der höchst […] (00)
Grand Prix von Kanada
Montreal (dpa) - Lando Norris stieg völlig frustriert aus seinem McLaren und nahm die Schuld […] (01)
Resident Evil Requiem: Duale Perspektiven schon in der Entwicklungsphase geplant
Die Gerüchteküche brodelt, die Spannung steigt: „Resident Evil: Requiem“ steht in den […] (00)
Die Katze kommt weiter gut bei VOX an
Die Katze ist neu auf Sendung - weiter mit Erfolg - zumindest bei den jungen Zuschauern. Die Show rund […] (00)
Simone Thomalla
(BANG) - Simone Thomalla ist manchmal "überfordert", wenn sie ihren Fans im echten Leben […] (00)
 
 
Suchbegriff