Eulerpool News

Anthropic verstärkt Schutzmechanismen gegen missbräuchliche KI-Nutzung

05. Februar 2025, 04:37 Uhr · Quelle: Eulerpool News
Anthropic verstärkt Schutzmechanismen gegen missbräuchliche KI-Nutzung
Foto: Eulerpool
Anthropic entwickelt neue Schutzmechanismen gegen missbräuchliche KI-Nutzung – Konkurrenz unter Druck, Betriebskosten steigen erheblich.

Anthropic hat eine neue Sicherheitsmaßnahme vorgestellt, die verhindern soll, dass Nutzer seine KI-Modelle für illegale oder gefährliche Zwecke missbrauchen. Der sogenannte „Constitutional Classifier“ soll als Schutzschicht über großen Sprachmodellen wie dem Claude-Chatbot liegen und sowohl Eingaben als auch Ausgaben auf problematische Inhalte überwachen.

Die Entwicklung kommt zu einem Zeitpunkt, an dem Technologieunternehmen wie Microsoft und Meta zunehmend unter Druck stehen, ihre KI-Modelle gegen „Jailbreaking“ abzusichern – Methoden, mit denen Nutzer Sicherheitsmaßnahmen umgehen, um an verbotene Informationen zu gelangen. Dazu gehören Anleitungen zur Herstellung chemischer Waffen oder anderer gefährlicher Inhalte.

Microsoft führte bereits im März 2024 einen „Prompt Shield“ ein, während Meta im Juli ein Schutzsystem präsentierte, das später nach Schwachstellenkorrekturen verbessert wurde.

Laut Anthropic-Mitarbeiter Mrinank Sharma wurde das neue System vor allem als Reaktion auf sicherheitskritische Bedrohungen im chemischen Bereich entwickelt. Der Vorteil liege darin, dass sich die Schutzmechanismen flexibel an neue Bedrohungen anpassen ließen. „Das Wichtigste an unserer Arbeit ist, dass wir glauben, dieses Problem sei lösbar“, so Sharma.

Die „Constitutional Classifier“ basieren auf einem festgelegten Regelwerk, das genau definiert, welche Inhalte erlaubt und welche verboten sind. Dadurch lassen sich gezielt bestimmte Risiken adressieren.

Um die Effektivität des Systems zu testen, bot Anthropic Prämien von bis zu 15.000 US-Dollar für Sicherheitsforscher an, die versuchten, die Schutzmaßnahmen zu umgehen. Diese „Red Teamer“ verbrachten mehr als 3.000 Stunden damit, das System anzugreifen. Das Ergebnis: Der Claude 3.5 Sonnet-Algorithmus blockierte mit aktivierten Schutzmechanismen über 95 Prozent der Angriffe – ohne Schutzmaßnahmen lag die Erfolgsquote bei nur 14 Prozent.

Ein häufiges Problem von KI-Sicherheitssystemen ist die Balance zwischen Schutz und Nutzerfreundlichkeit. Zu strenge Filter können dazu führen, dass auch harmlose Anfragen fälschlicherweise abgelehnt werden. Anthropic gibt an, dass die neuen Maßnahmen die Ablehnungsrate nur um 0,38 Prozentpunkte erhöhten.

Allerdings steigen durch solche Schutzmechanismen auch die Betriebskosten. Der zusätzliche Rechenaufwand zur Implementierung der Classifier würde die sogenannten „Inference Overhead“-Kosten um rund 24 Prozent erhöhen, so Anthropic.

Sicherheitsexperten warnen, dass generative KI-Modelle immer mehr Menschen Zugang zu gefährlichen Informationen ermöglichen könnten – ohne dass diese über spezielle Vorkenntnisse verfügen. „Früher musste man sich Sorgen über hochentwickelte Bedrohungen durch Staaten machen“, sagte Ram Shankar Siva Kumar, Leiter des AI-Red-Teams bei Microsoft. „Heute ist einer meiner potenziellen Angreifer ein Teenager mit schlechter Ausdrucksweise.“

Finanzen / KI
[Eulerpool News] · 05.02.2025 · 04:37 Uhr
[0 Kommentare]
F-47: Trumps milliardenschwerer Luftkampf
Boeing hebt ab – mit Washingtons Rückendeckung Boeing ist zurück im Spiel – nicht auf dem zivilen Flugzeugmarkt, sondern im militärischen Überlegenheitsdenken des 21. Jahrhunderts. Der F-47, Trumps neuer Kampfjet der sechsten Generation, soll in den kommenden Jahren das Rückgrat der US-Luftwaffe im Indopazifik bilden. Die Entscheidung, den Großauftrag an Boeing zu vergeben, markiert nicht nur […] (00)
vor 25 Minuten
Computer-Nutzer (Archiv)
Berlin - Deutschland soll ein neues Bundesministerium für Digitales (BMD) bekommen. Das haben CDU, CSU und SPD bei den Koalitionsverhandlungen in der Arbeitsgruppe Digitales in einem Papier festgehalten, über das die Zeitungen der Funke-Mediengruppe berichten. Das neue Haus solle geschaffen werden, um die Verwaltungsdigitalisierung, digitale Identitäten, IT-Sicherheit und Plattformregulierung zu […] (00)
vor 7 Minuten
Drew Barrymore
(BANG) - Drew Barrymore wurde nach einem ersten Date geghostet. Die Talkshow-Moderatorin (50) erzählte am Montag (24. März) in ihrer Sendung 'The Drew Barrymore Show' im Gespräch mit Co-Moderator Ross Mathews und der Schauspielerin Valerie Bertinelli, dass sie Anfang des Monats mit einem Mann zum Abendessen gegangen war, nachdem er sie nach ihrer Telefonnummer gefragt hatte. Doch dann habe sich […] (00)
vor 2 Stunden
Ein wichtiger Aspekt ist die Informationsbeschaffung. Ob Nachrichten, wissenschaftliche Artikel oder praktische Anleitungen – das Internet ist eine unerschöpfliche Quelle. Suchmaschinen ermöglichen es uns, innerhalb von Sekunden Antworten auf fast jede Frage zu finden. Diese schnelle Verfügbarkeit von Informationen hat unsere Lern- und Wissensprozesse massiv beschleunigt. Ein weiterer Bereich, […] (00)
vor 1 Minute
Dragon’s Dogma trifft auf Innovation: Itsunos neues Spiel verspricht Großes
Hideaki Itsuno, der kreative Kopf hinter Hits wie Devil May Cry 5 und Dragon’s Dogma 2, arbeitet an einem neuen AAA-Actionspiel – und das Versprechen ist groß: Spieler sollen denken, „Das habe ich noch nie in einem Spiel gesehen.“ Das Projekt entsteht unter der Leitung von LightSpeed Japan Studio und ist Teil der „Original IP Initiative“, einer Strategie zur Entwicklung neuer, innovativer […] (00)
vor 25 Minuten
Banijay fusioniert zwei Töchterfirmen
Shine Fiction und Banijay Studios France sollen gemeinsam Projekte entwickeln. Das in Paris ansässige Medienunternehmen Banijay hat Banijay Studios France und Shine Fiction zusammengelegt. Das neue Unternehmen wird unter dem Namen Shine Fiction firmieren. Das Unternehmen unter der Leitung von Dominique Farrugia als Vorstandsvorsitzender und Guillaume Thouret als Chief Operating Officer wird sich auf Premium-Serien für französische Sender und […] (00)
vor 1 Stunde
App «Geory» ist auf einem iPhone zu sehen
Berlin (dpa/tmn) - Allen, die Reisetagebuch führen oder dies schon immer vorhatten, könnte «Geory» gefallen. Denn mit der iPhone-App kann das Notizbuch daheim bleiben. Die Anwendung kann viele Dinge automatisch erledigen; etwa den gesamten Verlauf einer Reise minuziös erfassen, mit Aufenthaltsorten, Daten und Zeiten der Ankunft und Abreise. Eine Journal-Übersicht zeigt alle besuchten Orte an und […] (01)
vor 10 Stunden
Carbon Finance – Betrug mit Festgeldanlagen
München / Berlin, 25.03.2025 (lifePR) - Die Finanzaufsicht BaFin hat am 5. März 2025 vor der Website carbon-vw.com gewarnt. Demnach bieten die Betreiber der Webseite ohne Erlaubnis den Abschluss von Festgeldverträgen an. Zudem werden Finanz- und Wertpapierdienstleistungen ohne die erforderliche Erlaubnis der BaFin angeboten. „Hinter Plattformen wie carbon-vw.com, die mit scheinbar lukrativen […] (00)
vor 1 Stunde
 
Bitcoins Und Us Dollar Rechnungen
Der in Dubai ansässige Krypto-Market-Maker und Investor DWF Labs hat die Einführung eines 250 Millionen […] (00)
Geld, Symbolik – kein Händedruck: Baerbocks heikler Besuch in Damaskus
Deutschland kehrt diplomatisch zurück Mit 2,5 Millionen Euro im Gepäck und einem symbolisch […] (00)
BYDs Schnellladesystem versetzt die Autobranche in Alarmbereitschaft
Mit Vollstrom an die Börse – und in die Schlagzeilen 400 Kilometer Reichweite in nur fünf […] (00)
Erdbeben in Neuseeland
Wellington (dpa) - Ein starkes Erdbeben der Stärke 6,7 hat die Küste der Südinsel Neuseelands […] (00)
Apple Watch Modelle der Zukunft sollen Kameras bieten
Laut dem aktuellen „Power On“-Newsletter des Bloomberg-Autors Mark Gurman könnten Apple Watch […] (00)
«Ghost Adventures» kehrt mit neuen Folgen zurück
Zum Auftakt am 16. April räumt man der Show gleich zwei Stunden frei. Die renommierten Paranormal- […] (00)
Kostenloses Stock Foto zu aktienmarkt, banknoten, berlin
Tony “The Bull” Severino, ein viel beachteter Krypto-Analyst, hat kürzlich auf der Social- […] (00)
retro, gaming, consoles, games, 90s, 80s, nintendo, lcd, screen, old tech, technology, gameboy, video game, controller, 90s, 90s, 90s, 90s, 90s, 80s, 80s, 80s, 80s, nintendo, old tech, old tech, gameboy, gameboy, gameboy, gameboy, video game, video game
Pocketpair zeigt sich grundsätzlich offen für eine Switch 2 Version von Palworld (PS5, Xbox […] (00)
 
 
Suchbegriff