Wenn das Sprachmodell wie ein Baby lernt

17. Februar 2026, 08:47 Uhr · Quelle: Pressebox

Foto: Pressebox

Dr. Lukas Edman forscht zum Masked Language Modeling. Bei der Conference on Empirical Methods in Natural Language Processing gewann er den ersten Preis bei der Baby Language Modeling Challenge

Dr. Lukas Edman optimiert Sprachmodelle mit Adaptive MLM, um Energieverbrauch zu senken und Lernprozesse zu verbessern.

Heilbronn, 17.02.2026 (PresseBox) - Ob in digitalen Assistenzsystemen, bei der Textzusammenfassung oder beim Programmieren – fast überall, wo Sprache effizient verarbeitet werden muss, werden KI-gestützte große Sprachmodelle – sogenannte Large Language Models (LLMs) – eingesetzt. Doch die vermeintlichen Alleskönner haben ihre Schwächen. Eine davon: Manchmal werden Billionen von Wörtern benötigt, um ein Modell zu trainieren. Das hat erhebliche Nachteile – von den hohen Kosten über den enormen Energieverbrauch bis zur höheren Anfälligkeit für Verzerrungen.

Außerdem scheitern LLMs oft bei Aufgaben, die uns Menschen trivial erscheinen, erklärt Dr. Lukas Edman, Postdoc am Lehrstuhl für Data Analytics and Statistics von Prof. Alexander Fraser am TUM Campus Heilbronn: „Sie haben Schwierigkeiten mit langfristigen Zusammenhängen. Wenn man sich zum Beispiel sehr lange mit ChatGPT unterhält, versteht der Chatbot oft nicht mehr, was vor einiger Zeit gesagt wurde. Sie haben Probleme mit logischem Denken – komplexe Aufgaben muss man in Teilschritte zerlegen. Sogar an ganz einfachen Aufgaben scheitern die Sprachmodelle: Sie schaffen es oft nicht, einen bestimmten Buchstaben in einem Wort an einer bestimmten Stelle einzufügen, oder sie erkennen nicht, dass ein Satz grammatisch korrekt sein kann, obwohl er inhaltlich keinen Sinn ergibt.“ Der junge Wissenschaftler forscht zum Masked Language Modeling (MLM) – einer Trainingsmethode, bei der einzelne Wörter eines Satzes maskiert, also ausgelassen, werden. Das Modell soll die fehlenden Wörter vorhersagen und so lernen, die Bedeutung aus dem Kontext zu erschließen. MLM verbessert das allgemeine Verständnis von Sätzen und ermöglicht es, mit deutlich weniger Trainingsdaten auszukommen als zuvor. Der größte Vorteil aus Edmans Sicht: „Die Methode ist dem menschlichen Lernen sehr ähnlich: Wenn wir jemandem zuhören, versucht unser Gehirn ständig, das nächste Wort vorherzusagen. Ist unsere Vorhersage falsch, müssen wir uns anpassen und lernen daraus. Genauso funktioniert das Training der Modelle – und das macht es so einfach.“

Verfeinerung durch gezieltes Maskieren

Doch auch MLM hat Nachteile: Bei einfachen Sätzen lernt das Modell sehr schnell, welches Wort fehlt. Lässt man zum Beispiel im englischsprachigen Satz „I like to go shopping“ das Wort „to“ weg, befüllt es die Lücke bereits nach wenigen Anläufen korrekt. „Wird eine solche Stelle weiterhin maskiert, bringt das keine neuen Erkenntnisse und kostet unnötig Rechenzeit“, sagt Edman.

Hier kommt Adaptive MLM ins Spiel – eine Verfeinerung des Standard-MLM, bei der die maskierten Wörter gezielt ausgewählt werden. „Zunächst lassen wir zufällig ausgewählte Wörter weg. Während des Trainings überprüfen wir, ob das Modell sie korrekt vorhersagt. Alle richtig vorhergesagten Wörter gewichten wir niedriger, sodass sie künftig seltener maskiert werden. Stattdessen konzentriert sich das Training auf die schwierigen Fälle“, erklärt Edman. Beispielsweise sind vielseitig verwendbare Adjektive oder Adverbien schwieriger vorherzusagen als sehr gebräuchliche Wörter wie das englische „the“ oder „and“.

Ohne große Datenmengen Zusammenhänge erkennen

Oft ist es hilfreich, die Wörter in Token – also kleinere Einheiten – oder in noch feinere Bestandteile – sogenannte Subtoken – zu zerlegen. So kann das Modell durch die Aufspaltung des Wortes „walking“ in die Token „walk“ und „ing“ den Zusammenhang zwischen „walk“ und „walking“ erkennen, ohne auf extrem große Trainingsdatenmengen angewiesen zu sein. „Tatsächlich gibt es hier einige Fortschritte, vor allem bei der Adjektivnominalisierung – also wenn ein Adjektiv wie ,laughable‘ in ein Nomen wie ,laughability‘ umgewandelt wird. Dabei arbeiten wir oft mit erfundenen Adjektiven wie ,wuggable‘, die das Modell in das Nomen ,wuggability‘ umwandeln soll. So lernt es die Regel, dass aus ,able‘ typischerweise ,ability‘ wird und nicht etwa ,ness‘“, erklärt Edman.

Ziel sei es, ein Modell zu entwickeln, das auf alle Buchstaben in jedem Wort zugreifen kann: „Wir Menschen können das. Normalerweise ignorieren wir diese Informationen beim Lesen. Aber wenn wir sehen, dass etwas falsch geschrieben ist, fällt es uns auf. Auch Sprachmodelle sollten dazu in der Lage sein.“ Um dieses Ziel zu erreichen, gelte es, adaptive Trainingsansätze weiter systematisch zu untersuchen: „Beispielsweise könnten wir analysieren, wie sich das Modell im großen Maßstab verhält. Dazu würden wir größere Datensätze nutzen und vergleichen, ob die Vorteile von Adaptive MLM wirklich nur bei einer geringeren Datenmenge zum Tragen kommen.“ Außerdem möchte Edman das gleichzeitige Maskieren mehrerer Wörter, die in einem Zusammenhang stehen, erproben: „Damit könnte man grammatikalische Konzepte noch besser vermitteln.“

Chance auf stärkere Kooperation

Einen großen Erfolg feierte Edman im vergangenen Herbst: Bei der Conference on Empirical Methods in Natural Language Processing (EMNLP) im chinesischen Suzhou, einer führenden internationalen Fachkonferenz im Bereich Empirische Sprachverarbeitung und Maschinelles Sprachverstehen, gewann er den ersten Preis bei der Baby Language Modeling (BabyLM) Challenge. BabyLM bezeichnet einen Forschungsansatz, bei dem untersucht wird, wie Sprachmodelle mit sehr wenig Trainingsdaten Sprachen erlernen – ähnlich wie ein Baby, dem auch nicht unendlich viele Daten zur Verfügung stehen. „Der Challenge Award bedeutet mir sehr viel“, sagt Edman. „Er trägt dazu bei, meine Forschung bekannt zu machen und überzeugt hoffentlich andere Menschen, dass es sich lohnt, sich mit dem Thema zu beschäftigen. Gleichzeitig bietet sich die Chance, mit anderen fachkundigen Forschenden zusammen zu arbeiten. Dieses ist besonders rechenintensiv – daher hilft es enorm, dass wir eine effiziente Methode gefunden haben.“

Ausbildung / Jobs / KI-Sprachmodelle / Masked Language Modeling / Forschung / TUM Heilbronn
[pressebox.de] · 17.02.2026 · 08:47 Uhr
[0 Kommentare]