DeepSeek und die stille Revolution: Chinas KI-Durchbruch für nur fünf Prozent der GPT-4-Kosten
Als im Januar das chinesische KI-Startup DeepSeek sein Sprachmodell R1 veröffentlichte, folgte ein globales Erdbeben. In Benchmarks übertraf es westliche Konkurrenten – und das bei angeblich nur fünf Prozent der geschätzten Kosten von GPT-4. Die Nachricht setzte einen Ausverkauf im Wert von über einer Billion Dollar an US-Börsen in Gang und zwang selbst Amazon und Microsoft dazu, das chinesische Modell eilig in ihre Cloud-Angebote zu integrieren.
Dabei war DeepSeek für viele im Westen bis dahin kaum mehr als ein Gerücht – ein Produkt jener geheimnisumwitterten KI-Szene in China, die man lange Zeit unterschätzte oder belächelte. Doch mit R1 hat sich das grundlegend geändert. Nicht nur Analysten, sondern auch hochkarätige westliche Entwickler wie bei Hugging Face oder Anthropic mussten anerkennen, dass DeepSeek offenbar über eine der besten Trainingsdatenbanken für Large Language Models (LLMs) weltweit verfügt.
Was DeepSeek zusätzlich brisant macht: Die Firma agiert weitgehend abgeschottet, obwohl sie ihre Modelle offenlegt. Ihr Gründer, Liang Wenfeng, vermeidet Interviews, überlässt den Austausch größtenteils wissenschaftlichen Papieren – penibel detailliert, aber mit blinden Flecken. Über die Herkunft der Daten, die verwendeten GPUs oder konkrete Infrastrukturkosten schweigt das Unternehmen. Gleichzeitig liefert es auf Nvidia-Konferenzen Präsentationen über “werte-anpassbare” Chatbots, deren moralische Parameter sich auf Knopfdruck verändern lassen.
Liang selbst ist eine Schlüsselfigur in diesem technologischen Drama. Der zurückhaltende Mathematiker, den seine Mitarbeiter respektvoll „lǎo bǎn“ nennen, hatte schon Jahre zuvor mit seinem Fintech-Unternehmen High-Flyer Quant massiv in GPU-Cluster investiert. Was als Hochfrequenzhandelsplattform begann, verwandelte sich unter seiner Führung in eine KI-Schmiede. Bereits 2022 verfügte sein Team über mehr als 10.000 Nvidia A100-Chips – wenige Monate bevor US-Beschränkungen den Export solcher Hardware nach China erschwerten.
Ironischerweise beschleunigten genau diese Sanktionen Chinas Innovationskraft. Unternehmen wie Huawei, Alibaba und Baidu investierten aggressiv in eigene KI-Infrastrukturen. Der Mangel an Nvidia-Hardware zwang zu effizienteren Lösungen – wie etwa der sparsity-Methode, bei der nur spezialisierte Teile eines Modells aktiviert werden. Liang erkannte früh das Potenzial solcher „experts-based architectures“ und ließ seine Teams genau dort ansetzen. Der technologische Rückstand schrumpfte dadurch von Jahren auf Monate, wie Analyst Wei Sun feststellt.
Trotz der Leistung bleibt DeepSeek für viele ein schwarzer Fleck auf der globalen Landkarte. Die US-Regierung untersucht, ob das Unternehmen Exportkontrollen umgangen hat, und warnt vor Verbindungen zur Kommunistischen Partei. CEO Dario Amodei von Anthropic fordert strengere Maßnahmen, vermutet sogar Datenklau bei OpenAI. Doch Beweise fehlen – und während Washington prüft, kodiert Hangzhou.
Denn DeepSeek ist längst nicht allein. In der aufstrebenden Technologiemetropole florieren Startups wie Moonshot AI oder Game Science. Zusammen mit fünf anderen Unternehmen wird DeepSeek zu den „Six Little Dragons“ gezählt – Symbol für eine Generation von Firmen, die sich an keine geopolitischen Spielregeln mehr hält, sondern mit technischer Finesse Fakten schafft.
Die Wucht, mit der DeepSeek auf die globale Bühne getreten ist, resultiert nicht nur aus kluger Technik oder strategischer Stille. Es ist die Kombination aus struktureller Unterfinanzierung, forciertem Effizienzdruck und der kompromisslosen Ambition eines Mannes, der lieber Modelle trainiert als Reden hält. Liang hat der Welt gezeigt, dass in einem KI-Wettrennen nicht zwangsläufig der mit dem größten Budget gewinnt – sondern der mit der besten Idee, dem schnellsten Team und dem leisesten Schritt.