Technische Überprüfung des DeepSeek-R1-Papers: Neudefinition von Schlussfolgerungs-KI

1. Einleitung & Gesamteindruck

DeepSeek-R1 hat mit seinem neuen Ansatz zum Trainieren großer Sprachmodelle (LLMs) viel Aufmerksamkeit erlangt. Im Vergleich zu seinem Vorgänger DeepSeek-V3 zeichnet sich diese neue Arbeit durch ein „einfacheres und dennoch eleganteres“ Design in der experimentellen und theoretischen Gestaltung aus.

Bei der Bewertung von DeepSeek-R1 wurden viele Forscher an die Entwicklung von AlphaGo erinnert, insbesondere aufgrund des Trainingsprozesses R1-Zero → R1. DeepSeek-R1 zeichnet sich durch seine hohe Leistung bei verschiedenen anspruchsvollen Benchmarks aus und übertrifft oder erreicht sogar Top-Modelle wie OpenAI-o1-1217. Darüber hinaus hat eine destillierte 32B-Version (DeepSeek-R1-32B) beeindruckende Ergebnisse erzielt und kann mit OpenAI-o1-mini mithalten.

Im Großen und Ganzen zeigt DeepSeek-R1, dass es möglich ist, starke Schlussfolgerungsfähigkeiten zu erreichen, ohne von Anfang an auf ein massives überwachtes Feintuning (SFT) zu setzen. Das Modell verwendet stattdessen eine Kombination aus verstärkenden Lernen (RL) mit einem leichten SFT-Ansatz sowie ein regelbasiertes Belohnungsmodell, das einige der Fallstricke herkömmlicher Belohnungsmodellierung umgeht.

2. Belohnungsdesign: Weg von PRM & ORM

2.1 Warum eine regelbasierte Belohnung?

Die Autoren entschieden sich für regelbasierte Belohnungen anstelle eines parametrisierten Belohnungsmodells (PRM). Ihre Hauptargumente sind:

Granulare Schrittkennzeichnung ist schwierig Bei allgemeinen Denkprozessen ist es schwierig, klare, feinkörnige Kriterien für jeden Zwischenschritt zu definieren.
Kennzeichnungskosten & Genauigkeit Die Automatisierung der Etikettierung ist in der Regel mangelhaft, während die manuelle Annotation zu teuer ist, um skalierbar zu sein.
Vermeidung von Reward Hacking Wenn die Belohnungsfunktion selbst von einem Machine-Learning-System (PRM) modelliert wird, kann das Modell lernen, diese Belohnung auszunutzen (Reward Hacking). Ein kontinuierliches Retraining eines PRM erhöht auch die Komplexität und den Ressourcenbedarf.

Folglich verwendet DeepSeek-R1 direkte regelbasierte Signale, insbesondere bei Mathematik- oder Programmieraufgaben, indem Endantworten mit Grundwahrheiten verglichen oder Kompilierung und Testfälle verwendet werden, um die Korrektheit zu überprüfen. Sie integrieren auch Regeln zur Überprüfung des Ausgabeformats (z. B. ob die Argumentation in <think>...</think>-Tags eingeschlossen ist) und der Sprachkonsistenz.

2.2 Verwerfen von modellbasierten Ausgabbelohnungen (ORM)

DeepSeek-R1 verzichtet sogar auf einen alternativen „ORM“-Ansatz – bei dem ein separates Modell Ausgaben bewertet oder bewertet – aufgrund ähnlicher Bedenken hinsichtlich Halluzinationen, potenziellen Reward Hacking und Instabilität. Trotz der Vorteile von „dichter Belohnung“-Methoden bei einigen Aufgaben schätzt das Team die Einfachheit, Stabilität und Robustheit, die ein rein regelbasierter Ansatz bietet.

3. Trainingsstrategie: Von „Null“ zu einem mehrstufigen Prozess

Das Training von DeepSeek-R1 lässt sich in verschiedene Phasen unterteilen:

DeepSeek-R1-Zero
- Ausgangspunkt: Nehmen Sie DeepSeek-V3-Base (oder ein ähnliches vortrainiertes Basismodell) und wenden Sie RL direkt an, ohne anfängliches SFT.
- Methode: Verwenden Sie eine regelbasierte Belohnung kombiniert mit dem GRPO-Algorithmus (Generalized Rejection Policy Optimization).
- Ziel: Maximierung der Korrektheit bei Mathematik-/Programmieraufgaben und Sicherstellung bestimmter Formatierungsregeln.
- Ergebnisse:
  - Die Ausgaben des Modells werden während des Trainings länger, was frühe Anzeichen von Introspektion oder Selbstreflexion in seinen Antworten zeigt.
  - Der Text kann jedoch umständlich zu lesen sein, und es gibt eine gewisse Vermischung von Sprachen.
Übergang zu vollem DeepSeek-R1
- Während R1-Zero die Leistungsfähigkeit des Denkens erfolgreich steigert, hat es immer noch Probleme mit der Lesbarkeit und der sprachlichen Konsistenz.
- Das Team fügt dann eine kleine Menge hochwertiger Daten hinzu, um SFT durchzuführen und so die allgemeine Klarheit und Kohärenz zu verbessern. Nach diesem SFT-Cold-Start setzen sie RL fort, um die Leistung weiter zu steigern.
Die endgültige R1-Trainingspipeline besteht aus vier Schritten:
1. Minimales SFT mit hochwertigen Daten
  - Sammeln Sie einige tausend kuratierte Beispiele (z. B. detaillierte CoT-Daten).
  - Führen Sie ein kurzes SFT durch, damit das Modell kohärenter „spricht“.
2. Fokussiertes RL für das Denken
  - Gleiche regelbasierte Belohnungen für Mathematik-/Logikaufgaben wie in R1-Zero.
  - Fügt eine Belohnung für die Sprachkonsistenz hinzu, um die Vermischung mehrerer Sprachen in einer Antwort zu reduzieren.
3. Ablehnungs-Sampling + SFT
  - Verwenden Sie Ablehnungs-Sampling, um die Modell-Outputs aus der vorherigen Phase zu filtern und niedrigwertige oder falsch formatierte Antworten zu entfernen.
  - Integrieren Sie Aufgaben, die nicht einfach mit einem einfachen regelbasierten Ansatz bewertet werden können, indem Sie eine Überprüfung im Stil „LLM-as-Judge“ verwenden (z. B. von DeepSeek-V3).
  - Kombinieren Sie ~60.000–600.000 (abhängig von der genauen Erwähnung des Datensatzes) gefilterte Denkproben mit ~20.000–200.000 Nicht-Denkproben, um eine weitere Runde SFT (2 Epochen) durchzuführen.
4. RL für vollständige Abdeckung
  - Für verschiedene Aufgabentypen verwendet das Modell unterschiedliche Eingabeaufforderungen und Belohnungsregeln.
  - Mathematik-/Logikaufgaben stützen sich weiterhin auf die ursprüngliche regelbasierte Bewertung.
  - „Allgemeine Aufgaben“ verwenden ein Standardbelohnungsmodell für Hilfreichkeit und Sicherheit.
Am Ende erreicht DeepSeek-R1 ein Gleichgewicht zwischen Denkleistung und benutzerorientierten Eigenschaften wie Klarheit und Harmlosigkeit und entspricht effektiv Top-Modellen bei vielen Benchmarks.

4. Beobachtungen: KL-Verlust & GRPO vs. PPO

DeepSeek-R1 verwendet GRPO für seine RL-Phase und unterscheidet sich damit von Methoden wie PPO:

PPO multipliziert den KL-Strafterm üblicherweise mit der Belohnung, bevor der endgültige Policy-Gradient berechnet wird.
GRPO subtrahiert stattdessen einen KL-Term direkt, typischerweise mit einem spezialisierten Schätzer (K3), um eine geringere Varianz zu gewährleisten.

Dieser Ansatz macht das Training stabiler, insbesondere wenn nur Teiltoken abgetastet werden. Er vermeidet die höhere Varianz, die sich aus der Verwendung einfacher Monte-Carlo-Schätzungen von KL ergibt.

5. Echos von AlphaGo: Warum „Zero“ vertraut vorkommt

Leser stellen oft Parallelen zu AlphaGo fest, da die Autoren auch MCTS (Monte-Carlo-Baumsuche) und einen „Zero-ähnlichen“ Ansatz ausprobierten:

R1-Zero ähnelt AlphaGo Zero darin, dass es mit minimalen oder keinen überwachten Daten beginnt.
AlphaGo verwendete menschliche Spielaufzeichnungen für eine anfängliche überwachte Richtlinie, dann führte Selbstspiel zu AlphaZero. Im Gegensatz dazu verwendet DeepSeek einen nahezu umgekehrten Workflow: R1-Zero führt zuerst RL von Grund auf durch und fügt dann etwas SFT hinzu.

Letztendlich stießen DeepSeeks Versuche, MCTS im sprachlichen Denken einzusetzen, auf Hindernisse (großer Verzweigungsfaktor, Schwierigkeit, ein feinkörniges Wertmodell zu trainieren usw.), daher wurde MCTS in der endgültigen Pipeline nicht als erfolgreich erachtet.

6. Experimentelle Ergebnisse & Benchmarks

Bei einer Reihe von sehr schwierigen Aufgaben (mathematisches Denken, Code-Vervollständigung, komplexe Fragen und Antworten) liefert DeepSeek-R1 eine vergleichbare Leistung zu OpenAI-o1-1217 – und platziert es damit in der führenden Gruppe denkfähiger LLMs.

Inzwischen zeigt das Zwischenmodell R1-Zero bereits erhebliche Verbesserungen gegenüber der Basislinie bei Denkprozessen. Es erzeugt jedoch ungeschicktere oder sprachgemischte Ausgaben. Daher verbessern die später eingeführten SFT-Schritte die Benutzerfreundlichkeit und Zuverlässigkeit, während die starken Denkfähigkeiten des Modells erhalten oder sogar verbessert werden.

7. Wissensdestillation & Kleine Modelle

Die Autoren stellen fest, dass die einfache Destillation von DeepSeek-R1 in kleinere Modelle (z. B. Qwen2.5-32B) zu Ergebnissen führen kann, die gleichwertig mit teureren RL-Trainings für kleine Modelle sind. Dies ist ein überzeugendes Argument dafür, dass man anstelle einer vollständigen RL-Pipeline für ein kleines Modell effizient hochwertige Ausgaben von einem leistungsfähigeren Modell (wie R1) sammeln und dann ein überwachtes Feintuning an diesen Ausgaben durchführen könnte.

Ergebnis:

Das destillierte DeepSeek-R1-32B erreicht Berichten zufolge eine Leistung, die der von OpenAI-o1-mini nahe kommt, und das zu einem Bruchteil der Kosten für die Entwicklung eines kleinen Modells von Grund auf mit RL.

8. Herausforderungen & Zukünftige Richtungen

Allzweckfähigkeiten
- DeepSeek-R1 konzentriert sich auf Denkprozesse, bleibt aber in einigen allgemeinen Bereichen hinter DeepSeek-V3 zurück. Das Team plant, die breitere Abdeckung des Modells zu verbessern, möglicherweise unter Verwendung umfangreicherer CoT- oder domänenspezifischer Daten.
Sprachmischung & mehrsprachige Unterstützung
- Obwohl R1 Sprachkonsistenzprüfungen für Chinesisch und Englisch hat, hat es immer noch Probleme mit anderen Sprachen oder Szenarien mit Sprachwechsel.
Empfindlichkeit gegenüber Prompt-Engineering
- R1 kann empfindlich auf mehrstufige oder Few-Shot-Prompts reagieren. Die Autoren empfehlen einen Zero-Shot-Ansatz, bei dem einfach das gewünschte Ausgabeformat angegeben wird, um optimale Ergebnisse zu erzielen.
Software-Engineering & Lange Evaluierungen
- Da die Überprüfung von Code-Aufgaben länger dauern kann, ist groß angelegtes RL schwieriger. DeepSeek-R1 zeigt zwar Verbesserungen bei Softwaretests, aber keinen dramatischen Sprung gegenüber DeepSeek-V3. Zukünftige Pläne umfassen die asynchrone Evaluierung, um RL bei Programmieraufgaben zu beschleunigen.
Skalierung auf 600B und darüber hinaus
- Das Papier zeigt nicht vollständig, ob dieser Ansatz in extremen Maßstäben (z. B. 600 Milliarden Parameter) stabil und effektiv bleibt. Dies ist ein weiterer offener Bereich, den das Team möglicherweise untersuchen wird.

9. Schlussfolgerung

DeepSeek-R1 zeigt, dass massives SFT keine absolute Voraussetzung ist, um die Denkfähigkeit eines Sprachmodells deutlich zu verbessern. Durch die Nutzung einer einfachen, aber robusten regelbasierten Belohnung, das Überspringen oder Minimieren von SFT zu Beginn und die anschließende Integration eines kleinen kuratierten Datensatzes sowie wiederholter RL-Phasen erreicht R1 State-of-the-Art-Leistung bei anspruchsvollen Benchmarks.

Die Studie hebt auch hervor, wie Wissensdestillation – die Verwendung von Ausgaben eines stärkeren Modells (R1) zum Trainieren eines kleineren Modells – effizienter sein und bessere Ergebnisse liefern kann, als wenn das kleine Modell direkt einem umfangreichen RL-Training unterzogen wird.

Obwohl DeepSeek-R1 noch einige Lücken in der Allgemeingültigkeit aufweist und empfindlich auf Eingabeaufforderungen reagiert, weist es den Weg in eine Zukunft, in der hybrides RL + minimales SFT leistungsstarke, flexible und besser steuerbare LLMs liefern kann. Dieses Papier setzt einen vielversprechenden Meilenstein und zeigt, dass Modelle mit den richtigen Belohnungen und iterativen Trainingsphasen Selbstreflexion, erweitertes Denken und robuste Leistung ohne groß angelegte schrittweise Annotation „entdecken“ können.