Kann KI Spitzenforschung im Bereich KI nachbilden? Der Maßstab, der Sprachmodelle auf die ultimative Probe stellt
Der Maßstab, der neu definiert, was "intelligente" KI bedeutet
LLMs programmieren, schreiben, entwerfen – und jetzt werden sie gebeten, die Grenzen ihres eigenen Fachgebiets zu reproduzieren: die KI-Forschung selbst.
Da Large Language Models (LLMs) in ihren Fähigkeiten immer weiter zunehmen, stellt sich für Investoren, Forscher und Aufsichtsbehörden gleichermaßen eine entscheidende Frage: Kann KI eigenständig erstklassige Machine-Learning-Forschung replizieren? Oder anders ausgedrückt: Kann sie die Arbeit eines hochqualifizierten ML-Doktoranden von Anfang bis Ende erledigen, ohne sich auf von Menschen geschriebenen Code zu verlassen?
Hier kommt PaperBench ins Spiel – ein neuer, strenger Maßstab, der von OpenAI entwickelt wurde, um genau diese Frage zu testen. Mit seinem detaillierten Bewertungssystem, dem Cleanroom-Evaluationsaufbau und dem Fokus auf die Reproduktion von Grund auf könnte PaperBench der bisher ehrgeizigste Stresstest für KI-Agenten sein. Es geht nicht darum, aufsehenerregende Antworten zu generieren. Es geht um durchgängiges Denken, Planen und Ausführen in einem der komplexesten intellektuellen Bereiche: der Machine-Learning-Forschung und -Entwicklung.
Warum das wichtig ist: Replikation als Fähigkeitssignal
Wissenschaftliche Reproduzierbarkeit ist ein Eckpfeiler seriöser Forschung. Wenn KI-Agenten eigenständig hochaktuelle Arbeiten replizieren können, signalisiert dies nicht nur technischen Fortschritt, sondern demonstriert auch eine Form fortgeschrittener Kognition.
Aber es steht noch mehr auf dem Spiel. Für zukunftsorientierte Labore wie OpenAI, Anthropic und DeepMind steht die Reproduzierbarkeit von Agenten im Einklang mit umfassenderen politischen und Governance-Zielen. Sie bietet eine konkrete Metrik für fähigkeitsbasierte Vorbereitung (capabilities-based preparedness), ein Begriff, der in KI-Sicherheitskreisen zunehmend verwendet wird.
Und aus geschäftlicher Sicht würde KI, die neue Forschung zuverlässig replizieren kann, die F&E-Pipelines beschleunigen, den Overhead reduzieren und möglicherweise interne Teamstrukturen umgestalten. Heute ist diese Vision noch fern. Aber PaperBench legt das Spielfeld fest – und seine ersten Ergebnisse sind ein Weckruf.
Die Kernaufgabe: State-of-the-Art KI-Paper von Grund auf reproduzieren
Im Kern bewertet PaperBench, ob ein KI-Agent ein Forschungspapier lesen und eine funktionierende Codebasis generieren kann, die seine empirischen Ergebnisse reproduziert – und das alles, ohne von den Autoren bereitgestellten Code zu verwenden.
- Eingabe: Ein aktuelles, wirkungsvolles ML-Paper (z. B. von ICML 2024) zusammen mit klärenden Anmerkungen der Autoren.
- Ausgabe: Ein vollständiges Git-Repository, einschließlich eines
reproduce.sh
-Skripts, das ausgeführt werden soll und die Ergebnisse des Original-Papers liefert. - Umgebung: Die Codeausführung erfolgt in einer sicheren, GPU-fähigen virtuellen Maschine. Nichts wird vorausgesetzt, alles wird verifiziert.
Bahnbrechend ist, wie detailliert die Bewertung ist. Der Prozess ist in über 8.000 gewichtete Kriterien unterteilt, die reale Entwicklungs-Teilaufgaben wie Code-Korrektheit, Ausführungszuverlässigkeit und Ergebnisgenauigkeit widerspiegeln. Der Endwert – der Replication Score – bietet ein differenziertes Bild davon, wie gut ein Agent die Herausforderung gemeistert hat.
Einblick in PaperBench: Architektur, Rubriken und der Richter, der niemals schläft
1. Hierarchische Rubriken, die mit den Paper-Autoren entworfen wurden
Jedes der 20 Benchmark-Paper wird akribisch in eine Hierarchie von Bewertungsknoten zerlegt:
- Code-Entwicklung: Ist der Code korrekt geschrieben?
- Ausführung: Läuft er wie erwartet?
- Ergebnisübereinstimmung: Stimmen die Ausgaben statistisch oder qualitativ mit dem Paper überein?
Diese Struktur, die in Zusammenarbeit mit den Original-Paper-Autoren erstellt wurde, stellt sicher, dass die Bewertung realistisch und fundiert ist.
2. Lernen Sie den Richter kennen: o3-mini, ein LLM-basierter Evaluator
Die manuelle Bewertung würde Tage pro Paper dauern. PaperBench verwendet SimpleJudge, einen automatisierten Bewertungsagenten, der von Modellen wie OpenAIs o3-mini betrieben wird. Auf einem separaten Validierungs-Benchmark (JudgeEval) erreichte o3-mini einen F1-Score von 0,83 im Vergleich zu den Urteilen menschlicher Experten – solide, wenn auch nicht fehlerfrei.
Um Halluzinationen oder Fehlinterpretationen zu minimieren, verwendet der Richter eine kontextbezogene Bewertung und bewertet jeden Rubrik-Blattknoten basierend auf Einreichungsdateien, Paper-Inhalten und Autorenklarstellungen.
Wie die besten KI-Modelle von heute abgeschnitten haben – und wo sie gescheitert sind
Die Kandidaten:
- Claude 3.5 Sonnet
- GPT-4o
- Gemini 2.0 Flash
- DeepSeek-R1
- OpenAIs o1 und o3-mini
Die Ergebnisse:
- Top-Ergebnis: Claude 3.5 Sonnet mit einem Replication Score von 21,0 %
- Die meisten anderen Modelle? Unter 10 %
Ein alternatives Setup – bei dem Agenten durch iteratives Scaffolding länger arbeiten mussten – erhöhte den Score von o1 auf 24,4 %, bewegte aber die Nadel bei Claude kaum. Prompt und Architektur sind eindeutig wichtig.
Menschlicher Vergleich:
Einer kleinen Gruppe erfahrener ML-Doktoranden wurde die gleiche Aufgabe gestellt. Bei drei abgeschlossenen Papern erzielten sie 41,4 % und übertrafen damit alle aktuellen Modelle deutlich. KI war schnell aus dem Startblock, erreichte aber schnell ein Plateau und zeigte kein strategisches Durchhaltevermögen.
Stärken und Schwächen der heutigen KI-Agenten
Wo sie sich auszeichnen:
- Schnelles anfängliches Schreiben von Code
- Verstehen von Schlüsselkomponenten von Papern
- Handhabung von einfachem Code-Scaffolding und -Dienstprogrammen
Wo sie scheitern:
- Vorzeitiger Abbruch: Agenten hören oft auf, bevor sie fertig sind, und berufen sich auf "Fertigstellung" oder stoßen auf Hindernisse.
- Strategische Schwäche: Schlechte langfristige Planung; kein strukturierter Ansatz für komplexe Aufgaben.
- Debugging-Defizite: Schwierigkeiten bei der Integration und Fehlerbehebung.
- Tool-Ineffizienz: Einige Modelle können nicht einmal Standard-Programmiertools effektiv nutzen.
Die Quintessenz? Agenten können Expertise imitieren, aber ihnen fehlt immer noch die umfassendere Kognition, die erforderlich ist, um sie zu erhalten.
Investitions- und strategische Implikationen
Für KI-Labore bietet PaperBench eine strukturierte Möglichkeit, den Fortschritt bei risikoreichen F&E-Fähigkeiten zu messen. Es dient als KPI für Teams, die an autonomen Agenten oder KI-gestützten Forschungsabläufen arbeiten.
Für Governance-Gremien und Sicherheitsforscher bietet PaperBench harte Kennzahlen, die in Modelle zur Fähigkeitsvorbereitung einfließen können. Es kann verwendet werden, um das Potenzial von KI bei der Beschleunigung der Wissenschaft zu quantifizieren – und gleichzeitig Risiken zu erkennen, wenn der Fortschritt die Ausrichtung übersteigt.
Und für Investoren ist dies ein starkes Signal: Wir sind noch lange nicht bei einer künstlichen allgemeinen Intelligenz (AGI), aber frühe Anwendungsfälle von agentenbasierter Forschung und Entwicklung könnten in Nischen mit hohem ROI entstehen, wie z. B. die Überprüfung biomedizinischer Literatur, die experimentelle Planung oder die akademische Zusammenfassung. Das langfristige Ziel? Wenn sich diese Benchmarks verbessern, sind SaaS-ähnliche Agentenlösungen zu erwarten, die auf interne F&E-Pipelines abzielen.
Was als Nächstes kommt: Den Benchmark erweitern, die Lücken schließen
Das PaperBench-Team hat mehrere wichtige nächste Schritte umrissen:
- Dataset vergrößern: Mehr Paper, mehr Themen.
- Bessere Richter: Kritikbasierte und agentische Bewertungsmethoden einbeziehen.
- Automatisierte Rubrikenerstellung: KI verwenden, um bei der Definition von Bewertungsmetriken zu helfen – wodurch menschliche Arbeitszeit eingespart wird.
- Toolchain-Integration: Den Agentenzugriff auf echte Tools und APIs verbessern, um die Ausführungslücke zu schließen.
Der Benchmark ist Open Source, sodass Labore und unabhängige Gutachter die Methodik replizieren oder Varianten erstellen können, die auf bestimmte Teilbereiche zugeschnitten sind.
Fazit: KI kann den ML-Doktoranden noch nicht ersetzen – Aber jetzt wissen wir, was dazu gehört
PaperBench testet nicht nur Modelle, sondern kartiert auch die Grenzen der autonomen Forschungsfähigkeit. Aktuelle Agenten können Code schreiben. Einige können sogar ein anständiges Repo erstellen. Aber komplexe Forschung von Grund auf zu reproduzieren? Immer noch außer Reichweite.
Und das ist der Punkt: Bei all dem Hype bleiben diese Systeme Assistenten, keine Forscher. Aber jetzt haben wir mit PaperBench eine Grundlage, um diese Entwicklung zu verfolgen – Experiment für Experiment, Repo für Repo.
Was ist Ihrer Meinung nach die nächste Hürde, die KI-Agenten überwinden müssen, um wirklich autonome Forscher zu werden? Teilen Sie uns Ihre Gedanken unten mit.