
Metas fehlender Riese: Llama 4 Behemoth noch immer verschwunden, während Konkurrenten aufholen
Im Rampenlicht, hinter dem Vorhang: Das Ungetüm, das noch nicht da war
In dem Echo von feierlichen Tweets, technischen Live-Streams und YouTube-Analysen, die am 5. April ausbrachen, stand eine Wahrheit still im Schatten – Metas wichtigstes großes Sprachmodell, Llama 4 Behemoth, ist noch nicht da. Während die Welt die Veröffentlichung von Llama 4 Scout und Maverick bejubelte, bleibt Metas Flaggschiff – seine Antwort auf die wachsende Rivalität mit OpenAI, Anthropic und Google – unversendet, noch im Training und möglicherweise hinter dem Zeitplan zurück.
Meta verkündete den Start einer "neuen Ära der multimodalen KI", aber unter der eleganten Technik und den kühnen Behauptungen beschreiben Insider einen zunehmenden Druckkochtopf – ein hektisches Rennen, um die Nase vorn zu behalten, während die Konkurrenz ihre nächste Welle von Open-Weight-Modellen vorbereitet.
"Wir mussten etwas zeigen - besonders nachdem ihr über unsere Verspätung berichtet habt - irgendetwas. Bevor die neuen Veröffentlichungen der Gegner auch unser neues Baby töten", sagte uns heute ein Meta Gen AI-Ingenieur.
Dies ist die unerzählte Geschichte hinter Llama 4.
Die Modelle, die tatsächlich veröffentlicht wurden: Scout und Maverick
Auf dem Papier ist die Einführung von Llama 4 Scout und Llama 4 Maverick ein Meilenstein für die Open-Source-Community. Diese Modelle, die auf Mixture-of-Experts-Architekturen aufbauen, verschieben die Grenzen der Inferenz-Effizienz, der Kontextlänge und der multimodalen Fähigkeiten. Scout – ein agiles 17B-Parameter-Modell mit 16 Experten – verfügt über ein beispielloses Kontextfenster von 10 Millionen Token, eine Leistung, die von keinem heute veröffentlichten Modell erreicht wird. Es läuft auf einer einzelnen H100 GPU und richtet sich an kleine Forscher, Entwickler und Produktteams.
Maverick ist dagegen das Arbeitstier: gleiche aktive Größe, aber angetrieben von 128 Experten und 400 Milliarden Gesamtparametern. Es konkurriert direkt mit DeepSeek V3, Gemini 2.0 Flash und GPT-4o und liefert ähnliche Leistung zu geringeren Inferenzkosten.
"Dies ist das beste Preis-Leistungs-Verhältnis auf dem Markt im Moment", sagt ein KI-Benchmark-Analyst. "Wenn Sie mit Llama 4 Maverick entwickeln, erhalten Sie nicht nur OpenAI-ähnliche Argumentation – Sie tun dies auch für einen Bruchteil der GPU-Zyklen."
Frühe Metriken bestätigen dies: Maverick hat bereits 1417 Punkte auf LM Arena erzielt (CTOL-Redakteur Ken: Wir vertrauen LM Arena nicht wirklich, aber es ist bei weitem die einzige verfügbare), was es in die Top-Kategorie einordnet, wenn auch mit einem breiten Konfidenzintervall aufgrund der begrenzten Anzahl von Stimmen.
Doch so beeindruckend diese Modelle auch sind, sie waren nicht der Hauptakt, den Meta ursprünglich geplant hatte.
Das Phantom der Veröffentlichung: Behemoth bleibt in den Startlöchern
Hinter dem Spektakel von Scout und Maverick ist Llama 4 Behemoth auffallend abwesend. Mit 288 Milliarden aktiven Parametern, 16 Experten und einer Gesamtgröße von fast 2 Billionen Parametern ist es nicht nur darauf ausgelegt, GPT-o3 mini, Claude Sonnet 3.7 und Gemini 2.5 Pro auf technischen Benchmarks zu erreichen, sondern sie zu übertreffen. Intern wird es als Metas erstes "Frontier Model" betrachtet – dasjenige mit dem rohen IQ, um die LLM-Rangliste zu verändern.
Aber das Training von Behemoth ist noch im Gange. Sein Veröffentlichungstermin bleibt vage. Und dieses Schweigen ist aufschlussreich.
"Der Trainingsprozess verbraucht viele Ressourcen", sagte uns der Meta-Ingenieur. "Es läuft nicht reibungslos. Ich bin mir persönlich nicht sicher, wo es im Vergleich zu den Top Drei landen wird – Gemini 2.5 Pro, Claude 3.7, O3 Mini."
Während Meta Benchmark-Siege in MINT-Bereichen wie MATH-500 und GPQA Diamond angedeutet hat, schweigen sie bemerkenswert über Generalisten- oder Konversationsleistung – ein Warnsignal für viele KI-Analysten.
Ein leitender Machine-Learning-Ingenieur bei einem KI-Infrastrukturunternehmen spekulierte, dass "Ressourcenengpässe und instabile Skalierung von RL-Pipelines bei dieser Parameteranzahl" hinter den Verzögerungen stecken könnten. Andere verweisen auf Strategie: "Meta wollte nicht riskieren, Behemoth zu veröffentlichen, bis es erstklassige Ergebnisse garantieren konnte – zu viel hängt davon ab."
Dazu gehört nicht nur Prestige, sondern auch eine tiefere existenzielle Wette: Wenn Llama 4 Behemoth es nicht schafft, Claude oder Gemini klar zu übertreffen, riskiert Meta, seine Position im Wettrüsten der KI-Dominanz zu verlieren, selbst im Open-Source-Bereich, den es mitgestaltet hat.
Maverick und Scout: Elegante Technik, taktisches Spiel
Was Maverick und Scout bieten, ist erstklassige Innovation im mittleren Preissegment. Metas Wahl der MoE-Architektur – lange als zu komplex für die Abstimmung oder Bereitstellung abgetan – hat sich nun zu seinem Trumpf entwickelt.
In Scout wird jedes Token nur an einen von 16 Experten plus eine gemeinsam genutzte Schicht weitergeleitet, was die Recheneffizienz erhöht, ohne die Qualität zu beeinträchtigen. Seine Kontextlänge von 10 Millionen Token ist nicht nur ein technisches Wunderwerk – es könnte ein Paradigmenwechsel sein.
"Wir sprechen hier über die Zusammenfassung ganzer Code-Repositories, die Argumentation über mehrere Dokumente hinweg oder den persistenten Speicher für Agenten", sagte ein Forscher. "Es ist eine funktionale Revolution."
Maverick hingegen bringt diese Effizienz auf das One-Host-Level und bietet 400 Milliarden Gesamtparameter, Mixture-of-Experts-Routing und verbesserte multimodale Sprachfertigkeit. Es unterstützt Text+Bild-Eingabe und dominiert bei visuellen QA- und Codierungs-Benchmarks wie ChartQA und LiveCodeBench.
Ihr Trainingsprozess war nicht weniger rigoros. Mithilfe einer progressiven Curriculum-basierten Post-Training-Pipeline entfernte Meta "einfache Daten", filterte Prompts mithilfe interner Beurteilungsmodelle und schleifte das Reinforcement Learning mit Hard-Only-Prompt-Auswahl – ein brutales, aber effektives Rezept für Leistungssteigerung.
Scout und Maverick wurden beide aus Behemoth destilliert – was Meta als "Codestillation" bezeichnet. Aber die vollen Auswirkungen dieses Lehrermodells sind noch unbekannt.
Früher Testfehler gegen führende Modelle: Llama 4 Maverick vs. Claude 3.7 Sonnet
In einem frühen Kopf-an-Kopf-Logiktest hatte Metas Llama 4 Maverick Mühe, die Leistung von Claude 3.7 Sonnet zu erreichen. Beide Modelle wurden mit der Lösung eines benutzerdefinierten 4×7-Matrix-Rätsels beauftragt, das Fantasy-Elemente und 15 komplexe Hinweise enthielt. Während Claude die Aufgabe schnell erledigte und beim ersten Versuch eine konsistente, überprüfbare Lösung lieferte, benötigte Maverick mehrere Fortsetzungen und scheiterte wiederholt an Verifizierungsprüfungen – wobei er einem Charakter zunächst doppelte Artefakte zuordnete und später "fatale Widersprüche" in seiner Logik bestätigte. Selbst nach mehreren Korrekturdurchgängen übersah er weiterhin Hinweise und führte neue Inkonsistenzen ein. Der Tester stellte fest, dass Mavericks informeller Stil, einschließlich Emojis und Abkürzungen, seine Argumentation zusätzlich verwirrte. Obwohl dies nur ein Test ist, wirft er frühe Bedenken hinsichtlich der Zuverlässigkeit von Maverick bei der strukturierten Problemlösung auf, insbesondere da Meta sein Flaggschiff Behemoth noch nicht veröffentlicht hat. Und nochmals, Meta muss ein solides Behemoth-Modell veröffentlichen, um gegen Top-Modelle relevant zu bleiben.
Open Source mit einem Sternchen
Meta hat Llama lange als Speerspitze der Open-Source-KI positioniert. Aber die Lizenz für Llama 4 hat Kritik hervorgerufen. Die "700 Millionen MAU"-Klausel verbietet die Nutzung durch jede Organisation mit mehr als 700 Millionen monatlich aktiven Nutzern – was Tech-Giganten effektiv daran hindert, sie frei zu übernehmen.
"Es ist ein Widerspruch", sagte ein KI-Befürworter. "Man kann es nicht als offen bezeichnen, wenn es für Ihre Konkurrenten mit Fallstricken versehen ist."
Schlimmer noch, die Verteilung wird gedrosselt: Zum Herunterladen müssen Benutzer ein Formular ausfüllen, einen zeitlich begrenzten Link erhalten und dürfen fünf Downloads innerhalb von 48 Stunden durchführen.
Diese künstlichen Einschränkungen frustrieren viele Entwickler. In den Worten eines Community Builders, der frühen Zugang zu Scout hatte:
"Es ist das beste kleine Modell, das ich verwendet habe. Aber der Rollout? Es fühlte sich eher wie das Beantragen eines Reisepasses an als das Herunterladen eines Open-Source-Modells."
Die Einsätze: KI-Strategie im Jahr 2025
Warum ist die Abwesenheit von Behemoth wichtig?
Weil wir uns jetzt im Zeitalter der Open-Weight-KI-Kriegsführung befinden, wo Latenz, Kosten pro Token und Leistung bei schwierigen Argumentationsaufgaben nicht nur die Produktlebensfähigkeit definieren – sondern auch die nationale Strategie.
Metas Scout- und Maverick-Modelle schlagen Gemini 2.0 Flash in den meisten Metriken. Aber sie schlagen nicht Claude 3.7 Sonnet Thinking oder Gemini 2.5 Pro. Nur Behemoth hat eine Chance darauf.
Und die Konkurrenz wartet nicht.
Gerüchten zufolge wird DeepSeek seine nächste Generation von Open-Weight-Modellen mit vollständigen Code-Argumentationsfähigkeiten bis Anfang Mai veröffentlichen. OpenAI bereitet angeblich sein erstes Open-Weight-Modell vor.
Wenn Meta Behemoth nicht vor diesen Veröffentlichungen landet, könnte sich die Llama 4-Hype-Welle verflüchtigen, bevor sie die Marktdominanz festigen kann.
Was als Nächstes kommt: Behemoth, LlamaCon und die wahre Grenze
Meta setzt auf den 29. April, wenn es die LlamaCon veranstaltet und weitere technische Details und – möglicherweise – ein Veröffentlichungsfenster für Behemoth verspricht. Branchenbeobachter sagen, dies könnte ein entscheidender Moment für die KI-Roadmap des Unternehmens sein.
Bis dahin haben wir Scout und Maverick: technisch brillant, öffentlich veröffentlicht, aber strategisch vorläufig.
Wie ein Analyst es ausdrückte:
"Llama 4 ist Metas Eröffnungszug – aber das Endspiel hängt von Behemoth ab."
Die Zukunft der KI wird nicht nur öffentlich aufgebaut. Sie wird hinter den Kulissen auf 32.000 GPUs trainiert, wobei jede Stunde, jedes Token ein Wettlauf gegen die Zeit ist.
Zusammenfassung:
- Llama 4 Scout: Ein 17B-Parameter-Modell mit einem 10M-Kontextfenster, das auf eine einzelne H100-GPU passt. Es ist das Beste seiner Klasse für kompakte multimodale Modelle.
- Llama 4 Maverick: Größeres Modell mit 400B Parametern und 128 Experten. Schlägt Gemini 2.0 Flash in den meisten Metriken mit beeindruckender Kostenleistung.
- Llama 4 Behemoth: Noch im Training. Mit 2T Parametern zielt es darauf ab, Gemini 2.5 Pro, Claude 3.7 und O3 Mini herauszufordern – sieht sich aber internen Zweifeln ausgesetzt.
- Scout und Maverisk sind Produkte der Mittelklasse und können Top-Modelle wie Claude Sonnet 3.7 oder Gemini 2.5 Pro nicht schlagen.
- Fragen zur Offenheit: Lizenzbeschränkungen und Download-Gating haben Kritik aus der Open-Source-Community hervorgerufen.
- 29. April auf der LlamaCon: Alle Augen sind darauf gerichtet, ob Meta Behemoth endlich enthüllen kann – und ob sich das Warten gelohnt hat.
Die Geschichte ist noch nicht zu Ende. Aber im Moment ist die Bühne bereitet. Der Scout ist schnell. Der Maverick ist stark. Und der Behemoth? Er ist noch im Schatten, noch im Training, noch ungewiss.