Bestätigung: Llama 4 ist gescheitert. Was bedeutet das für Anleger?
Metas KI-Modell Llama 4 Maverick 17B 128E Instruct wurde als schlanke, leistungsstarke Alternative zu größeren Sprachmodellen angepriesen. Aber neue, unabhängige Tests von LiveBench zeigen ein anderes Bild. Das könnte die Stimmung der Anleger, die Strategie und den Wettbewerb in der KI-Branche verändern.
Hype trifft auf die LiveBench-Realität
Vor einer Woche stellte Meta Llama 4 Maverick als technisches Wunder dar – kompakt und doch leistungsstark, effizient und doch multimodal. Es sollte größere Modelle wie GPT-4o und Gemini 2.0 Flash übertreffen. Die Technik war mutig. Die Sprache noch mutiger.
Aber die Daten von LiveBench zeigen etwas anderes:
- Denken: 43,83
- Programmieren: 37,43
- Sprache: 49,65
- Mathematik: 60,58
- Datenanalyse: 59,03
- IF (Integrierter/Inferenzieller Wert): 75,75
- Globaler Durchschnitt: 54,38
Diese Zahlen platzieren Maverick ganz unten im Vergleich mit anderen Modellen – weit unter dem, was Anleger erwartet hatten. Mit Platz 20 und einer Leistung unter Gemini 2.0 Flash und GPT-4o ist die schwache Leistung von Llama 4 bestätigt. Auch die Aussagen, dass es diese beiden Modelle übertrifft, sind widerlegt.
Denken bei 43: Ein Modell, das nicht denken kann, kann nicht mithalten
Für Nutzer von LLMs ist Denken keine Option, sondern das, was brauchbare Modelle von besseren Chatbots unterscheidet.
Mit einem Wert von 43,83 ist Llama 4 Maverick fast 50 % schlechter als das Top-Modell Gemini 2.5 Pro Experimental. Mehrere Kunden bestätigten, dass allein dieser Wert das Modell für eine ernsthafte Integration in Unternehmen ausschließen würde.
Ein KI-Experte einer großen Investmentfirma sagte es so:
"Man bewertet ein Modell nicht nur nach Reaktionszeit oder Datenmenge. Man bewertet es nach dem Ergebnis des Denkens. Bei 43 gibt es kein Ergebnis."
Programmieren: Die Zeile Code, die die Geschichte zerstörte
Die wohl wichtigste Zahl für den Verkauf ist Mavericks Programmierwert von 37,43. Hier erzielen Modelle den größten Gewinn – bei der Unterstützung von Entwicklung, Code-Überprüfungen, Programmierung zu zweit und Backend-Support.
Meta hatte behauptet, Maverick sei beim Programmieren so gut wie DeepSeek v3. Aber LiveBench bestätigt das nicht. Tatsächlich ist die Leistung eher mit Open-Source-Beta-Modellen von Anfang 2024 vergleichbar, nicht mit modernsten Modellen für Unternehmen.
"KI-Programmierung ist die neue Cloud", sagte ein Technologiechef einer Fintech-Firma mit LLM-Projekten. "Wer nicht programmieren kann, kann kein Geld verlangen. So einfach ist das."
Das Mittelfeld: Sprach-, Mathe- und Datenwerte werfen Fragen auf
Auch außerhalb von Logik und Code sieht es nicht besser aus:
- Sprachverständnis erreichte 49,65
- Datenanalyse kam auf 59,03
- Mathematik, normalerweise eine Stärke von Transformer-Architekturen, erreichte 60,58
Das ist zwar nicht katastrophal, aber mittelmäßig, besonders für ein Modell, das so viele Fähigkeiten haben soll.
Zusammen mit dem globalen Durchschnitt von 54,38 ist das Urteil klar: Maverick ist kein missverstandenes Genie, sondern ein durchgehend schwaches Allround-Modell.
Die PR-Lüge: Wenn Marketing auf Fakten trifft
"Besser als GPT-4o und Gemini" – Aber nur in Präsentationen
Meta bewarb Maverick als:
- "Bestes Modell in Bezug auf Multimodalität und Kosten"
- "Übertrifft GPT-4o beim Denken und Programmieren"
- "Konkurrenzfähig in allen Tests"
Nichts davon stimmt unter den Bedingungen von LiveBench. Der Unterschied zwischen internen Werten und öffentlichen Tests ist zu groß, um ihn zu ignorieren – und für Anleger ist das jetzt ein Risiko.
Ein auf KI spezialisierter Hedgefonds-Manager sagte:
"Meta hat sich nicht nur geirrt. Sie haben es falsch dargestellt. Das ist kein technisches Problem, sondern ein Problem der Glaubwürdigkeit."
Strategische Entscheidung: Kann Meta das Vertrauen der Anleger zurückgewinnen?
Eine "Geschichte zuerst"-Strategie steht jetzt vor der Realität
Meta hat sich stark auf Geschichten verlassen, um sich als KI-Supermacht darzustellen. Aber das Scheitern von Maverick zeigt, dass die Strategie vielleicht zu früh war.
- Interne Teams könnten unter Druck geraten, die Abläufe nach dem Training zu überarbeiten
- Die Integration des Modells in Plattformen wie WhatsApp und Messenger ist angeblich gestoppt
- Produktpläne, die mit Maverick verbunden sind, werden überprüft, so Personen, die mit der Sache vertraut sind
Das ist mehr als ein Produktfehler. Es ist ein strategischer Bruch.
Die Reaktion des Marktes: Worauf institutionelle Anleger jetzt achten werden
1. Kurzfristig: Erwarten Sie Schwankungen und Risikoaversion
Nachdem das Scheitern von Llama 4 bestätigt wurde, dürfte die Meta-Aktie – in der bereits eine schnellere KI-Gewinnung eingepreist war – kurzfristig neu bewertet werden.
- Fonds mit hohem KI-Anteil könnten beginnen, Meta zu verkaufen
- Die Bewertungen von Technologieunternehmen könnten leicht sinken, da die "KI-Prämie" erneut überprüft wird
- Analysten werden die Kursziele senken, wenn Maverick nicht schnell oder überzeugend ersetzt wird
2. Mittelfristig: Strategische Veränderungen oder größere strukturelle Probleme
Anleger werden genau beobachten:
- Umschichtungen im KI-Forschungsbudget von Meta
- Änderungen in der Führungsebene der KI-Produktabteilung
- Geänderte Zeitpläne für Produkte, die auf der Llama-Technologie basieren
Jedes Zeichen von weiterer Verzögerung oder Ablehnung könnte Kapitalabflüsse beschleunigen.
3. Langfristig: Kann Meta im Wettbewerb um die besten Modelle noch mithalten?
Trotz des Rückschlags hat Meta immer noch:
- Große Mengen an eigenen Daten
- Ein starkes Forschungsteam
- Integration in die größten Plattformen der Welt, die von Konsumenten genutzt werden
- Viel Geld
Wenn es die Erwartungen anpassen und von Allzweck-LLMs zu speziellen Nischen wechseln kann, könnte es wieder relevant werden.
Aber wenn es weiterhin zu viel verspricht und zu wenig hält, könnte die Geduld der langfristigen Anleger erschöpft sein.
Das eigentliche Risiko: Den Kampf um die KI-Glaubwürdigkeit verlieren
Konkurrenten können jetzt davon profitieren
Konkurrenten wie Google und OpenAI haben jetzt mehr als nur bessere Tests – sie haben auch ein besseres Timing. Da die Einführung in Unternehmen im zweiten und dritten Quartal zunimmt, ist Metas Modellportfolio plötzlich ein Fragezeichen, während andere Unternehmen bereits geprüfte, leistungsstarke Angebote anbieten.
In der Sprache der Kapitalmärkte: Der Vorteil des ersten Schrittes hat sich verschoben.
Geschichten reichen im Zeitalter der Überprüfung nicht aus
In einer Welt nach GPT-4o müssen KI-Modelle für Investoren zeigen, nicht erzählen. PR zählt nicht, wenn die Daten der Botschaft widersprechen.
"Man kann die Leistung nicht mehr mit Geschichten verbessern", sagte ein Analyst eines Staatsfonds. "Wir brauchen eine Übereinstimmung zwischen den Behauptungen und den Fähigkeiten – oder wir bewerten die Aktie entsprechend neu."