GPT-4.5 Enttäuscht: Die Wahrheit hinter OpenAIs neuester Version
Was passiert, wenn der größte Player im Bereich KI nur kleine Verbesserungen liefert, während die Welt Revolutionen erwartet?
Die Kluft zwischen Erwartung und Realität war in der KI noch nie so groß wie bei der Veröffentlichung von GPT-4.5 durch OpenAI. In den sozialen Medien kursierten tagelang Vorhersagen über einen bahnbrechenden Sprung: ein riesiges Modell mit Billionen von Parametern, das sowohl günstiger als auch deutlich leistungsfähiger sein würde als seine Vorgänger. Die Realität, wie sie in OpenAIs eigener Systemkarte beschrieben wird, erzählt eine andere, ernüchterndere Geschichte.
"Es ist Stillstand, der als Fortschritt getarnt ist", sagte mir ein bekannter KI-Investor, nachdem er die technischen Spezifikationen geprüft hatte. "Der Markt erwartete einen Quantensprung, erhielt aber nur einen vorsichtigen Schritt nach vorn."
Das echte GPT-4.5: Bescheidene Verbesserungen, großer Fokus auf Sicherheit
OpenAI positioniert GPT-4.5 als sein "größtes und kenntnisreichstes Modell bis heute" und hebt die weitere Skalierung des Vortrainings und ein Design hervor, das sich eher auf allgemeine Fähigkeiten als auf rein STEM-orientiertes Denken konzentriert. Das Modell verwendet verbesserte Überwachungstechniken neben dem Standard Supervised Fine-Tuning und Reinforcement Learning from Human Feedback.
Eine genauere Betrachtung der Systemkarte zeigt jedoch einen ausgesprochen evolutionären Ansatz. Die Benchmarks, die für die Benutzer am wichtigsten sind – die tatsächlichen Leistungsfähigkeiten – zeigen nur minimale Verbesserungen gegenüber GPT-4o.
Der aussagekräftigste Beweis stammt von SWE-Lancer, einem kürzlich eingeführten Benchmark für Softwareentwicklungsaufgaben. Hier zeigt GPT-4.5 nur einen leichten Vorteil gegenüber seinem Vorgänger. Mit anderen Worten, für die meisten praktischen Anwendungen sind die beiden Modelle in ihrer Leistungsfähigkeit nahezu identisch.
"Man könnte meinen, Jensen Huang demonstriert bei OpenAI Präzisionsschneidtechniken", witzelte ein Branchenkenner und bezog sich auf den CEO von NVIDIA und die chirurgische, inkrementelle Natur der Verbesserungen.
Sicherheit geht vor: Der wahre Norden von GPT-4.5
Während die Leistungssteigerungen bescheiden erscheinen, erhielten die Sicherheitsverbesserungen erhebliche Aufmerksamkeit:
- In Tests mit verbotenen Inhalten schnitt GPT-4.5 in Standardszenarien zur Ablehnung ähnlich ab wie frühere Modelle, zeigte aber leichte Verbesserungen bei WildChat (ungewöhnliche Mensch-KI-Gespräche) und XSTest (irreführende Sprache).
- Halluzinationsbewertungen zeigten, dass GPT-4.5 GPT-4o und o1 in der PersonQA-Bewertung übertraf und niedrigere Raten bei der Generierung falscher Informationen aufwies.
- Fairness- und Bias-Bewertungen zeigten eine vergleichbare Leistung wie GPT-4o in BBQ-Bewertungen, obwohl etwas schlechter als o1 bei der Beantwortung expliziter Fragen.
Ein leitender KI-Wissenschaftler, der die technische Dokumentation überprüfte, merkte an: "Diese Veröffentlichung deutet darauf hin, dass OpenAI der Sicherheitsverfeinerung Vorrang vor Leistungsdurchbrüchen einräumt. Das ist aus ethischer Sicht vertretbar, erzeugt aber Spannungen mit den Markterwartungen, die durch die eigene Hype-Maschine des Unternehmens angetrieben werden."
Die Kostenfrage: 30-mal teurer?
Am besorgniserregendsten sind vielleicht die Gerüchte über die Wirtschaftlichkeit von GPT-4.5. Mehrere Quellen innerhalb der KI-Entwicklungsgemeinschaft deuten darauf hin, dass das Training und der Betrieb des Modells deutlich mehr kostet als GPT-4o sowie andere große Konkurrenten.
"Zu diesem Preis könnte es sich nur Sam Altman selbst leisten, es zu benutzen", scherzte ein Entwickler, der behauptet, die Preisstruktur zu kennen. "Input kostet 75 Dollar pro 1 Million Tokens, Output kostet 150 Dollar pro 1 Million Tokens??????"
Während OpenAI diese Zahlen nicht bestätigt hat, bleibt die Frage: Rechtfertigen die marginalen Verbesserungen den anscheinend dramatischen Kostenanstieg?
Marktauswirkungen: Den KI-Hype aufspießen
Das laue Debüt von GPT-4.5 könnte weitreichende Folgen für den KI-Sektor haben. Ein prominenter Investor bezeichnete es als "eine gelbe Flagge, keine rote" für die Branche.
"OpenAIs vorsichtige Iteration birgt das Risiko, die irrationale Überschwänglichkeit auf dem LLM-Markt zu dämpfen", erklärten sie. "Es erzwingt einen wichtigen Realitätscheck für Bewertungs- und Anlagestrategien. Wir erleben einen sanften Nadelstich für die KI-Hype-Blase."
Die Auswirkungen könnten sich auf wichtige Akteure auswirken:
Für Konkurrenten: Claude 3.7 Sonnet wird länger der LLM-König bleiben, ohne dass offensichtliche Herausforderer in Sicht sind.
Für OpenAI: Das Unternehmen steht vor einer kurzfristigen PR-Herausforderung, könnte aber auf Unternehmenslösungen und Sicherheitsnarrative umschwenken, um inkrementelle Gewinne und höhere Kosten zu rechtfertigen. Die Mittelbeschaffung könnte angesichts der zunehmenden Kontrolle der Bewertungen schwieriger werden.
Für Konkurrenten: Unternehmen wie Anthropic und Google gewinnen Spielraum, da die enttäuschende Veröffentlichung von GPT-4.5 die wahrgenommene Fähigkeitslücke verringert. Dies könnte aggressive Marketing- und möglicherweise Preiskriege auslösen, da die Wettbewerber OpenAIs vermeintlichen Fehltritt ausnutzen.
Für Benutzer: Erstanwender könnten das Wertversprechen in Frage stellen und bei GPT-4o bleiben. Unternehmen, die sich auf Sicherheit konzentrieren, könnten marginale Vorteile sehen, aber Verbraucher, die dramatische Verbesserungen erwarten, werden wahrscheinlich enttäuscht sein.
Für Investoren: Die "Spray and Pray"-Ära der KI-Investitionen könnte sich abkühlen, da Investoren einen greifbaren ROI und einen differenzierten Wert über die inkrementelle Skalierung hinaus fordern. Dies könnte zu einer Rotation hin zu KI-Infrastruktur-Plays, spezialisierten Anwendungen und Unternehmen führen, die sich auf Effizienz und nicht nur auf massive Sprachmodelle konzentrieren.
Für NVIDIA: Während die GPU-Nachfrage weiterhin stark ist, könnte das "unendliche Skalierungs"-Narrativ vor Herausforderungen stehen, was möglicherweise den Fokus auf spezialisierte KI-Hardware für effiziente Inferenz und spezifische Aufgaben verlagert.
Die Zukunft: Weniger Skalierung, mehr Innovation
Die aufschlussreichste Einschätzung kam von einem KI-Entwickler, der vorschlug: "Auf absehbare Zeit wird Test-Time Scaling die Hauptrichtung für LLMs sein – es sei denn, es entsteht eine neue Architektur, die den aktuellen Transformer-Ansatz revolutioniert, vielleicht RWKV, vielleicht DLM oder etwas, das sich noch im Papierstadium befindet."
Diese Perspektive räumt ein, dass Vortraining zwar weiterhin wichtig für Reasoning Models sein und weiter skaliert werden wird, die Probeneffizienz aber nicht mehr der einzige Weg nach vorn ist. Wie der Entwickler es formulierte: "Wir fahren Autos mit Benzin, nicht mit Rohöl wie GPT-4.5."
Der Markt könnte architektonische Innovation und algorithmische Effizienz zunehmend höher bewerten als brachiale Skalierung. Unternehmen, die auf Inferenzeffizienz und kostengünstige Modelle optimieren, könnten im Zuge der Reifung des Sektors an Bedeutung gewinnen.
Was als Nächstes kommt: Eine notwendige Korrektur
Die "Enttäuschung" von GPT-4.5 könnte sich letztendlich als vorteilhaft für den KI-Markt erweisen und eine Verlagerung vom blinden Glauben an die Skalierung hin zu einem pragmatischeren Fokus auf realen Mehrwert, Effizienz und echte Innovation erzwingen.
Der nächste Durchbruch wird nicht einfach nur "größer" sein – er wird intelligenter, effizienter und spezialisierter sein. Trotz aller anfänglichen Enttäuschung könnte dieser Realitätscheck zu einer gesünderen Ausrichtung des Marktes und der Technologie selbst führen.
Wie ein Investor abschließend feststellte: "Der wahre KI-Goldrausch fängt gerade erst an, und er wird von denen gewonnen, die nachhaltige und wertvolle KI entwickeln, nicht nur die größten Modelle."