Google IO 2024: Große Versprechen, spärliche Auslieferungen - Eine Tech-Branche Täuschungsshow

Google IO 2024: Große Versprechen, begrenzte Lieferungen

Zuvor haben wir besprochen, wie Unternehmen wie OpenAI und Google oft große Ankündigungen über KI-Entwicklungen machen, die sich über einen langen Zeitraum in der Proof-of-Concept-Phase befinden. Derzeit befindet sich OpenAIs Sora noch in der internen Testphase. Im Dezember 2023 führte Google Gemini Ultra 1.0 ein, ihr leistungsfähigstes KI-Modell, das für das "Gemini Advanced"-Abonnement vorgesehen ist. Bis Mitte Mai 2024 wurde Gemini Ultra jedoch nicht der Öffentlichkeit zugänglich gemacht. Im Gegensatz dazu haben uns OpenAI gestern beeindruckt, indem sie ihr neues Gpt4o und ChatGPT sofort auf ihrer Produktveranstaltung veröffentlichten.

Auf der Google IO 2024 wurden fast 30 neue Produkte/Funktionen angekündigt, aber nur 20% davon wurden den Nutzern zugänglich gemacht. Das macht es zu einer der umfangreichsten Teasershows in der Technologiebranche. Bevor wir in eine Analyse eintauchen, hier eine Zusammenfassung der wichtigsten angeblich auf der Veranstaltung angekündigten Produkte:

Produkt/Funktion	Beschreibung	Verfügbarkeit
Gemini 1.5 Pro	Langer Kontext mit 1 Million Token, multimodale Fähigkeiten, verbesserte Übersetzung, Programmierung und Reasoning.	Heute global verfügbar.
Gemini 1.5 Flash	Leichtgewichtige Modelle für schnellere, kostengünstigere Aufgaben mit multimodaler Reasoning und Langzeitfähigkeiten.	Heute global verfügbar.
Gemini 2	Neues 27-Milliarden-Parameter-Modell, optimiert für der nächsten Generation von GPUs und TPUs.	Ab Juni 2024 verfügbar.
Music FX DJ	KI-generiertes Tool zum Erstellen von Musik aus Prompts.	Auf der Veranstaltung präsentiert, kein konkretes Veröffentlichungsdatum genannt.
Search Generative Experience (SGE)	KI-gesteuerte Überblicke, multimodale Suchfähigkeiten, Echtzeit-Informationsverarbeitung.	Diese Woche in den USA gestartet, bald in weiteren Ländern.
Ask Photos	Ermöglicht Nutzern, Fragen zu stellen und in ihren Google Fotos zu suchen.	Wird in diesem Sommer gestartet.
NotebookLM Audio Overviews	Generiert audiobasierte Diskussionen auf Basis von Textmaterialien, personalisiert und interaktiv.	Auf der Veranstaltung präsentiert, kein konkretes Veröffentlichungsdatum genannt.
Google Workspace Verbesserungen	E-Mail-Zusammenfassung, erweiterte Suche in Gmail, automatische Organisation und Verfolgung von Quittungen.	Wird diesen Monat für Labs-Nutzer und im September 2024 eingeführt.
Gemini-basierte virtuelle Teams	KI-Assistenten mit spezifischen Rollen und Zielen, integriert in Google Workspace.	Prototypphase, kein konkretes Veröffentlichungsdatum genannt.
Gemini-App-Aktualisierungen	Sprachinteraktion, dynamische Benutzeroberfläche, personalisierte Gems.	Gems werden in den kommenden Monaten eingeführt, Reiseplanung im Sommer 2024.
Trillium TPUs	TPUs der sechsten Generation mit einer 4,7-fachen Verbesserung der Rechenleistung.	Für Cloudkunden ab Ende 2024 verfügbar.
Axion CPUs und Blackwell GPUs	Hochleistungs- und energieeffiziente CPUs und GPUs.	Blackwell GPUs ab Anfang 2025 verfügbar.
Android KI-Verbesserungen	KI-gesteuerte Suche, kontextbewusster Gemini-Assistent, Foundation-Modell für Geräte.	Verschiedene Funktionen werden in den kommenden Monaten eingeführt.
LearnLM	KI-Modelle für personalisierte Lernerlebnisse, integriert in Suche, Android, Gemini und YouTube.	Wird in den kommenden Monaten eingeführt.
SynthID-Erweiterung	Wasserzeichen für KI-generierte Texte und Videos.	In Kürze verfügbar, Open-Source-Veröffentlichung in den kommenden Monaten.
Gemma Open Models	Leichtgewichtige Modelle für verschiedene Aufgaben, einschließlich eines neuen 27-Milliarden-Parameter-Modells.	Gemma 2 ab Juni 2024 verfügbar.
Veo	Hochwertige, 1080p-Videogenerierung aus Text-, Bild- und Videoprompts; unterstützt verschiedene kinematografische Techniken und Bearbeitungsfeatures.	Funktionen werden in den kommenden Wochen für ausgewählte Ersteller über VideoFX bei labs.google verfügbar sein; die Warteliste ist jetzt offen.
Google Classroom-Verbesserungen	Neue Tools für die Unterrichtsplanung, Anpassung von Lektionen und Erfüllung individueller Schülerbedürfnisse mit LearnLM.	Funktionen befinden sich in der Entwicklung und Testphase, kein konkretes Veröffentlichungsdatum genannt.
NotebookLM	Neue Fähigkeiten mit Gemini 1.5 Pro, einschließlich personalisierter Audioerörterungen und Studienführer.	Auf der Veranstaltung präsentiert, kein konkretes Veröffentlichungsdatum genannt.
Projekt Astra	Universeller KI-Agent mit multimodaler Verständnis, proaktiver Unterstützung und natürlicher Interaktionsfähigkeit.	Einige Agentenfähigkeiten kommen später in diesem Jahr zu Google-Produkten wie der Gemini-App.
Music AI Sandbox	Suite von professionellen Music-KI-Tools zum Erstellen neuer Instrumentalabschnitte, Übertragen von Stilen zwischen Tracks und mehr.	Jetzt verfügbar, mit laufender Zusammenarbeit mit Musikern.
Google Fotos	Erweiterte Such- und Organisationsfunktionen mit Gemini, ermöglichen detaillierte Fragen und kontextuelle Antworten.	Wird in diesem Sommer eingeführt.
Google Search-Verbesserungen	Mehrstufiges Reasoning, personalisierte, KI-organisierte Seiten und dynamische visuelle Ergebnisse.	Werden in den kommenden Wochen eingeführt, mit erweiterter Verfügbarkeit bis Ende des Jahres.
Google AI Studio und Vertex AI	Zugriff auf Gemini 1.5 Pro und Flash-Modelle mit erweiterten Funktionen wie Videorahmenextraktion und Kontextcaching.	Heute global verfügbar.
Neue Gemini-App-Funktionen	Live-Sprachinteraktion, anpassbare persönliche Experten (Gems) und Planungsfunktionen.	Werden in diesem Sommer und in den kommenden Monaten eingeführt.
LearnLM in YouTube	Interaktive Lehrvideos mit Verständnisfragen, hilfreichen Erklärungen und Quizzes.	Wird für ausgewählte Android-Nutzer eingeführt.
KI-generierte Tools in Workspace	KI-basierter Assistent, Automatisierung von wiederkehrenden Aufgaben und erweiterte Datenanalyse.	Werden in den kommenden Monaten eingeführt.
Google DeepMinds AlphaFold	Neue Modellgeneration, die die Struktur und Interaktionen nahezu aller Moleküle des Lebens vorhersagt.	Kürzlich angekündigt, für wissenschaftliche Forschung verfügbar.
Projekt Gemini für Entwickler	Langer Kontextfenster, multimodale Fähigkeiten und parallele Funktionsaufrufe für KI-Anwendungen.	Heute global verfügbar.
Gemini Nano	KI-Foundation-Modell für Geräte mit multimodalen Fähigkeiten für verbesserte Privatsphäre und Leistung.	Wird später in diesem Jahr auf Pixel und anderen Geräten eingeführt.

Google bleibt ein Kontrahent

Unsere Quellen haben gestern darauf hingewiesen, dass das herausragende Produkt der Google IO dem Gpt4o von OpenAI sehr ähnlich sein würde. Trotzdem haben wir unsere Positionen nicht geändert, wie von unseren Quellen vorgeschlagen, da wir davon ausgehen, dass große Institutionen diese Informationen bereits aufgenommen haben und Googles neue Produkte Gpt4o und das neue ChatGPT nicht in den Schatten stellen können. Unsere Hypothese wurde heute bestätigt. Google stellte das multimodale Modell Gemini 1.5 vor und präsentierte das Projekt Astra, das eine Echtzeit-Video- und Audioanalyse ähnlich wie OpenAIs neue Funktionen bietet. Abgesehen von einer längeren Kontextlänge sticht jedoch nichts besonders im Vergleich zu den Angeboten von OpenAI hervor. Geschweige denn, dass es bereits Modelle mit noch längeren Kontextfenstern gibt, wie z.B. Moonshot AI's Kimi.ai, das seit Monaten einen Kontextumfang von 2 Millionen Token in der Produktion anbietet.

Trotz der Tatsache, dass Google nicht mehr die Führungsposition in der KI-Branche innehat, bleibt das Unternehmen ein wichtiger Akteur. Diese nahezu Echtzeit-Multimodal-Funktionen sind nicht überall verfügbar.

Google tut sich bei der KI-Suche hervor

Gestern haben die neuen ChatGPT-Funktionen von OpenAI, einschließlich der Live-KI-Suche auf BING, viele KI-Suchstartups still und leise beeinträchtigt. Wir hatten zuvor befürchtet, dass die geringere Qualität von BING es OpenAI erschweren könnte, bei der KI-Suche die Führung zu übernehmen. Heute hat uns Google mit verbesserten KI-Suchfunktionen überrascht. Obwohl wir der Meinung sind, dass Google am besten geeignet ist, dieses Produkt zu liefern, bleibt es ungewiss, wie sie potenzielle Interessenskonflikte mit der KI-Zusammenfassung und Inhaltserstellung handhaben werden. Darüber hinaus ist der Zeitrahmen für die Einführung dieser Funktionen für Endnutzer unklar.

Astra's Leistungsprobleme und schlechtere menschliche Ausrichtung

Das KI-Assistenzprojekt Astra von Google kann Videos und Stimmen in Echtzeit analysieren, ähnlich wie die neuen ChatGPT-Funktionen von OpenAI. Die Stimme von Astra ist jedoch deutlich roboterhafter und weist eine schlechtere menschliche Ausrichtung als GPT4o auf. Dies eröffnet eine Debatte über Nutzervorlieben, da manche eine roboterhafte Stimme immer noch bevorzugen. Allerdings sind wir alle der Meinung, dass eine gute Ausrichtung entscheidend für die Zukunft der AGI ist. Darüber hinaus erscheint Astra im Vergleich zu GPT4o etwas langsamer, auch wenn wir keine konkreten Daten haben, um diese Beobachtung genau zu belegen.

Verschiebung des KI-Wettbewerbs hin zu multimodalen Modellen und Verbraucher-Apps

Bei CTOL.digital sind wir einstimmig der Meinung, dass die aktuellen LLM-Modelle bald an ihre Grenzen stoßen könnten oder es bereits getan haben. GPT5 liegt noch in weiter Ferne, und OpenAI hat sich auf den Verbraucherappmarkt verlagert, dem Google nun folgt. Hardwarelimitierungen spielen eine Rolle, aber wichtiger ist, dass es eine Limitation bei den Trainingsdaten gibt. Wo können weitere qualifizierte Daten gefunden werden, wenn die vorhandenen Daten bereits erschöpft sind? Einige Experten schlagen vor, neue Antworten der LLM zu verwenden, aber das Potenzial für eine wesentliche Verbesserung bleibt ungewiss. Ein weiterer Faktor ist die inhärente Beschränkung der aktuellen LLM-Generation, die von der Wissenschaft lange Zeit zu lösen sein wird.

Diese Verschiebung zu Verbraucher-Apps durch die großen Technologieunternehmen ist entscheidend, da sie viele Startups eliminiert und ein wichtiger Schritt in Richtung einer breiteren Übernahme und AGI ist. Warnung an alle VCs und Startup-Gründer: Dieser Bereich wird in Kürze einen härteren Wettbewerb erleben.

Nur die Zeit wird es zeigen

Google hat eine Geschichte von eingestellten Produkten und nicht eingehaltenen Versprechen. Für weitere Informationen besuchen Sie Killed by Google. Während die neueste Präsentation es geschafft hat, Begeisterung zu erzeugen, schätzen wir bei CTOL.digital den tatsächlichen Produktlieferung und den Nutzen für die Anwender. Nur die Zeit wird zeigen, wann diese Produkte die Nutzer tatsächlich unterstützen werden und wie.