Wan Technischer Bericht: Alibabas Open-Source-Kraftpaket für KI-Videoerzeugung

Von
CTOL Editors - Ken
7 Minuten Lesezeit

Wan: Alibabas starker Helfer für KI-Videoerzeugung

Anfang 2024 hat Sora von OpenAI die KI-Welt begeistert, indem es Videos mit einem Realismus erzeugte, der bisher Hollywood vorbehalten war. Solche beeindruckenden Modelle wie Sora sind aber nicht offen zugänglich. Die Open-Source-Community muss also aufholen. Das ändert sich jetzt.

Wan, entwickelt von der Alibaba Group, ist eine bahnbrechende Open-Source-Sammlung von Video-Grundmodellen. Wan soll die Lücke zwischen kommerziellen Video-Generatoren und der Open-Source-Welt schließen. Es ist nicht nur eine technische Leistung, sondern auch ein klares Zeichen. Mit guter Leistung, vielen Einsatzmöglichkeiten und überraschender Effizienz (sogar auf normalen Grafikkarten) zeigt Wan, was mit offenen KI-Modellen möglich ist.


Das Problem lösen: Warum Wan entwickelt werden musste

Die Videoerzeugung entwickelt sich schnell, aber große Probleme schränken die Nutzung und neue Ideen noch ein. Die meisten Open-Source-Modelle können nur einfache Aufgaben wie Text-zu-Video und haben Schwierigkeiten mit guter Bildqualität, verschiedenen Sprachen oder der einfachen Nutzung. Kommerzielle Modelle sind da schon weiter, weil sie viel Geld für Computerleistung und Daten haben.

Wan wurde entwickelt, um dieses Ungleichgewicht zu beheben. Es soll offen, erweiterbar und vor allem in der Lage sein, Videos zu erzeugen, die sich lebendig, echt und nuanciert anfühlen. Denken Sie an wirbelnden Schnee, lesbare Schilder auf Chinesisch und Deutsch und Kamerabewegungen, die in der realen Welt Sinn ergeben. All das wird durch eine Modell-Sammlung unterstützt, die einfach nachzubauen, modular aufgebaut und für große Aufgaben geeignet ist.


So funktioniert es: Das steckt in Wans neuer Architektur

Das Herz von Wan ist eine optimierte Architektur mit drei Hauptbestandteilen: ein räumlich-zeitlicher VAE, ein Diffusion Transformer und ein mehrsprachiger Text-Encoder. Jeder Teil wurde nicht nur für Leistung, sondern auch für die einfache Nutzung in realen Anwendungen entwickelt.

Der Wan-VAE ist dafür zuständig, Videos in Zeit und Raum zu komprimieren. Es ist ein 3D-Variational Autoencoder, der das Datenvolumen des Videos um mehr als das 250-fache reduziert, aber trotzdem feine Bewegungsdetails erhält. Durch spezielle Faltungen und einen cleveren Feature-Cache ermöglicht er die effiziente Verarbeitung langer Videos – ein Problem für die meisten Videomodelle.

Ergänzend dazu gibt es den Diffusion Transformer, ein reines Transformer-Modell, das diese komprimierten Informationen verarbeitet. Er nutzt die volle räumlich-zeitliche Aufmerksamkeit, um die Reihenfolge und Anordnung der Videoinhalte zu verstehen. Besonders beeindruckend ist hier die Verwendung von Flow Matching – einer neueren Trainingsmethode, die iterative Rauschvorhersage vermeidet und stattdessen auf eine stabilere, mathematisch fundierte ODE-Modellierung setzt.

Um Benutzereingaben zu verstehen und die Erzeugung zu steuern, verwendet Wan umT5, einen mehrsprachigen Text-Encoder. Er kann komplexe, detaillierte Anweisungen auf Deutsch und Chinesisch verarbeiten und sorgt dafür, dass das Modell nicht nur Videos erzeugt, sondern auch Anweisungen befolgt.

Wan Architektur
Wan Architektur


Die Datenbasis: Wie Wan mit Billionen von Daten trainiert wurde

Ein Modell ist nur so gut wie die Daten, mit denen es trainiert wurde. Wans Datenpipeline ist ein Meisterstück moderner Datensatztechnik. Über Milliarden von Bildern und Videos wurden gesammelt, bereinigt und verbessert, um dieses Modell zu trainieren.

Zuerst wurden Inhalte mit Wasserzeichen, nicht jugendfreie Inhalte, unscharfe Aufnahmen und Videos mit geringer Auflösung aussortiert. Aber Wan ging noch weiter. Es wurde ein Bewegungsqualitäts-Klassifikator eingeführt, um Videos mit flüssigen, ausdrucksstarken Bewegungen und einem ausgewogenen Verhältnis von Bewegung zu statischen Inhalten zu bevorzugen. Gleichzeitig verarbeitete eine visuelle Textpipeline sowohl synthetische als auch reale Text-in-Bild-Beispiele und verbesserte Wans Fähigkeit, Text auf dem Bildschirm lesbar und genau darzustellen.

Um dem Modell ein besseres Verständnis der einzelnen Bilder zu ermöglichen, entwickelte Alibaba ein eigenes System zur detaillierten Bildbeschreibung, das sogar mit Googles Gemini 1.5 Pro mithalten kann. Dieses System kennzeichnet Elemente wie Kamerawinkel, Anzahl der Objekte, Bewegungsarten, Szenenkategorien und mehr – und erstellt so einen reichhaltig kommentierten Trainingsdatensatz für Aufgaben wie Bearbeitung und Personalisierung.


Große Modelle, kleine Anforderungen: Das sind Wan 1.3B und 14B

Wan gibt es in zwei Versionen: das 1.3B-Parameter-Modell und das leistungsstärkere 14B-Parameter-Flaggschiff. Beide können hochauflösende Videos bis zu 480p erzeugen und haben die gleiche stabile Architektur.

Die eigentliche Überraschung? Das 1.3B-Modell ist so konzipiert, dass es auf normalen Grafikkarten mit nur 8,19 GB VRAM läuft. Das ist ein großer Vorteil. Künstler, Entwickler und kleine Studios können so auf hochwertige Videoerzeugung zugreifen, ohne einen ganzen Serverraum voller A100-Grafikkarten zu benötigen.

Das 14B-Modell hingegen wurde entwickelt, um die Grenzen auszuloten. Es wurde mit Billionen von Daten trainiert und zeichnet sich durch lange Videokonsistenz, realistische Bewegungen und die Befolgung komplexer Textanweisungen aus. Egal, ob es sich um natürliche Szenen oder stilisierte Animationen handelt, das 14B-Modell beweist, dass Open-Source konkurrenzfähig sein kann.


Direktvergleich: So schlägt sich Wan im Vergleich zur Konkurrenz

In Benchmark-Bewertungen und direkten Vergleichstests mit menschlichen Beurteilern schneidet Wan durchweg gut ab. Es schlägt nicht nur Open-Source-Modelle wie Mochi und HunyuanVideo, sondern konkurriert auch mit kommerziellen Schwergewichten wie Runway Gen-3.

Es geht aber nicht nur um Qualität, sondern auch um Kontrolle. Wan ermöglicht fein abgestimmte Kamerabewegungen, visuelle Textdarstellung, das Befolgen von Anweisungen und stilistische Vielfalt – alles Bereiche, in denen frühere Modelle Schwierigkeiten hatten oder manuell angepasst werden mussten.

Darüber hinaus zeigte das Wan-Team in Studien, dass seine Flow-Matching-Loss-Funktion und die Strategie der detaillierten Bildbeschreibung entscheidend für die Erzielung einer so guten Übereinstimmung und Kohärenz waren. Das macht Wan nicht nur gut, sondern auch prinzipiell – eine Modell-Sammlung, bei der jede Designentscheidung geprüft und optimiert wird.

Modell-Leistungswerte auf Vbench.

ModellnameQualitätswertSemantischer WertGesamtwert
MiniMax-Video-01 (MiniMax, 2024.09)84,85%77,65%83,41%
Hunyuan (Open-Source-Version) (Kong et al., 2024)85,09%75,82%83,24%
Gen-3 (2024-07) (Runway, 2024.06)84,11%75,17%82,32%
CogVideoX1.5-5B (5s SAT prompt-optimized) (Yang et al., 2025b)82,78%79,76%82,17%
Kling (2024-07 high-performance mode) (Kuaishou, 2024.06)83,39%75,68%81,85%
Sora (OpenAI, 2024)85,51%79,35%84,28%
Wan 1.3B84,92%80,10%83,96%
Wan 14B (2025-02-24)86,67%84,44%86,22%

Schnell, erweiterbar und effizient: Ein Modell, das man wirklich nutzen kann

Bei der Effizienz von Training und Nutzung trumpft Wan noch mehr auf. Während des Trainings verwendet Alibaba ein ausgeklügeltes 2D-Kontextparallelitätsschema (Ulysses + Ring Attention), das den Kommunikationsaufwand zwischen den GPUs reduziert. Während der Nutzung wurde Diffusion Caching eingeführt, das die Ähnlichkeiten zwischen den Sampling-Schritten ausnutzt, um die Prozesse zu beschleunigen.

In Kombination mit FP8-Quantisierung und Aktivierungs-Offloading erreicht Wan Echtzeit- oder nahezu Echtzeit-Erzeugungsgeschwindigkeiten. Das Ergebnis: eine 1,62-fache Beschleunigung gegenüber herkömmlichen Modellen ohne erkennbaren Qualitätsverlust des Videos.

Wan Latenzverbesserungen
Wan Latenzverbesserungen


Mehr als nur Text-zu-Video: Echte Anwendungen, sofort

Wan ist nicht auf eine Aufgabe beschränkt, sondern eine Plattform. Es unterstützt eine ganze Reihe von multimodalen Videoaufgaben, darunter:

  • Bild-zu-Video: Verwandeln Sie ein einzelnes Bild in eine dynamische Szene.
  • Anleitungs-Videobearbeitung: Ändern Sie Clips mithilfe von natürlichsprachlichen Befehlen.
  • Personalisierte Erzeugung: Null-Schuss-Anpassung für Avatare oder Markeninhalte.
  • Kamerasteuerung: Passen Sie Zoom, Schwenk oder Blickwinkel mithilfe von Text an.
  • Echtzeit-Videoerzeugung: Dank intelligentem Caching und leichtgewichtigen Modellen.
  • Audioerzeugung: Synchronisierter Ton zur Untermalung der generierten Bilder.

Egal, ob Sie Filmemacher, Pädagoge, Werbetreibender oder Spieleentwickler sind, Wan kann sich an Ihre Bedürfnisse anpassen.


Das große Ganze: Was Wan für Forschung und Industrie bedeutet

Aus wissenschaftlicher Sicht ist Wan eine Fundgrube. Mit offenem Code, offenen Gewichten und transparenten Trainingsmethoden setzt es einen neuen Standard für die Reproduzierbarkeit in der Videoerzeugungs-Community. Forscher können auf seinen Modulen aufbauen, Bewertungen durchführen und das System für neue Bereiche feinabstimmen.

Auf der Geschäftsseite eröffnet Wan die Möglichkeit zur kostengünstigen, hochwertigen Inhaltserstellung. Marketingvideos, lehrreiche Erklärvideos, Social-Media-Clips – diese können jetzt in großem Umfang erstellt werden, ohne pro Frame an Blackbox-APIs zu zahlen. Es verschafft Kreativen, Startups und Unternehmen einen entscheidenden Wettbewerbsvorteil.


Wie geht es weiter: Die Zukunft von Wan

Wan ist bereits eines der leistungsfähigsten Modelle zur Videoerzeugung, aber der Fahrplan fängt gerade erst an. Das Team plant, die 1080p- und 4K-Erzeugung voranzutreiben, 3D-Erkennung zu integrieren und die Mehrsprachigkeit für eine größere globale Zugänglichkeit zu erweitern.

Es wird auch an interaktivem Storytelling gearbeitet, bei dem Modelle Videos basierend auf dem Feedback der Benutzer in Echtzeit erzeugen, sowie an Plug-and-Play-Adaptern für Branchen wie Gesundheitswesen, Bildung und Gaming.


Wo man es ausprobieren kann

Alles ist ab sofort verfügbar:

Egal, ob Sie Forscher, Künstler, Startup oder einfach nur neugierig sind – Wan ist offen und bereit.


Kurz gesagt

Wan ist die bisher leistungsfähigste Open-Source-Suite zur Videoerzeugung. Mit modernster Architektur, strengem Training und breiter Zugänglichkeit konkurriert sie nicht nur mit geschlossenen Modellen, sondern setzt auch einen neuen Maßstab dafür, was offene KI leisten kann.

Das könnte Ihnen auch gefallen

Dieser Artikel wurde von unserem Benutzer gemäß den Regeln und Richtlinien für die Einreichung von Nachrichten. Das Titelbild ist computererzeugte Kunst nur zu illustrativen Zwecken; nicht indikativ für den tatsächlichen Inhalt. Wenn Sie glauben, dass dieser Artikel gegen Urheberrechte verstößt, zögern Sie bitte nicht, dies zu melden, indem Sie uns eine E-Mail senden. Ihre Wachsamkeit und Zusammenarbeit sind unschätzbar, um eine respektvolle und rechtlich konforme Community aufrechtzuerhalten.

Abonnieren Sie unseren Newsletter

Erhalten Sie das Neueste aus dem Unternehmensgeschäft und der Technologie mit exklusiven Einblicken in unsere neuen Angebote

Wir verwenden Cookies auf unserer Website, um bestimmte Funktionen zu ermöglichen, Ihnen relevantere Informationen bereitzustellen und Ihr Erlebnis auf unserer Website zu optimieren. Weitere Informationen finden Sie in unserer Datenschutzrichtlinie und unseren Nutzungsbedingungen . Obligatorische Informationen finden Sie im Impressum