DeepSeek veröffentlicht DeepGEMM: Die Open-Source-Bibliothek, die die KI-Rechenkosten verändert

Von
Lang Wang
4 Minuten Lesezeit

DeepGEMM: Die Open-Source-Bibliothek, die die Wirtschaftlichkeit von KI-Berechnungen verändert

DeepSeeks dritte Open-Source-Veröffentlichung in einer Woche: Was Sie wissen müssen

In einem mutigen Schritt, um die Grenzen der KI-Effizienz zu erweitern, hat DeepSeek diese Woche sein drittes Open-Source-Projekt veröffentlicht – DeepGEMM, eine schlanke, aber leistungsstarke Matrixmultiplikationsbibliothek, die für FP8-Genauigkeit entwickelt wurde. Diese Veröffentlichung folgt auf die früheren Enthüllungen von FlashMLA und DeepEP des Unternehmens und unterstreicht sein Engagement für offene Innovationen in der KI-Infrastruktur.

DeepGEMM ist für NVIDIAs Hopper-GPUs optimiert, einem wichtigen Wegbereiter für KI-Workloads der nächsten Generation. Es unterstützt sowohl standardmäßige dichte Allgemeine Matrixmultiplikationen (GEMM) als auch Mix-of-Experts gruppierte GEMMs, was es zu einem wichtigen Werkzeug für die Beschleunigung von Inferenz und Training in groß angelegten KI-Modellen macht.

Warum DeepGEMM wichtig ist

1. FP8: Die nächste Grenze in der KI-Effizienz

DeepGEMM ist für FP8-Präzisionsarithmetik ausgelegt, ein wichtiger Fortschritt in der KI-Recheneffizienz. Traditionelle KI-Workloads basieren hauptsächlich auf FP16 und BF16, aber FP8 bietet einen höheren Durchsatz und eine reduzierte Speicherbandbreitennutzung, wodurch es ideal für die Skalierung massiver KI-Modelle ist.

FP8 hat jedoch eine inhärente Herausforderung – eine geringere numerische Präzision. DeepGEMM begegnet dem mit der Einführung von CUDA-Core-Akkumulation auf zwei Ebenen, die den Genauigkeitsverlust mindert und gleichzeitig die Geschwindigkeitsvorteile von FP8 beibehält. Diese Innovation ermöglicht es DeepGEMM, die von Industriestandardbibliotheken wie CUTLASS gesetzten Leistungsstandards zu erreichen oder zu übertreffen und gleichzeitig den Rechenaufwand deutlich zu reduzieren.

2. Hohe Leistung bei minimaler Komplexität

Im Gegensatz zu vielen KI-Rechenbibliotheken, die auf tief verschachtelten Vorlagen und übermäßiger Abstraktion basieren, ist DeepGEMM einfach und effizient konzipiert. Die Kernimplementierung besteht aus nur ~300 Zeilen CUDA-Code, was sie nicht nur hoch optimiert, sondern auch leicht verständlich und modifizierbar macht.

3. Entwickelt für Just-In-Time-Kompilierung

DeepGEMM vermeidet die Notwendigkeit einer traditionellen Kompilierung durch die Nutzung der JIT-Kompilierung. Das bedeutet, dass keine Vorkompilierung bei der Installation erforderlich ist, wodurch die Kernel zur Laufzeit kompiliert werden können. Dieser Ansatz ermöglicht eine dynamische Optimierung basierend auf spezifischen Hardwarekonfigurationen und gewährleistet so maximale Effizienz.

4. MoE-Optimierung für KI-Modelle der nächsten Generation

MoE-Architekturen werden in der KI aufgrund ihrer Fähigkeit, effizient zu skalieren und gleichzeitig die Kosteneffizienz zu erhalten, immer beliebter. DeepGEMM ist einzigartig für MoE-Modelle optimiert durch die Implementierung von:

  • Contiguous-grouped GEMMs, bei denen Token-Sequenzen für eine optimale Verarbeitung gruppiert werden.
  • Masked-grouped GEMMs, die eine effiziente Berechnung auch bei spärlichen Expertenaktivierungen ermöglichen.

Diese Optimierungen machen DeepSeek-V3s KI-Modelle deutlich schneller und kostengünstiger und setzen einen neuen Maßstab in der MoE-Rechenleistung.

Benchmarking der Leistung

DeepSeek testete DeepGEMM über eine Vielzahl von Matrixgrößen und Workloads auf der NVIDIA H800 SXM5 GPU. Die Ergebnisse sind überzeugend:

  • Beschleunigungen von bis zu 2,7× gegenüber früheren Implementierungen.
  • Durchgehend hohe TFLOPS (Tera Floating Point Operations per Second) über verschiedene Matrixformen.
  • Überlegene Speicherbandbreitenauslastung, die eine effiziente GPU-Ressourcenzuweisung gewährleistet.

Während DeepGEMM in den meisten Fällen hervorragend abschneidet, zeigen bestimmte Matrixformen Raum für weitere Optimierung, und DeepSeek hat Entwickler eingeladen, Verbesserungen über GitHub beizutragen.

Strategische und marktbezogene Auswirkungen

1. DeepSeek erzwingt einen Preisverfall bei KI-APIs

DeepSeek hat die Preisnormen ausradiert. Die API-Raten von DeepSeek sind 1/10 des Preises der OpenAI-Äquivalente, ein Schritt, der bereits Panik unter KI-Dienstleistern ausgelöst hat. Hier geht es nicht nur um Erschwinglichkeit; es geht darum, Markterwartungen neu zu definieren.

Wenn die Modell-Effizienzgewinne von DeepSeek anhalten, droht den Anbietern von KI-Infrastruktur ein brutaler Preiskampf, der den berüchtigten Wettlauf nach unten im Cloud-Computing-Sektor widerspiegelt. OpenAI, Anthropic und Cohere haben kaum eine andere Wahl, als entweder die Preise anzugleichen oder ihre Premium-Angebote mit unübertroffenem Wert zu rechtfertigen, was in dieser Phase zunehmend schwierig erscheint.

2. Das Monopol von NVIDIA wird leicht verstärkt

Die Fokussierung von DeepGEMM auf Hopper-GPUs stärkt die Position von NVIDIA im Bereich der hochleistungsfähigen KI-Berechnungen, aber die Auswirkungen sind zweifacher Natur. Einerseits machen diese Optimierungen die NVIDIA-Hardware attraktiver, indem sie die Gesamtkosten der KI-Operationen senken und mehr Akteure dazu anregen, sich für ihr Ökosystem zu entscheiden. Andererseits bedeutet eine gesteigerte Effizienz, dass jeder Akteur möglicherweise weniger GPUs insgesamt benötigt, was potenziell die Gesamtnachfrage nach NVIDIAs Hardware langfristig reduziert. Wenn DeepSeek und ähnliche Akteure die Dominanz von NVIDIA herausfordern wollen, müssen sie möglicherweise immer noch die Unterstützung für AMD MI300- und Intel Gaudi-Beschleuniger ausweiten, um ein wettbewerbsfähigeres Umfeld zu schaffen.

3. MoE-Modelle sind die Zukunft, und DeepSeek weiß es

DeepSeeks aggressives Vorgehen in Richtung MoE-optimierter Berechnungen signalisiert einen Branchenwandel. Legacy-Architekturen werden bald als ineffiziente Relikte gelten, da MoE-Modelle eine Skalierung mit deutlich geringeren Rechenkosten ermöglichen. Jedes KI-Unternehmen, das sich nicht anpasst, riskiert die Veralterung.

DeepSeek setzt eindeutig auf die MoE-Dominanz, und seine frühe Führung bei der Optimierung von MoE-Workloads bedeutet, dass Wettbewerber Schwierigkeiten haben könnten, aufzuholen. Erwarten Sie, dass große KI-Labore in den nächsten 12 Monaten um bessere MoE-Implementierungen kämpfen werden.

Ausblick: Was kommt als Nächstes für KI-Berechnungen?

DeepGEMM ist nicht nur eine Bibliothek – es repräsentiert einen philosophischen Wandel in der KI-Recheneffizienz. Da DeepSeek systematisch jeden Aspekt der KI-Infrastruktur optimiert, bewegt sich die Branche in Richtung ultraeffizienter, kostengünstiger KI-Modelle.

Einige wichtige Trends, die man beobachten sollte:

  • Erweiterte FP8-Übernahme: Da DeepGEMM einen Präzedenzfall schafft, könnten mehr KI-Frameworks FP8 als Standard integrieren.
  • Weitere Open-Source-Beiträge: Die Community könnte DeepGEMMs Optimierungen auf weitere Architekturen jenseits von NVIDIA Hopper ausweiten.
  • Demokratisierung der KI-Berechnungen: Wenn DeepSeeks Optimierungen anhalten, könnte das Ausführen von groß angelegten KI-Modellen für mittelständische Unternehmen und Startups erschwinglich werden und die Dominanz von Technologie-Giganten brechen.

Abschließende Gedanken

Die Veröffentlichung von DeepGEMM ist mehr als nur ein technischer Meilenstein – es ist ein strategischer Schritt mit branchenweiten Auswirkungen. Indem DeepSeek KI-Berechnungen effizienter, kostengünstiger und zugänglicher macht, gestaltet das Unternehmen die Wettbewerbslandschaft der KI-Forschung und -Bereitstellung neu.

Die eigentliche Frage ist jetzt: Wie werden OpenAI, NVIDIA und andere KI-Kraftpakete zurückschlagen? Wenn sie sich nicht anpassen, könnte DeepSeek nicht nur ein Underdog sein – es könnte die KI-Wirtschaft selbst neu definieren.

Das könnte Ihnen auch gefallen

Dieser Artikel wurde von unserem Benutzer gemäß den Regeln und Richtlinien für die Einreichung von Nachrichten. Das Titelbild ist computererzeugte Kunst nur zu illustrativen Zwecken; nicht indikativ für den tatsächlichen Inhalt. Wenn Sie glauben, dass dieser Artikel gegen Urheberrechte verstößt, zögern Sie bitte nicht, dies zu melden, indem Sie uns eine E-Mail senden. Ihre Wachsamkeit und Zusammenarbeit sind unschätzbar, um eine respektvolle und rechtlich konforme Community aufrechtzuerhalten.

Abonnieren Sie unseren Newsletter

Erhalten Sie das Neueste aus dem Unternehmensgeschäft und der Technologie mit exklusiven Einblicken in unsere neuen Angebote