Mistral AI startet Groß 2: Ein neuer Konkurrent für Metas Llama 3

Mistral AI startet Groß 2: Ein neuer Konkurrent für Metas Llama 3

Von
Adriana Montoya
3 Minuten Lesezeit

Mistral AI Präsentiert Large 2: Ein Revolutionäres Sprachmodell, Das Den Markt Aufmischt

Das französische Unternehmen Mistral AI hat Large 2 vorgestellt, ein bahnbrechendes Sprachmodell, das Metas Llama 3 mit überlegener Effizienz herausfordert. Large 2, die fortschrittlichere Version des Modells von Mistral AI, überzeugt in Bereichen wie Code-Generierung, Mathematik und Mehrsprachigkeit und ist mit über 80 Programmiersprachen sowie vielen menschlichen Sprachen kompatibel. Es verfügt über ein umfangreiches Kontextfenster von 128.000 Token und bietet Sprachunterstützung von Französisch bis Koreanisch.

In Bezug auf Benchmarks erzielt Large 2 einen beeindruckenden Wert von 84,0 % auf der Massiven Multi-Aufgaben-Sprachverständnis (MMLU), was einen neuen Rekord in Bezug auf Leistung pro Kostenrang für Open-Modelle bedeutet. Es übertrifft Modelle wie GPT-4o und Claude 3.5 Sonnet bei Codierungsaufgaben, obwohl es nur ein Viertel der Parameter im Vergleich zu den 405 Milliarden von Llama 3 aufweist.

Mistral AI hat zudem priorisiert, die Fähigkeiten zur Vernunft von Large 2 zu verbessern und seine Neigung zur Erzeugung ungenauer Informationen zu verringern, was es vertrauenswürdiger und vorsichtiger in seinen Antworten macht. Das Modell bietet Unterstützung für komplexe Funktionsaufrufe, was es für fortschrittliche Geschäftsanwendungen geeignet macht.

Large 2 ist jetzt über verschiedene Plattformen zugänglich, einschließlich Azure AI Studio und Google Vertex AI. Die Modellgewichte stehen zum Herunterladen auf HuggingFace unter einer Forschungslizenz zur Verfügung, während die kommerzielle Nutzung eine separate Lizenz erfordert.

Die schnelle Einführung von Large 2 als Antwort auf Meta's Llama 3 zeigt die zunehmende Konkurrenz im großen Sprachmodell (LLM)-Markt. Bei geringeren Kosten und kontinuierlich hohen Entwicklungskosten steht der Branche der Druck, sich zu innovieren und auszudehnen, um erhebliche Investorenbewertungen zu rechtfertigen.

Schlüsselerkenntnisse

  • Mistral AI führt Large 2 ein, ein sprachliches Modell, das effizienter als Meta's Llama 3 ist.
  • Large 2 unterstützt ein 128.000-Token-Kontextfenster und über 80 Programmiersprachen.
  • Es übertrifft Konkurrenten wie GPT-4o und Claude 3.5 Sonnet mit weniger Parametern.
  • Large 2 verbessert die Verständnisfähigkeiten und minimiert die "Halluzination" in Antworten.
  • Das Modell ist über mehrere Plattformen zugänglich und erfordert eine kommerzielle Lizenz für kommerzielle Nutzung.

Analyse

Mit der Veröffentlichung von Large 2 durch Mistral AI wird der Wettbewerb im LLM-Markt verschärft und kann einen signifikanten Einfluss auf Meta und andere Technologiegiganten haben. Die hervorragende Effizienz und Leistung könnten potenziell bestehende AI-Einsätze stören, insbesondere in Codierungs- und Multisprachenanwendungen. Kurzfristige Auswirkungen sind beschleunigte Innovation und Marktfragmentierung, während sich im Langzeitbereich eine Konsolidierung in der Branche ergeben kann, wenn nur die effizientesten Modelle überleben. Zusätzlich können finanzielle Instrumente, die an AI-Aktien gebunden sind, eine Volatilität erfahren. Die offene Verfügbarkeit der Gewichte von Large 2 fördert ein breiteres AI-Forschungs- und Entwicklungsgebiet, was eventuell Startups und akademische Institutionen zugute kommt.

Wussten Sie Schon?

  • Mistral AI's Large 2:
    • Effizienz und Leistung: Large 2 ist ein Sprachmodell, das von Mistral AI entwickelt wurde und mit Meta's Llama 3 konkurriert. Es zeichnet sich durch seine überlegene Effizienz aus, verarbeitet über 80 Programmiersprachen mit einem 128.000-Token-Kontextfenster, was mit deutlich weniger Parametern als Llama 3 erreicht wird.
    • Benchmark-Ergebnisse: Large 2 erreicht eine Genauigkeit von 84,0 % auf dem MMLU-Benchmark, was einen neuen Rekord für Open-Modelle in Bezug auf Leistung pro Kostenrang bedeutet. Es übertrifft deutlich Modelle wie GPT-4o und Claude 3.5 Sonnet bei Codierungsaufgaben.
    • Verfeinerte Funktionen: Das Modell wurde verfeinert, um die Fähigkeiten zur Vernunft zu verbessern, die Erzeugung unrichtiger Informationen zu verringern und die Unterstützung für komplexe Funktionsaufrufe zu verbessern, wodurch es für fortschrittliche Geschäftsanwendungen geeignet ist.
  • Massive Multi-task Language Understanding (MMLU):
    • Übersicht und Bedeutung der Benchmark: MMLU bewertet Sprachmodelle in einem breiten Spektrum von Aufgaben. Es wird verwendet, um die Fähigkeit des Modells zu beurteilen, auf vielfältige Anfragen genau zu verstehen und zu antworten
    • Bedeutung in der AI-Entwicklung: Ein hohes Ergebnis in MMLU zu erzielen, ist ein bedeutender Meilenstein, indem das Modell seine Fähigkeit demonstriert, komplexe und unterschiedliche Aufgaben wirksam zu bewältigen.
  • Token-Kontext-Fenster:
    • Definition und Bedeutung: Das Token-Kontext-Fenster bezieht sich auf die maximale Anzahl von Token, die ein Sprachmodell gleichzeitig verarbeiten kann, wichtig für Aufgaben, die einen tiefen Verständnis und langfristige Abhängigkeiten erfordern.
    • Auswirkungen auf die Modellleistung: Mit einem 128.000-Token-Kontextfenster kann Large 2 umfangreichere Eingaben verarbeiten, was für Aufgaben wie Code-Generierung und komplexe Denkprozesse unerlässlich ist.

Das könnte Ihnen auch gefallen

Dieser Artikel wurde von unserem Benutzer gemäß den Regeln und Richtlinien für die Einreichung von Nachrichten. Das Titelbild ist computererzeugte Kunst nur zu illustrativen Zwecken; nicht indikativ für den tatsächlichen Inhalt. Wenn Sie glauben, dass dieser Artikel gegen Urheberrechte verstößt, zögern Sie bitte nicht, dies zu melden, indem Sie uns eine E-Mail senden. Ihre Wachsamkeit und Zusammenarbeit sind unschätzbar, um eine respektvolle und rechtlich konforme Community aufrechtzuerhalten.

Abonnieren Sie unseren Newsletter

Erhalten Sie das Neueste aus dem Unternehmensgeschäft und der Technologie mit exklusiven Einblicken in unsere neuen Angebote