KI-Team der Stanford-Universität in Plagiatskandal verwickelt: Llama 3-V wird des Abschreibens von Tsinghua-Modell beschuldigt
Am 29. Mai gab ein Team der Stanford-Universität die Entwicklung des bahnbrechenden KI-Modells Llama 3-V bekannt und behauptete, es übertreffe andere führende Modelle wie GPT-4V, Gemini Ultra und Claude Opus, bei deutlich geringerer Größe und Trainingskosten. Die Aufregung war jedoch nur von kurzer Dauer, da Plagiatsvorwürfe auftauchten, wonach Llama 3-V stark vom MiniCPM-Llama3-V 2.5-Modell der KI-Firma Mianbi Intelligence der Tsinghua-Universität abgekupfert worden sei. Der Skandal hat sich seitdem zugespitzt, da Beweise zutage kamen, dass Llama 3-V möglicherweise große Teile des MiniCPM-Modells kopiert hat, was zu einer hitzigen Debatte in der KI-Gemeinschaft führte.
Wichtigste Erkenntnisse
- Modellankündigung: Das Stanford-Team behauptete, Llama 3-V sei ein überlegenes, kostengünstiges Modell im Vergleich zu anderen führenden KI-Modellen.
- Plagiatsvorwürfe: Dem Modell wurde vorgeworfen, vom MiniCPM-Llama3-V 2.5 der Tsinghua-Universität kopiert worden zu sein, einschließlich seiner Struktur und seines Codes.
- Plagiatsnachweise: Detaillierte Vergleiche zeigten frappante Ähnlichkeiten zwischen den Modellen, einschließlich gemeinsamer Konfigurationen und Codebases.
- Verteidigung der Stanford-Universität: Das Stanford-Team bestritt die Anschuldigungen und erklärte, lediglich den Tokenizer von MiniCPM verwendet zu haben.
- Löschung von Beweismaterial: Nach dem Skandal löschte das Stanford-Team zugehörige Beiträge und Repositories, was den Verdacht weiter verstärkte.
Analyse
Der Skandal begann, als das Stanford-Team in einem Artikel auf Medium Llama 3-V's Fähigkeiten rühmte. Das Modell wurde als hochmoderner, multimodaler KI-Assistent präsentiert, der deutlich kleiner und kostengünstiger als seine Wettbewerber sei. Allerdings bemerkten KI-Enthusiasten und -Experten bald, dass Llama 3-V eine verblüffende Ähnlichkeit mit Tsinghua's MiniCPM-Llama3-V 2.5 aufwies.
Mehrere Beweise wurden vorgelegt, um diese Anschuldigungen zu unterstützen:
- Modellstruktur und Code: Vergleiche zeigten, dass Llama 3-V und MiniCPM-Llama3-V 2.5 nahezu identische Strukturen und Konfigurationen teilten, mit lediglich unterschiedlichen Variablennamen.
- Tokenisierungsprozess: Das Stanford-Team behauptete, nur den Tokenizer von MiniCPM verwendet zu haben. Es wurde jedoch darauf hingewiesen, dass der spezifische Tokenizer, der in MiniCPM-Llama3-V 2.5 verwendet wird, vor der Entwicklung von Llama 3-V nicht öffentlich zugänglich war, was Fragen zu Stanfords Zugriff darauf aufwarf.
- Verhaltensähnlichkeiten: Tests ergaben, dass Llama 3-V's Leistung und Fehler eng mit denen von MiniCPM-Llama3-V 2.5 übereinstimmten, was mehr als nur zufällige Ähnlichkeit nahelegt.
- Gelöschte Repositories: Das plötzliche Löschen von GitHub- und HuggingFace-Repositories durch das Stanford-Team verstärkte den Skandal weiter und deutete auf den Versuch der Vertuschung hin.
Als Reaktion darauf präsentierte das Stanford-Team eine Verteidigung, die auf Skepsis stieß. Sie behaupteten, ihre Arbeit sei der Veröffentlichung von MiniCPM-Llama3-V 2.5 vorausgegangen und ihr Modell habe öffentlich verfügbare Konfigurationen verwendet. Angesichts der offensichtlichen Ähnlichkeiten zwischen den Modellen und Inkonsistenzen in ihren Erklärungen führte dies jedoch zu weitverbreiteter Ungläubigkeit.
Der Skandal erreichte seinen Höhepunkt, als Mianbi Intelligence's Team zusätzliche Beweise vorlegte, einschließlich spezifischer Funktionalitäten wie der Erkennung antiker chinesischer Schriftzeichen (Qinghua-Bambusstreifen), die exklusiv für MiniCPM-Llama3-V 2.5 waren. Dieses Detailniveau, so argumentierten sie, könne nicht ohne Zugriff auf ihre proprietären Daten repliziert worden sein.
Wussten Sie schon?
- Multimodale KI-Modelle: Diese Modelle wie Llama 3-V und MiniCPM-Llama3-V 2.5 sind darauf ausgelegt, mehrere Arten von Dateneingaben (z.B. Text, Bilder) gleichzeitig zu verarbeiten und zu interpretieren, was ihre Vielseitigkeit und Anwendungsbreite erheblich steigert.
- Tokenizer: Dies ist eine entscheidende Komponente in KI-Sprachmodellen, die Text in handhabbare Stücke (Tokens) unterteilt, um die Verarbeitung und das Verständnis durch das Modell zu erleichtern. Die Spezifität und Anpassungsfähigkeit von Tokenizern sind entscheidend für die Genauigkeit und Effizienz von KI-Modellen.
- Qinghua-Bambusstreifen: Diese antiken chinesischen Texte stammen aus der Zeit der Streitenden Reiche (475-221 v. Chr.) und gelten als äußerst selten und wertvoll für die historische Forschung. Die Fähigkeit eines KI-Modells, diese Texte zu erkennen und zu interpretieren, deutet auf einen hohen Grad an Sophistizierung und spezialisiertem Training hin.
Der Llama 3-V-Plagiatsskandal hat in der KI-Gemeinschaft eine intensive Debatte ausgelöst und die ethischen Herausforderungen und Wettbewerbsdrücke in der KI-Forschung aufgezeigt. Der Ausgang dieses Skandals könnte weitreichende Folgen für die akademische Integrität und das geistige Eigentum in der KI-Entwicklung haben.