Meta verteidigt LLAMA 4 Release, zitiert Fehler als Ursache für Berichte mit gemischter Qualität

Heim

Nachricht

23. April 2025

BillyAdams

100

# meta # llama # nlp # llama-4 # Scandal

Am Wochenende überraschte Meta, das Kraftpaket hinter Facebook, Instagram, WhatsApp und Quest VR, alle mit der Vorstellung ihres neuesten KI-Sprachmodells, Llama 4. Nicht nur eines, sondern drei neue Versionen wurden eingeführt, jede mit verbesserten Fähigkeiten dank der "Mixture-of-Experts"-Architektur und einem neuartigen Trainingsansatz namens MetaP, der feste Hyperparameter verwendet. Darüber hinaus verfügen alle drei Modelle über erweiterte Kontextfenster, die es ihnen ermöglichen, mehr Informationen in einer einzigen Interaktion zu verarbeiten.

Trotz der Aufregung um die Veröffentlichung war die Reaktion der KI-Community bestenfalls verhalten. Am Samstag stellte Meta zwei dieser Modelle, Llama 4 Scout und Llama 4 Maverick, zum Download und zur Nutzung bereit, aber die Resonanz war alles andere als enthusiastisch.

Llama 4 löst Verwirrung und Kritik unter KI-Nutzern aus

Ein unbestätigter Beitrag im 1point3acres-Forum, einer beliebten chinesischsprachigen Community in Nordamerika, fand seinen Weg in das r/LocalLlama-Subreddit auf Reddit. Der Beitrag, angeblich von einem Forscher der GenAI-Organisation von Meta, behauptete, dass Llama 4 bei internen Benchmarks von Drittanbietern schlecht abgeschnitten habe. Es wurde angedeutet, dass die Führung von Meta die Ergebnisse manipuliert habe, indem sie Testsets während des Post-Trainings vermischte, um verschiedene Metriken zu erfüllen und ein positives Ergebnis zu präsentieren. Die Authentizität dieser Behauptung wurde mit Skepsis aufgenommen, und Meta hat bisher nicht auf Anfragen von VentureBeat reagiert.

Doch die Zweifel an der Leistung von Llama 4 hörten damit nicht auf. Auf X äußerte der Nutzer @cto_junior Unglauben über die Leistung des Modells und verwies auf einen unabhängigen Test, bei dem Llama 4 Maverick im aider-Polyglot-Benchmark, der Programmieraufgaben testet, nur 16 % erreichte. Dieser Wert liegt deutlich unter dem älterer, ähnlich großer Modelle wie DeepSeek V3 und Claude 3.7 Sonnet.

KI-Doktor und Autor Andriy Burkov nutzte ebenfalls X, um das beworbene 10-Millionen-Token-Kontextfenster von Llama 4 Scout in Frage zu stellen und erklärte, es sei "virtuell", da das Modell nicht mit Prompts trainiert wurde, die länger als 256k Token sind. Er warnte, dass längere Prompts wahrscheinlich zu minderwertigen Ergebnissen führen würden.

Im r/LocalLlama-Subreddit äußerte der Nutzer Dr_Karminski Enttäuschung über Llama 4 und verglich dessen schlechte Leistung mit dem nicht-räsonierenden V3-Modell von DeepSeek bei Aufgaben wie der Simulation von Ballbewegungen in einem Heptagon.

Nathan Lambert, ein ehemaliger Meta-Forscher und aktueller Senior Research Scientist bei AI2, kritisierte Metas Benchmark-Vergleiche in seinem Interconnects-Substack-Blog. Er wies darauf hin, dass das in Metas Werbematerialien verwendete Llama 4 Maverick-Modell nicht dasselbe war wie das öffentlich freigegebene, sondern für Konversation optimiert wurde. Lambert bemerkte den Widerspruch und sagte: „Hinterlistig. Die untenstehenden Ergebnisse sind gefälscht, und es ist ein großer Affront gegen die Community von Meta, nicht das Modell zu veröffentlichen, das sie für ihre große Marketingkampagne verwendet haben.“ Er fügte hinzu, dass das beworbene Modell „den technischen Ruf der Veröffentlichung ruiniert, weil sein Charakter jugendlich ist“, während das tatsächlich auf anderen Plattformen verfügbare Modell „ziemlich klug ist und einen angemessenen Ton hat“.

Meta reagiert, bestreitet „Training mit Testsets“ und verweist auf Fehler in der Implementierung aufgrund der schnellen Einführung

Als Reaktion auf die Kritik und Anschuldigungen ging Ahmad Al-Dahle, Vizepräsident und Leiter von GenAI bei Meta, auf X, um die Bedenken anzusprechen. Er zeigte sich begeistert von der Beteiligung der Community an Llama 4, räumte jedoch Berichte über uneinheitliche Qualität bei verschiedenen Diensten ein. Er führte diese Probleme auf die schnelle Einführung und die Zeit zurück, die für die Stabilisierung öffentlicher Implementierungen benötigt wird. Al-Dahle wies die Vorwürfe des Trainings mit Testsets entschieden zurück und betonte, dass die variable Qualität auf Implementierungsfehler und nicht auf Fehlverhalten zurückzuführen sei. Er bekräftigte Metas Glauben an die bedeutenden Fortschritte der Llama 4-Modelle und ihr Engagement, mit der Community zusammenzuarbeiten, um ihr Potenzial zu verwirklichen.

Die Antwort konnte die Frustrationen der Community jedoch kaum lindern, da viele weiterhin von schlechter Leistung berichteten und mehr technische Dokumentation über die Trainingsprozesse der Modelle forderten. Diese Veröffentlichung hatte mehr Probleme als frühere Llama-Versionen, was Fragen zu ihrer Entwicklung und Einführung aufwirft.

Das Timing dieser Veröffentlichung ist bemerkenswert, da sie auf den Abgang von Joelle Pineau folgt, der Vizepräsidentin für Forschung bei Meta, die letzte Woche auf LinkedIn ihren Ausstieg mit Dank für ihre Zeit im Unternehmen bekannt gab. Pineau hatte am Wochenende auch die Llama 4-Modellfamilie beworben.

Da Llama 4 weiterhin von anderen Inferenzanbietern mit gemischten Ergebnissen übernommen wird, ist klar, dass die anfängliche Veröffentlichung nicht der Erfolg war, den Meta sich erhofft haben könnte. Die bevorstehende Meta LlamaCon am 29. April, das erste Treffen für Drittentwickler der Modellfamilie, wird wahrscheinlich ein Brennpunkt für Diskussionen und Debatten sein. Wir werden die Entwicklungen genau im Auge behalten, also bleiben Sie dran.

Verwandter Artikel

Google stellt produktionsreife Gemini 2.5 KI-Modelle vor, um mit OpenAI im Unternehmensmarkt zu konkurrieren Google hat am Montag seine KI-Strategie intensiviert und seine fortschrittlichen Gemini 2.5 Modelle für den Unternehmenseinsatz gestartet sowie eine kosteneffiziente Variante eingeführt, um bei Preis

Meta bietet hohe Gehälter für KI-Talente, bestreitet 100-Millionen-Dollar-Unterschriftsboni Meta lockt KI-Forscher in sein neues Superintelligenz-Labor mit beträchtlichen Millionen-Dollar-Vergütungspaketen. Behauptungen über 100-Millionen-Dollar-"Unterschriftsboni" sind jedoch laut einem rek

Meta verbessert KI-Sicherheit mit fortschrittlichen Llama-Tools Meta hat neue Llama-Sicherheitstools veröffentlicht, um die KI-Entwicklung zu stärken und vor neuen Bedrohungen zu schützen.Diese verbesserten Llama-KI-Modell-Sicherheitstools werden mit neuen Ressour

Kommentare (5)

0/200

Einreichen

CharlesYoung

24. April 2025 21:47:05 MESZ

Llama 4 a l’air d’une sacrée avancée avec son architecture Mixture-of-Experts ! 😎 Mais les bugs, sérieux ? Ça sent la sortie précipitée pour faire la course avec les autres géants. Curieux de voir ce que ça donne après les correctifs.

AlbertLee

24. April 2025 13:01:02 MESZ

¡Llama 4 con tres versiones nuevas! 😲 La arquitectura Mixture-of-Experts suena brutal, pero lo de los bugs me da mala espina. Meta siempre quiere estar a la cabeza, ¿no? Espero que lo pulan pronto.

HarryLewis

24. April 2025 01:06:55 MESZ

ラマ4の発表、めっちゃ驚いた！😮 3つのバージョンってすごいけど、バグで品質がバラバラって…。ちょっと不安だな。AIの進化は楽しみだけど、倫理面どうするんだろ？

JackClark

23. April 2025 08:26:04 MESZ

लामा 4 की रिलीज़ ने चौंका दिया! 😯 मिक्सचर-ऑफ-एक्सपर्ट्स वाला आर्किटेक्चर कमाल लगता है, पर बग्स की वजह से क्वालिटी में उतार-चढ़ाव? लगता है मेटा ने जल्दबाज़ी की। देखते हैं ये AI कितना दम दिखाता है।

DanielPerez

23. April 2025 04:18:50 MESZ

Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! 🦙 But bugs causing mixed quality? Kinda makes me wonder if Meta rushed this one out to beat the competition. Still, excited to see how it performs once they iron out the kinks!

Top -Nachrichten

Gemini 2.5 Pro jetzt unbegrenzt und billiger als Claude, GPT-4O Top AI-Videogeneratoren 2025: Pika Labs im Vergleich zu Alternativen OpenAI verbessert den AI -Sprachassistenten für bessere Chats NotebookLM erweitert weltweit, fügt Folien und eine verbesserte Faktenprüfung hinzu Optimierungen an US -Rechenzentren könnten 76 GW neue Leistungskapazität freischalten AI-Synchronisation: Ultimativer Leitfaden zur realistischen Stimmen-Erstellung AI Computing, um die Leistung mehrerer NYCs bis 2026 zu verbrauchen, sagt Gründer Künstliche Intelligenz Sprachklonierung: Das ultimative Handbuch zur Beherrschung der Sprachkonvertierung Erleben Sie das KI-angetriebene E/A-Kreuzworträtsel: Eine moderne Wendung auf dem klassischen Wortspiel Der CEO von Nvidia verdeutlicht falsche Vorstellungen über Deepseeks Marktauswirkungen

Mehr

Vorgestellt