

Meta verteidigt LLAMA 4 Release, zitiert Fehler als Ursache für Berichte mit gemischter Qualität
22. April 2025
BillyAdams
29
Am Wochenende überraschte Meta, das Kraftpaket hinter Facebook, Instagram, WhatsApp und Quest VR alle, indem sie ihr neuestes KI-Sprachmodell enthüllten. Darüber hinaus sind alle drei Modelle mit erweiterten Kontextfenstern ausgestattet, sodass sie weitere Informationen in einer einzigen Interaktion verarbeiten können.
Trotz der Aufregung der Veröffentlichung war die Reaktion der KI -Community bestenfalls lauwarm. Am Samstag machte Meta zwei dieser Modelle, Lama 4 Scout und Lama 4 Maverick, zum Download und Gebrauch zur Verfügung, aber die Antwort war alles andere als begeistert.
Lama 4 löst Verwirrung und Kritik unter KI -Nutzern aus
Ein nicht überprüfter Beitrag im 1Point3Acres -Forum, einer beliebten chinesischen Sprachgemeinschaft in Nordamerika, fand seinen Weg zum R/Localllama Subreddit on Reddit. Die Post, die angeblich von einem Forscher der Genai-Organisation von Meta behauptete, behauptete, Lama 4 habe sich auf internen Benchmarks von Drittanbietern unterdurchschnittlich geschafft. Es deutete darauf hin, dass die Führung von Meta die Ergebnisse manipuliert hatte, indem sie Testsets während der Nachtrage mischen, um verschiedene Metriken zu erfüllen und ein günstiges Ergebnis zu präsentieren. Die Authentizität dieser Behauptung stieß auf Skepsis, und Meta muss noch auf Anfragen von VentureBeat reagieren.
Dennoch hörten die Zweifel an Lama 4s Leistung hier nicht auf. Auf X drückte der Benutzer @CTO_Junior Unglauben bei der Leistung des Modells aus, unter Berufung auf einen unabhängigen Test, bei dem LLAMA 4 Maverick nur 16% auf dem AID -Polyglot -Benchmark erzielte, bei dem die Codierungsaufgaben getestet werden. Diese Punktzahl ist signifikant niedriger als die von älteren Modellen wie Deepseek V3 und Claude 3.7 Sonett.
AI PhD und der Autor Andriy Burkov haben auch X aufgenommen, um das 10-Millionen-Token-Kontextfenster für Llama 4 Scout in Frage zu stellen, und erklärte, es sei "virtuell", weil das Modell nicht länger als 256.000 Token trainiert wurde. Er warnte, dass das Senden längerer Eingabeaufforderungen wahrscheinlich zu Ausgaben von geringer Qualität führen würde.
Auf dem R/Localllama Subreddit teilte der Benutzer DR_Karminski die Enttäuschung mit LLAMA 4 mit und vergleicht seine schlechte Leistung mit Deepseeks nicht umsetztem V3-Modell für Aufgaben wie der Simulation von Ballbewegungen innerhalb eines Heptagon.
Nathan Lambert, ehemaliger Metaforscher und aktueller leitender Forschungswissenschaftler bei AI2, kritisierte die Benchmark -Vergleiche von Meta in seinem Interconnects -Substack -Blog. Er wies darauf hin, dass sich das in den Werbematerialien von Meta verwendete Lama 4 -Maverick -Modell von dem öffentlich veröffentlichten, der statt der Gesprächlichkeit optimiert wurde. Lambert bemerkte die Diskrepanz und sagte: "Sneaky. Die folgenden Ergebnisse sind gefälscht, und es ist ein großes geringfügiges für die Meta -Community, das Modell, mit dem sie ihren Hauptmarketing -Push zu erstellen, nicht freizugeben." Er fügte hinzu, dass das Werbemodell "den technischen Ruf der Veröffentlichung tank, weil sein Charakter juvenil ist", "das tatsächliche Modell, das auf anderen Plattformen verfügbar ist, war" ziemlich klug und einen vernünftigen Ton ".

Meta antwortet, verweigert "Training an Testsätzen" und zitiert Fehler in der Implementierung aufgrund eines schnellen Rollouts
Als Reaktion auf die Kritik und Anschuldigungen nahmen Metas VP und Leiter Genai, Ahmad al-Dahle, zu X, um die Bedenken auszuräumen. Er zeigte sich Begeisterung für das Engagement der Gemeinschaft mit Lama 4, erkannte jedoch Berichte über inkonsistente Qualität in verschiedenen Diensten an. Er führte diese Probleme dem schnellen Rollout und der Zeit zu, die für die Stabilisierung der öffentlichen Implementierungen erforderlich war. Al-Dahle lehnte die Vorwürfe der Schulung in Testsätzen fest und betonte, dass die variable Qualität eher auf Implementierungsfehler als auf ein Fehlverhalten zurückzuführen war. Er bekräftigte den Glauben von Meta an die bedeutenden Fortschritte der Lama 4 -Modelle und ihr Engagement für die Zusammenarbeit mit der Gemeinschaft, um ihr Potenzial auszuschöpfen.
Die Reaktion machte jedoch wenig dazu bei, die Frustrationen der Community zu unterdrücken. Viele meldeten immer noch schlechte Leistung und forderten mehr technische Dokumentation über die Schulungsprozesse der Modelle. Diese Veröffentlichung hat mehr Probleme als frühere Lama -Versionen konfrontiert und wirft Fragen zu ihrer Entwicklung und Rollout auf.
Das Timing dieser Veröffentlichung ist bemerkenswert, da sie dem Abgang von Joelle Pineau, dem VP of Research von Meta, folgt, der letzte Woche ihren Ausstieg zu LinkedIn mit Dankbarkeit für ihre Zeit im Unternehmen ankündigte. Pineau hatte am Wochenende auch die Lama 4 Model -Familie beworben.
Da Lama 4 weiterhin von anderen Inferenzanbietern mit gemischten Ergebnissen übernommen wird, ist klar, dass die erste Veröffentlichung nicht der Erfolg war, auf das Meta gehofft hat. Der bevorstehende Meta Llamacon am 29. April, der die erste Versammlung für Entwickler der Modellfamilie von Drittanbietern sein wird, wird wahrscheinlich eine Brutstätte der Diskussion und Debatte sein. Wir werden die Entwicklungen genau im Auge behalten, also bleiben Sie dran.
Verwandter Artikel
Gaia führt einen neuen Benchmark in der Suche nach wahrer Intelligenz jenseits von Arc-Agi ein
Intelligenz ist überall, aber das Messen Sie es genau so, als würde man versuchen, eine Wolke mit bloßen Händen zu fangen. Wir verwenden Tests und Benchmarks wie College -Aufnahmeprüfungen, um eine grobe Idee zu bekommen. Jedes Jahr drehen die Schüler für diese Tests und erzielen manchmal sogar eine perfekte 100%. Aber macht diese perfekte Punktzahl m
Das KI -Startup sichert 7,5 Millionen US
1Fort, ein in New York ansässiger Startup, hat eine Saatgut-Finanzierungsrunde in Höhe von 7,5 Millionen US-Dollar gesichert, um zu revolutionieren, wie kleine Unternehmen eine kommerzielle Versicherung durch seine KI-gesteuerte Plattform abschließen. Mit einem erstaunlichen Umsatzwachstum von 200% monatlich im Monat im Jahr 2024 soll 1Fort die veralteten manuellen Prozesse überarbeiten
Rechtsprofessoren unterstützen Autoren im KI -Urheberrecht gegen Meta.
Eine Gruppe von Copyright-Rechtsprofessoren hat ihre Unterstützung hinter Autoren verklagt, die Meta verklagen, und behauptet, der Tech-Riese habe seine LLAMA-AI-Modelle auf E-Books ohne Zustimmung der Autoren ausgebildet. Die Professoren haben am Freitag einen Amicus -Brief eingereicht
Kommentare (0)
0/200






Am Wochenende überraschte Meta, das Kraftpaket hinter Facebook, Instagram, WhatsApp und Quest VR alle, indem sie ihr neuestes KI-Sprachmodell enthüllten. Darüber hinaus sind alle drei Modelle mit erweiterten Kontextfenstern ausgestattet, sodass sie weitere Informationen in einer einzigen Interaktion verarbeiten können.
Trotz der Aufregung der Veröffentlichung war die Reaktion der KI -Community bestenfalls lauwarm. Am Samstag machte Meta zwei dieser Modelle, Lama 4 Scout und Lama 4 Maverick, zum Download und Gebrauch zur Verfügung, aber die Antwort war alles andere als begeistert.
Lama 4 löst Verwirrung und Kritik unter KI -Nutzern aus
Ein nicht überprüfter Beitrag im 1Point3Acres -Forum, einer beliebten chinesischen Sprachgemeinschaft in Nordamerika, fand seinen Weg zum R/Localllama Subreddit on Reddit. Die Post, die angeblich von einem Forscher der Genai-Organisation von Meta behauptete, behauptete, Lama 4 habe sich auf internen Benchmarks von Drittanbietern unterdurchschnittlich geschafft. Es deutete darauf hin, dass die Führung von Meta die Ergebnisse manipuliert hatte, indem sie Testsets während der Nachtrage mischen, um verschiedene Metriken zu erfüllen und ein günstiges Ergebnis zu präsentieren. Die Authentizität dieser Behauptung stieß auf Skepsis, und Meta muss noch auf Anfragen von VentureBeat reagieren.
Dennoch hörten die Zweifel an Lama 4s Leistung hier nicht auf. Auf X drückte der Benutzer @CTO_Junior Unglauben bei der Leistung des Modells aus, unter Berufung auf einen unabhängigen Test, bei dem LLAMA 4 Maverick nur 16% auf dem AID -Polyglot -Benchmark erzielte, bei dem die Codierungsaufgaben getestet werden. Diese Punktzahl ist signifikant niedriger als die von älteren Modellen wie Deepseek V3 und Claude 3.7 Sonett.
AI PhD und der Autor Andriy Burkov haben auch X aufgenommen, um das 10-Millionen-Token-Kontextfenster für Llama 4 Scout in Frage zu stellen, und erklärte, es sei "virtuell", weil das Modell nicht länger als 256.000 Token trainiert wurde. Er warnte, dass das Senden längerer Eingabeaufforderungen wahrscheinlich zu Ausgaben von geringer Qualität führen würde.
Auf dem R/Localllama Subreddit teilte der Benutzer DR_Karminski die Enttäuschung mit LLAMA 4 mit und vergleicht seine schlechte Leistung mit Deepseeks nicht umsetztem V3-Modell für Aufgaben wie der Simulation von Ballbewegungen innerhalb eines Heptagon.
Nathan Lambert, ehemaliger Metaforscher und aktueller leitender Forschungswissenschaftler bei AI2, kritisierte die Benchmark -Vergleiche von Meta in seinem Interconnects -Substack -Blog. Er wies darauf hin, dass sich das in den Werbematerialien von Meta verwendete Lama 4 -Maverick -Modell von dem öffentlich veröffentlichten, der statt der Gesprächlichkeit optimiert wurde. Lambert bemerkte die Diskrepanz und sagte: "Sneaky. Die folgenden Ergebnisse sind gefälscht, und es ist ein großes geringfügiges für die Meta -Community, das Modell, mit dem sie ihren Hauptmarketing -Push zu erstellen, nicht freizugeben." Er fügte hinzu, dass das Werbemodell "den technischen Ruf der Veröffentlichung tank, weil sein Charakter juvenil ist", "das tatsächliche Modell, das auf anderen Plattformen verfügbar ist, war" ziemlich klug und einen vernünftigen Ton ".
Meta antwortet, verweigert "Training an Testsätzen" und zitiert Fehler in der Implementierung aufgrund eines schnellen Rollouts
Als Reaktion auf die Kritik und Anschuldigungen nahmen Metas VP und Leiter Genai, Ahmad al-Dahle, zu X, um die Bedenken auszuräumen. Er zeigte sich Begeisterung für das Engagement der Gemeinschaft mit Lama 4, erkannte jedoch Berichte über inkonsistente Qualität in verschiedenen Diensten an. Er führte diese Probleme dem schnellen Rollout und der Zeit zu, die für die Stabilisierung der öffentlichen Implementierungen erforderlich war. Al-Dahle lehnte die Vorwürfe der Schulung in Testsätzen fest und betonte, dass die variable Qualität eher auf Implementierungsfehler als auf ein Fehlverhalten zurückzuführen war. Er bekräftigte den Glauben von Meta an die bedeutenden Fortschritte der Lama 4 -Modelle und ihr Engagement für die Zusammenarbeit mit der Gemeinschaft, um ihr Potenzial auszuschöpfen.
Die Reaktion machte jedoch wenig dazu bei, die Frustrationen der Community zu unterdrücken. Viele meldeten immer noch schlechte Leistung und forderten mehr technische Dokumentation über die Schulungsprozesse der Modelle. Diese Veröffentlichung hat mehr Probleme als frühere Lama -Versionen konfrontiert und wirft Fragen zu ihrer Entwicklung und Rollout auf.
Das Timing dieser Veröffentlichung ist bemerkenswert, da sie dem Abgang von Joelle Pineau, dem VP of Research von Meta, folgt, der letzte Woche ihren Ausstieg zu LinkedIn mit Dankbarkeit für ihre Zeit im Unternehmen ankündigte. Pineau hatte am Wochenende auch die Lama 4 Model -Familie beworben.
Da Lama 4 weiterhin von anderen Inferenzanbietern mit gemischten Ergebnissen übernommen wird, ist klar, dass die erste Veröffentlichung nicht der Erfolg war, auf das Meta gehofft hat. Der bevorstehende Meta Llamacon am 29. April, der die erste Versammlung für Entwickler der Modellfamilie von Drittanbietern sein wird, wird wahrscheinlich eine Brutstätte der Diskussion und Debatte sein. Wir werden die Entwicklungen genau im Auge behalten, also bleiben Sie dran.












