Meta bảo vệ bản phát hành Llama 4, trích dẫn lỗi là nguyên nhân của các báo cáo chất lượng hỗn hợp

Trang chủ

Tin tức

Ngày 23 tháng 4 năm 2025

BillyAdams

100

# meta # llama # nlp # llama-4 # Scandal

Trong cuối tuần, Meta, gã khổng lồ đứng sau Facebook, Instagram, WhatsApp và Quest VR, đã khiến mọi người bất ngờ khi công bố mô hình ngôn ngữ AI mới nhất của họ, Llama 4. Không chỉ một, mà ba phiên bản mới đã được giới thiệu, mỗi phiên bản đều tự hào có khả năng nâng cao nhờ kiến trúc "Mixture-of-Experts" và một phương pháp huấn luyện mới gọi là MetaP, sử dụng các siêu tham số cố định. Hơn nữa, cả ba mô hình đều có cửa sổ ngữ cảnh mở rộng, cho phép chúng xử lý nhiều thông tin hơn trong một lần tương tác.

Mặc dù sự phấn khích của việc ra mắt, phản ứng của cộng đồng AI chỉ ở mức thờ ơ. Vào thứ Bảy, Meta đã công bố hai trong số các mô hình này, Llama 4 Scout và Llama 4 Maverick, có sẵn để tải xuống và sử dụng, nhưng phản hồi nhận được thì xa vời với sự nhiệt tình.

Llama 4 Gây Ra Sự Nhầm Lẫn và Chỉ Trích Trong Cộng Đồng Người Dùng AI

Một bài đăng chưa được xác minh trên diễn đàn 1point3acres, một cộng đồng ngôn ngữ Trung Quốc phổ biến ở Bắc Mỹ, đã xuất hiện trên subreddit r/LocalLlama trên Reddit. Bài đăng, được cho là từ một nhà nghiên cứu tại tổ chức GenAI của Meta, tuyên bố rằng Llama 4 hoạt động kém hiệu quả trong các bài kiểm tra bên thứ ba nội bộ. Bài đăng này cho rằng lãnh đạo của Meta đã thao túng kết quả bằng cách trộn lẫn các bộ kiểm tra trong quá trình hậu huấn luyện để đáp ứng các tiêu chí khác nhau và thể hiện một kết quả tích cực. Tính xác thực của tuyên bố này bị nghi ngờ, và Meta vẫn chưa trả lời các câu hỏi từ VentureBeat.

Tuy nhiên, những nghi ngờ về hiệu suất của Llama 4 không dừng lại ở đó. Trên X, người dùng @cto_junior bày tỏ sự không tin tưởng vào hiệu suất của mô hình, dẫn chứng một bài kiểm tra độc lập nơi Llama 4 Maverick chỉ đạt 16% trên bài kiểm tra polyglot aider, kiểm tra các nhiệm vụ lập trình. Điểm số này thấp hơn đáng kể so với các mô hình có kích thước tương tự như DeepSeek V3 và Claude 3.7 Sonnet.

Tiến sĩ AI và tác giả Andriy Burkov cũng lên X để đặt câu hỏi về cửa sổ ngữ cảnh 10 triệu token được quảng cáo cho Llama 4 Scout, cho rằng nó là "ảo" vì mô hình không được huấn luyện trên các lời nhắc dài hơn 256k token. Ông cảnh báo rằng việc gửi các lời nhắc dài hơn có thể dẫn đến kết quả chất lượng thấp.

Trên subreddit r/LocalLlama, người dùng Dr_Karminski bày tỏ sự thất vọng với Llama 4, so sánh hiệu suất kém của nó với mô hình V3 không tư duy của DeepSeek trong các nhiệm vụ như mô phỏng chuyển động của quả bóng trong một hình thất giác.

Nathan Lambert, một cựu nhà nghiên cứu của Meta và hiện là Nhà khoa học Nghiên cứu Cấp cao tại AI2, đã chỉ trích các so sánh chuẩn mực của Meta trên blog Interconnects Substack của mình. Ông chỉ ra rằng mô hình Llama 4 Maverick được sử dụng trong các tài liệu quảng cáo của Meta khác với mô hình được phát hành công khai, được tối ưu hóa cho tính hội thoại. Lambert lưu ý sự không nhất quán, nói rằng, "Xảo quyệt. Các kết quả dưới đây là giả, và đó là một sự xúc phạm lớn đối với cộng đồng của Meta khi không phát hành mô hình mà họ đã sử dụng để tạo ra chiến dịch tiếp thị lớn của mình." Ông nói thêm rằng trong khi mô hình quảng cáo "đang làm xấu đi danh tiếng kỹ thuật của việc ra mắt vì tính cách của nó là trẻ con," mô hình thực tế có sẵn trên các nền tảng khác thì "khá thông minh và có giọng điệu hợp lý."

Meta Phản Hồi, Phủ Nhận Việc 'Huấn Luyện Trên Bộ Kiểm Tra' và Dẫn Chứng Lỗi Triển Khai Do Ra Mắt Nhanh

Để đáp lại các chỉ trích và cáo buộc, Phó Chủ tịch và Trưởng bộ phận GenAI của Meta, Ahmad Al-Dahle, đã lên X để giải quyết các mối quan ngại. Ông bày tỏ sự phấn khích về sự tham gia của cộng đồng với Llama 4 nhưng thừa nhận các báo cáo về chất lượng không nhất quán trên các dịch vụ khác nhau. Ông cho rằng các vấn đề này là do triển khai nhanh và thời gian cần thiết để các triển khai công khai ổn định. Al-Dahle kiên quyết phủ nhận các cáo buộc về việc huấn luyện trên bộ kiểm tra, nhấn mạnh rằng chất lượng biến đổi là do lỗi triển khai chứ không phải bất kỳ hành vi sai trái nào. Ông tái khẳng định niềm tin của Meta vào những tiến bộ đáng kể của các mô hình Llama 4 và cam kết làm việc với cộng đồng để hiện thực hóa tiềm năng của chúng.

Tuy nhiên, phản hồi này không làm giảm bớt sự thất vọng của cộng đồng, với nhiều người vẫn báo cáo hiệu suất kém và yêu cầu thêm tài liệu kỹ thuật về quá trình huấn luyện của các mô hình. Lần phát hành này đã gặp nhiều vấn đề hơn so với các phiên bản Llama trước, làm dấy lên câu hỏi về quá trình phát triển và triển khai của nó.

Thời điểm của lần phát hành này đáng chú ý, vì nó diễn ra sau sự ra đi của Joelle Pineau, Phó Chủ tịch Nghiên cứu của Meta, người đã thông báo rời công ty trên LinkedIn vào tuần trước với lòng biết ơn về thời gian của mình tại công ty. Pineau cũng đã quảng bá gia đình mô hình Llama 4 trong cuối tuần.

Khi Llama 4 tiếp tục được các nhà cung cấp suy luận khác áp dụng với kết quả lẫn lộn, rõ ràng là lần phát hành ban đầu không phải là thành công như Meta có thể đã hy vọng. Hội nghị Meta LlamaCon sắp tới vào ngày 29 tháng 4, sẽ là cuộc tụ họp đầu tiên cho các nhà phát triển bên thứ ba của gia đình mô hình, có khả năng sẽ là một lò tranh luận và thảo luận sôi nổi. Chúng tôi sẽ theo dõi sát sao các diễn biến, vì vậy hãy đón xem.

Bài viết liên quan

Google Ra Mắt Các Mô Hình AI Gemini 2.5 Sẵn Sàng Sản Xuất để Cạnh Tranh với OpenAI trên Thị Trường Doanh Nghiệp Google tăng cường chiến lược AI vào thứ Hai, ra mắt các mô hình Gemini 2.5 tiên tiến cho doanh nghiệp và giới thiệu biến thể tiết kiệm chi phí để cạnh tranh về giá và hiệu suất.Công ty thuộc sở hữu củ

Meta cung cấp lương cao cho nhân tài AI, phủ nhận tiền thưởng ký hợp đồng 100 triệu USD Meta đang thu hút các nhà nghiên cứu AI đến phòng thí nghiệm siêu trí tuệ mới của mình với các gói lương thưởng trị giá hàng triệu USD. Tuy nhiên, các tuyên bố về tiền thưởng ký hợp đồng 100 triệu USD

Meta Tăng Cường Bảo Mật AI với Công Cụ Llama Nâng Cao Meta đã phát hành các công cụ bảo mật Llama mới để thúc đẩy phát triển AI và bảo vệ chống lại các mối đe dọa mới nổi.Các công cụ bảo mật mô hình AI Llama nâng cấp này được kết hợp với các tài nguyên m

Nhận xét (5)

0/200

Nộp

CharlesYoung

02:47:05 GMT+07:00 Ngày 25 tháng 4 năm 2025

Llama 4 a l’air d’une sacrée avancée avec son architecture Mixture-of-Experts ! 😎 Mais les bugs, sérieux ? Ça sent la sortie précipitée pour faire la course avec les autres géants. Curieux de voir ce que ça donne après les correctifs.

AlbertLee

18:01:02 GMT+07:00 Ngày 24 tháng 4 năm 2025

¡Llama 4 con tres versiones nuevas! 😲 La arquitectura Mixture-of-Experts suena brutal, pero lo de los bugs me da mala espina. Meta siempre quiere estar a la cabeza, ¿no? Espero que lo pulan pronto.

HarryLewis

06:06:55 GMT+07:00 Ngày 24 tháng 4 năm 2025

ラマ4の発表、めっちゃ驚いた！😮 3つのバージョンってすごいけど、バグで品質がバラバラって…。ちょっと不安だな。AIの進化は楽しみだけど、倫理面どうするんだろ？

JackClark

13:26:04 GMT+07:00 Ngày 23 tháng 4 năm 2025

लामा 4 की रिलीज़ ने चौंका दिया! 😯 मिक्सचर-ऑफ-एक्सपर्ट्स वाला आर्किटेक्चर कमाल लगता है, पर बग्स की वजह से क्वालिटी में उतार-चढ़ाव? लगता है मेटा ने जल्दबाज़ी की। देखते हैं ये AI कितना दम दिखाता है।

DanielPerez

09:18:50 GMT+07:00 Ngày 23 tháng 4 năm 2025

Wow, Llama 4 sounds like a beast with that Mixture-of-Experts setup! 🦙 But bugs causing mixed quality? Kinda makes me wonder if Meta rushed this one out to beat the competition. Still, excited to see how it performs once they iron out the kinks!

Tin tức hàng đầu

Gemini 2.5 Pro hiện không giới hạn và rẻ hơn Claude, GPT-4O Máy phát video AI hàng đầu vào năm 2025: Pika Labs so với các lựa chọn thay thế Openai tăng cường trợ lý giọng nói AI để trò chuyện tốt hơn Notebooklm mở rộng toàn cầu, thêm các slide và kiểm tra thực tế nâng cao Các trung tâm dữ liệu của Hoa Kỳ có thể mở khóa 76 GW công suất năng lượng mới Lồng tiếng AI: Hướng dẫn Tối ưu để Tạo Giọng Nói Thực tế Người sáng lập AI để tiêu thụ sức mạnh của nhiều NYC vào năm 2026, người sáng lập Sao chép giọng nói AI: Hướng dẫn tối thượng để làm chủ chuyển đổi giọng nói Trải nghiệm ô chữ I/O do AI hỗ trợ Giám đốc điều hành NVIDIA làm rõ những quan niệm sai lầm về tác động thị trường của Deepseek

Hơn

Đặc trưng