Điểm chuẩn mô hình AI của Meta: sai lệch?

Trang chủ

Tin tức

Ngày 10 tháng 4 năm 2025

TimothyMitchell

103

# meta # llama # llama 4

Điểm chuẩn mô hình AI của Meta: sai lệch?

Vậy là Meta đã ra mắt mô hình AI mới của họ, Maverick, vào cuối tuần qua, và nó đã nhanh chóng gây chú ý khi giành vị trí thứ hai trên LM Arena. Bạn biết đấy, đó là nơi con người được đóng vai trò thẩm phán, so sánh các mô hình AI khác nhau và chọn ra mục yêu thích của họ. Nhưng, khoan đã, có một bất ngờ! Hóa ra phiên bản Maverick đang phô diễn trên LM Arena không hoàn toàn giống với phiên bản mà các nhà phát triển có thể tải xuống và sử dụng.

Một số nhà nghiên cứu AI tinh mắt trên X (vâng, nền tảng trước đây được gọi là Twitter) đã phát hiện ra rằng Meta gọi phiên bản trên LM Arena là "phiên bản trò chuyện thử nghiệm". Và nếu bạn xem qua trang web Llama, có một biểu đồ tiết lộ rằng việc thử nghiệm được thực hiện với "Llama 4 Maverick được tối ưu hóa cho tính hội thoại". Chúng ta đã nói về điều này trước đây, nhưng LM Arena không hẳn là tiêu chuẩn vàng để đo lường hiệu suất AI. Hầu hết các công ty AI không can thiệp vào mô hình của họ chỉ để đạt điểm cao hơn trong bài kiểm tra này—hoặc ít nhất, họ không thừa nhận điều đó.

Vấn đề là, khi bạn điều chỉnh một mô hình để vượt qua một bài kiểm tra chuẩn nhưng sau đó phát hành một phiên bản "thô" khác cho công chúng, các nhà phát triển sẽ khó mà biết được mô hình đó thực sự hoạt động tốt như thế nào trong các tình huống thực tế. Hơn nữa, điều này có phần gây hiểu lầm, đúng không? Các bài kiểm tra chuẩn, dù có khuyết điểm, nên cung cấp một bức tranh rõ ràng về những gì một mô hình có thể và không thể làm trong các nhiệm vụ khác nhau.

Các nhà nghiên cứu trên X đã nhanh chóng nhận ra một số khác biệt lớn giữa phiên bản Maverick có thể tải xuống và phiên bản trên LM Arena. Phiên bản trên Arena dường như rất thích sử dụng biểu tượng cảm xúc và có xu hướng đưa ra những câu trả lời dài dòng, lan man.

Okay Llama 4 chắc chắn là hơi bị "nấu chín" haha, cái gì mà thành phố lan man thế này pic.twitter.com/y3GvhbVz65
— Nathan Lambert (@natolambert) April 6, 2025

vì lý do nào đó, mô hình Llama 4 trên Arena sử dụng nhiều biểu tượng cảm xúc hơn

trên together . ai, nó có vẻ tốt hơn: pic.twitter.com/f74ODX4zTt
— Tech Dev Notes (@techdevnotes) April 6, 2025

Chúng tôi đã liên hệ với Meta và những người điều hành Chatbot Arena, đơn vị vận hành LM Arena, để xem họ nói gì về chuyện này. Hãy theo dõi nhé!

Bài viết liên quan

Meta cung cấp lương cao cho nhân tài AI, phủ nhận tiền thưởng ký hợp đồng 100 triệu USD Meta đang thu hút các nhà nghiên cứu AI đến phòng thí nghiệm siêu trí tuệ mới của mình với các gói lương thưởng trị giá hàng triệu USD. Tuy nhiên, các tuyên bố về tiền thưởng ký hợp đồng 100 triệu USD

Meta Tăng Cường Bảo Mật AI với Công Cụ Llama Nâng Cao Meta đã phát hành các công cụ bảo mật Llama mới để thúc đẩy phát triển AI và bảo vệ chống lại các mối đe dọa mới nổi.Các công cụ bảo mật mô hình AI Llama nâng cấp này được kết hợp với các tài nguyên m

Meta Tăng Cường Nỗ Lực Kiềm Chế Nội Dung Không Nguyên Gốc trên Facebook Vào thứ Hai, Meta đã công bố các biện pháp nghiêm ngặt hơn để xử lý các tài khoản đăng nội dung không nguyên gốc trên Facebook, nhắm đến những tài khoản liên tục sử dụng lại văn bản, hình ảnh hoặc vid

Nhận xét (36)

0/200

Nộp

ScottWalker

08:20:54 GMT+07:00 Ngày 28 tháng 7 năm 2025

Meta's Maverick hitting second on LM Arena? Impressive, but I'm skeptical about those benchmarks. Feels like a hype train—wonder if it’s more flash than substance. 🤔 Anyone tested it in real-world tasks yet?

KennethMartin

17:14:21 GMT+07:00 Ngày 21 tháng 4 năm 2025

Meta's Maverick AI model is impressive, snagging second place on LM Arena! But are the benchmarks really telling the whole story? It's cool to see AI models go head-to-head, but I'm not sure if it's all fair play. Makes you wonder, right? 🤔 Maybe we need a more transparent way to judge these models!

WalterThomas

09:55:14 GMT+07:00 Ngày 21 tháng 4 năm 2025

मेटा का नया AI मॉडल, मैवरिक, LM एरिना में दूसरे स्थान पर पहुंचा! यह प्रभावशाली है, लेकिन क्या बेंचमार्क वास्तव में पूरी कहानी बता रहे हैं? AI मॉडल्स को आपस में प्रतिस्पर्धा करते देखना मजेदार है, लेकिन मुझे नहीं पता कि यह निष्पक्ष है या नहीं। आपको सोचने पर मजबूर करता है, है ना? 🤔 शायद हमें इन मॉडल्स को जज करने का एक और पारदर्शी तरीका चाहिए!

JohnYoung

22:03:42 GMT+07:00 Ngày 18 tháng 4 năm 2025

메타의 새로운 AI 모델, 마브릭이 LM Arena에서 2위를 차지하다니 대단해요! 하지만 벤치마크가 정말 모든 것을 말해주고 있는지 궁금해요. AI 모델 간의 경쟁은 재미있지만, 공정한지 확신할 수 없네요. 더 투명한 평가 방법이 필요할 것 같아요 🤔

JohnHernández

23:58:48 GMT+07:00 Ngày 17 tháng 4 năm 2025

Meta's Maverick AI model snagging second place on LM Arena is pretty cool, but the benchmarks might be a bit off! 🤔 It's fun to see these models go head-to-head, but I'm not sure if the results are totally fair. Worth keeping an eye on! 👀

MarkScott

12:54:17 GMT+07:00 Ngày 17 tháng 4 năm 2025

Модель ИИ Maverick от Meta заняла второе место на LM Arena, это круто, но бенчмарки могут быть немного не точными! 🤔 Забавно наблюдать за соревнованием этих моделей, но я не уверен, что результаты полностью справедливы. Стоит за этим следить! 👀

Tin tức hàng đầu

Gemini 2.5 Pro hiện không giới hạn và rẻ hơn Claude, GPT-4O Máy phát video AI hàng đầu vào năm 2025: Pika Labs so với các lựa chọn thay thế Lồng tiếng AI: Hướng dẫn Tối ưu để Tạo Giọng Nói Thực tế Openai tăng cường trợ lý giọng nói AI để trò chuyện tốt hơn Notebooklm mở rộng toàn cầu, thêm các slide và kiểm tra thực tế nâng cao Các trung tâm dữ liệu của Hoa Kỳ có thể mở khóa 76 GW công suất năng lượng mới Người sáng lập AI để tiêu thụ sức mạnh của nhiều NYC vào năm 2026, người sáng lập Sao chép giọng nói AI: Hướng dẫn tối thượng để làm chủ chuyển đổi giọng nói Trải nghiệm ô chữ I/O do AI hỗ trợ Giám đốc điều hành NVIDIA làm rõ những quan niệm sai lầm về tác động thị trường của Deepseek

Hơn

Đặc trưng