lựa chọn
Trang chủ Tin tức Điểm chuẩn mô hình AI của Meta: sai lệch?

Điểm chuẩn mô hình AI của Meta: sai lệch?

ngày phát hành ngày phát hành Ngày 10 tháng 4 năm 2025
Tác giả Tác giả TimothyMitchell
quan điểm quan điểm 10

Điểm chuẩn mô hình AI của Meta: sai lệch?

Vì vậy, Meta đã bỏ mô hình AI mới của họ, Maverick, vào cuối tuần qua, và nó đã tạo ra sóng bằng cách chộp lấy vị trí thứ hai trên LM Arena. Bạn biết đấy, đó là nơi con người có thể chơi thẩm phán và bồi thẩm đoàn, so sánh các mô hình AI khác nhau và chọn mục yêu thích của họ. Nhưng, giữ lấy, có một sự thay đổi! Hóa ra phiên bản Maverick sắp xếp nội dung của nó trên LM Arena không hoàn toàn giống với phiên bản bạn có thể tải xuống và chơi với tư cách là nhà phát triển.

Một số nhà nghiên cứu AI mắt đại bàng trên X (vâng, nền tảng trước đây được gọi là Twitter) đã phát hiện ra rằng Meta gọi phiên bản LM Arena là "phiên bản trò chuyện thử nghiệm". Và nếu bạn nhìn trộm trên trang web Llama, có một biểu đồ làm đổ đậu, nói rằng việc thử nghiệm được thực hiện với "Llama 4 Maverick được tối ưu hóa cho cuộc trò chuyện". Bây giờ, chúng tôi đã nói về điều này trước đây, nhưng LM Arena không chính xác là tiêu chuẩn vàng để đo hiệu suất AI. Hầu hết các công ty AI không gây rối với các mô hình của họ chỉ để ghi điểm tốt hơn trong bài kiểm tra này hoặc ít nhất, họ không thừa nhận điều đó.

Vấn đề là, khi bạn điều chỉnh một mô hình thành một điểm chuẩn nhưng sau đó phát hành phiên bản "vani" khác cho công chúng, thật khó khăn cho các nhà phát triển để tìm ra mô hình sẽ thực sự hoạt động tốt như thế nào trong các kịch bản trong thế giới thực. Thêm vào đó, đó là sai lệch, phải không? Điểm chuẩn, thiếu sót như họ, sẽ cho chúng ta một bức tranh rõ ràng về những gì một mô hình có thể và không thể làm được trên các nhiệm vụ khác nhau.

Các nhà nghiên cứu trên X đã nhanh chóng nhận thấy một số khác biệt lớn giữa Maverick bạn có thể tải xuống và một trong những trên LM Arena. Phiên bản đấu trường rõ ràng là tất cả về biểu tượng cảm xúc và thích cho bạn những câu trả lời dài, rút ​​ra.

Chúng tôi đã liên hệ với Meta và những người ở Chatbot Arena, người điều hành LM Arena, để xem những gì họ nói về tất cả những điều này. Hãy theo dõi!

Bài viết liên quan
메타는 LLAMA 4 릴리스를 방어하고 혼합 품질 보고서의 원인으로 버그를 인용합니다. 메타는 LLAMA 4 릴리스를 방어하고 혼합 품질 보고서의 원인으로 버그를 인용합니다. 주말 동안, Facebook, Instagram, Whatsapp 및 Quest VR 뒤의 강국 인 Meta는 최신 AI 언어 모델 인 Llama 4를 공개하여 모든 사람들을 놀라게했습니다. 하나뿐만 아니라 3 개의 새로운 버전이 소개되었습니다.
법률 교수는 Meta와의 AI 저작권 전투에서 저자를 지원합니다. 법률 교수는 Meta와의 AI 저작권 전투에서 저자를 지원합니다. 한 저작권법 교수 그룹은 기술 대기업이 저자의 동의없이 전자 책에 대해 LLAMA AI 모델을 전자 책으로 훈련 시켰다고 주장하면서 메타를 고소하는 저자의지지를 주었다. 교수들은 금요일 캘리포니아 북부 지역의 미국 지방 법원에서 아미 쿠스 브리핑을 제출했습니다.
Meta AI는 곧 EU 사용자의 데이터를 훈련시킬 것입니다 Meta AI는 곧 EU 사용자의 데이터를 훈련시킬 것입니다 Meta는 최근 Facebook 및 Instagram과 같은 플랫폼의 EU 사용자의 데이터를 사용하여 AI를 교육 할 계획을 공개했습니다. 이 이니셔티브는 메타 AI와의 공개 게시물, 의견 및 채팅 이력을 활용하지만 친구 및 가족과의 개인 메시지는 제한이 없습니다.
Nhận xét (35)
0/200
JerryGonzalez
JerryGonzalez 10:18:45 GMT Ngày 10 tháng 4 năm 2025

Meta's AI model benchmarks seem a bit off to me. Maverick got second place, but I've used it and it's not that great. The interface is clunky and the results are hit or miss. Maybe they're just trying to hype it up? I'd give it a pass for now.

CarlKing
CarlKing 10:18:45 GMT Ngày 10 tháng 4 năm 2025

MetaのAIモデルのベンチマークは私には少しおかしいように感じます。Maverickは2位を獲得しましたが、使ってみた感じではそれほど良くありません。インターフェースがぎこちなく、結果も当たり外れがあります。もしかしたら、ただ盛り上げようとしているだけかもしれませんね。今はパスしておきます。

SamuelEvans
SamuelEvans 10:18:45 GMT Ngày 10 tháng 4 năm 2025

Meta의 AI 모델 벤치마크가 내겐 좀 이상해 보여. Maverick이 2위를 했지만, 써보니 그리 대단하지 않아. 인터페이스가 어색하고 결과도 들쑥날쑥해. 어쩌면 그냥 과대광고하려고 하는 건지도 몰라. 지금은 패스할게.

BenWalker
BenWalker 10:18:45 GMT Ngày 10 tháng 4 năm 2025

Os benchmarks do modelo de IA da Meta parecem um pouco estranhos para mim. O Maverick ficou em segundo lugar, mas eu usei e não é tão bom assim. A interface é desajeitada e os resultados são inconsistentes. Talvez eles estejam apenas tentando criar hype? Eu passaria por agora.

RobertLewis
RobertLewis 10:18:45 GMT Ngày 10 tháng 4 năm 2025

Los benchmarks del modelo de IA de Meta me parecen un poco extraños. Maverick quedó en segundo lugar, pero lo he usado y no es tan bueno. La interfaz es torpe y los resultados son inconsistentes. ¿Quizás solo están tratando de generar hype? Por ahora, lo dejaría pasar.

KevinBaker
KevinBaker 18:25:04 GMT Ngày 11 tháng 4 năm 2025

I tried Meta's Maverick and it's pretty good, but those benchmarks seem a bit off to me. It's not as smooth as they claim, and sometimes it's just plain wrong. I'm not sure if it's worth the hype. Maybe they need to tweak their testing methods?

Quay lại đầu
OR