메타의 AI 모델 벤치 마크 : 오도?

그래서 메타는 주말 동안 새로운 AI 모델 인 Maverick을 떨어 뜨 렸으며 LM Arena에서 2 위를 차지하여 이미 파도를 만들고 있습니다. 알다시피, 그것은 인간이 판사와 배심원을 플레이하여 다양한 AI 모델을 비교하고 즐겨 찾기를 선택하는 곳입니다. 그러나, 계속, 왜곡이 있습니다! LM Arena에서 그 물건을 스트리핑하는 Maverick 버전은 개발자로 다운로드하고 플레이 할 수있는 것과 다릅니다.
X의 일부 독수리 AI 연구원 (예, 이전에 Twitter로 알려진 플랫폼)은 메타가 LM Arena 버전을 "실험 채팅 버전"이라고 불렀습니다. 그리고 라마 웹 사이트를 들여다 보면 콩을 쏟아 부는 차트가 있습니다. "Llama 4 Maverick은 대화 성을 최적화했습니다." 이제 우리는 이전에 이것에 대해 이야기했지만 LM Arena는 AI 성능을 측정하기위한 골드 표준이 아닙니다. 대부분의 AI 회사는이 테스트에서 더 나은 점수를 받기 위해 모델을 엉망으로 만들지 않습니다. 또는 적어도 인정하지 않습니다.
문제는 벤치 마크를 ACE로 만들기 위해 모델을 조정했지만 다른 "바닐라"버전을 대중에게 공개 할 때 개발자가 실제 시나리오에서 모델이 실제로 얼마나 잘 수행 할 것인지 알아 내기가 어렵다는 것입니다. 게다가, 그것은 오해의 소지가 있습니다. 그대로 결함이있는 벤치 마크는 모델이 다른 작업에서 할 수 있고 할 수없는 일에 대한 명확한 그림을 제공해야합니다.
X의 연구원들은 다운로드 할 수있는 Maverick과 LM Arena의 큰 차이점을 신속하게 알 수있었습니다. 경기장 버전은 분명히 이모티콘에 관한 것이며 당신에게 길고 뽑은 답변을주는 것을 좋아합니다.
좋아 라마 4 는 끔찍한 요리 LOL입니다.
- Nathan Lambert (@Natolambert) 2025 년 4 월 6 일
어떤 이유로, Arena의 Llama 4 모델은 훨씬 더 많은 이모티콘을 사용합니다.
함께. AI, 더 좋아 보인다 : pic.twitter.com/f74odx4ztt
- Tech Dev Notes (@techdevnotes) 2025 년 4 월 6 일
우리는 LM Arena를 운영하는 Chatbot Arena의 메타와 사람들 에게이 모든 것에 대해 무엇을 말해야하는지 확인했습니다. 계속 지켜봐!
관련 기사
Meta AI在歐盟推出並實施限制
Meta 的由人工智能驱动的虛擬助手 Meta AI,終於在歐洲聯盟登陸,這是在與歐洲隱私當局的激烈規管爭議中實現的。該公司在星期四宣布,這個類似聊天機器人的工具將整合到其社交平台套件中,不過其功能比美國市場上的版本更加有限。在另一項發展中,Meta 向 TechCrunch 確認,Meta AI 即將在英國的 WhatsApp 上推出,從最初於去年十月在
OpenAI 聘請前Facebook應用程式負責人
菲吉·西莫加入OpenAI担任应用程序业务主管OpenAI通过聘请现任Instacart首席执行官兼前Facebook应用程序负责人菲吉·西莫来领导其应用程序业务,引起了广泛关注。这一任命直接来自高层,OpenAI首席执行官山姆·阿尔特曼在X上分享道,这个新职位将使他能够更多地关注研究、计算和安全性。显然,他们正在为应用程序领域的某些令人兴奋的发展奠定基础!
Meta預測到2035年生成性AI收入將達1.4萬億美元
去年,Meta大膽預測其生成式AI產品到2025年將產生20億至30億美元的收入。展望更遠的未來,他們預計到2035年將增長到驚人的4600億至1.4兆美元之間。這些預測是在週三浮出水面的法庭文件中揭示的,當時正值書籍作者對Meta提起訴訟。他們指控該公司未經許可就用他們的作品訓練AI。然而,文件並未具體說明Meta將何謂“生成式AI產品”。不過,眾所周知,
의견 (35)
0/200
JerryGonzalez
2025년 4월 10일 오전 12시 0분 0초 GMT
Meta's AI model benchmarks seem a bit off to me. Maverick got second place, but I've used it and it's not that great. The interface is clunky and the results are hit or miss. Maybe they're just trying to hype it up? I'd give it a pass for now.
0
CarlKing
2025년 4월 10일 오전 12시 0분 0초 GMT
MetaのAIモデルのベンチマークは私には少しおかしいように感じます。Maverickは2位を獲得しましたが、使ってみた感じではそれほど良くありません。インターフェースがぎこちなく、結果も当たり外れがあります。もしかしたら、ただ盛り上げようとしているだけかもしれませんね。今はパスしておきます。
0
SamuelEvans
2025년 4월 10일 오전 12시 0분 0초 GMT
Meta의 AI 모델 벤치마크가 내겐 좀 이상해 보여. Maverick이 2위를 했지만, 써보니 그리 대단하지 않아. 인터페이스가 어색하고 결과도 들쑥날쑥해. 어쩌면 그냥 과대광고하려고 하는 건지도 몰라. 지금은 패스할게.
0
BenWalker
2025년 4월 10일 오전 12시 0분 0초 GMT
Os benchmarks do modelo de IA da Meta parecem um pouco estranhos para mim. O Maverick ficou em segundo lugar, mas eu usei e não é tão bom assim. A interface é desajeitada e os resultados são inconsistentes. Talvez eles estejam apenas tentando criar hype? Eu passaria por agora.
0
RobertLewis
2025년 4월 10일 오전 12시 0분 0초 GMT
Los benchmarks del modelo de IA de Meta me parecen un poco extraños. Maverick quedó en segundo lugar, pero lo he usado y no es tan bueno. La interfaz es torpe y los resultados son inconsistentes. ¿Quizás solo están tratando de generar hype? Por ahora, lo dejaría pasar.
0
KevinBaker
2025년 4월 12일 오전 12시 0분 0초 GMT
I tried Meta's Maverick and it's pretty good, but those benchmarks seem a bit off to me. It's not as smooth as they claim, and sometimes it's just plain wrong. I'm not sure if it's worth the hype. Maybe they need to tweak their testing methods?
0
그래서 메타는 주말 동안 새로운 AI 모델 인 Maverick을 떨어 뜨 렸으며 LM Arena에서 2 위를 차지하여 이미 파도를 만들고 있습니다. 알다시피, 그것은 인간이 판사와 배심원을 플레이하여 다양한 AI 모델을 비교하고 즐겨 찾기를 선택하는 곳입니다. 그러나, 계속, 왜곡이 있습니다! LM Arena에서 그 물건을 스트리핑하는 Maverick 버전은 개발자로 다운로드하고 플레이 할 수있는 것과 다릅니다.
X의 일부 독수리 AI 연구원 (예, 이전에 Twitter로 알려진 플랫폼)은 메타가 LM Arena 버전을 "실험 채팅 버전"이라고 불렀습니다. 그리고 라마 웹 사이트를 들여다 보면 콩을 쏟아 부는 차트가 있습니다. "Llama 4 Maverick은 대화 성을 최적화했습니다." 이제 우리는 이전에 이것에 대해 이야기했지만 LM Arena는 AI 성능을 측정하기위한 골드 표준이 아닙니다. 대부분의 AI 회사는이 테스트에서 더 나은 점수를 받기 위해 모델을 엉망으로 만들지 않습니다. 또는 적어도 인정하지 않습니다.
문제는 벤치 마크를 ACE로 만들기 위해 모델을 조정했지만 다른 "바닐라"버전을 대중에게 공개 할 때 개발자가 실제 시나리오에서 모델이 실제로 얼마나 잘 수행 할 것인지 알아 내기가 어렵다는 것입니다. 게다가, 그것은 오해의 소지가 있습니다. 그대로 결함이있는 벤치 마크는 모델이 다른 작업에서 할 수 있고 할 수없는 일에 대한 명확한 그림을 제공해야합니다.
X의 연구원들은 다운로드 할 수있는 Maverick과 LM Arena의 큰 차이점을 신속하게 알 수있었습니다. 경기장 버전은 분명히 이모티콘에 관한 것이며 당신에게 길고 뽑은 답변을주는 것을 좋아합니다.
좋아 라마 4 는 끔찍한 요리 LOL입니다.
- Nathan Lambert (@Natolambert) 2025 년 4 월 6 일
어떤 이유로, Arena의 Llama 4 모델은 훨씬 더 많은 이모티콘을 사용합니다.
- Tech Dev Notes (@techdevnotes) 2025 년 4 월 6 일
함께. AI, 더 좋아 보인다 : pic.twitter.com/f74odx4ztt
우리는 LM Arena를 운영하는 Chatbot Arena의 메타와 사람들 에게이 모든 것에 대해 무엇을 말해야하는지 확인했습니다. 계속 지켜봐!




Meta's AI model benchmarks seem a bit off to me. Maverick got second place, but I've used it and it's not that great. The interface is clunky and the results are hit or miss. Maybe they're just trying to hype it up? I'd give it a pass for now.




MetaのAIモデルのベンチマークは私には少しおかしいように感じます。Maverickは2位を獲得しましたが、使ってみた感じではそれほど良くありません。インターフェースがぎこちなく、結果も当たり外れがあります。もしかしたら、ただ盛り上げようとしているだけかもしれませんね。今はパスしておきます。




Meta의 AI 모델 벤치마크가 내겐 좀 이상해 보여. Maverick이 2위를 했지만, 써보니 그리 대단하지 않아. 인터페이스가 어색하고 결과도 들쑥날쑥해. 어쩌면 그냥 과대광고하려고 하는 건지도 몰라. 지금은 패스할게.




Os benchmarks do modelo de IA da Meta parecem um pouco estranhos para mim. O Maverick ficou em segundo lugar, mas eu usei e não é tão bom assim. A interface é desajeitada e os resultados são inconsistentes. Talvez eles estejam apenas tentando criar hype? Eu passaria por agora.




Los benchmarks del modelo de IA de Meta me parecen un poco extraños. Maverick quedó en segundo lugar, pero lo he usado y no es tan bueno. La interfaz es torpe y los resultados son inconsistentes. ¿Quizás solo están tratando de generar hype? Por ahora, lo dejaría pasar.




I tried Meta's Maverick and it's pretty good, but those benchmarks seem a bit off to me. It's not as smooth as they claim, and sometimes it's just plain wrong. I'm not sure if it's worth the hype. Maybe they need to tweak their testing methods?












