메타의 AI 모델 벤치 마크 : 오도?

그래서, 메타가 주말에 새로운 AI 모델인 Maverick을 공개했는데, 이미 LM Arena에서 2위를 차지하며 파장을 일으키고 있습니다. 아시다시피, 그곳은 사람들이 판사와 배심원 역할을 하며 다양한 AI 모델을 비교하고 마음에 드는 것을 선택하는 곳입니다. 하지만, 잠깐! 여기서 반전이 있습니다! LM Arena에서 멋지게 활약 중인 Maverick 버전은 개발자가 다운로드해서 사용할 수 있는 버전과는 조금 다르다는 것이 밝혀졌습니다.
X(예전 트위터로 알려진 플랫폼)에서 예리한 AI 연구원들이 메타가 LM Arena 버전을 "실험적 대화 버전"이라고 불렀다는 것을 발견했습니다. 그리고 Llama 웹사이트를 살펴보면, 테스트가 "대화에 최적화된 Llama 4 Maverick"으로 이루어졌다고 밝히는 차트가 있습니다. 이전에도 이야기했지만, LM Arena는 AI 성능을 측정하는 데 있어 최고의 기준은 아닙니다. 대부분의 AI 회사들은 이 테스트에서 더 높은 점수를 얻기 위해 모델을 조작하지 않거나, 적어도 그렇게 인정하지 않습니다.
문제는, 벤치마크에서 좋은 성적을 내도록 모델을 조정한 뒤, 일반 사용자에게는 다른 "기본" 버전을 공개하면, 개발자들이 실제 시나리오에서 모델이 얼마나 잘 작동할지 파악하기 어렵다는 점입니다. 게다가, 이건 좀 오해의 소지가 있지 않나요? 벤치마크는, 결함이 있더라도, 모델이 다양한 작업에서 무엇을 할 수 있고 할 수 없는지에 대한 명확한 그림을 제공해야 합니다.
X의 연구원들은 다운로드 가능한 Maverick과 LM Arena의 Maverick 사이에 큰 차이가 있다는 것을 빠르게 알아차렸습니다. Arena 버전은 이모지를 많이 사용하고, 길고 장황한 답변을 제공하는 것을 좋아한다고 합니다.
좋아요, Llama 4는 확실히 좀 과장된 느낌이네요 lol, 이건 뭐 수다 도시인가요 pic.twitter.com/y3GvhbVz65
— Nathan Lambert (@natolambert) 2025년 4월 6일
어떤 이유로, Arena의 Llama 4 모델은 이모지를 훨씬 더 많이 사용합니다
together.ai에서는 더 나아 보입니다: pic.twitter.com/f74ODX4zTt
— Tech Dev Notes (@techdevnotes) 2025년 4월 6일
우리는 메타와 LM Arena를 운영하는 Chatbot Arena 팀에 연락해 이에 대해 어떤 입장인지 알아봤습니다. 계속 지켜봐 주세요!
관련 기사
Google, EU의 AI 실천 강령 준수 약속, 산업 논쟁 속에서
Google은 AI 개발자들이 EU의 AI 법을 준수하는 프로세스와 시스템을 구현하도록 돕기 위해 설계된 유럽연합의 자발적 AI 실천 강령을 채택하겠다고 약속했습니다.반면, Meta는 최근 이 강령 서명을 거부하며 EU의 AI 규제를 과도하다고 비판하고, 유럽의 접근 방식이 AI 발전을 저해할 수 있다고 경고했습니다.Google의 결정은 8월 2일부터 시행
메타, AI 인재에게 높은 연봉 제공, 1억 달러 서명 보너스 부인
메타는 새로운 슈퍼인텔리전스 연구소에 AI 연구자들을 유치하기 위해 수백만 달러 규모의 보상 패키지를 제공하고 있다. 그러나 모집된 연구자와 유출된 내부 회의 발언에 따르면 1억 달러 "서명 보너스" 주장은 사실이 아니다.더 버지(The Verge)가 목요일 보도한 유출된 회사 전체 회의에서 메타 경영진은 오픈AI CEO 샘 알트먼이 메타가 최고 연구자들에
Meta, 고급 Llama 도구로 AI 보안 강화
Meta는 AI 개발을 강화하고 새로운 위협으로부터 보호하기 위해 새로운 Llama 보안 도구를 출시했습니다.이러한 업그레이드된 Llama AI 모델 보안 도구는 Meta의 새로운 리소스와 함께 제공되어 사이버 보안 팀이 AI를 방어에 활용할 수 있도록 지원하며, 모든 AI 이해관계자의 안전을 강화하는 것을 목표로 합니다.Llama 모델을 사용하는 개발자는
의견 (36)
0/200
ScottWalker
2025년 7월 28일 오전 10시 20분 54초 GMT+09:00
Meta's Maverick hitting second on LM Arena? Impressive, but I'm skeptical about those benchmarks. Feels like a hype train—wonder if it’s more flash than substance. 🤔 Anyone tested it in real-world tasks yet?
0
KennethMartin
2025년 4월 21일 오후 7시 14분 21초 GMT+09:00
Meta's Maverick AI model is impressive, snagging second place on LM Arena! But are the benchmarks really telling the whole story? It's cool to see AI models go head-to-head, but I'm not sure if it's all fair play. Makes you wonder, right? 🤔 Maybe we need a more transparent way to judge these models!
0
WalterThomas
2025년 4월 21일 오전 11시 55분 14초 GMT+09:00
मेटा का नया AI मॉडल, मैवरिक, LM एरिना में दूसरे स्थान पर पहुंचा! यह प्रभावशाली है, लेकिन क्या बेंचमार्क वास्तव में पूरी कहानी बता रहे हैं? AI मॉडल्स को आपस में प्रतिस्पर्धा करते देखना मजेदार है, लेकिन मुझे नहीं पता कि यह निष्पक्ष है या नहीं। आपको सोचने पर मजबूर करता है, है ना? 🤔 शायद हमें इन मॉडल्स को जज करने का एक और पारदर्शी तरीका चाहिए!
0
JohnYoung
2025년 4월 19일 오전 12시 3분 42초 GMT+09:00
메타의 새로운 AI 모델, 마브릭이 LM Arena에서 2위를 차지하다니 대단해요! 하지만 벤치마크가 정말 모든 것을 말해주고 있는지 궁금해요. AI 모델 간의 경쟁은 재미있지만, 공정한지 확신할 수 없네요. 더 투명한 평가 방법이 필요할 것 같아요 🤔
0
JohnHernández
2025년 4월 18일 오전 1시 58분 48초 GMT+09:00
Meta's Maverick AI model snagging second place on LM Arena is pretty cool, but the benchmarks might be a bit off! 🤔 It's fun to see these models go head-to-head, but I'm not sure if the results are totally fair. Worth keeping an eye on! 👀
0
MarkScott
2025년 4월 17일 오후 2시 54분 17초 GMT+09:00
Модель ИИ Maverick от Meta заняла второе место на LM Arena, это круто, но бенчмарки могут быть немного не точными! 🤔 Забавно наблюдать за соревнованием этих моделей, но я не уверен, что результаты полностью справедливы. Стоит за этим следить! 👀
0
그래서, 메타가 주말에 새로운 AI 모델인 Maverick을 공개했는데, 이미 LM Arena에서 2위를 차지하며 파장을 일으키고 있습니다. 아시다시피, 그곳은 사람들이 판사와 배심원 역할을 하며 다양한 AI 모델을 비교하고 마음에 드는 것을 선택하는 곳입니다. 하지만, 잠깐! 여기서 반전이 있습니다! LM Arena에서 멋지게 활약 중인 Maverick 버전은 개발자가 다운로드해서 사용할 수 있는 버전과는 조금 다르다는 것이 밝혀졌습니다.
X(예전 트위터로 알려진 플랫폼)에서 예리한 AI 연구원들이 메타가 LM Arena 버전을 "실험적 대화 버전"이라고 불렀다는 것을 발견했습니다. 그리고 Llama 웹사이트를 살펴보면, 테스트가 "대화에 최적화된 Llama 4 Maverick"으로 이루어졌다고 밝히는 차트가 있습니다. 이전에도 이야기했지만, LM Arena는 AI 성능을 측정하는 데 있어 최고의 기준은 아닙니다. 대부분의 AI 회사들은 이 테스트에서 더 높은 점수를 얻기 위해 모델을 조작하지 않거나, 적어도 그렇게 인정하지 않습니다.
문제는, 벤치마크에서 좋은 성적을 내도록 모델을 조정한 뒤, 일반 사용자에게는 다른 "기본" 버전을 공개하면, 개발자들이 실제 시나리오에서 모델이 얼마나 잘 작동할지 파악하기 어렵다는 점입니다. 게다가, 이건 좀 오해의 소지가 있지 않나요? 벤치마크는, 결함이 있더라도, 모델이 다양한 작업에서 무엇을 할 수 있고 할 수 없는지에 대한 명확한 그림을 제공해야 합니다.
X의 연구원들은 다운로드 가능한 Maverick과 LM Arena의 Maverick 사이에 큰 차이가 있다는 것을 빠르게 알아차렸습니다. Arena 버전은 이모지를 많이 사용하고, 길고 장황한 답변을 제공하는 것을 좋아한다고 합니다.
좋아요, Llama 4는 확실히 좀 과장된 느낌이네요 lol, 이건 뭐 수다 도시인가요 pic.twitter.com/y3GvhbVz65
— Nathan Lambert (@natolambert) 2025년 4월 6일
어떤 이유로, Arena의 Llama 4 모델은 이모지를 훨씬 더 많이 사용합니다
— Tech Dev Notes (@techdevnotes) 2025년 4월 6일
together.ai에서는 더 나아 보입니다: pic.twitter.com/f74ODX4zTt
우리는 메타와 LM Arena를 운영하는 Chatbot Arena 팀에 연락해 이에 대해 어떤 입장인지 알아봤습니다. 계속 지켜봐 주세요!



Meta's Maverick hitting second on LM Arena? Impressive, but I'm skeptical about those benchmarks. Feels like a hype train—wonder if it’s more flash than substance. 🤔 Anyone tested it in real-world tasks yet?




Meta's Maverick AI model is impressive, snagging second place on LM Arena! But are the benchmarks really telling the whole story? It's cool to see AI models go head-to-head, but I'm not sure if it's all fair play. Makes you wonder, right? 🤔 Maybe we need a more transparent way to judge these models!




मेटा का नया AI मॉडल, मैवरिक, LM एरिना में दूसरे स्थान पर पहुंचा! यह प्रभावशाली है, लेकिन क्या बेंचमार्क वास्तव में पूरी कहानी बता रहे हैं? AI मॉडल्स को आपस में प्रतिस्पर्धा करते देखना मजेदार है, लेकिन मुझे नहीं पता कि यह निष्पक्ष है या नहीं। आपको सोचने पर मजबूर करता है, है ना? 🤔 शायद हमें इन मॉडल्स को जज करने का एक और पारदर्शी तरीका चाहिए!




메타의 새로운 AI 모델, 마브릭이 LM Arena에서 2위를 차지하다니 대단해요! 하지만 벤치마크가 정말 모든 것을 말해주고 있는지 궁금해요. AI 모델 간의 경쟁은 재미있지만, 공정한지 확신할 수 없네요. 더 투명한 평가 방법이 필요할 것 같아요 🤔




Meta's Maverick AI model snagging second place on LM Arena is pretty cool, but the benchmarks might be a bit off! 🤔 It's fun to see these models go head-to-head, but I'm not sure if the results are totally fair. Worth keeping an eye on! 👀




Модель ИИ Maverick от Meta заняла второе место на LM Arena, это круто, но бенчмарки могут быть немного не точными! 🤔 Забавно наблюдать за соревнованием этих моделей, но я не уверен, что результаты полностью справедливы. Стоит за этим следить! 👀












