소식 AI 벤치마킹에 대한 논쟁은 Pokémon에 도달했습니다

AI 벤치마킹에 대한 논쟁은 Pokémon에 도달했습니다

2025년 5월 3일
JonathanDavis
0

AI 벤치마킹에 대한 논쟁은 Pokémon에 도달했습니다

사랑하는 포켓몬의 세계조차도 AI 벤치 마크를 둘러싼 드라마에 면역이되지 않습니다. X의 최근 바이러스 성 게시물은 Google의 최신 Gemini 모델이 Classic Pokémon Video Game Trilogy에서 Anthropic의 주요 클로드 모델을 능가했다고 주장하면서 상당히 화제를 불러 일으켰습니다. 이 포스트에 따르면, Gemini는 개발자의 Twitch 스트림에서 Lavender Town에 인상적으로 그것을 만들었고 Claude는 2 월 말에 Mount Moon에서 뒤쳐졌습니다.

Gemini는 Lavender Town에 도착한 후 Pokemon의 Claude ATM보다 문자 그대로 앞서 있습니다.

119 라이브 조회수 만 BTW, 믿을 수 없을 정도로 과소 평가 된 스트림 pic.twitter.com/8avsovai4x

- Jush (@jush21e8) 2025 년 4 월 10 일

그러나이 게시물이 편리하게 제외 된 것은 Gemini가 약간의 불공정 한 이점을 가지고 있다는 사실이었습니다. Reddit의 정통한 사용자는 Gemini 스트림 뒤에있는 개발자가 사용자 정의 최소 맵을 만들었다 고 신속하게 지적했습니다. 이 멋진 도구는 Cuttable Trees와 같은 게임에서 "타일"을 인식하는 데 모델을 돕습니다. 이는 Gemini가 다음 움직임을 결정하기 전에 스크린 샷을 분석하는 데 소요되는 시간을 크게 줄입니다.

이제 Pokémon이 가장 심각한 AI 벤치 마크가 아닐 수도 있지만, 다른 설정이 이러한 테스트의 결과를 어떻게 왜곡시킬 수 있는지에 대한 재미있는 예제 역할을합니다. 예를 들어 Anthropic의 최근 모델 인 Anthropic 3.7 Sonnet을 가져 가십시오. 코딩 능력을 테스트하기위한 SWE 벤치 검증 벤치 마크에서는 62.3%의 정확도를 기록했습니다. 그러나 인위적인 "커스텀 스캐 폴드"로 그 점수는 70.3%로 증가했습니다.

그리고 그것은 거기서 멈추지 않습니다. Meta는 최신 모델 중 하나 인 Llama 4 Maverick을 가져 와서 LM Arena 벤치 마크를 위해 특별히 조정했습니다. 모델의 바닐라 버전은 동일한 테스트에서 거의 잘 맞지 않았습니다.

친근한 Pokémon 예제를 포함한 AI 벤치 마크가 이미 약간의 인기를 얻지 못한다는 점을 감안할 때, 이러한 맞춤형 조정과 비표준 접근 방식은 시장에 출시 될 때 모델 간의 의미있는 비교를 이끌어내는 것이 더 까다로워집니다. 사과와 사과를 비교하는 것이 하루 종일 점점 어려워 질 것 같습니다.

관련 기사
Top 10 AI Marketing Tools for April 2025 Top 10 AI Marketing Tools for April 2025 Artificial intelligence (AI) is shaking up industries left and right, and marketing is no exception. From small startups to big corporations, businesses are increasingly turning to AI marketing tools to boost their brand visibility and drive their growth. Incorporating these tools into your business
Wikipedia is giving AI developers its data to fend off bot scrapers Wikipedia is giving AI developers its data to fend off bot scrapers Wikipedia's New Strategy to Manage AI Data Scraping Wikipedia, through the Wikimedia Foundation, is taking a proactive step to manage the impact of AI data scraping on its servers. On Wednesday, they announced a collaboration with Kaggle, a platform owned by Google and dedicated to data science and
Huawei's AI Hardware Breakthrough Poses Challenge to Nvidia's Dominance Huawei's AI Hardware Breakthrough Poses Challenge to Nvidia's Dominance Huawei's Bold Move in the Global AI Chip Race Huawei, the Chinese tech giant, has taken a significant step forward that could shake up the global AI chip race. They've introduced a new computing system called the CloudMatrix 384 Supernode, which, according to local media, outperforms similar techno
의견 (0)
0/200
Back to Top
OR