вариант
Дом Новости Антропический использовал покемона для сравнения своей новейшей модели искусственного интеллекта

Антропический использовал покемона для сравнения своей новейшей модели искусственного интеллекта

Дата выпуска Дата выпуска 10 апреля 2025 г.
Автор Автор AvaHill
виды виды 41

В удивительном шаге, Антропик решил поместить свою последнюю модель искусственного интеллекта, Claude 3.7 Sonnet, на тест с классической игрой в Game Boy, Pokémon Red. Согласно сообщению в блоге, выпущенном в понедельник, компания получила модель с Essentials: памятью, возможность читать пиксели экрана и мощность нажимать кнопки и перемещаться по экрану игры. Эта установка позволила Claude 3.7 Sonnet погрузиться в мир Pokémon и продолжать играть.

То, что отличает Claude 3.7 Sonnet, - это его умение для «расширенного мышления». Подобно другим моделям, таким как O3-Mini и R1 Deepseek, он может решать трудные проблемы, заставив вычислительную силу и потратив свое сладкое время, чтобы продумать вещи.

Эта функция оказалась переписей в Pokémon Red. В то время как старший сонет Claude 3.0 не мог даже вырваться из стартовой зоны в Палле -Тауне, Claude 3.7 Сонет удалось снять трех лидеров спортзала и зацепить свои значки.

Антропный покемон красный

Кредиты изображения: антроп
Теперь, Антропик не пролил бобы на то, сколько точно необходимо вычислительная мощность или сколько времени потребовалось для сонета Клода 3.7, чтобы достичь этих вех. Они только что упомянули, что модель выполнила колоссальные 35 000 действий, чтобы противостоять последнему лидеру в спортзале «Сурдж».

На прошлой неделе исследователь попробовал ранний предварительный просмотр сонета Claude 3.7.

Результаты были поразительными. Через несколько часов Клод победил Брока. Несколько дней спустя это забило Мисти. Прогресс, который старые модели имели мало надежды на достижение.

Оказывается, расширенное мышление очень эффективно. pic.twitter.com/rspslgj2uf

- Антропический (@Anthropicai) 25 февраля 2025 г.

Прошло не так много времени, прежде чем какой-то умный разработчик выяснит придуманные детали.

В то время как Pokémon Red может показаться немного забавным испытанием, игры фактически использовались для сравнительного анализа AI для веков. В последние несколько месяцев мы увидели множество новых приложений и платформ, чтобы проверить, насколько хорошо модели искусственного интеллекта могут играть все, от уличного истребителя до Pictionary.

Связанная статья
Debates over AI benchmarking have reached Pokémon Debates over AI benchmarking have reached Pokémon Even the beloved world of Pokémon isn't immune to the drama surrounding AI benchmarks. A recent viral post on X stirred up quite the buzz, claiming that Google's latest Gemini model had outpaced Anthropic's leading Claude model in the classic Pokémon video game trilogy. According to the post, Gemini
AI-управляемая рекламная копия Facebook: быстро сгенерировать рекламу AI-управляемая рекламная копия Facebook: быстро сгенерировать рекламу Революция искусственного интеллекта в создании вовлечения рекламных объявлений на Facebook The Whirlwind World of Digital Marketing, возможность быстро привлечь копию рекламного ролика Facebook - не что иное, как необходимо. Введите искусственный интеллект (ИИ), изменение игры, который меняет то, как мы подходим к созданию рекламы. Это руководство d
Генератор рубрики ИИ: Оценка оптимизации с помощью оживленного обучения Генератор рубрики ИИ: Оценка оптимизации с помощью оживленного обучения В динамичном мире образования учителя всегда в поисках инструментов, которые могут упростить их работу при повышении обучения учащихся. Введите генератор Brisk Teaching's AI Рубрики-изменение игры в сфере оценки. Этот изящный инструмент помогает преподавателям создавать персонализированные рубрики в Snap, en
Комментарии (15)
GeorgeWilliams
GeorgeWilliams 11 апреля 2025 г., 17:22:08 GMT

Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮

StephenGreen
StephenGreen 12 апреля 2025 г., 3:40:24 GMT

ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮

RogerSanchez
RogerSanchez 13 апреля 2025 г., 5:05:35 GMT

포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮

HenryTurner
HenryTurner 14 апреля 2025 г., 22:24:40 GMT

Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮

JohnGarcia
JohnGarcia 14 апреля 2025 г., 19:59:47 GMT

¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮

TerryGonzález
TerryGonzález 12 апреля 2025 г., 4:11:07 GMT

Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂

Вернуться к вершине
OR