Trang chủ Tin tức Các cuộc tranh luận về điểm chuẩn AI đã đạt đến Pokémon

Các cuộc tranh luận về điểm chuẩn AI đã đạt đến Pokémon

Ngày 03 tháng 5 năm 2025
JonathanDavis
0

Các cuộc tranh luận về điểm chuẩn AI đã đạt đến Pokémon

Ngay cả thế giới yêu quý của Pokémon cũng không miễn nhiễm với bộ phim xung quanh điểm chuẩn của AI. Một bài đăng lan truyền gần đây trên X đã khuấy động khá buzz, tuyên bố rằng mô hình Song Tử mới nhất của Google đã vượt xa mô hình Claude hàng đầu của Anthropic trong bộ ba trò chơi video Pokémon cổ điển. Theo The Post, Song Tử đã ấn tượng đến thị trấn hoa oải hương trong dòng co giật của nhà phát triển, trong khi Claude bị tụt lại phía sau tại Mount Moon vào cuối tháng Hai.

Song Tử theo nghĩa đen đi trước Claude atm ở Pokemon sau khi đến thị trấn hoa oải hương

119 lượt xem trực tiếp chỉ btw, stream pic được đánh giá thấp đến mức đáng kinh ngạc.twitter.com/8avsovai4x

- Jush (@jush21e8) ngày 10 tháng 4 năm 2025

Tuy nhiên, những gì bài đăng này thuận tiện bị bỏ rơi là thực tế rằng Gemini có một chút lợi thế không công bằng. Người dùng hiểu biết trên Reddit đã nhanh chóng chỉ ra rằng nhà phát triển đằng sau luồng Gemini đã tạo ra một Minimap tùy chỉnh. Công cụ tiện lợi này hỗ trợ mô hình trong việc nhận ra "gạch" trong trò chơi, chẳng hạn như cây có thể cắt, giúp giảm đáng kể thời gian Song Tử cần phải dành để phân tích ảnh chụp màn hình trước khi quyết định bước tiếp theo của nó.

Bây giờ, trong khi Pokémon có thể không phải là điểm chuẩn AI nghiêm trọng nhất hiện có, nhưng nó đóng vai trò là một ví dụ thú vị nhưng nói về cách các thiết lập khác nhau có thể làm lệch kết quả của các thử nghiệm này. Ví dụ, lấy mô hình gần đây của Anthropic, Anthropic 3.7 Sonnet. Trên điểm chuẩn được xác minh trên băng ghế, có nghĩa là để kiểm tra năng lực mã hóa, nó đạt độ chính xác 62,3%. Nhưng, với một "giàn giáo tùy chỉnh" mà nhân học đã đánh bại, điểm số đó đã tăng lên 70,3%.

Và nó không dừng lại ở đó. Meta đã lấy một trong những mẫu xe mới hơn của mình, Llama 4 Maverick và tinh chỉnh nó đặc biệt cho điểm chuẩn LM Arena. Phiên bản vani của mô hình không có giá trị gần như trong cùng một thử nghiệm.

Cho rằng các điểm chuẩn của AI, bao gồm ví dụ Pokémon thân thiện của chúng tôi, đã có một chút khó chịu, những điều chỉnh tùy chỉnh và cách tiếp cận không chuẩn này chỉ khiến cho việc đưa ra các so sánh có ý nghĩa hơn giữa các mô hình khi chúng được tung ra thị trường. Có vẻ như so sánh táo với táo có thể trở nên khó khăn hơn vào ban ngày.

Bài viết liên quan
Top 10 herramientas de marketing de IA para abril de 2025 Top 10 herramientas de marketing de IA para abril de 2025 La inteligencia artificial (IA) está sacudiendo a las industrias a la izquierda y a la derecha, y el marketing no es una excepción. Desde pequeñas nuevas empresas hasta grandes corporaciones, las empresas recurren cada vez más a las herramientas de marketing de IA para impulsar la visibilidad de su marca e impulsar su crecimiento. Incorporando estas herramientas en su negocio
Wikipedia está dando a los desarrolladores de IA sus datos para defenderse de los raspadores de bots Wikipedia está dando a los desarrolladores de IA sus datos para defenderse de los raspadores de bots La nueva estrategia de Wikipedia para administrar datos de IA raspando Wikipedia, a través de la Fundación Wikimedia, está dando un paso proactivo para gestionar el impacto del raspado de datos de IA en sus servidores. El miércoles, anunciaron una colaboración con Kaggle, una plataforma propiedad de Google y dedicada a la ciencia de datos y
El avance de hardware de IA de Huawei plantea el desafío para el dominio de Nvidia El avance de hardware de IA de Huawei plantea el desafío para el dominio de Nvidia El audaz movimiento de Huawei en la carrera mundial de chips de IA, Huawei, el gigante tecnológico chino, ha dado un paso adelante significativo que podría sacudir la carrera global de chips de IA. Han introducido un nuevo sistema de computación llamado CloudMatrix 384 SuperNode, que, según los medios locales, supera a TechnO similar
Nhận xét (0)
0/200
Back to Top
OR