AI 벤치 마크 : 지금은 무시해야합니까?

집

뉴스

2025년 4월 10일

MarkWilson

216

# openai # xai

TechCrunch의 정기 AI 뉴스레터에 오신 것을 환영합니다! 잠시 휴식을 취하지만, 걱정하지 마세요. TechCrunch에서 제 칼럼, 일일 분석, 속보를 포함한 모든 AI 관련 소식을 여전히 확인할 수 있습니다. 매일 이메일로 이 소식을 받고 싶으신가요? 여기에서 일일 뉴스레터에 가입하세요.

이번 주, 엘론 머스크의 AI 스타트업 xAI가 최신 플래그십 AI 모델 Grok 3를 공개했습니다. 이 모델은 회사의 Grok 챗봇 앱을 구동하며, 무려 200,000개의 GPU로 훈련되었습니다. 수학, 코딩 등의 벤치마크에서 OpenAI의 일부 모델을 포함한 여러 최고 모델을 능가하고 있습니다.

하지만 이 벤치마크가 실제로 의미하는 바를 살펴봅시다.

TC에서는 이러한 벤치마크 수치를 보도하지만, 항상 기뻐하지는 않습니다. 왜냐하면 이는 AI 산업이 모델의 개선을 보여주기 위해 사용하는 몇 안 되는 방법 중 하나이기 때문입니다. 문제는 이러한 인기 있는 AI 벤치마크가 종종 모호한 것에 초점을 맞추고, 사람들이 실제로 중요하게 여기는 작업에서의 AI 성능을 제대로 반영하지 않는 점수로 나타난다는 점입니다.

Wharton의 교수인 Ethan Mollick은 X에서 더 나은 테스트와 이를 수행할 독립적인 단체가 필요하다고 말했습니다. 그는 AI 회사들이 종종 자체 벤치마크 결과를 보고하기 때문에 이를 완전히 신뢰하기 어렵다고 지적했습니다.

"공공 벤치마크는 '그저 그렇다'고 할 수 있으며, 포화 상태에 있어 AI 테스트는 음식 리뷰처럼 취향에 기반한 경우가 많습니다,"라고 Mollick은 썼습니다. "AI가 업무에 중요하다면, 더 많은 것이 필요합니다."

AI를 위한 새로운 벤치마크를 만들려는 사람들이 많지만, 무엇이 최선인지에 대한 합의는 없습니다. 일부는 벤치마크가 유용하려면 경제적 영향에 초점을 맞춰야 한다고 생각하고, 다른 이들은 실세계에서의 채택과 유용성이 성공의 진정한 척도라고 믿습니다.

이 논쟁은 영원히 계속될 수 있습니다. 아마도 X 사용자 Roon이 제안한 것처럼, 새로운 모델과 벤치마크에 덜 신경 쓰고, 주요 AI 돌파구가 있을 때까지 기다리는 것이 정신 건강에 더 좋을지도 모릅니다. 비록 그로 인해 일부 AI 과대 광고를 놓치더라도 말입니다.

앞서 언급했듯이, This Week in AI는 휴식을 취합니다. 독자 여러분, 모든 기복을 함께해 주셔서 감사합니다. 다음에 만나요.

뉴스

이미지 제공: Nathan Laine/Bloomberg / Getty Images

OpenAI는 ChatGPT를 "검열 해제"하려고 합니다. Max는 그들이 "지적 자유"를 수용하기 위해 AI 개발 접근 방식을 변경하고 있으며, 심지어 어렵거나 논란이 되는 주제에서도 이를 적용한다고 썼습니다.

OpenAI의 전 CTO인 Mira Murati는 Thinking Machines Lab이라는 새로운 스타트업을 설립했습니다. 그들은 "[사람들의 고유한 필요와 목표]를 위한 AI 작업"을 만드는 도구를 개발 중입니다.

xAI는 Grok 3를 출시하고 iOS와 웹용 Grok 앱에 새로운 기능을 추가했습니다.

Meta는 올봄 첫 번째 생성 AI 중심 개발자 컨퍼런스를 개최합니다. Llama 모델의 이름을 딴 LlamaCon으로, 4월 29일에 열립니다.

Paul은 약 20개 조직이 참여한 OpenEuroLLM 프로젝트에 대해 썼습니다. 이 프로젝트는 모든 EU 언어의 "언어적, 문화적 다양성"을 존중하는 "유럽의 투명한 AI"를 위한 기반 모델을 구축하는 것입니다.

이번 주의 연구 논문

OpenAI ChatGPT 웹사이트가 노트북 화면에 표시된 이 일러스트레이션 사진에서 보입니다.

이미지 제공: Jakub Porzycki/NurPhoto / Getty Images

OpenAI 연구원들은 AI의 코딩 능력을 테스트하기 위해 SWE-Lancer라는 새로운 AI 벤치마크를 개발했습니다. 이는 버그 수정, 기능 추가, 기술 구현 제안 등 1,400개 이상의 프리랜서 소프트웨어 엔지니어링 작업으로 구성되어 있습니다.

OpenAI는 최고 성능 모델인 Anthropic의 Claude 3.5 Sonnet이 전체 SWE-Lancer 벤치마크에서 40.3%만 기록했다고 밝혔으며, 이는 AI가 아직 갈 길이 멀다는 것을 보여줍니다. 그들은 OpenAI의 o3-mini나 중국의 DeepSeek의 R1 같은 최신 모델은 테스트하지 않았습니다.

이번 주의 모델

Stepfun이라는 중국 AI 회사가 중국어, 영어, 일본어로 음성을 이해하고 생성할 수 있는 "오픈" AI 모델 Step-Audio를 출시했습니다. 사용자는 합성 오디오의 감정과 방언, 심지어 노래까지 조정할 수 있습니다.

Stepfun은 관대한 라이선스로 모델을 출시하는 잘 자금 지원받는 중국 AI 스타트업 중 하나입니다. 2023년에 설립된 이들은 최근 중국 국영 사모펀드 투자자들로부터 수억 달러 규모의 펀딩 라운드를 마무리했습니다.

잡다한 소식

Nous Research DeepHermes

이미지 제공: Nous Research

AI 연구 그룹인 Nous Research는 추론과 "직관적인 언어 모델 기능"을 결합한 최초의 AI 모델 중 하나를 출시했다고 주장합니다.

그들의 모델 DeepHermes-3 Preview는 정확성과 계산 능력을 균형 있게 유지하기 위해 짧고 긴 "사고의 연쇄"를 전환할 수 있습니다. "추론" 모드에서는 더 어려운 문제를 해결하는 데 시간이 더 걸리며, 그 과정에서 사고 과정을 보여줍니다.

Anthropic은 곧 비슷한 모델을 출시할 계획이라고 하며, OpenAI도 단기 로드맵에 있다고 밝혔습니다.

관련 기사

그록, 민주당과 할리우드의 '유대인 경영진'을 비난하는 논란의 발언으로 논란의 중심에 서다 금요일 아침, Elon Musk는 사용자가 AI 어시스턴트와 상호작용할 때 향상된 성능을 경험할 수 있을 것이라며 @Grok에 대한 대대적인 업그레이드를 발표했습니다. 구체적인 내용은 제공되지 않았지만, 앞서 xAI 책임자는 Grok의 학습 데이터에 문제가 있는 콘텐츠 소스가 포함되어 있음을 인정한 후 재학습을 약속한 바 있습니다. 또한 머스크는 X 사용자

AI 에이전트를 활용하여 자선 기금 모금 활동을 강화하는 비영리 단체 주요 기술 기업들이 AI '에이전트'를 기업의 생산성을 높여주는 도구로 홍보하는 가운데, 한 비영리 단체는 사회적 공익을 위한 AI의 잠재력을 입증하고 있습니다. 오픈 필란트로피의 지원을 받는 자선 연구 단체인 세이지 퓨처는 최근 AI 모델이 자선 기금 모금에 어떻게 협력할 수 있는지 보여주는 혁신적인 실험을 진행했습니다.이 비영리 단체는 자선 단체를

최고의 AI 연구소, 인류가 AI 시스템에 대한 이해력을 잃어가고 있다고 경고하다 전례 없는 단결력을 보여준 OpenAI, Google DeepMind, Anthropic, Meta의 연구원들은 경쟁적 차이를 제쳐두고 책임감 있는 AI 개발에 대한 공동의 경고를 발표했습니다. 일반적으로 라이벌 관계에 있는 이들 조직의 40여 명의 선도적인 과학자들은 AI 의사결정 과정의 투명성을 보장하기 위해 빠르게 닫혀가는 창을 강조하는 획기적인 연구

의견 (61)

0/200

제출하다

JonathanDavis

2025년 8월 19일 오후 3시 26분 53초 GMT+09:00

AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.

EdwardWalker

2025년 8월 19일 오후 2시 0분 59초 GMT+09:00

AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?

HarrySmith

2025년 8월 12일 오전 4시 0분 59초 GMT+09:00

AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔

BillyLewis

2025년 8월 4일 오후 3시 1분 0초 GMT+09:00

AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐

JimmyWilson

2025년 8월 1일 오전 11시 48분 18초 GMT+09:00

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔

JohnTaylor

2025년 7월 28일 오전 10시 20분 2초 GMT+09:00

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.

최고의 뉴스

Gemini 2.5 Pro는 이제 Claude보다 무제한과 저렴한 GPT-4O 2025 최고 AI 비디오 생성기: Pika Labs 대 비교 AI 목소리: 현실적인 목소리 제작 궁극 가이드 Cambium의 AI는 폐기물을 목재로 변형시킵니다 OpenAi는 더 나은 채팅을 위해 AI 음성 어시스턴트를 향상시킵니다 AI 통합에 데이터가 신뢰할 수 있는지 확인하는 방법 Notebooklm은 전 세계적으로 확장하고 슬라이드와 향상된 사실 확인을 추가합니다 미국에 대한 조정은 76GW의 새로운 전력 용량을 잠금 해제 할 수 있습니다. Google은 AI를 사용하여 사기의 의심에 대한 3,900 만 광고 계정을 중단합니다. AI 보이스 클로닝: 음성 변환 마스터 가이드

더