AI 벤치 마크 : 지금은 무시해야합니까?
TechCrunch의 정기 AI 뉴스레터에 오신 것을 환영합니다! 잠시 휴식을 취하지만, 걱정하지 마세요. TechCrunch에서 제 칼럼, 일일 분석, 속보를 포함한 모든 AI 관련 소식을 여전히 확인할 수 있습니다. 매일 이메일로 이 소식을 받고 싶으신가요? 여기에서 일일 뉴스레터에 가입하세요.
이번 주, 엘론 머스크의 AI 스타트업 xAI가 최신 플래그십 AI 모델 Grok 3를 공개했습니다. 이 모델은 회사의 Grok 챗봇 앱을 구동하며, 무려 200,000개의 GPU로 훈련되었습니다. 수학, 코딩 등의 벤치마크에서 OpenAI의 일부 모델을 포함한 여러 최고 모델을 능가하고 있습니다.
하지만 이 벤치마크가 실제로 의미하는 바를 살펴봅시다.
TC에서는 이러한 벤치마크 수치를 보도하지만, 항상 기뻐하지는 않습니다. 왜냐하면 이는 AI 산업이 모델의 개선을 보여주기 위해 사용하는 몇 안 되는 방법 중 하나이기 때문입니다. 문제는 이러한 인기 있는 AI 벤치마크가 종종 모호한 것에 초점을 맞추고, 사람들이 실제로 중요하게 여기는 작업에서의 AI 성능을 제대로 반영하지 않는 점수로 나타난다는 점입니다.
Wharton의 교수인 Ethan Mollick은 X에서 더 나은 테스트와 이를 수행할 독립적인 단체가 필요하다고 말했습니다. 그는 AI 회사들이 종종 자체 벤치마크 결과를 보고하기 때문에 이를 완전히 신뢰하기 어렵다고 지적했습니다.
"공공 벤치마크는 '그저 그렇다'고 할 수 있으며, 포화 상태에 있어 AI 테스트는 음식 리뷰처럼 취향에 기반한 경우가 많습니다,"라고 Mollick은 썼습니다. "AI가 업무에 중요하다면, 더 많은 것이 필요합니다."
AI를 위한 새로운 벤치마크를 만들려는 사람들이 많지만, 무엇이 최선인지에 대한 합의는 없습니다. 일부는 벤치마크가 유용하려면 경제적 영향에 초점을 맞춰야 한다고 생각하고, 다른 이들은 실세계에서의 채택과 유용성이 성공의 진정한 척도라고 믿습니다.
이 논쟁은 영원히 계속될 수 있습니다. 아마도 X 사용자 Roon이 제안한 것처럼, 새로운 모델과 벤치마크에 덜 신경 쓰고, 주요 AI 돌파구가 있을 때까지 기다리는 것이 정신 건강에 더 좋을지도 모릅니다. 비록 그로 인해 일부 AI 과대 광고를 놓치더라도 말입니다.
앞서 언급했듯이, This Week in AI는 휴식을 취합니다. 독자 여러분, 모든 기복을 함께해 주셔서 감사합니다. 다음에 만나요.
뉴스

이미지 제공: Nathan Laine/Bloomberg / Getty Images OpenAI는 ChatGPT를 "검열 해제"하려고 합니다. Max는 그들이 "지적 자유"를 수용하기 위해 AI 개발 접근 방식을 변경하고 있으며, 심지어 어렵거나 논란이 되는 주제에서도 이를 적용한다고 썼습니다.OpenAI의 전 CTO인 Mira Murati는 Thinking Machines Lab이라는 새로운 스타트업을 설립했습니다. 그들은 "[사람들의 고유한 필요와 목표]를 위한 AI 작업"을 만드는 도구를 개발 중입니다.
xAI는 Grok 3를 출시하고 iOS와 웹용 Grok 앱에 새로운 기능을 추가했습니다.
Meta는 올봄 첫 번째 생성 AI 중심 개발자 컨퍼런스를 개최합니다. Llama 모델의 이름을 딴 LlamaCon으로, 4월 29일에 열립니다.
Paul은 약 20개 조직이 참여한 OpenEuroLLM 프로젝트에 대해 썼습니다. 이 프로젝트는 모든 EU 언어의 "언어적, 문화적 다양성"을 존중하는 "유럽의 투명한 AI"를 위한 기반 모델을 구축하는 것입니다.
이번 주의 연구 논문

이미지 제공: Jakub Porzycki/NurPhoto / Getty Images OpenAI 연구원들은 AI의 코딩 능력을 테스트하기 위해 SWE-Lancer라는 새로운 AI 벤치마크를 개발했습니다. 이는 버그 수정, 기능 추가, 기술 구현 제안 등 1,400개 이상의 프리랜서 소프트웨어 엔지니어링 작업으로 구성되어 있습니다.OpenAI는 최고 성능 모델인 Anthropic의 Claude 3.5 Sonnet이 전체 SWE-Lancer 벤치마크에서 40.3%만 기록했다고 밝혔으며, 이는 AI가 아직 갈 길이 멀다는 것을 보여줍니다. 그들은 OpenAI의 o3-mini나 중국의 DeepSeek의 R1 같은 최신 모델은 테스트하지 않았습니다.
이번 주의 모델
Stepfun이라는 중국 AI 회사가 중국어, 영어, 일본어로 음성을 이해하고 생성할 수 있는 "오픈" AI 모델 Step-Audio를 출시했습니다. 사용자는 합성 오디오의 감정과 방언, 심지어 노래까지 조정할 수 있습니다.
Stepfun은 관대한 라이선스로 모델을 출시하는 잘 자금 지원받는 중국 AI 스타트업 중 하나입니다. 2023년에 설립된 이들은 최근 중국 국영 사모펀드 투자자들로부터 수억 달러 규모의 펀딩 라운드를 마무리했습니다.
잡다한 소식

이미지 제공: Nous Research AI 연구 그룹인 Nous Research는 추론과 "직관적인 언어 모델 기능"을 결합한 최초의 AI 모델 중 하나를 출시했다고 주장합니다.그들의 모델 DeepHermes-3 Preview는 정확성과 계산 능력을 균형 있게 유지하기 위해 짧고 긴 "사고의 연쇄"를 전환할 수 있습니다. "추론" 모드에서는 더 어려운 문제를 해결하는 데 시간이 더 걸리며, 그 과정에서 사고 과정을 보여줍니다.
Anthropic은 곧 비슷한 모델을 출시할 계획이라고 하며, OpenAI도 단기 로드맵에 있다고 밝혔습니다.
관련 기사
Former OpenAI Engineer Shares Insights on Company Culture and Rapid Growth
3주 전, OpenAI의 핵심 제품에 기여했던 엔지니어 Calvin French-Owen이 회사를 떠났습니다.그는 최근 OpenAI에서의 1년을 상세히 다룬 매력적인 블로그 포스트를 공유했으며, 여기에는 Cursor나 Anthropic의 Claude Code와 경쟁하는 코딩 에이전트 Codex 개발에 대한 강렬한 노력이 포함되어 있습니다.French-Owe
Google, 기업 시장에서 OpenAI와 경쟁하기 위해 생산 준비 완료된 Gemini 2.5 AI 모델 공개
Google은 월요일 AI 전략을 강화하며 기업용으로 고급 Gemini 2.5 모델을 출시하고 가격과 성능 면에서 경쟁할 수 있는 비용 효율적인 변형 모델을 소개했습니다.Alphabet 소유의 이 회사는 주력 AI 모델인 Gemini 2.5 Pro와 Gemini 2.5 Flash를 테스트 단계에서 완전 가용성으로 업그레이드하며 중요한 비즈니스 애플리케이션에
메타, AI 인재에게 높은 연봉 제공, 1억 달러 서명 보너스 부인
메타는 새로운 슈퍼인텔리전스 연구소에 AI 연구자들을 유치하기 위해 수백만 달러 규모의 보상 패키지를 제공하고 있다. 그러나 모집된 연구자와 유출된 내부 회의 발언에 따르면 1억 달러 "서명 보너스" 주장은 사실이 아니다.더 버지(The Verge)가 목요일 보도한 유출된 회사 전체 회의에서 메타 경영진은 오픈AI CEO 샘 알트먼이 메타가 최고 연구자들에
의견 (58)
0/200
BillyLewis
2025년 8월 4일 오후 3시 1분 0초 GMT+09:00
AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐
0
JimmyWilson
2025년 8월 1일 오전 11시 48분 18초 GMT+09:00
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔
0
JohnTaylor
2025년 7월 28일 오전 10시 20분 2초 GMT+09:00
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.
0
ChristopherThomas
2025년 4월 26일 오후 2시 57분 18초 GMT+09:00
I'm on the fence about AI benchmarks. They seem useful but also kinda miss the point sometimes. It's like judging a book by its cover. Still, it's good to have some metrics, right? Maybe we should take them with a grain of salt for now. 🤔
0
BrianWalker
2025년 4월 26일 오전 4시 19분 34초 GMT+09:00
Tôi không chắc về các tiêu chuẩn đánh giá AI. Chúng có vẻ hữu ích nhưng đôi khi cũng bỏ lỡ điểm chính. Giống như đánh giá một cuốn sách qua bìa của nó. Tuy nhiên, có một số chỉ số là tốt, đúng không? Có lẽ chúng ta nên xem xét chúng với một chút hoài nghi tạm thời. 🤔
0
CharlesMartinez
2025년 4월 23일 오전 12시 1분 53초 GMT+09:00
Estou em dúvida sobre os benchmarks de IA. Eles parecem úteis, mas às vezes também perdem o ponto. É como julgar um livro pela capa. Ainda assim, é bom ter algumas métricas, certo? Talvez devêssemos levá-los com um grão de sal por enquanto. 🤔
0
TechCrunch의 정기 AI 뉴스레터에 오신 것을 환영합니다! 잠시 휴식을 취하지만, 걱정하지 마세요. TechCrunch에서 제 칼럼, 일일 분석, 속보를 포함한 모든 AI 관련 소식을 여전히 확인할 수 있습니다. 매일 이메일로 이 소식을 받고 싶으신가요? 여기에서 일일 뉴스레터에 가입하세요.
이번 주, 엘론 머스크의 AI 스타트업 xAI가 최신 플래그십 AI 모델 Grok 3를 공개했습니다. 이 모델은 회사의 Grok 챗봇 앱을 구동하며, 무려 200,000개의 GPU로 훈련되었습니다. 수학, 코딩 등의 벤치마크에서 OpenAI의 일부 모델을 포함한 여러 최고 모델을 능가하고 있습니다.
하지만 이 벤치마크가 실제로 의미하는 바를 살펴봅시다.
TC에서는 이러한 벤치마크 수치를 보도하지만, 항상 기뻐하지는 않습니다. 왜냐하면 이는 AI 산업이 모델의 개선을 보여주기 위해 사용하는 몇 안 되는 방법 중 하나이기 때문입니다. 문제는 이러한 인기 있는 AI 벤치마크가 종종 모호한 것에 초점을 맞추고, 사람들이 실제로 중요하게 여기는 작업에서의 AI 성능을 제대로 반영하지 않는 점수로 나타난다는 점입니다.
Wharton의 교수인 Ethan Mollick은 X에서 더 나은 테스트와 이를 수행할 독립적인 단체가 필요하다고 말했습니다. 그는 AI 회사들이 종종 자체 벤치마크 결과를 보고하기 때문에 이를 완전히 신뢰하기 어렵다고 지적했습니다.
"공공 벤치마크는 '그저 그렇다'고 할 수 있으며, 포화 상태에 있어 AI 테스트는 음식 리뷰처럼 취향에 기반한 경우가 많습니다,"라고 Mollick은 썼습니다. "AI가 업무에 중요하다면, 더 많은 것이 필요합니다."
AI를 위한 새로운 벤치마크를 만들려는 사람들이 많지만, 무엇이 최선인지에 대한 합의는 없습니다. 일부는 벤치마크가 유용하려면 경제적 영향에 초점을 맞춰야 한다고 생각하고, 다른 이들은 실세계에서의 채택과 유용성이 성공의 진정한 척도라고 믿습니다.
이 논쟁은 영원히 계속될 수 있습니다. 아마도 X 사용자 Roon이 제안한 것처럼, 새로운 모델과 벤치마크에 덜 신경 쓰고, 주요 AI 돌파구가 있을 때까지 기다리는 것이 정신 건강에 더 좋을지도 모릅니다. 비록 그로 인해 일부 AI 과대 광고를 놓치더라도 말입니다.
앞서 언급했듯이, This Week in AI는 휴식을 취합니다. 독자 여러분, 모든 기복을 함께해 주셔서 감사합니다. 다음에 만나요.
뉴스
OpenAI의 전 CTO인 Mira Murati는 Thinking Machines Lab이라는 새로운 스타트업을 설립했습니다. 그들은 "[사람들의 고유한 필요와 목표]를 위한 AI 작업"을 만드는 도구를 개발 중입니다.
xAI는 Grok 3를 출시하고 iOS와 웹용 Grok 앱에 새로운 기능을 추가했습니다.
Meta는 올봄 첫 번째 생성 AI 중심 개발자 컨퍼런스를 개최합니다. Llama 모델의 이름을 딴 LlamaCon으로, 4월 29일에 열립니다.
Paul은 약 20개 조직이 참여한 OpenEuroLLM 프로젝트에 대해 썼습니다. 이 프로젝트는 모든 EU 언어의 "언어적, 문화적 다양성"을 존중하는 "유럽의 투명한 AI"를 위한 기반 모델을 구축하는 것입니다.
이번 주의 연구 논문
OpenAI는 최고 성능 모델인 Anthropic의 Claude 3.5 Sonnet이 전체 SWE-Lancer 벤치마크에서 40.3%만 기록했다고 밝혔으며, 이는 AI가 아직 갈 길이 멀다는 것을 보여줍니다. 그들은 OpenAI의 o3-mini나 중국의 DeepSeek의 R1 같은 최신 모델은 테스트하지 않았습니다.
이번 주의 모델
Stepfun이라는 중국 AI 회사가 중국어, 영어, 일본어로 음성을 이해하고 생성할 수 있는 "오픈" AI 모델 Step-Audio를 출시했습니다. 사용자는 합성 오디오의 감정과 방언, 심지어 노래까지 조정할 수 있습니다.
Stepfun은 관대한 라이선스로 모델을 출시하는 잘 자금 지원받는 중국 AI 스타트업 중 하나입니다. 2023년에 설립된 이들은 최근 중국 국영 사모펀드 투자자들로부터 수억 달러 규모의 펀딩 라운드를 마무리했습니다.
잡다한 소식
그들의 모델 DeepHermes-3 Preview는 정확성과 계산 능력을 균형 있게 유지하기 위해 짧고 긴 "사고의 연쇄"를 전환할 수 있습니다. "추론" 모드에서는 더 어려운 문제를 해결하는 데 시간이 더 걸리며, 그 과정에서 사고 과정을 보여줍니다.
Anthropic은 곧 비슷한 모델을 출시할 계획이라고 하며, OpenAI도 단기 로드맵에 있다고 밝혔습니다.




AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐




AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔




AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.




I'm on the fence about AI benchmarks. They seem useful but also kinda miss the point sometimes. It's like judging a book by its cover. Still, it's good to have some metrics, right? Maybe we should take them with a grain of salt for now. 🤔




Tôi không chắc về các tiêu chuẩn đánh giá AI. Chúng có vẻ hữu ích nhưng đôi khi cũng bỏ lỡ điểm chính. Giống như đánh giá một cuốn sách qua bìa của nó. Tuy nhiên, có một số chỉ số là tốt, đúng không? Có lẽ chúng ta nên xem xét chúng với một chút hoài nghi tạm thời. 🤔




Estou em dúvida sobre os benchmarks de IA. Eles parecem úteis, mas às vezes também perdem o ponto. É como julgar um livro pela capa. Ainda assim, é bom ter algumas métricas, certo? Talvez devêssemos levá-los com um grão de sal por enquanto. 🤔












