AI 벤치 마크 : 지금은 무시해야합니까?
TechCrunch의 일반 AI 뉴스 레터에 오신 것을 환영합니다! 우리는 약간의 휴식을 취하고 있지만 걱정하지 마십시오. TechCrunch에서 내 열, 일일 분석 및 뉴스 속보를 포함한 모든 AI 적용 범위를 얻을 수 있습니다. 이 이야기가 매일받은 편지함에 직접 가져오고 싶습니까? 매일 뉴스 레터에 가입하십시오.
이번 주 Elon Musk의 AI 스타트 업인 Xai는 최신 플래그십 AI 모델 인 Grok 3을 떨어 뜨 렸습니다. 그들은 무려 200,000 GPU로 그것을 훈련 시켰으며, OpenAI의 일부, 수학, 코딩 등의 벤치 마크를 포함한 다른 최고 모델을 능가하고 있습니다.
그러나 이러한 벤치 마크가 실제로 무엇을 의미하는지 이야기합시다.
여기 TC에서 우리는 AI 업계가 모델의 개선 방법을 보여 주려고 시도하는 몇 가지 방법 중 하나이기 때문에 이러한 벤치 마크 수치에 대해보고합니다. 문제는,이 인기있는 AI 벤치 마크는 종종 모호한 것들에 초점을 맞추고 AI가 실제로 관심을 갖는 일을 실제로 반영하지 않는 점수를줍니다.
Wharton의 교수 인 Ethan Mollick은 X에게 더 나은 시험과 독립 그룹을 운영 할 필요가 있다고 말했습니다. 그는 AI 회사가 종종 자신의 벤치 마크 결과를보고하여 완전히 신뢰하기가 어렵다고 지적했다.
Mollick은“공개 벤치 마크는 'Meh'와 포화 상태이며, 많은 AI 테스트는 맛을 바탕으로 음식 리뷰와 같은 많은 AI 테스트를 남겼습니다. "라고 Mollick은 말했습니다. "AI가 일하는 것이 중요하다면 더 많은 것이 필요합니다."
AI에 대한 새로운 벤치 마크를 만들려고 노력하는 많은 사람들이 있지만 아무도 가장 좋은 것에 동의 할 수 없습니다. 어떤 사람들은 벤치 마크가 경제적 영향에 초점을 맞추어야한다고 생각하는 반면, 다른 사람들은 실제 채택과 유용성이 진정한 성공 척도라고 생각합니다.
이 논쟁은 영원히 계속 될 수 있습니다. 어쩌면 X User Roon이 제안한 것처럼 주요 AI 획기적인 획기가 없으면 새로운 모델과 벤치 마크에 덜주의를 기울여야합니다. AI 과대 광고에서 누락 된 것을 의미하더라도 우리의 정신에 더 좋을 수도 있습니다.
언급했듯이, 이번 주 AI에서는 휴식을 취하고 있습니다. 독자 여러분, 모든 기복을 통해 우리를 고수 해주셔서 감사합니다. 다음 시간까지.
소식

이미지 크레딧 : Nathan Laine / Bloomberg / Getty Images Openai는 "Uncensor"Chatgpt를 시도하고 있습니다. Max는 강력하거나 논란의 여지가있는 주제에 대해서도 "지적 자유"를 받아들이 기 위해 AI 개발에 대한 접근 방식을 어떻게 바꾸는 지에 대해 썼습니다.
OpenAI의 전 CTO 인 Mira Murati는 Thinking Machines Lab이라는 새로운 스타트 업을 보유하고 있습니다. 그들은 "[사람의] 독특한 요구와 목표를 위해 AI 작업을 만드는 도구를 연구하고 있습니다.
Xai는 Grok 3을 출시하고 iOS 및 웹 용 Grok 앱에 새로운 기능을 추가했습니다.
Meta는 올 봄 Generative AI에 중점을 둔 최초의 개발자 컨퍼런스를 주최합니다. 라마 모델 이후로 Llamacon이라고하며 4 월 29 일에 일어나고 있습니다.
Paul은 모든 EU 언어의 "언어 적 및 문화적 다양성"을 존중하는 "유럽의 투명한 AI"에 대한 기초 모델을 구축하기위한 약 20 개의 조직의 프로젝트 인 Openeurollm에 대해 썼습니다.
금주의 연구 논문

이미지 크레딧 : Jakub Porzycki / Nurphoto / Getty Images OpenAI 연구원들은 AI가 얼마나 잘 코드 할 수 있는지 테스트하기 위해 SWE-Lancer라는 새로운 AI 벤치 마크를 생각해 냈습니다. 버그 수정 및 기능 추가에서 기술 구현 제안에 이르기까지 1,400 개가 넘는 프리랜서 소프트웨어 엔지니어링 작업으로 구성됩니다.
Openai는 최고의 성과 모델 인 Anthropic의 Claude 3.5 Sonnet은 전체 SWE-Lancer 벤치 마크에서 40.3% 만 득점했다고 AI는 여전히 갈 길이 멀다는 것을 보여줍니다. 그들은 OpenAi의 O3-Mini 또는 중국의 DeepSeek R1과 같은 새로운 모델을 테스트하지 않았습니다.
금주의 모델
StepFun이라는 중국 AI 회사는 Step-Audio라는 "오픈"AI 모델을 발표하여 중국어, 영어 및 일본어로 연설을 이해하고 생성 할 수 있습니다. 사용자는 노래를 포함하여 합성 오디오의 감정과 방언을 조정할 수도 있습니다.
STEPFUN은 허용 된 라이센스가있는 모델을 출시하는 여러 중국 AI 스타트 업 중 하나입니다. 2023 년에 설립 된 그들은 최근 중국 국유 민간 주식 회사를 포함하여 투자자들로부터 수억 달러의 자금 조달 라운드를 마감했습니다.
가방을 잡습니다

이미지 크레딧 : Nous 연구 AI 연구 그룹 인 Nous Research는 추론과 "직관적 인 언어 모델 기능"과 결합 된 최초의 AI 모델 중 하나를 발표했다고 주장합니다.
그들의 모델 인 Deephermes-3 미리보기는 정확성과 계산 능력의 균형을 맞추기 위해 짧고 긴 "사고의 사고"사이를 전환 할 수 있습니다. "추론"모드에서는 더 어려운 문제를 해결하는 데 더 많은 시간이 걸리고 그 과정에서 사고 과정을 보여줍니다.
Anthropic은 곧 비슷한 모델을 출시 할 계획이며 Openai는 단기 로드맵에 있다고 말합니다.
관련 기사
OpenAI升級其Operator Agent的AI模型
OpenAI將Operator推向全新境界OpenAI正為其自主AI代理Operator進行重大升級。這項變革意味著Operator即將採用基於o3模型的架構,這是OpenAI尖端o系列推理模型的最新成員。此前Operator一直使用客製化版本的GPT-4o驅動,但這次迭代將帶來顯著改進。o3的突破性意義在數學與邏輯推理任務方面,o3幾乎在所有指標上都超越前
OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準
為什麼 AI 基準測試的差異很重要?提到 AI 時,數字往往能說明一切——有時,這些數字並不一定完全相符。以 OpenAI 的 o3 模型為例。最初的聲稱簡直令人驚嘆:據報導,o3 可以處理超過 25% 的 notoriously tough FrontierMath 問題。作為參考,競爭對手還停留在個位數。但隨著近期的發展,受人尊敬的研究機構 Epoch
Ziff Davis指控OpenAI涉嫌侵權
Ziff Davis控告OpenAI版權侵權訴訟這起事件在科技和出版界掀起了軒然大波,Ziff Davis——旗下擁有CNET、PCMag、IGN和Everyday Health等品牌的龐大企業聯盟——已對OpenAI提起版權侵權訴訟。根據《紐約時報》的報導,該訴訟聲稱OpenAI故意未經許可使用Ziff Davis的內容,製作了其作品的「精確副本」。這是截
의견 (55)
0/200
FredAnderson
2025년 4월 10일 오전 12시 0분 0초 GMT
Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!
0
WilliamYoung
2025년 4월 11일 오전 12시 0분 0초 GMT
AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!
0
ChristopherDavis
2025년 4월 10일 오전 12시 0분 0초 GMT
Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!
0
StephenLee
2025년 4월 11일 오전 12시 0분 0초 GMT
Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!
0
TimothyRoberts
2025년 4월 11일 오전 12시 0분 0초 GMT
Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!
0
NoahGreen
2025년 4월 11일 오전 12시 0분 0초 GMT
I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!
0
TechCrunch의 일반 AI 뉴스 레터에 오신 것을 환영합니다! 우리는 약간의 휴식을 취하고 있지만 걱정하지 마십시오. TechCrunch에서 내 열, 일일 분석 및 뉴스 속보를 포함한 모든 AI 적용 범위를 얻을 수 있습니다. 이 이야기가 매일받은 편지함에 직접 가져오고 싶습니까? 매일 뉴스 레터에 가입하십시오.
이번 주 Elon Musk의 AI 스타트 업인 Xai는 최신 플래그십 AI 모델 인 Grok 3을 떨어 뜨 렸습니다. 그들은 무려 200,000 GPU로 그것을 훈련 시켰으며, OpenAI의 일부, 수학, 코딩 등의 벤치 마크를 포함한 다른 최고 모델을 능가하고 있습니다.
그러나 이러한 벤치 마크가 실제로 무엇을 의미하는지 이야기합시다.
여기 TC에서 우리는 AI 업계가 모델의 개선 방법을 보여 주려고 시도하는 몇 가지 방법 중 하나이기 때문에 이러한 벤치 마크 수치에 대해보고합니다. 문제는,이 인기있는 AI 벤치 마크는 종종 모호한 것들에 초점을 맞추고 AI가 실제로 관심을 갖는 일을 실제로 반영하지 않는 점수를줍니다.
Wharton의 교수 인 Ethan Mollick은 X에게 더 나은 시험과 독립 그룹을 운영 할 필요가 있다고 말했습니다. 그는 AI 회사가 종종 자신의 벤치 마크 결과를보고하여 완전히 신뢰하기가 어렵다고 지적했다.
Mollick은“공개 벤치 마크는 'Meh'와 포화 상태이며, 많은 AI 테스트는 맛을 바탕으로 음식 리뷰와 같은 많은 AI 테스트를 남겼습니다. "라고 Mollick은 말했습니다. "AI가 일하는 것이 중요하다면 더 많은 것이 필요합니다."
AI에 대한 새로운 벤치 마크를 만들려고 노력하는 많은 사람들이 있지만 아무도 가장 좋은 것에 동의 할 수 없습니다. 어떤 사람들은 벤치 마크가 경제적 영향에 초점을 맞추어야한다고 생각하는 반면, 다른 사람들은 실제 채택과 유용성이 진정한 성공 척도라고 생각합니다.
이 논쟁은 영원히 계속 될 수 있습니다. 어쩌면 X User Roon이 제안한 것처럼 주요 AI 획기적인 획기가 없으면 새로운 모델과 벤치 마크에 덜주의를 기울여야합니다. AI 과대 광고에서 누락 된 것을 의미하더라도 우리의 정신에 더 좋을 수도 있습니다.
언급했듯이, 이번 주 AI에서는 휴식을 취하고 있습니다. 독자 여러분, 모든 기복을 통해 우리를 고수 해주셔서 감사합니다. 다음 시간까지.
소식
OpenAI의 전 CTO 인 Mira Murati는 Thinking Machines Lab이라는 새로운 스타트 업을 보유하고 있습니다. 그들은 "[사람의] 독특한 요구와 목표를 위해 AI 작업을 만드는 도구를 연구하고 있습니다.
Xai는 Grok 3을 출시하고 iOS 및 웹 용 Grok 앱에 새로운 기능을 추가했습니다.
Meta는 올 봄 Generative AI에 중점을 둔 최초의 개발자 컨퍼런스를 주최합니다. 라마 모델 이후로 Llamacon이라고하며 4 월 29 일에 일어나고 있습니다.
Paul은 모든 EU 언어의 "언어 적 및 문화적 다양성"을 존중하는 "유럽의 투명한 AI"에 대한 기초 모델을 구축하기위한 약 20 개의 조직의 프로젝트 인 Openeurollm에 대해 썼습니다.
금주의 연구 논문
Openai는 최고의 성과 모델 인 Anthropic의 Claude 3.5 Sonnet은 전체 SWE-Lancer 벤치 마크에서 40.3% 만 득점했다고 AI는 여전히 갈 길이 멀다는 것을 보여줍니다. 그들은 OpenAi의 O3-Mini 또는 중국의 DeepSeek R1과 같은 새로운 모델을 테스트하지 않았습니다.
금주의 모델
StepFun이라는 중국 AI 회사는 Step-Audio라는 "오픈"AI 모델을 발표하여 중국어, 영어 및 일본어로 연설을 이해하고 생성 할 수 있습니다. 사용자는 노래를 포함하여 합성 오디오의 감정과 방언을 조정할 수도 있습니다.
STEPFUN은 허용 된 라이센스가있는 모델을 출시하는 여러 중국 AI 스타트 업 중 하나입니다. 2023 년에 설립 된 그들은 최근 중국 국유 민간 주식 회사를 포함하여 투자자들로부터 수억 달러의 자금 조달 라운드를 마감했습니다.
가방을 잡습니다
그들의 모델 인 Deephermes-3 미리보기는 정확성과 계산 능력의 균형을 맞추기 위해 짧고 긴 "사고의 사고"사이를 전환 할 수 있습니다. "추론"모드에서는 더 어려운 문제를 해결하는 데 더 많은 시간이 걸리고 그 과정에서 사고 과정을 보여줍니다.
Anthropic은 곧 비슷한 모델을 출시 할 계획이며 Openai는 단기 로드맵에 있다고 말합니다.




Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!




AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!




Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!




Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!




Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!




I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!












