소식 AI 벤치 마크 : 지금은 무시해야합니까?

AI 벤치 마크 : 지금은 무시해야합니까?

2025년 4월 10일
MarkWilson
79

TechCrunch의 일반 AI 뉴스 레터에 오신 것을 환영합니다! 우리는 약간의 휴식을 취하고 있지만 걱정하지 마십시오. TechCrunch에서 내 열, 일일 분석 및 뉴스 속보를 포함한 모든 AI 적용 범위를 얻을 수 있습니다. 이 이야기가 매일받은 편지함에 직접 가져오고 싶습니까? 매일 뉴스 레터에 가입하십시오.

이번 주 Elon Musk의 AI 스타트 업인 Xai는 최신 플래그십 AI 모델 인 Grok 3을 떨어 뜨 렸습니다. 그들은 무려 200,000 GPU로 그것을 훈련 시켰으며, OpenAI의 일부, 수학, 코딩 등의 벤치 마크를 포함한 다른 최고 모델을 능가하고 있습니다.

그러나 이러한 벤치 마크가 실제로 무엇을 의미하는지 이야기합시다.

여기 TC에서 우리는 AI 업계가 모델의 개선 방법을 보여 주려고 시도하는 몇 가지 방법 중 하나이기 때문에 이러한 벤치 마크 수치에 대해보고합니다. 문제는,이 인기있는 AI 벤치 마크는 종종 모호한 것들에 초점을 맞추고 AI가 실제로 관심을 갖는 일을 실제로 반영하지 않는 점수를줍니다.

Wharton의 교수 인 Ethan Mollick은 X에게 더 나은 시험과 독립 그룹을 운영 할 필요가 있다고 말했습니다. 그는 AI 회사가 종종 자신의 벤치 마크 결과를보고하여 완전히 신뢰하기가 어렵다고 지적했다.

Mollick은“공개 벤치 마크는 'Meh'와 포화 상태이며, 많은 AI 테스트는 맛을 바탕으로 음식 리뷰와 같은 많은 AI 테스트를 남겼습니다. "라고 Mollick은 말했습니다. "AI가 일하는 것이 중요하다면 더 많은 것이 필요합니다."

AI에 대한 새로운 벤치 마크를 만들려고 노력하는 많은 사람들이 있지만 아무도 가장 좋은 것에 동의 할 수 없습니다. 어떤 사람들은 벤치 마크가 경제적 영향에 초점을 맞추어야한다고 생각하는 반면, 다른 사람들은 실제 채택과 유용성이 진정한 성공 척도라고 생각합니다.

이 논쟁은 영원히 계속 될 수 있습니다. 어쩌면 X User Roon이 제안한 것처럼 주요 AI 획기적인 획기가 없으면 새로운 모델과 벤치 마크에 덜주의를 기울여야합니다. AI 과대 광고에서 누락 된 것을 의미하더라도 우리의 정신에 더 좋을 수도 있습니다.

언급했듯이, 이번 주 AI에서는 휴식을 취하고 있습니다. 독자 여러분, 모든 기복을 통해 우리를 고수 해주셔서 감사합니다. 다음 시간까지.

소식

이미지 크레딧 : Nathan Laine / Bloomberg / Getty Images
Openai는 "Uncensor"Chatgpt를 시도하고 있습니다. Max는 강력하거나 논란의 여지가있는 주제에 대해서도 "지적 자유"를 받아들이 기 위해 AI 개발에 대한 접근 방식을 어떻게 바꾸는 지에 대해 썼습니다.

OpenAI의 전 CTO 인 Mira Murati는 Thinking Machines Lab이라는 새로운 스타트 업을 보유하고 있습니다. 그들은 "[사람의] 독특한 요구와 목표를 위해 AI 작업을 만드는 도구를 연구하고 있습니다.

Xai는 Grok 3을 출시하고 iOS 및 웹 용 Grok 앱에 새로운 기능을 추가했습니다.

Meta는 올 봄 Generative AI에 중점을 둔 최초의 개발자 컨퍼런스를 주최합니다. 라마 모델 이후로 Llamacon이라고하며 4 월 29 일에 일어나고 있습니다.

Paul은 모든 EU 언어의 "언어 적 및 문화적 다양성"을 존중하는 "유럽의 투명한 AI"에 대한 기초 모델을 구축하기위한 약 20 개의 조직의 프로젝트 인 Openeurollm에 대해 썼습니다.

금주의 연구 논문

랩톱 화면에 표시되는 OpenAi Chatgpt 웹 사이트는이 그림 사진에 표시됩니다.

이미지 크레딧 : Jakub Porzycki / Nurphoto / Getty Images
OpenAI 연구원들은 AI가 얼마나 잘 코드 할 수 있는지 테스트하기 위해 SWE-Lancer라는 새로운 AI 벤치 마크를 생각해 냈습니다. 버그 수정 및 기능 추가에서 기술 구현 제안에 이르기까지 1,400 개가 넘는 프리랜서 소프트웨어 엔지니어링 작업으로 구성됩니다.

Openai는 최고의 성과 모델 인 Anthropic의 Claude 3.5 Sonnet은 전체 SWE-Lancer 벤치 마크에서 40.3% 만 득점했다고 AI는 여전히 갈 길이 멀다는 것을 보여줍니다. 그들은 OpenAi의 O3-Mini 또는 중국의 DeepSeek R1과 같은 새로운 모델을 테스트하지 않았습니다.

금주의 모델

StepFun이라는 중국 AI 회사는 Step-Audio라는 "오픈"AI 모델을 발표하여 중국어, 영어 및 일본어로 연설을 이해하고 생성 할 수 있습니다. 사용자는 노래를 포함하여 합성 오디오의 감정과 방언을 조정할 수도 있습니다.

STEPFUN은 허용 된 라이센스가있는 모델을 출시하는 여러 중국 AI 스타트 업 중 하나입니다. 2023 년에 설립 된 그들은 최근 중국 국유 민간 주식 회사를 포함하여 투자자들로부터 수억 달러의 자금 조달 라운드를 마감했습니다.

가방을 잡습니다

Nous Research Deephermes

이미지 크레딧 : Nous 연구
AI 연구 그룹 인 Nous Research는 추론과 "직관적 인 언어 모델 기능"과 결합 된 최초의 AI 모델 중 하나를 발표했다고 주장합니다.

그들의 모델 인 Deephermes-3 미리보기는 정확성과 계산 능력의 균형을 맞추기 위해 짧고 긴 "사고의 사고"사이를 전환 할 수 있습니다. "추론"모드에서는 더 어려운 문제를 해결하는 데 더 많은 시간이 걸리고 그 과정에서 사고 과정을 보여줍니다.

Anthropic은 곧 비슷한 모델을 출시 할 계획이며 Openai는 단기 로드맵에 있다고 말합니다.

관련 기사
Google搜索引入了複雜的多部分查詢的“ AI模式” Google搜索引入了複雜的多部分查詢的“ AI模式” Google推出了“ AI模式”,以搜索與競爭對手的困惑AI和ChatgptGoogle在AI Arena中加強遊戲,並在其搜索引擎中啟動了實驗性的“ AI模式”功能。旨在進行困惑AI和Openai的Chatgpt搜索之類
Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題 Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題 Chatgpt的一些用戶最近遇到了一個奇怪的新功能:聊天機器人偶爾在解決問題時使用他們的名字。這不是以前其通常行為的一部分,許多用戶報告Chatgpt提到了他們的名字,而沒有被告知該怎麼稱呼。意見
Openai增強了Chatgpt,以回憶以前的對話 Openai增強了Chatgpt,以回憶以前的對話 Openai在周四發表了一項重大宣布,內容涉及在Chatgpt中推出一個名為“ Memory”的新功能。這種漂亮的工具旨在通過記住您以前談論的內容來使您與AI的聊天更為個性化。想像一下,每次開始新的轉換時都不必重複自己
의견 (55)
0/200
FredAnderson
FredAnderson 2025년 4월 10일 오후 1시 30분 25초 GMT

Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!

WilliamYoung
WilliamYoung 2025년 4월 11일 오전 3시 44분 49초 GMT

AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!

ChristopherDavis
ChristopherDavis 2025년 4월 10일 오후 1시 20분 5초 GMT

Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!

StephenLee
StephenLee 2025년 4월 10일 오후 8시 29분 13초 GMT

Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!

TimothyRoberts
TimothyRoberts 2025년 4월 11일 오전 6시 46분 34초 GMT

Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!

NoahGreen
NoahGreen 2025년 4월 11일 오후 12시 48분 46초 GMT

I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!

Back to Top
OR