首页 新闻 AI基准:我们现在应该忽略它们吗?

AI基准:我们现在应该忽略它们吗?

2025年04月10日
MarkWilson
79

欢迎来到TechCrunch的常规AI通讯!我们正在休息一下,但请放心,您仍然可以在TechCrunch的这里获得我们所有的AI覆盖范围,包括我的专栏,日常分析和新闻。是否想每天将这些故事直接进入您的收件箱?只需在此处注册我们的每日新闻通讯即可。

本周,埃隆·马斯克(Elon Musk)的AI创业公司XAI放弃了他们最新的旗舰AI车型Grok 3,该车型正在为公司的Grok Chatbot应用程序提供动力。他们以高达200,000 gpu的培训,它的表现优于其他顶级型号,包括来自OpenAI的一些顶级型号,用于数学,编码等基准。

但是,让我们谈谈这些基准实际上是什么意思。

在TC上,我们报告了这些基准数字,即使我们并不总是为此感到兴奋,因为它们是AI行业试图展示其模型如何改善的几种方式之一。事实是,这些流行的AI基准通常专注于晦涩的东西,并给出的分数并不能真正反映出AI对人们实际关心的事情的处理能力。

沃顿教授的伊桑·莫利克(Ethan Mollick)上X上说,真正需要更好的测试和独立团体来运行它们。他指出,AI公司经常报告自己的基准结果,这使得很难完全信任它们。

莫利克写道:“公共基准既是'meh'又饱和,因此根据口味的食物评论会像食品评论一样进行大量的AI测试。” “如果AI对于工作至关重要,我们需要更多。”

那里有很多人试图为AI提出新的基准,但是没人能同意最好的。有些人认为基准应该将重点放在经济影响上是有用的,而另一些基准则认为现实世界中的采用和有用性是成功的真正衡量。

这场辩论可能会永远进行。也许,就像X用户Roon建议的那样,除非有重大的AI突破,否则我们应该更少注意新型号和基准。即使这意味着错过一些AI炒作,这可能会更好。

如前所述,本周在AI中休息一下。感谢您与我们,读者一起坚持所有的风风雨雨。直到下一次。

消息

图片来源:内森·莱恩 /彭博 /盖蒂图像
Openai试图“未经许可” CHATGPT。马克斯写道,即使是在艰难或有争议的话题上,他们也如何改变他们的人工智能发展方法来拥抱“智力自由”。

Openai的前首席技术官Mira Murati拥有一个名为Thinking Machines Lab的新创业公司。他们正在研究工具,以“使人工智能为[人们]的独特需求和目标努力”。

Xai发布了Grok 3,并在iOS和Web的Grok应用程序中添加了新功能。

Meta将于今年春季举办首次针对生成AI的开发人员会议。它是骆驼模特之后的称为紫杉龙,并于4月29日发生。

保罗写了关于OpenEurollm的文章,这是一个大约20个组织的项目,以建立“欧洲透明AI”的基础模型,该模型尊重所有欧盟语言的“语言和文化多样性”。

研究论文

这张插图照片中可以看到在笔记本电脑屏幕上显示的OpenAI Chatgpt网站。

图片来源:Jakub Porzycki / Nurphoto / Getty Images
OpenAI研究人员提出了一种新的AI基准,称为SWE-Lancer,以测试AI的编码程度。它由1,400多个自由软件工程任务组成,从修复错误并添加功能到建议技术实施。

Openai说,最佳模特,Anthropic的Claude 3.5十四行诗,在完整的SWE-Lancer Benchmark上仅得分40.3%,这表明AI还有很长的路要走。他们没有测试像Openai的O3-Mini或中国DeepSeek的R1这样的新模型。

本周模型

一家名为Stepfun的中国人工智能公司发布了一个名为Step-Audio的“开放” AI模型,可以理解和发表中文,英语和日语的演讲。用户甚至可以调整合成音频的情感和方言,包括唱歌。

Stepfun是拥有宽松许可证的几家资金资助的中国AI初创公司之一。他们成立于2023年,最近在包括中国国有私募股权公司在内的投资者那里结束了价值数亿美元的资金。

抓起袋

研究深度研究

图片来源:研究
AI研究小组NOUS Research声称已发布了将推理与“直观语言模型能力”相结合的最早的AI模型之一。

他们的模型DeepHermes-3预览可以在短时和长的“思想链”之间切换,以平衡准确性和计算能力。在“推理”模式下,需要更多时间来解决更严重的问题并在此过程中显示其思维过程。

据报道,Anthropic计划很快发布类似的模型,Openai表示它正在使用近期路线图。

相关文章
Google搜索引入了复杂的多部分查询的“ AI模式” Google搜索引入了复杂的多部分查询的“ AI模式” Google推出了“ AI模式”,以搜索与竞争对手的困惑AI和ChatgptGoogle在AI Arena中加强游戏,并在其搜索引擎中启动了实验性的“ AI模式”功能。旨在进行困惑AI和Openai的Chatgpt搜索之类
Chatgpt主意使用用户名在某些人中引发了“令人毛骨悚然”的问题 Chatgpt主意使用用户名在某些人中引发了“令人毛骨悚然”的问题 Chatgpt的一些用户最近遇到了一个奇怪的新功能:聊天机器人偶尔在解决问题时使用他们的名字。这不是以前其通常行为的一部分,许多用户报告Chatgpt提到了他们的名字,而没有被告知该怎么称呼。意见
Openai增强了Chatgpt,以回忆以前的对话 Openai增强了Chatgpt,以回忆以前的对话 Openai在周四发表了一项重大宣布,内容涉及在Chatgpt中推出一个名为“ Memory”的新功能。这种漂亮的工具旨在通过记住您以前谈论的内容来使您与AI的聊天更为个性化。想象一下,每次开始新的转换时都不必重复自己
评论 (55)
0/200
FredAnderson
FredAnderson 2025年04月10日 13:30:25

Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!

WilliamYoung
WilliamYoung 2025年04月11日 03:44:49

AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!

ChristopherDavis
ChristopherDavis 2025年04月10日 13:20:05

Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!

StephenLee
StephenLee 2025年04月10日 20:29:13

Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!

TimothyRoberts
TimothyRoberts 2025年04月11日 06:46:34

Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!

NoahGreen
NoahGreen 2025年04月11日 12:48:46

I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!

返回顶部
OR