Trang chủ Tin tức Điểm chuẩn AI: Chúng ta có nên bỏ qua chúng bây giờ không?

Điểm chuẩn AI: Chúng ta có nên bỏ qua chúng bây giờ không?

Ngày 10 tháng 4 năm 2025
MarkWilson
79

Chào mừng bạn đến với bản tin AI thường xuyên của TechCrunch! Chúng tôi đang nghỉ ngơi một chút, nhưng đừng lo lắng, bạn vẫn có thể nhận được tất cả các bảo hiểm AI của chúng tôi, bao gồm các cột của tôi, phân tích hàng ngày và tin tức mới, ngay tại TechCrunch. Bạn muốn đưa những câu chuyện này thẳng vào hộp thư đến của bạn mỗi ngày? Chỉ cần đăng ký cho các bản tin hàng ngày của chúng tôi ở đây.

Tuần này, khởi nghiệp AI của Elon Musk, XAI, đã bỏ mẫu AI hàng đầu mới nhất của họ, Grok 3, đang cung cấp năng lượng cho các ứng dụng Grok Chatbot của công ty. Họ đã đào tạo nó trên 200.000 GPU, và nó vượt trội hơn một loạt các mô hình hàng đầu khác, bao gồm một số từ Openai, trong điểm chuẩn cho toán học, mã hóa, v.v.

Nhưng hãy nói về những điểm chuẩn này thực sự có ý nghĩa gì.

Tại TC, chúng tôi báo cáo về các số điểm chuẩn này, ngay cả khi chúng tôi không phải lúc nào cũng vui mừng về nó, bởi vì chúng là một trong số ít những cách mà ngành công nghiệp AI cố gắng thể hiện cách các mô hình của họ được cải thiện. Vấn đề là, những điểm chuẩn AI phổ biến này thường tập trung vào những thứ tối nghĩa và cho điểm số không thực sự phản ánh mức độ AI làm những điều mà mọi người thực sự quan tâm.

Ethan Mollick, một giáo sư tại Wharton, đã đến X để nói rằng có một nhu cầu thực sự cho các bài kiểm tra tốt hơn và các nhóm độc lập để điều hành chúng. Ông chỉ ra rằng các công ty AI thường báo cáo kết quả điểm chuẩn của riêng họ, điều này khiến cho việc tin tưởng họ hoàn toàn.

"Điểm chuẩn công cộng đều là 'meh' và bão hòa, để lại rất nhiều thử nghiệm AI giống như đánh giá thực phẩm, dựa trên hương vị", Mollick viết. "Nếu AI rất quan trọng để làm việc, chúng ta cần nhiều hơn."

Có rất nhiều người ngoài kia đang cố gắng đưa ra điểm chuẩn mới cho AI, nhưng không ai có thể đồng ý về những gì tốt nhất. Một số người nghĩ rằng điểm chuẩn nên tập trung vào tác động kinh tế là hữu ích, trong khi những người khác tin rằng việc áp dụng và hữu ích trong thế giới thực là những biện pháp thành công thực sự.

Cuộc tranh luận này có thể diễn ra mãi mãi. Có thể, giống như người dùng X mà Roon gợi ý, chúng ta chỉ nên chú ý đến các mô hình và điểm chuẩn mới trừ khi có một bước đột phá AI chính. Nó có thể tốt hơn cho sự tỉnh táo của chúng ta, ngay cả khi nó có nghĩa là bỏ lỡ một số sự cường điệu AI.

Như đã đề cập, tuần này trong AI đang nghỉ ngơi. Cảm ơn vì đã gắn bó với chúng tôi, độc giả, thông qua tất cả các thăng trầm. Cho đến lần sau.

Tin tức

Tín dụng hình ảnh: Hình ảnh Nathan Laine / Bloomberg / Getty
Openai đang cố gắng để "unsensor" chatgpt. Max đã viết về cách họ thay đổi cách tiếp cận phát triển AI để nắm lấy "tự do trí tuệ", ngay cả về các chủ đề khó khăn hoặc gây tranh cãi.

Mira Murati, cựu CTO của Openai, có một công ty khởi nghiệp mới có tên là Think Machines Lab. Họ đang làm việc trên các công cụ để "làm cho AI hoạt động cho các nhu cầu và mục tiêu độc đáo của [mọi người]."

XAI đã phát hành Grok 3 và thêm các tính năng mới vào các ứng dụng Grok cho iOS và Web.

Meta đang tổ chức hội nghị nhà phát triển đầu tiên tập trung vào AI thế hệ vào mùa xuân này. Nó được gọi là Llamacon, theo mô hình Llama của họ, và nó xảy ra vào ngày 29 tháng 4.

Paul đã viết về Openeurollm, một dự án của khoảng 20 tổ chức để xây dựng các mô hình nền tảng cho "AI minh bạch ở châu Âu" tôn trọng "sự đa dạng về ngôn ngữ và văn hóa" của tất cả các ngôn ngữ của EU.

Tài liệu nghiên cứu trong tuần

Trang web Openai Tatgpt hiển thị trên màn hình máy tính xách tay được nhìn thấy trong ảnh minh họa này.

Tín dụng hình ảnh: Hình ảnh Jakub Porzycki / Nurphoto / Getty
Các nhà nghiên cứu Openai đã đưa ra một điểm chuẩn AI mới có tên SWE-Lancer để kiểm tra xem AI có thể viết mã tốt như thế nào. Nó được tạo thành từ hơn 1.400 nhiệm vụ kỹ thuật phần mềm tự do, từ sửa lỗi và thêm các tính năng để đề xuất triển khai kỹ thuật.

Openai cho biết mô hình hiệu suất cao nhất, Sonnet Claude 3.5 của Anthropic, chỉ đạt 40,3% trên điểm chuẩn SWE-Lancer đầy đủ, cho thấy AI vẫn còn một chặng đường dài. Họ đã không kiểm tra các mẫu mới hơn như O3-mini của Openai hoặc R1 của Deepseek từ Trung Quốc.

Mô hình của tuần

Một công ty AI của Trung Quốc có tên Stepfun đã phát hành một mô hình AI "Mở" có tên Step-Audio có thể hiểu và tạo ra lời nói bằng tiếng Trung, tiếng Anh và tiếng Nhật. Người dùng thậm chí có thể điều chỉnh cảm xúc và phương ngữ của âm thanh tổng hợp, bao gồm cả ca hát.

Stepfun là một trong một số công ty khởi nghiệp AI được tài trợ tốt của Trung Quốc phát hành các mô hình với giấy phép cho phép. Được thành lập vào năm 2023, gần đây họ đã đóng cửa một vòng tài trợ trị giá hàng trăm triệu người từ các nhà đầu tư, bao gồm các công ty cổ phần tư nhân thuộc sở hữu nhà nước Trung Quốc.

Lấy túi

Nghiên cứu Nous Deephermes

Tín dụng hình ảnh: Nghiên cứu nous
Nous Research, một nhóm nghiên cứu AI, tuyên bố đã phát hành một trong những mô hình AI đầu tiên kết hợp lý luận với "khả năng mô hình ngôn ngữ trực quan".

Mô hình của họ, Preview Deephermes-3, có thể chuyển đổi giữa "chuỗi suy nghĩ" ngắn và dài để cân bằng độ chính xác và sức mạnh tính toán. Trong chế độ "Lý luận", phải mất nhiều thời gian hơn để giải quyết các vấn đề khó khăn hơn và cho thấy quá trình suy nghĩ của nó trên đường đi.

Anthropic được cho là có kế hoạch phát hành một mô hình tương tự sớm và Openai nói rằng đó là trên lộ trình ngắn hạn của họ.

Bài viết liên quan
Google搜索引入了複雜的多部分查詢的“ AI模式” Google搜索引入了複雜的多部分查詢的“ AI模式” Google推出了“ AI模式”,以搜索與競爭對手的困惑AI和ChatgptGoogle在AI Arena中加強遊戲,並在其搜索引擎中啟動了實驗性的“ AI模式”功能。旨在進行困惑AI和Openai的Chatgpt搜索之類
Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題 Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題 Chatgpt的一些用戶最近遇到了一個奇怪的新功能:聊天機器人偶爾在解決問題時使用他們的名字。這不是以前其通常行為的一部分,許多用戶報告Chatgpt提到了他們的名字,而沒有被告知該怎麼稱呼。意見
Openai增強了Chatgpt,以回憶以前的對話 Openai增強了Chatgpt,以回憶以前的對話 Openai在周四發表了一項重大宣布,內容涉及在Chatgpt中推出一個名為“ Memory”的新功能。這種漂亮的工具旨在通過記住您以前談論的內容來使您與AI的聊天更為個性化。想像一下,每次開始新的轉換時都不必重複自己
Nhận xét (55)
0/200
FredAnderson
FredAnderson 13:30:25 GMT Ngày 10 tháng 4 năm 2025

Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!

WilliamYoung
WilliamYoung 03:44:49 GMT Ngày 11 tháng 4 năm 2025

AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!

ChristopherDavis
ChristopherDavis 13:20:05 GMT Ngày 10 tháng 4 năm 2025

Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!

StephenLee
StephenLee 20:29:13 GMT Ngày 10 tháng 4 năm 2025

Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!

TimothyRoberts
TimothyRoberts 06:46:34 GMT Ngày 11 tháng 4 năm 2025

Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!

NoahGreen
NoahGreen 12:48:46 GMT Ngày 11 tháng 4 năm 2025

I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!

Back to Top
OR