lựa chọn
Trang chủ
Tin tức
Điểm chuẩn AI: Chúng ta có nên bỏ qua chúng bây giờ không?

Điểm chuẩn AI: Chúng ta có nên bỏ qua chúng bây giờ không?

Ngày 10 tháng 4 năm 2025
115

Chào mừng bạn đến với bản tin AI thường xuyên của TechCrunch! Chúng tôi đang nghỉ ngơi một chút, nhưng đừng lo lắng, bạn vẫn có thể nhận được tất cả các bảo hiểm AI của chúng tôi, bao gồm các cột của tôi, phân tích hàng ngày và tin tức mới, ngay tại TechCrunch. Bạn muốn đưa những câu chuyện này thẳng vào hộp thư đến của bạn mỗi ngày? Chỉ cần đăng ký cho các bản tin hàng ngày của chúng tôi ở đây.

Tuần này, khởi nghiệp AI của Elon Musk, XAI, đã bỏ mẫu AI hàng đầu mới nhất của họ, Grok 3, đang cung cấp năng lượng cho các ứng dụng Grok Chatbot của công ty. Họ đã đào tạo nó trên 200.000 GPU, và nó vượt trội hơn một loạt các mô hình hàng đầu khác, bao gồm một số từ Openai, trong điểm chuẩn cho toán học, mã hóa, v.v.

Nhưng hãy nói về những điểm chuẩn này thực sự có ý nghĩa gì.

Tại TC, chúng tôi báo cáo về các số điểm chuẩn này, ngay cả khi chúng tôi không phải lúc nào cũng vui mừng về nó, bởi vì chúng là một trong số ít những cách mà ngành công nghiệp AI cố gắng thể hiện cách các mô hình của họ được cải thiện. Vấn đề là, những điểm chuẩn AI phổ biến này thường tập trung vào những thứ tối nghĩa và cho điểm số không thực sự phản ánh mức độ AI làm những điều mà mọi người thực sự quan tâm.

Ethan Mollick, một giáo sư tại Wharton, đã đến X để nói rằng có một nhu cầu thực sự cho các bài kiểm tra tốt hơn và các nhóm độc lập để điều hành chúng. Ông chỉ ra rằng các công ty AI thường báo cáo kết quả điểm chuẩn của riêng họ, điều này khiến cho việc tin tưởng họ hoàn toàn.

"Điểm chuẩn công cộng đều là 'meh' và bão hòa, để lại rất nhiều thử nghiệm AI giống như đánh giá thực phẩm, dựa trên hương vị", Mollick viết. "Nếu AI rất quan trọng để làm việc, chúng ta cần nhiều hơn."

Có rất nhiều người ngoài kia đang cố gắng đưa ra điểm chuẩn mới cho AI, nhưng không ai có thể đồng ý về những gì tốt nhất. Một số người nghĩ rằng điểm chuẩn nên tập trung vào tác động kinh tế là hữu ích, trong khi những người khác tin rằng việc áp dụng và hữu ích trong thế giới thực là những biện pháp thành công thực sự.

Cuộc tranh luận này có thể diễn ra mãi mãi. Có thể, giống như người dùng X mà Roon gợi ý, chúng ta chỉ nên chú ý đến các mô hình và điểm chuẩn mới trừ khi có một bước đột phá AI chính. Nó có thể tốt hơn cho sự tỉnh táo của chúng ta, ngay cả khi nó có nghĩa là bỏ lỡ một số sự cường điệu AI.

Như đã đề cập, tuần này trong AI đang nghỉ ngơi. Cảm ơn vì đã gắn bó với chúng tôi, độc giả, thông qua tất cả các thăng trầm. Cho đến lần sau.

Tin tức

Tín dụng hình ảnh: Hình ảnh Nathan Laine / Bloomberg / Getty
Openai đang cố gắng để "unsensor" chatgpt. Max đã viết về cách họ thay đổi cách tiếp cận phát triển AI để nắm lấy "tự do trí tuệ", ngay cả về các chủ đề khó khăn hoặc gây tranh cãi.

Mira Murati, cựu CTO của Openai, có một công ty khởi nghiệp mới có tên là Think Machines Lab. Họ đang làm việc trên các công cụ để "làm cho AI hoạt động cho các nhu cầu và mục tiêu độc đáo của [mọi người]."

XAI đã phát hành Grok 3 và thêm các tính năng mới vào các ứng dụng Grok cho iOS và Web.

Meta đang tổ chức hội nghị nhà phát triển đầu tiên tập trung vào AI thế hệ vào mùa xuân này. Nó được gọi là Llamacon, theo mô hình Llama của họ, và nó xảy ra vào ngày 29 tháng 4.

Paul đã viết về Openeurollm, một dự án của khoảng 20 tổ chức để xây dựng các mô hình nền tảng cho "AI minh bạch ở châu Âu" tôn trọng "sự đa dạng về ngôn ngữ và văn hóa" của tất cả các ngôn ngữ của EU.

Tài liệu nghiên cứu trong tuần

Trang web Openai Tatgpt hiển thị trên màn hình máy tính xách tay được nhìn thấy trong ảnh minh họa này.

Tín dụng hình ảnh: Hình ảnh Jakub Porzycki / Nurphoto / Getty
Các nhà nghiên cứu Openai đã đưa ra một điểm chuẩn AI mới có tên SWE-Lancer để kiểm tra xem AI có thể viết mã tốt như thế nào. Nó được tạo thành từ hơn 1.400 nhiệm vụ kỹ thuật phần mềm tự do, từ sửa lỗi và thêm các tính năng để đề xuất triển khai kỹ thuật.

Openai cho biết mô hình hiệu suất cao nhất, Sonnet Claude 3.5 của Anthropic, chỉ đạt 40,3% trên điểm chuẩn SWE-Lancer đầy đủ, cho thấy AI vẫn còn một chặng đường dài. Họ đã không kiểm tra các mẫu mới hơn như O3-mini của Openai hoặc R1 của Deepseek từ Trung Quốc.

Mô hình của tuần

Một công ty AI của Trung Quốc có tên Stepfun đã phát hành một mô hình AI "Mở" có tên Step-Audio có thể hiểu và tạo ra lời nói bằng tiếng Trung, tiếng Anh và tiếng Nhật. Người dùng thậm chí có thể điều chỉnh cảm xúc và phương ngữ của âm thanh tổng hợp, bao gồm cả ca hát.

Stepfun là một trong một số công ty khởi nghiệp AI được tài trợ tốt của Trung Quốc phát hành các mô hình với giấy phép cho phép. Được thành lập vào năm 2023, gần đây họ đã đóng cửa một vòng tài trợ trị giá hàng trăm triệu người từ các nhà đầu tư, bao gồm các công ty cổ phần tư nhân thuộc sở hữu nhà nước Trung Quốc.

Lấy túi

Nghiên cứu Nous Deephermes

Tín dụng hình ảnh: Nghiên cứu nous
Nous Research, một nhóm nghiên cứu AI, tuyên bố đã phát hành một trong những mô hình AI đầu tiên kết hợp lý luận với "khả năng mô hình ngôn ngữ trực quan".

Mô hình của họ, Preview Deephermes-3, có thể chuyển đổi giữa "chuỗi suy nghĩ" ngắn và dài để cân bằng độ chính xác và sức mạnh tính toán. Trong chế độ "Lý luận", phải mất nhiều thời gian hơn để giải quyết các vấn đề khó khăn hơn và cho thấy quá trình suy nghĩ của nó trên đường đi.

Anthropic được cho là có kế hoạch phát hành một mô hình tương tự sớm và Openai nói rằng đó là trên lộ trình ngắn hạn của họ.

Bài viết liên quan
OpenAI升級其Operator Agent的AI模型 OpenAI升級其Operator Agent的AI模型 OpenAI將Operator推向全新境界OpenAI正為其自主AI代理Operator進行重大升級。這項變革意味著Operator即將採用基於o3模型的架構,這是OpenAI尖端o系列推理模型的最新成員。此前Operator一直使用客製化版本的GPT-4o驅動,但這次迭代將帶來顯著改進。o3的突破性意義在數學與邏輯推理任務方面,o3幾乎在所有指標上都超越前
OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準 OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準 為什麼 AI 基準測試的差異很重要?提到 AI 時,數字往往能說明一切——有時,這些數字並不一定完全相符。以 OpenAI 的 o3 模型為例。最初的聲稱簡直令人驚嘆:據報導,o3 可以處理超過 25% 的 notoriously tough FrontierMath 問題。作為參考,競爭對手還停留在個位數。但隨著近期的發展,受人尊敬的研究機構 Epoch
Ziff Davis指控OpenAI涉嫌侵權 Ziff Davis指控OpenAI涉嫌侵權 Ziff Davis控告OpenAI版權侵權訴訟這起事件在科技和出版界掀起了軒然大波,Ziff Davis——旗下擁有CNET、PCMag、IGN和Everyday Health等品牌的龐大企業聯盟——已對OpenAI提起版權侵權訴訟。根據《紐約時報》的報導,該訴訟聲稱OpenAI故意未經許可使用Ziff Davis的內容,製作了其作品的「精確副本」。這是截
Nhận xét (55)
0/200
FredAnderson
FredAnderson 00:00:00 GMT Ngày 10 tháng 4 năm 2025

Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!

WilliamYoung
WilliamYoung 00:00:00 GMT Ngày 11 tháng 4 năm 2025

AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!

ChristopherDavis
ChristopherDavis 00:00:00 GMT Ngày 10 tháng 4 năm 2025

Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!

StephenLee
StephenLee 00:00:00 GMT Ngày 11 tháng 4 năm 2025

Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!

TimothyRoberts
TimothyRoberts 00:00:00 GMT Ngày 11 tháng 4 năm 2025

Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!

NoahGreen
NoahGreen 00:00:00 GMT Ngày 11 tháng 4 năm 2025

I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!

Quay lại đầu
OR