lựa chọn
Trang chủ
Tin tức
Điểm chuẩn AI: Chúng ta có nên bỏ qua chúng bây giờ không?

Điểm chuẩn AI: Chúng ta có nên bỏ qua chúng bây giờ không?

Ngày 10 tháng 4 năm 2025
169

Chào mừng bạn đến với bản tin AI định kỳ của TechCrunch! Chúng tôi sẽ tạm nghỉ một chút, nhưng đừng lo, bạn vẫn có thể nhận được tất cả các tin tức về AI của chúng tôi, bao gồm các chuyên mục của tôi, phân tích hàng ngày và tin tức nóng hổi, ngay tại TechCrunch. Muốn nhận những câu chuyện này trực tiếp vào hộp thư của bạn mỗi ngày? Chỉ cần đăng ký nhận bản tin hàng ngày của chúng tôi tại đây.

Tuần này, công ty khởi nghiệp AI của Elon Musk, xAI, đã ra mắt mô hình AI hàng đầu mới nhất của họ, Grok 3, đang cung cấp sức mạnh cho các ứng dụng chatbot Grok của công ty. Họ đã huấn luyện nó trên tới 200.000 GPU, và nó vượt trội hơn nhiều mô hình hàng đầu khác, bao gồm một số từ OpenAI, trong các bài kiểm tra chuẩn về toán học, lập trình và hơn thế nữa.

Nhưng hãy nói về ý nghĩa thực sự của các bài kiểm tra chuẩn này.

Tại TC, chúng tôi đưa tin về các con số chuẩn này, dù không phải lúc nào cũng hào hứng, bởi vì chúng là một trong số ít cách mà ngành AI cố gắng thể hiện sự cải thiện của các mô hình của họ. Vấn đề là, các bài kiểm tra chuẩn AI phổ biến thường tập trung vào những thứ không rõ ràng và đưa ra điểm số không thực sự phản ánh mức độ tốt của AI trong những việc mà mọi người thực sự quan tâm.

Ethan Mollick, một giáo sư tại Wharton, đã lên X để nói rằng có một nhu cầu thực sự về các bài kiểm tra tốt hơn và các nhóm độc lập để thực hiện chúng. Ông chỉ ra rằng các công ty AI thường tự báo cáo kết quả chuẩn của họ, điều này khiến việc tin tưởng hoàn toàn trở nên khó khăn.

"Các bài kiểm tra chuẩn công khai vừa 'tầm thường' vừa bão hòa, khiến việc kiểm tra AI giống như đánh giá món ăn, dựa trên khẩu vị," Mollick viết. "Nếu AI quan trọng đối với công việc, chúng ta cần nhiều hơn."

Có rất nhiều người đang cố gắng đưa ra các bài kiểm tra chuẩn mới cho AI, nhưng không ai đồng ý về cái gì là tốt nhất. Một số người nghĩ rằng các bài kiểm tra chuẩn nên tập trung vào tác động kinh tế để hữu ích, trong khi những người khác tin rằng việc áp dụng trong thực tế và tính hữu ích là thước đo thực sự của thành công.

Cuộc tranh luận này có thể kéo dài mãi mãi. Có lẽ, như người dùng X Roon gợi ý, chúng ta nên ít chú ý hơn đến các mô hình và chuẩn mới trừ khi có một bước đột phá lớn về AI. Điều đó có thể tốt hơn cho tinh thần của chúng ta, ngay cả khi nó có nghĩa là bỏ lỡ một số sự phấn khích về AI.

Như đã đề cập, This Week in AI đang tạm nghỉ. Cảm ơn các độc giả đã đồng hành cùng chúng tôi qua mọi thăng trầm. Hẹn gặp lại lần sau.

Tin tức

Nguồn ảnh: Nathan Laine/Bloomberg / Getty Images
OpenAI đang cố gắng "bỏ kiểm duyệt" ChatGPT. Max đã viết về cách họ đang thay đổi cách tiếp cận phát triển AI để chấp nhận "tự do trí tuệ," ngay cả đối với các chủ đề khó khăn hoặc gây tranh cãi.

Mira Murati, cựu CTO của OpenAI, có một công ty khởi nghiệp mới tên là Thinking Machines Lab. Họ đang phát triển các công cụ để "làm cho AI hoạt động phù hợp với nhu cầu và mục tiêu độc đáo của [mọi người]."

xAI đã phát hành Grok 3 và bổ sung các tính năng mới cho ứng dụng Grok trên iOS và web.

Meta đang tổ chức hội nghị nhà phát triển đầu tiên tập trung vào AI tạo sinh vào mùa xuân này. Hội nghị được gọi là LlamaCon, theo tên các mô hình Llama của họ, và sẽ diễn ra vào ngày 29 tháng 4.

Paul đã viết về OpenEuroLLM, một dự án của khoảng 20 tổ chức nhằm xây dựng các mô hình nền tảng cho "AI minh bạch ở châu Âu" tôn trọng "đa dạng ngôn ngữ và văn hóa" của tất cả các ngôn ngữ EU.

Bài nghiên cứu của tuần

Trang web OpenAI ChatGPT hiển thị trên màn hình laptop trong ảnh minh họa này.

Nguồn ảnh: Jakub Porzycki/NurPhoto / Getty Images
Các nhà nghiên cứu của OpenAI đã đưa ra một chuẩn AI mới có tên là SWE-Lancer để kiểm tra khả năng lập trình của AI. Chuẩn này bao gồm hơn 1.400 nhiệm vụ kỹ thuật phần mềm tự do, từ sửa lỗi và thêm tính năng đến đề xuất triển khai kỹ thuật.

OpenAI cho biết mô hình hoạt động tốt nhất, Claude 3.5 Sonnet của Anthropic, chỉ đạt 40,3% trên toàn bộ chuẩn SWE-Lancer, điều này cho thấy AI vẫn còn một chặng đường dài để phát triển. Họ chưa thử nghiệm các mô hình mới hơn như o3-mini của OpenAI hoặc R1 của DeepSeek từ Trung Quốc.

Mô hình của tuần

Một công ty AI Trung Quốc tên là Stepfun đã phát hành một mô hình AI "mở" có tên là Step-Audio, có thể hiểu và tạo ra giọng nói bằng tiếng Trung, tiếng Anh và tiếng Nhật. Người dùng thậm chí có thể điều chỉnh cảm xúc và giọng địa phương của âm thanh tổng hợp, bao gồm cả hát.

Stepfun là một trong số ít công ty khởi nghiệp AI Trung Quốc được tài trợ tốt đang phát hành các mô hình với giấy phép cởi mở. Được thành lập vào năm 2023, họ gần đây đã hoàn thành một vòng gọi vốn trị giá hàng trăm triệu từ các nhà đầu tư, bao gồm các công ty cổ phần tư nhân thuộc sở hữu nhà nước Trung Quốc.

Túi hỗn hợp

Nous Research DeepHermes

Nguồn ảnh: Nous Research
Nous Research, một nhóm nghiên cứu AI, tuyên bố đã phát hành một trong những mô hình AI đầu tiên kết hợp khả năng lập luận với "khả năng mô hình ngôn ngữ trực giác."

Mô hình của họ, DeepHermes-3 Preview, có thể chuyển đổi giữa các "chuỗi suy nghĩ" ngắn và dài để cân bằng độ chính xác và sức mạnh tính toán. Ở chế độ "lập luận," nó mất nhiều thời gian hơn để giải quyết các vấn đề khó và hiển thị quá trình suy nghĩ của mình.

Anthropic được cho là đang có kế hoạch phát hành một mô hình tương tự sớm, và OpenAI cho biết điều này nằm trong lộ trình ngắn hạn của họ.

Bài viết liên quan
Cựu Kỹ sư OpenAI Chia sẻ Thông tin về Văn hóa Công ty và Tăng trưởng Nhanh chóng Cựu Kỹ sư OpenAI Chia sẻ Thông tin về Văn hóa Công ty và Tăng trưởng Nhanh chóng Ba tuần trước, Calvin French-Owen, một kỹ sư đã đóng góp vào một sản phẩm chủ chốt của OpenAI, đã rời công ty.Gần đây, anh ấy đã chia sẻ một bài đăng blog hấp dẫn, mô tả chi tiết một năm làm việc tại
Google Ra Mắt Các Mô Hình AI Gemini 2.5 Sẵn Sàng Sản Xuất để Cạnh Tranh với OpenAI trên Thị Trường Doanh Nghiệp Google Ra Mắt Các Mô Hình AI Gemini 2.5 Sẵn Sàng Sản Xuất để Cạnh Tranh với OpenAI trên Thị Trường Doanh Nghiệp Google tăng cường chiến lược AI vào thứ Hai, ra mắt các mô hình Gemini 2.5 tiên tiến cho doanh nghiệp và giới thiệu biến thể tiết kiệm chi phí để cạnh tranh về giá và hiệu suất.Công ty thuộc sở hữu củ
Meta cung cấp lương cao cho nhân tài AI, phủ nhận tiền thưởng ký hợp đồng 100 triệu USD Meta cung cấp lương cao cho nhân tài AI, phủ nhận tiền thưởng ký hợp đồng 100 triệu USD Meta đang thu hút các nhà nghiên cứu AI đến phòng thí nghiệm siêu trí tuệ mới của mình với các gói lương thưởng trị giá hàng triệu USD. Tuy nhiên, các tuyên bố về tiền thưởng ký hợp đồng 100 triệu USD
Nhận xét (58)
0/200
BillyLewis
BillyLewis 13:01:00 GMT+07:00 Ngày 04 tháng 8 năm 2025

AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐

JimmyWilson
JimmyWilson 09:48:18 GMT+07:00 Ngày 01 tháng 8 năm 2025

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔

JohnTaylor
JohnTaylor 08:20:02 GMT+07:00 Ngày 28 tháng 7 năm 2025

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.

ChristopherThomas
ChristopherThomas 12:57:18 GMT+07:00 Ngày 26 tháng 4 năm 2025

I'm on the fence about AI benchmarks. They seem useful but also kinda miss the point sometimes. It's like judging a book by its cover. Still, it's good to have some metrics, right? Maybe we should take them with a grain of salt for now. 🤔

BrianWalker
BrianWalker 02:19:34 GMT+07:00 Ngày 26 tháng 4 năm 2025

Tôi không chắc về các tiêu chuẩn đánh giá AI. Chúng có vẻ hữu ích nhưng đôi khi cũng bỏ lỡ điểm chính. Giống như đánh giá một cuốn sách qua bìa của nó. Tuy nhiên, có một số chỉ số là tốt, đúng không? Có lẽ chúng ta nên xem xét chúng với một chút hoài nghi tạm thời. 🤔

CharlesMartinez
CharlesMartinez 22:01:53 GMT+07:00 Ngày 22 tháng 4 năm 2025

Estou em dúvida sobre os benchmarks de IA. Eles parecem úteis, mas às vezes também perdem o ponto. É como julgar um livro pela capa. Ainda assim, é bom ter algumas métricas, certo? Talvez devêssemos levá-los com um grão de sal por enquanto. 🤔

Quay lại đầu
OR