lựa chọn
Trang chủ
Tin tức
AI chia tỷ lệ đột phá của các chuyên gia

AI chia tỷ lệ đột phá của các chuyên gia

Ngày 10 tháng 4 năm 2025
97

AI chia tỷ lệ đột phá của các chuyên gia

Đã có một số xôn xao trên mạng xã hội về việc các nhà nghiên cứu phát hiện ra một "quy luật mở rộng" AI mới, nhưng các chuyên gia đang tiếp nhận nó với một chút nghi ngờ. Quy luật mở rộng AI, vốn giống như các hướng dẫn không chính thức, cho thấy cách các mô hình AI cải thiện khi bạn cung cấp nhiều dữ liệu và sức mạnh tính toán hơn. Cho đến khoảng một năm trước, xu hướng lớn là tập trung vào "huấn luyện trước" – cơ bản là huấn luyện các mô hình lớn hơn trên các tập dữ liệu lớn hơn. Điều đó vẫn đang diễn ra, nhưng giờ đây chúng ta có thêm hai quy luật mở rộng mới: mở rộng sau huấn luyện, tập trung vào việc điều chỉnh hành vi của mô hình, và mở rộng thời gian kiểm tra, liên quan đến việc sử dụng nhiều sức mạnh tính toán hơn trong quá trình suy luận để tăng cường khả năng "suy luận" của mô hình (nghĩ đến các mô hình như R1).

Gần đây, các nhà nghiên cứu từ Google và UC Berkeley đã công bố một bài báo mà một số người trên mạng gọi là quy luật thứ tư: "tìm kiếm thời gian suy luận." Phương pháp này khiến mô hình đưa ra một loạt các câu trả lời có thể cho một truy vấn cùng lúc và sau đó chọn câu trả lời tốt nhất. Các nhà nghiên cứu tuyên bố rằng nó có thể nâng cao hiệu suất của một mô hình cũ hơn, như Gemini 1.5 Pro của Google, để vượt qua mô hình "suy luận" o1-preview của OpenAI trên các bài kiểm tra khoa học và toán học.

Eric Zhao, một nghiên cứu sinh tiến sĩ của Google và là đồng tác giả của bài báo, đã chia sẻ trên X rằng chỉ cần lấy mẫu ngẫu nhiên 200 câu trả lời và để mô hình tự xác minh, Gemini 1.5 – mà anh gọi đùa là "mô hình cổ xưa đầu năm 2024" – có thể vượt qua o1-preview và thậm chí tiến gần đến o1. Anh chỉ ra rằng việc tự xác minh trở nên dễ dàng hơn khi bạn mở rộng quy mô, điều này hơi trái ngược với trực giác nhưng rất thú vị.

Nhưng không phải ai cũng bị thuyết phục. Matthew Guzdial, một nhà nghiên cứu AI và trợ lý giáo sư tại Đại học Alberta, nói với TechCrunch rằng phương pháp này hoạt động tốt nhất khi bạn có một cách rõ ràng để đánh giá các câu trả lời. Tuy nhiên, hầu hết các câu hỏi không đơn giản như vậy. Anh nói, "Nếu chúng ta không thể viết mã để xác định điều chúng ta muốn, chúng ta không thể sử dụng tìm kiếm [thời gian suy luận]. Đối với tương tác ngôn ngữ chung, chúng ta không thể làm điều này... Nó thường không phải là cách tiếp cận tốt để thực sự giải quyết hầu hết các vấn đề."

Zhao phản hồi, nói rằng bài báo của họ thực sự xem xét các trường hợp mà bạn không có cách rõ ràng để đánh giá các câu trả lời, và mô hình phải tự tìm ra. Anh lập luận rằng khoảng cách giữa việc có cách đánh giá rõ ràng và không có cách đó có thể thu hẹp khi bạn mở rộng quy mô.

Mike Cook, một nghiên cứu sinh tại King's College London, ủng hộ quan điểm của Guzdial, nói rằng tìm kiếm thời gian suy luận không thực sự cải thiện khả năng suy luận của mô hình. Nó giống như một cách khắc phục cho xu hướng sai lầm đầy tự tin của mô hình. Anh chỉ ra rằng nếu mô hình của bạn sai 5% thời gian, việc kiểm tra 200 lần thử sẽ giúp phát hiện những sai lầm đó dễ dàng hơn.

Tin tức này có thể là một chút thất vọng đối với ngành công nghiệp AI, vốn luôn tìm kiếm cách để tăng cường khả năng "suy luận" của mô hình mà không tốn quá nhiều chi phí. Như các tác giả của bài báo đã lưu ý, các mô hình suy luận có thể tiêu tốn hàng ngàn đô la chi phí tính toán chỉ để giải một bài toán.

Có vẻ như cuộc tìm kiếm các kỹ thuật mở rộng mới vẫn còn lâu mới kết thúc.

Cập nhật 3/20 5:12 sáng theo giờ Thái Bình Dương: Bổ sung ý kiến từ đồng tác giả nghiên cứu Eric Zhao, người phản đối một đánh giá từ một nhà nghiên cứu độc lập đã phê bình công trình này.

Bài viết liên quan
Nghiên cứu của Microsoft tiết lộ giới hạn của các mô hình AI trong việc gỡ lỗi phần mềm Nghiên cứu của Microsoft tiết lộ giới hạn của các mô hình AI trong việc gỡ lỗi phần mềm Các mô hình AI từ OpenAI, Anthropic và các phòng thí nghiệm AI hàng đầu khác ngày càng được sử dụng cho các nhiệm vụ lập trình. Giám đốc điều hành Google Sundar Pichai đã lưu ý vào tháng 10 rằng AI tạ
Giải pháp được hỗ trợ bởi AI có thể giảm đáng kể lượng phát thải carbon toàn cầu Giải pháp được hỗ trợ bởi AI có thể giảm đáng kể lượng phát thải carbon toàn cầu Một nghiên cứu gần đây của Trường Kinh tế London và Systemiq cho thấy trí tuệ nhân tạo có thể giảm đáng kể lượng phát thải carbon toàn cầu mà không làm mất đi các tiện nghi hiện đại, định vị AI như mộ
Nghiên Cứu Mới Tiết Lộ Lượng Dữ Liệu LLMs Thực Sự Ghi Nhớ Nghiên Cứu Mới Tiết Lộ Lượng Dữ Liệu LLMs Thực Sự Ghi Nhớ AI Ghi Nhớ Bao Nhiêu? Nghiên Cứu Mới Tiết Lộ Những Hiểu Biết Bất NgờChúng ta đều biết rằng các mô hình ngôn ngữ lớn (LLMs) như ChatGPT, Claude, và Gemini được huấn luyện trên các tập dữ liệu khổng lồ—
Nhận xét (35)
0/200
DanielThomas
DanielThomas 06:49:41 GMT+07:00 Ngày 24 tháng 4 năm 2025

AI 스케일링 돌파구는 멋지게 들리지만, 전문가들은 회의적이에요. 🤔 이제 뭘 믿어야 할지 모르겠어요. 그냥 과대광고일까요? 지켜볼게요, 하지만 기대는 하지 않을게요. 😴

BenRoberts
BenRoberts 01:12:49 GMT+07:00 Ngày 24 tháng 4 năm 2025

This AI scaling law thing sounds cool, but it's hard to get excited when experts are so skeptical. It's like they're saying, 'Sure, it's interesting, but let's not get carried away.' I guess we'll see if it's the real deal or just another hype train. 🤔

PatrickMartinez
PatrickMartinez 02:31:56 GMT+07:00 Ngày 22 tháng 4 năm 2025

Essa história de lei de escalabilidade de IA parece legal, mas é difícil se empolgar quando os especialistas são tão céticos. Parece que eles estão dizendo, 'Sim, é interessante, mas não vamos nos empolgar muito'. Vamos ver se é verdade ou só mais um hype. 🤔

JohnYoung
JohnYoung 07:36:43 GMT+07:00 Ngày 20 tháng 4 năm 2025

AI 스케일링 법칙에 대한 소식은 흥미롭지만, 전문가들이 회의적이라서 흥분하기 어려워. '재미있지만 너무 기대하지 마세요'라는 느낌이야. 실제로 어떻게 될지 지켜봐야겠네. 🤔

HaroldMoore
HaroldMoore 18:24:24 GMT+07:00 Ngày 17 tháng 4 năm 2025

AIのスケーリングブレイクスルーは面白そうだけど、専門家は懐疑的。🤔 もう何を信じればいいのかわからない。ただの誇大広告かも?注目はするけど、期待はしないよ。😴

AlbertLee
AlbertLee 22:25:29 GMT+07:00 Ngày 16 tháng 4 năm 2025

El avance en la escala de IA suena genial, pero todavía no lo compro. Es todo un hype en las redes sociales, pero los expertos son escépticos. Esperaré más pruebas sólidas antes de subirme al carro. 🤔

Quay lại đầu
OR