

AI đã phát triển vượt quá kiến thức của con người, đơn vị DeepMind của Google nói
Ngày 25 tháng 4 năm 2025
JuanLewis
0
Tiến bộ AI ngoài các bài kiểm tra truyền thống: Sự gia tăng của học tập kinh nghiệm
Lĩnh vực Trí tuệ nhân tạo (AI) đang xôn xao với những nỗ lực đẩy AI thế hệ vượt ra ngoài giới hạn của các điểm chuẩn truyền thống, như bài kiểm tra Turing, mà nhiều mô hình đã vượt qua. Trọng tâm bây giờ chuyển sang phát triển AI không chỉ được thiết kế theo các thử nghiệm này mà để phát triển thông qua một quá trình năng động hơn.
Các nhà nghiên cứu tại Deepmind của Google, bao gồm các truyền thuyết như David Silver và Richard Sutton, tranh luận trong bài báo của họ chào mừng đến thời đại trải nghiệm rằng chìa khóa để mở khóa các khả năng AI mới không nằm trong các bài kiểm tra, mà theo cách mà AI được đào tạo. Họ cho rằng các bộ dữ liệu tĩnh được sử dụng hiện tại quá giới hạn trong việc thúc đẩy những tiến bộ đáng kể.
Giải pháp của họ? AI cần tham gia với thế giới theo cách trải nghiệm hơn, học hỏi từ các tương tác và thiết lập các mục tiêu dựa trên phản hồi môi trường. "Các khả năng mới đáng kinh ngạc sẽ phát sinh một khi toàn bộ tiềm năng của việc học tập kinh nghiệm được khai thác", họ khẳng định. Silver, được biết đến với công việc của mình trên Alphazero, người đã đánh bại con người tại Cờ vua và Go, và Sutton, người tiên phong trong việc học củng cố, đề xuất một cách tiếp cận mới gọi là "Streams" để vượt qua những hạn chế của các mô hình ngôn ngữ lớn hiện tại (LLM).

Google DeepMind
Từ việc tăng cường học tập đến AI: một sự thay đổi và hậu quả của nó
Sau những thành công của Alphazero và Alphago, cộng đồng AI đã thấy một sự thay đổi đối với các mô hình AI tổng quát như TATGPT, phần lớn đã rời khỏi học tập củng cố. Mặc dù điều này cho phép AI xử lý một loạt các đầu vào của con người tự phát, nhưng điều đó cũng có nghĩa là mất đi khía cạnh tự khám phá mà củng cố việc học được kích hoạt.
Theo Silver và Sutton, các LLM hiện tại phụ thuộc rất nhiều vào sự phán xét của con người ở giai đoạn nhanh chóng, điều này hạn chế tiềm năng của họ. "Các tác nhân không thể khám phá các chiến lược tốt hơn được đánh giá thấp bởi người đánh giá con người", họ giải thích. Hơn nữa, bản chất ngắn, bị cắt xén của các tương tác nhanh chóng không cho phép AI phát triển vượt ra ngoài các trao đổi câu hỏi và trả lời đơn giản.
Giới thiệu các luồng: Một mô hình mới cho việc học AI
"Thời đại kinh nghiệm" được đề xuất liên quan đến các tác nhân AI hoạt động trong "các luồng" tương tác liên tục, giống như con người học trong suốt cuộc đời. Bạc và Sutton hình dung các đặc vụ AI với các dòng kinh nghiệm dài hạn của riêng họ, cho phép họ theo đuổi các mục tiêu ngoài các nhiệm vụ ngay lập tức.
Cách tiếp cận này được xây dựng dựa trên học tập củng cố, trong đó các tác nhân AI tương tác với một mô hình của thế giới, nhận được phản hồi dưới dạng phần thưởng. Những phần thưởng này giúp AI tìm hiểu những hành động có giá trị trong các bối cảnh khác nhau. Các nhà nghiên cứu chỉ ra rằng thế giới rất phong phú với các tín hiệu có thể đóng vai trò là phần thưởng, từ các chỉ số kinh tế đến số liệu sức khỏe.
Xây dựng các đại lý AI với các mục tiêu dài hạn
Để khởi động quá trình này, các nhà phát triển AI có thể sử dụng mô phỏng "mô hình thế giới", cho phép AI đưa ra dự đoán, kiểm tra chúng trong thực tế và tinh chỉnh mô hình của nó dựa trên kết quả. Khi AI tiếp tục tương tác với thế giới, sự hiểu biết của nó phát triển, thích nghi với dữ liệu mới và sửa lỗi.
Con người vẫn sẽ đóng một vai trò trong việc thiết lập các mục tiêu rộng rãi, chẳng hạn như cải thiện thể lực hoặc học một ngôn ngữ mới, với chức năng phần thưởng của AI phù hợp với các mục tiêu này. Thiết lập này có thể dẫn đến các trợ lý AI theo dõi và tư vấn về sức khỏe hoặc giáo dục trong thời gian dài, hoặc thậm chí theo đuổi các mục tiêu khoa học đầy tham vọng như khám phá các vật liệu mới hoặc giảm lượng khí thải carbon.
Tương lai của AI: Ngoài lý luận để học tập kinh nghiệm
Các nhà nghiên cứu tin rằng các tác nhân AI có khả năng học tập kinh nghiệm lâu dài có thể vượt qua các mô hình AI "lý luận" hiện tại như Gemini và Deepseek's R1. Họ lập luận rằng các mô hình lý luận thường bắt chước tư tưởng của con người, có thể bị giới hạn bởi các giả định lỗi thời. Ngược lại, các tác nhân trải nghiệm có thể mở khóa các khả năng chưa từng có, dẫn đến một tương lai rất khác với những gì chúng ta đã thấy.
Tuy nhiên, sự thay đổi này cũng mang lại rủi ro, chẳng hạn như dịch chuyển công việc và thách thức kiểm soát các tác nhân AI có thể hoạt động tự trị trong thời gian dài. Mặt khác, AI thích nghi có thể học cách giảm thiểu các tác động tiêu cực đối với con người bằng cách điều chỉnh hành vi của nó dựa trên phản hồi.
Silver và Sutton tự tin rằng dữ liệu kinh nghiệm sẽ vượt xa quy mô và chất lượng của dữ liệu do con người tạo ra, có khả năng dẫn đến trí thông minh chung nhân tạo hoặc siêu thông minh. Sự thay đổi mô hình này, cùng với những tiến bộ trong học tập củng cố, có thể mở khóa các khả năng mới ngoài tầm với của con người trong nhiều lĩnh vực.
Silver đã thảo luận thêm về những ý tưởng này trong một podcast DeepMind gần đây, nhấn mạnh tiềm năng và những thách thức của việc chuyển AI vào kỷ nguyên kinh nghiệm.
Bài viết liên quan
Microsoft Copilot so với Copilot Pro: Đăng ký có giá trị chi phí không?
Công cụ Copilot của Microsoft là một Chatbot AI đa năng mà bạn có thể truy cập miễn phí thông qua trang web chuyên dụng, ứng dụng di động hoặc làm tính năng tích hợp trong Windows. Nó được thiết kế để trả lời câu hỏi của bạn, tạo nội dung và thậm chí tạo hình ảnh. Tuy nhiên, nếu bạn đang tìm kiếm các tính năng nâng cao hơn, mic
Chime Note AI Ghi âm được xem xét: Các tính năng và ứng dụng thực tế
Trong thế giới có nhịp độ nhanh của chúng tôi, việc quản lý thông tin một cách hiệu quả đã trở nên cần thiết. Nhập Chime Note AI Acorder Recorder, một công cụ thay đổi trò chơi kết hợp công nghệ AI tiên tiến với thiết kế thân thiện với người dùng. Thiết bị này được đặt để chuyển đổi cách chúng tôi xử lý dữ liệu thoại, từ ghi sang sao chép
Microsoft chấm dứt nhân viên, người đã dán nhãn AI Executive là 'War Profiteer'
Microsoft chấm dứt nhân viên sau khi gián đoạn tại sự kiện kỷ niệm 50 năm Microsoft đã bác bỏ một nhân viên, Ibtihal Aboussad, sau một sự gián đoạn tại lễ kỷ niệm 50 năm của công ty. Theo một email có được bởi The Verge, Microsoft đã trích dẫn "hành vi sai trái" là lý do
Nhận xét (0)
0/200






Tiến bộ AI ngoài các bài kiểm tra truyền thống: Sự gia tăng của học tập kinh nghiệm
Lĩnh vực Trí tuệ nhân tạo (AI) đang xôn xao với những nỗ lực đẩy AI thế hệ vượt ra ngoài giới hạn của các điểm chuẩn truyền thống, như bài kiểm tra Turing, mà nhiều mô hình đã vượt qua. Trọng tâm bây giờ chuyển sang phát triển AI không chỉ được thiết kế theo các thử nghiệm này mà để phát triển thông qua một quá trình năng động hơn.
Các nhà nghiên cứu tại Deepmind của Google, bao gồm các truyền thuyết như David Silver và Richard Sutton, tranh luận trong bài báo của họ chào mừng đến thời đại trải nghiệm rằng chìa khóa để mở khóa các khả năng AI mới không nằm trong các bài kiểm tra, mà theo cách mà AI được đào tạo. Họ cho rằng các bộ dữ liệu tĩnh được sử dụng hiện tại quá giới hạn trong việc thúc đẩy những tiến bộ đáng kể.
Giải pháp của họ? AI cần tham gia với thế giới theo cách trải nghiệm hơn, học hỏi từ các tương tác và thiết lập các mục tiêu dựa trên phản hồi môi trường. "Các khả năng mới đáng kinh ngạc sẽ phát sinh một khi toàn bộ tiềm năng của việc học tập kinh nghiệm được khai thác", họ khẳng định. Silver, được biết đến với công việc của mình trên Alphazero, người đã đánh bại con người tại Cờ vua và Go, và Sutton, người tiên phong trong việc học củng cố, đề xuất một cách tiếp cận mới gọi là "Streams" để vượt qua những hạn chế của các mô hình ngôn ngữ lớn hiện tại (LLM).
Từ việc tăng cường học tập đến AI: một sự thay đổi và hậu quả của nó
Sau những thành công của Alphazero và Alphago, cộng đồng AI đã thấy một sự thay đổi đối với các mô hình AI tổng quát như TATGPT, phần lớn đã rời khỏi học tập củng cố. Mặc dù điều này cho phép AI xử lý một loạt các đầu vào của con người tự phát, nhưng điều đó cũng có nghĩa là mất đi khía cạnh tự khám phá mà củng cố việc học được kích hoạt.
Theo Silver và Sutton, các LLM hiện tại phụ thuộc rất nhiều vào sự phán xét của con người ở giai đoạn nhanh chóng, điều này hạn chế tiềm năng của họ. "Các tác nhân không thể khám phá các chiến lược tốt hơn được đánh giá thấp bởi người đánh giá con người", họ giải thích. Hơn nữa, bản chất ngắn, bị cắt xén của các tương tác nhanh chóng không cho phép AI phát triển vượt ra ngoài các trao đổi câu hỏi và trả lời đơn giản.
Giới thiệu các luồng: Một mô hình mới cho việc học AI
"Thời đại kinh nghiệm" được đề xuất liên quan đến các tác nhân AI hoạt động trong "các luồng" tương tác liên tục, giống như con người học trong suốt cuộc đời. Bạc và Sutton hình dung các đặc vụ AI với các dòng kinh nghiệm dài hạn của riêng họ, cho phép họ theo đuổi các mục tiêu ngoài các nhiệm vụ ngay lập tức.
Cách tiếp cận này được xây dựng dựa trên học tập củng cố, trong đó các tác nhân AI tương tác với một mô hình của thế giới, nhận được phản hồi dưới dạng phần thưởng. Những phần thưởng này giúp AI tìm hiểu những hành động có giá trị trong các bối cảnh khác nhau. Các nhà nghiên cứu chỉ ra rằng thế giới rất phong phú với các tín hiệu có thể đóng vai trò là phần thưởng, từ các chỉ số kinh tế đến số liệu sức khỏe.
Xây dựng các đại lý AI với các mục tiêu dài hạn
Để khởi động quá trình này, các nhà phát triển AI có thể sử dụng mô phỏng "mô hình thế giới", cho phép AI đưa ra dự đoán, kiểm tra chúng trong thực tế và tinh chỉnh mô hình của nó dựa trên kết quả. Khi AI tiếp tục tương tác với thế giới, sự hiểu biết của nó phát triển, thích nghi với dữ liệu mới và sửa lỗi.
Con người vẫn sẽ đóng một vai trò trong việc thiết lập các mục tiêu rộng rãi, chẳng hạn như cải thiện thể lực hoặc học một ngôn ngữ mới, với chức năng phần thưởng của AI phù hợp với các mục tiêu này. Thiết lập này có thể dẫn đến các trợ lý AI theo dõi và tư vấn về sức khỏe hoặc giáo dục trong thời gian dài, hoặc thậm chí theo đuổi các mục tiêu khoa học đầy tham vọng như khám phá các vật liệu mới hoặc giảm lượng khí thải carbon.
Tương lai của AI: Ngoài lý luận để học tập kinh nghiệm
Các nhà nghiên cứu tin rằng các tác nhân AI có khả năng học tập kinh nghiệm lâu dài có thể vượt qua các mô hình AI "lý luận" hiện tại như Gemini và Deepseek's R1. Họ lập luận rằng các mô hình lý luận thường bắt chước tư tưởng của con người, có thể bị giới hạn bởi các giả định lỗi thời. Ngược lại, các tác nhân trải nghiệm có thể mở khóa các khả năng chưa từng có, dẫn đến một tương lai rất khác với những gì chúng ta đã thấy.
Tuy nhiên, sự thay đổi này cũng mang lại rủi ro, chẳng hạn như dịch chuyển công việc và thách thức kiểm soát các tác nhân AI có thể hoạt động tự trị trong thời gian dài. Mặt khác, AI thích nghi có thể học cách giảm thiểu các tác động tiêu cực đối với con người bằng cách điều chỉnh hành vi của nó dựa trên phản hồi.
Silver và Sutton tự tin rằng dữ liệu kinh nghiệm sẽ vượt xa quy mô và chất lượng của dữ liệu do con người tạo ra, có khả năng dẫn đến trí thông minh chung nhân tạo hoặc siêu thông minh. Sự thay đổi mô hình này, cùng với những tiến bộ trong học tập củng cố, có thể mở khóa các khả năng mới ngoài tầm với của con người trong nhiều lĩnh vực.
Silver đã thảo luận thêm về những ý tưởng này trong một podcast DeepMind gần đây, nhấn mạnh tiềm năng và những thách thức của việc chuyển AI vào kỷ nguyên kinh nghiệm.












