

Cựu cộng tác viên Deepseeker phát hành Phương pháp mới để đào tạo Đại lý AI đáng tin cậy: Ragen
Ngày 04 tháng 5 năm 2025
DavidMartínez
0

Năm đại lý AI: Nhìn kỹ hơn về những kỳ vọng và thực tế của năm 2025
Năm 2025 được nhiều chuyên gia coi là năm khi các đại lý AI đặc biệt hóa các hệ thống AI được cung cấp bởi các mô hình đa phương thức và ngôn ngữ lớn tiên tiến từ các công ty như Openai, Anthropic, Google và Deepseek, cuối cùng cũng sẽ chiếm vị trí trung tâm. Tuy nhiên, theo một cuộc thăm dò liên doanh gần đây trên mạng xã hội X, hầu hết các đại lý AI vẫn đang mòn mỏi trong các giai đoạn thử nghiệm, bị cuốn vào một loại limbo của công ty.
Nhưng có một tia hy vọng trên đường chân trời. Một nỗ lực hợp tác từ các nhà nghiên cứu tại Đại học Tây Bắc, Microsoft, Stanford và Đại học Washington, bao gồm Zihan Wang, cựu nhà nghiên cứu Deepseek hiện đang theo đuổi bằng tiến sĩ khoa học máy tính tại Tây Bắc, đã giới thiệu Ragen. Hệ thống mới này nhằm mục đích đào tạo và đánh giá các tác nhân AI để làm cho chúng đáng tin cậy và thích nghi hơn cho việc sử dụng doanh nghiệp trong thế giới thực.
Ragen: Một cách tiếp cận mới để đào tạo các đại lý AI
Không giống như các tác vụ tĩnh như giải toán hoặc tạo mã, Ragen tập trung vào các tương tác động, nhiều lượt trong đó các tác nhân cần thích nghi, nhớ và lý do giữa sự không chắc chắn. Hệ thống được xây dựng trên khung học tập củng cố tùy chỉnh (RL) được gọi là STARPO (Tối ưu hóa chính sách về hành động trạng thái-Hành động), trong đó nhấn mạnh học tập thông qua kinh nghiệm thay vì ghi nhớ vẹt. Starpo xem xét toàn bộ các chuỗi ra quyết định, không chỉ là phản hồi một bước.
StarPo hoạt động theo hai giai đoạn: giai đoạn triển khai trong đó LLM tạo ra các chuỗi tương tác hoàn chỉnh được hướng dẫn bởi lý luận và giai đoạn cập nhật trong đó mô hình được tối ưu hóa bằng cách sử dụng phần thưởng tích lũy chuẩn hóa. Cách tiếp cận này cung cấp một vòng lặp học tập ổn định và dễ hiểu hơn so với các phương pháp tối ưu hóa chính sách truyền thống.
Các nhà nghiên cứu đã thử nghiệm khung này bằng cách sử dụng các phiên bản tinh chỉnh của các mô hình Qwen của Alibaba, cụ thể là Qwen 1.5 và Qwen 2.5, được chọn cho các trọng số mở và khả năng theo hướng dẫn mạnh mẽ của họ. Sự lựa chọn này tạo điều kiện cho khả năng tái tạo và so sánh cơ sở nhất quán giữa các nhiệm vụ tượng trưng.
Bẫy Echo: Một thách thức trong việc học củng cố
Zihan Wang nhấn mạnh một vấn đề quan trọng trong đào tạo RL trong một chủ đề X được chia sẻ rộng rãi: * Tại sao đào tạo RL của bạn luôn sụp đổ?
Hồi quy này được thúc đẩy bởi các vòng phản hồi trong đó các cụm từ hoặc chiến lược nhất định kiếm được phần thưởng cao sớm, khuyến khích sự lạm dụng và thăm dò ngột ngạt. Các triệu chứng rất rõ ràng: các vách đá phương sai thưởng, gai dốc và dấu vết lý luận biến mất.
Môi trường thử nghiệm của Ragen
Để nghiên cứu các hành vi này trong một môi trường được kiểm soát, Ragen đánh giá các tác nhân trên ba môi trường tượng trưng:
- Bandit: Một nhiệm vụ ngẫu nhiên, quay đầu, kiểm tra lý luận về rủi ro mang tính biểu tượng.
- Sokoban: Một câu đố nhiều lượt, xác định liên quan đến các quyết định không thể đảo ngược.
- Hồ đông lạnh: Một nhiệm vụ ngẫu nhiên, nhiều lượt đòi hỏi phải lập kế hoạch thích ứng.
Mỗi môi trường được thiết kế để giảm thiểu các linh mục trong thế giới thực và chỉ tập trung vào các chiến lược ra quyết định được phát triển trong quá trình đào tạo. Ví dụ, trong môi trường cướp, các tác nhân phải lý luận một cách tượng trưng về Rồng và Phoenix Arms đại diện cho các phân phối phần thưởng khác nhau, giải thích chúng là "sức mạnh" và "hy vọng" để dự đoán kết quả.
Ổn định học tập củng cố với starpo-s
Để chống lại sự sụp đổ đào tạo, các nhà nghiên cứu đã giới thiệu StarPo-S, một phiên bản ổn định của khung ban đầu. StarPo-S bao gồm ba can thiệp chính:
- Lọc giới thiệu dựa trên độ không đảm bảo: Ưu tiên triển khai trong đó tác nhân cho thấy sự không chắc chắn về kết quả.
- Loại bỏ hình phạt KL: Cho phép mô hình đi chệch hướng tự do hơn với chính sách ban đầu của nó và khám phá các hành vi mới.
- Cắt PPO không đối xứng: khuếch đại các quỹ đạo phần thưởng cao nhiều hơn các quỹ cộng thấp để tăng cường học tập.
Những thay đổi này giúp trì hoãn hoặc loại bỏ sự sụp đổ đào tạo và cải thiện hiệu suất trên cả ba nhiệm vụ. Như Wang đã nói, "Starpo-S, hoạt động trên cả 3 nhiệm vụ. Giảm bớt sự sụp đổ. Phần thưởng tốt hơn."
Điều gì tạo nên một mô hình AI đại lý tốt?
Thành công của đào tạo RL không chỉ phụ thuộc vào kiến trúc mà còn vào chất lượng dữ liệu được tạo ra bởi các đại lý. Nhóm nghiên cứu đã xác định ba khía cạnh quan trọng có tác động đáng kể khi đào tạo:
- Đa dạng nhiệm vụ: Phơi bày mô hình với một loạt các kịch bản ban đầu giúp cải thiện khái quát.
- Tương tác độ chi tiết: Cho phép nhiều hành động cho mỗi lượt cho phép lập kế hoạch có ý nghĩa hơn.
- Giới thiệu độ tươi: Giữ dữ liệu đào tạo phù hợp với chính sách mô hình hiện tại tránh các tín hiệu học tập lỗi thời.
Những yếu tố này góp phần vào một quá trình đào tạo ổn định và hiệu quả hơn. Một trang web demo tương tác trên GitHub trực quan hóa các buổi giới thiệu tác nhân khi các cuộc đối thoại đầy đủ, bao gồm không chỉ các hành động mà cả quá trình suy nghĩ từng bước đi trước chúng. Chẳng hạn, khi giải quyết vấn đề toán học, trước tiên một tác nhân có thể 'nghĩ' về việc cô lập một biến trước khi gửi câu trả lời như 'x = 5'. Những suy nghĩ trung gian này có thể nhìn thấy và có thể truy nguyên, thêm tính minh bạch cho cách các tác nhân đưa ra quyết định.
Khi lý luận hết
Mặc dù lý luận rõ ràng tăng cường hiệu suất trong các nhiệm vụ đơn giản, đơn như tên cướp, nó có xu hướng phân rã trong quá trình đào tạo nhiều lượt. Mặc dù sử dụng các lời nhắc và mã thông báo có cấu trúc, các dấu vết lý luận thường co lại hoặc biến mất trừ khi được thưởng trực tiếp. Điều này nhấn mạnh một hạn chế trong cách các phần thưởng được thiết kế thường: tập trung vào việc hoàn thành nhiệm vụ có thể bỏ qua chất lượng của quá trình đằng sau nó. Nhóm nghiên cứu đã thử nghiệm các hình phạt dựa trên định dạng để khuyến khích lý luận có cấu trúc tốt hơn nhưng thừa nhận rằng việc định hình phần thưởng tinh tế hơn có thể cần thiết.
Các công cụ mở và các hướng dẫn trong tương lai
Ragen, cùng với StarPo và StarPo-S Frameworks, hiện có sẵn như một dự án nguồn mở tại https://github.com/ragen-ai/ragen . Tuy nhiên, tại thời điểm viết, không có giấy phép rõ ràng nào được liệt kê trong kho Github, có thể giới hạn việc sử dụng hoặc phân phối lại bởi những người khác.
Hệ thống này cung cấp một nền tảng có giá trị cho những người quan tâm đến việc phát triển các tác nhân AI không chỉ hoàn thành các nhiệm vụ mà còn nghĩ, lên kế hoạch và phát triển. Khi AI tiến tới quyền tự chủ lớn hơn, các dự án như Ragen giúp chiếu sáng những gì cần thiết để đào tạo các mô hình học hỏi từ hậu quả của hành động của chính họ.
Những câu hỏi nổi bật cho việc áp dụng doanh nghiệp trong thế giới thực
Trong khi tờ Ragen cung cấp một lộ trình kỹ thuật chi tiết, một số câu hỏi thực tế vẫn còn cho những người muốn áp dụng các phương pháp này trong các thiết lập doanh nghiệp. Chẳng hạn, cách tiếp cận của Ragen có thể chuyển nhượng vượt ra ngoài các nhiệm vụ tượng trưng, cách điệu? Các doanh nghiệp sẽ cần thiết kế các môi trường hoàn toàn mới và các chức năng thưởng để sử dụng hệ thống này trong các quy trình công việc như xử lý hóa đơn hoặc hỗ trợ khách hàng?
Wang, trong một thông điệp trực tiếp đến VentureBeat trên X, cho rằng việc cải thiện sự đa dạng nhiệm vụ có thể giúp ích, vì các nhiệm vụ chơi game hiện tại chỉ có các biểu diễn lưới tương tự nhưng thiếu thông tin ngữ nghĩa. Ông cũng bày tỏ sự lạc quan về các doanh nghiệp thiết kế các bài tập đào tạo của riêng họ cho các đại lý AI bằng Ragen, lưu ý rằng GitHub Link cung cấp một giới thiệu đơn giản để thêm môi trường mới.
Một lĩnh vực quan trọng khác là khả năng mở rộng. Ngay cả với các cải tiến được cung cấp bởi StarPo-S, bài báo thừa nhận rằng đào tạo cuối cùng vẫn sụp đổ trên các chân trời dài hơn. Điều này đặt ra câu hỏi: Có một con đường lý thuyết hoặc thực tế để duy trì lý luận trên các chuỗi nhiệm vụ kết thúc mở hoặc liên tục?
Tại thời điểm viết bài, không có giấy phép rõ ràng nào được liệt kê trong Kho lưu trữ hoặc tài liệu Ragen GitHub, để lại câu hỏi mở về quyền sử dụng. Tuy nhiên, Ragen nổi bật không chỉ là một đóng góp kỹ thuật mà còn là một bước quan niệm hướng tới các tác nhân AI có khả năng tự chủ hơn, có khả năng lý luận. Cho dù nó trở thành một phần của ngăn xếp AI của doanh nghiệp vẫn còn được nhìn thấy, nhưng những hiểu biết của nó về động lực học đại lý đã giúp xác định lại biên giới của đào tạo LLM.
Bài viết liên quan
GAIA Introduces New Benchmark in Quest for True Intelligence Beyond ARC-AGI
Intelligence is everywhere, yet gauging it accurately feels like trying to catch a cloud with your bare hands. We use tests and benchmarks, like college entrance exams, to get a rough idea. Each year, students cram for these tests, sometimes even scoring a perfect 100%. But does that perfect score m
Open Deep Search arrives to challenge Perplexity and ChatGPT Search
If you're in the tech world, you've likely heard about the buzz surrounding Open Deep Search (ODS), the new open-source framework from the Sentient Foundation. ODS is making waves by offering a robust alternative to proprietary AI search engines like Perplexity and ChatGPT Search, and it's all about
MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges
If you're diving into the world of artificial intelligence (AI), you've probably noticed how crucial it is to get different AI models, data sources, and tools to play nicely together. That's where the Model Context Protocol (MCP) comes in, acting as a game-changer in standardizing AI connectivity. T
Nhận xét (0)
0/200






Năm đại lý AI: Nhìn kỹ hơn về những kỳ vọng và thực tế của năm 2025
Năm 2025 được nhiều chuyên gia coi là năm khi các đại lý AI đặc biệt hóa các hệ thống AI được cung cấp bởi các mô hình đa phương thức và ngôn ngữ lớn tiên tiến từ các công ty như Openai, Anthropic, Google và Deepseek, cuối cùng cũng sẽ chiếm vị trí trung tâm. Tuy nhiên, theo một cuộc thăm dò liên doanh gần đây trên mạng xã hội X, hầu hết các đại lý AI vẫn đang mòn mỏi trong các giai đoạn thử nghiệm, bị cuốn vào một loại limbo của công ty.
Nhưng có một tia hy vọng trên đường chân trời. Một nỗ lực hợp tác từ các nhà nghiên cứu tại Đại học Tây Bắc, Microsoft, Stanford và Đại học Washington, bao gồm Zihan Wang, cựu nhà nghiên cứu Deepseek hiện đang theo đuổi bằng tiến sĩ khoa học máy tính tại Tây Bắc, đã giới thiệu Ragen. Hệ thống mới này nhằm mục đích đào tạo và đánh giá các tác nhân AI để làm cho chúng đáng tin cậy và thích nghi hơn cho việc sử dụng doanh nghiệp trong thế giới thực.
Ragen: Một cách tiếp cận mới để đào tạo các đại lý AI
Không giống như các tác vụ tĩnh như giải toán hoặc tạo mã, Ragen tập trung vào các tương tác động, nhiều lượt trong đó các tác nhân cần thích nghi, nhớ và lý do giữa sự không chắc chắn. Hệ thống được xây dựng trên khung học tập củng cố tùy chỉnh (RL) được gọi là STARPO (Tối ưu hóa chính sách về hành động trạng thái-Hành động), trong đó nhấn mạnh học tập thông qua kinh nghiệm thay vì ghi nhớ vẹt. Starpo xem xét toàn bộ các chuỗi ra quyết định, không chỉ là phản hồi một bước.
StarPo hoạt động theo hai giai đoạn: giai đoạn triển khai trong đó LLM tạo ra các chuỗi tương tác hoàn chỉnh được hướng dẫn bởi lý luận và giai đoạn cập nhật trong đó mô hình được tối ưu hóa bằng cách sử dụng phần thưởng tích lũy chuẩn hóa. Cách tiếp cận này cung cấp một vòng lặp học tập ổn định và dễ hiểu hơn so với các phương pháp tối ưu hóa chính sách truyền thống.
Các nhà nghiên cứu đã thử nghiệm khung này bằng cách sử dụng các phiên bản tinh chỉnh của các mô hình Qwen của Alibaba, cụ thể là Qwen 1.5 và Qwen 2.5, được chọn cho các trọng số mở và khả năng theo hướng dẫn mạnh mẽ của họ. Sự lựa chọn này tạo điều kiện cho khả năng tái tạo và so sánh cơ sở nhất quán giữa các nhiệm vụ tượng trưng.
Bẫy Echo: Một thách thức trong việc học củng cố
Zihan Wang nhấn mạnh một vấn đề quan trọng trong đào tạo RL trong một chủ đề X được chia sẻ rộng rãi: * Tại sao đào tạo RL của bạn luôn sụp đổ?
Hồi quy này được thúc đẩy bởi các vòng phản hồi trong đó các cụm từ hoặc chiến lược nhất định kiếm được phần thưởng cao sớm, khuyến khích sự lạm dụng và thăm dò ngột ngạt. Các triệu chứng rất rõ ràng: các vách đá phương sai thưởng, gai dốc và dấu vết lý luận biến mất.
Môi trường thử nghiệm của Ragen
Để nghiên cứu các hành vi này trong một môi trường được kiểm soát, Ragen đánh giá các tác nhân trên ba môi trường tượng trưng:
- Bandit: Một nhiệm vụ ngẫu nhiên, quay đầu, kiểm tra lý luận về rủi ro mang tính biểu tượng.
- Sokoban: Một câu đố nhiều lượt, xác định liên quan đến các quyết định không thể đảo ngược.
- Hồ đông lạnh: Một nhiệm vụ ngẫu nhiên, nhiều lượt đòi hỏi phải lập kế hoạch thích ứng.
Mỗi môi trường được thiết kế để giảm thiểu các linh mục trong thế giới thực và chỉ tập trung vào các chiến lược ra quyết định được phát triển trong quá trình đào tạo. Ví dụ, trong môi trường cướp, các tác nhân phải lý luận một cách tượng trưng về Rồng và Phoenix Arms đại diện cho các phân phối phần thưởng khác nhau, giải thích chúng là "sức mạnh" và "hy vọng" để dự đoán kết quả.
Ổn định học tập củng cố với starpo-s
Để chống lại sự sụp đổ đào tạo, các nhà nghiên cứu đã giới thiệu StarPo-S, một phiên bản ổn định của khung ban đầu. StarPo-S bao gồm ba can thiệp chính:
- Lọc giới thiệu dựa trên độ không đảm bảo: Ưu tiên triển khai trong đó tác nhân cho thấy sự không chắc chắn về kết quả.
- Loại bỏ hình phạt KL: Cho phép mô hình đi chệch hướng tự do hơn với chính sách ban đầu của nó và khám phá các hành vi mới.
- Cắt PPO không đối xứng: khuếch đại các quỹ đạo phần thưởng cao nhiều hơn các quỹ cộng thấp để tăng cường học tập.
Những thay đổi này giúp trì hoãn hoặc loại bỏ sự sụp đổ đào tạo và cải thiện hiệu suất trên cả ba nhiệm vụ. Như Wang đã nói, "Starpo-S, hoạt động trên cả 3 nhiệm vụ. Giảm bớt sự sụp đổ. Phần thưởng tốt hơn."
Điều gì tạo nên một mô hình AI đại lý tốt?
Thành công của đào tạo RL không chỉ phụ thuộc vào kiến trúc mà còn vào chất lượng dữ liệu được tạo ra bởi các đại lý. Nhóm nghiên cứu đã xác định ba khía cạnh quan trọng có tác động đáng kể khi đào tạo:
- Đa dạng nhiệm vụ: Phơi bày mô hình với một loạt các kịch bản ban đầu giúp cải thiện khái quát.
- Tương tác độ chi tiết: Cho phép nhiều hành động cho mỗi lượt cho phép lập kế hoạch có ý nghĩa hơn.
- Giới thiệu độ tươi: Giữ dữ liệu đào tạo phù hợp với chính sách mô hình hiện tại tránh các tín hiệu học tập lỗi thời.
Những yếu tố này góp phần vào một quá trình đào tạo ổn định và hiệu quả hơn. Một trang web demo tương tác trên GitHub trực quan hóa các buổi giới thiệu tác nhân khi các cuộc đối thoại đầy đủ, bao gồm không chỉ các hành động mà cả quá trình suy nghĩ từng bước đi trước chúng. Chẳng hạn, khi giải quyết vấn đề toán học, trước tiên một tác nhân có thể 'nghĩ' về việc cô lập một biến trước khi gửi câu trả lời như 'x = 5'. Những suy nghĩ trung gian này có thể nhìn thấy và có thể truy nguyên, thêm tính minh bạch cho cách các tác nhân đưa ra quyết định.
Khi lý luận hết
Mặc dù lý luận rõ ràng tăng cường hiệu suất trong các nhiệm vụ đơn giản, đơn như tên cướp, nó có xu hướng phân rã trong quá trình đào tạo nhiều lượt. Mặc dù sử dụng các lời nhắc và mã thông báo có cấu trúc, các dấu vết lý luận thường co lại hoặc biến mất trừ khi được thưởng trực tiếp. Điều này nhấn mạnh một hạn chế trong cách các phần thưởng được thiết kế thường: tập trung vào việc hoàn thành nhiệm vụ có thể bỏ qua chất lượng của quá trình đằng sau nó. Nhóm nghiên cứu đã thử nghiệm các hình phạt dựa trên định dạng để khuyến khích lý luận có cấu trúc tốt hơn nhưng thừa nhận rằng việc định hình phần thưởng tinh tế hơn có thể cần thiết.
Các công cụ mở và các hướng dẫn trong tương lai
Ragen, cùng với StarPo và StarPo-S Frameworks, hiện có sẵn như một dự án nguồn mở tại https://github.com/ragen-ai/ragen . Tuy nhiên, tại thời điểm viết, không có giấy phép rõ ràng nào được liệt kê trong kho Github, có thể giới hạn việc sử dụng hoặc phân phối lại bởi những người khác.
Hệ thống này cung cấp một nền tảng có giá trị cho những người quan tâm đến việc phát triển các tác nhân AI không chỉ hoàn thành các nhiệm vụ mà còn nghĩ, lên kế hoạch và phát triển. Khi AI tiến tới quyền tự chủ lớn hơn, các dự án như Ragen giúp chiếu sáng những gì cần thiết để đào tạo các mô hình học hỏi từ hậu quả của hành động của chính họ.
Những câu hỏi nổi bật cho việc áp dụng doanh nghiệp trong thế giới thực
Trong khi tờ Ragen cung cấp một lộ trình kỹ thuật chi tiết, một số câu hỏi thực tế vẫn còn cho những người muốn áp dụng các phương pháp này trong các thiết lập doanh nghiệp. Chẳng hạn, cách tiếp cận của Ragen có thể chuyển nhượng vượt ra ngoài các nhiệm vụ tượng trưng, cách điệu? Các doanh nghiệp sẽ cần thiết kế các môi trường hoàn toàn mới và các chức năng thưởng để sử dụng hệ thống này trong các quy trình công việc như xử lý hóa đơn hoặc hỗ trợ khách hàng?
Wang, trong một thông điệp trực tiếp đến VentureBeat trên X, cho rằng việc cải thiện sự đa dạng nhiệm vụ có thể giúp ích, vì các nhiệm vụ chơi game hiện tại chỉ có các biểu diễn lưới tương tự nhưng thiếu thông tin ngữ nghĩa. Ông cũng bày tỏ sự lạc quan về các doanh nghiệp thiết kế các bài tập đào tạo của riêng họ cho các đại lý AI bằng Ragen, lưu ý rằng GitHub Link cung cấp một giới thiệu đơn giản để thêm môi trường mới.
Một lĩnh vực quan trọng khác là khả năng mở rộng. Ngay cả với các cải tiến được cung cấp bởi StarPo-S, bài báo thừa nhận rằng đào tạo cuối cùng vẫn sụp đổ trên các chân trời dài hơn. Điều này đặt ra câu hỏi: Có một con đường lý thuyết hoặc thực tế để duy trì lý luận trên các chuỗi nhiệm vụ kết thúc mở hoặc liên tục?
Tại thời điểm viết bài, không có giấy phép rõ ràng nào được liệt kê trong Kho lưu trữ hoặc tài liệu Ragen GitHub, để lại câu hỏi mở về quyền sử dụng. Tuy nhiên, Ragen nổi bật không chỉ là một đóng góp kỹ thuật mà còn là một bước quan niệm hướng tới các tác nhân AI có khả năng tự chủ hơn, có khả năng lý luận. Cho dù nó trở thành một phần của ngăn xếp AI của doanh nghiệp vẫn còn được nhìn thấy, nhưng những hiểu biết của nó về động lực học đại lý đã giúp xác định lại biên giới của đào tạo LLM.











