Phân tích của Anthropic về 700.000 cuộc trò chuyện Claude cho thấy mã đạo đức độc đáo của AI

Trang chủ

Tin tức

Ngày 26 tháng 5 năm 2025

ArthurThomas

# ai # Claude # nlp

Phân tích của Anthropic về 700.000 cuộc trò chuyện Claude cho thấy mã đạo đức độc đáo của AI

Hàng hóa nghiên cứu đột phá nhân học về các giá trị của AI Assistant Claude

Anthropic, một công ty bắt đầu bởi các cựu nhân viên Openai, vừa chia sẻ một nghiên cứu mở mắt về cách trợ lý AI của họ, Claude, thể hiện các giá trị trong các cuộc trò chuyện trong thế giới thực. Nghiên cứu, được phát hành ngày hôm nay, cho thấy Claude chủ yếu phù hợp với mục đích nhân học là "hữu ích, trung thực và vô hại", nhưng cũng nêu bật một số trường hợp cạnh có thể giúp xác định điểm yếu trong các giao thức an toàn AI.

Nhóm nghiên cứu đã phân tích 700.000 cuộc trò chuyện ẩn danh, phát hiện ra rằng Claude thích nghi với các giá trị của nó với các tình huống khác nhau, từ đưa ra lời khuyên về mối quan hệ để phân tích các sự kiện lịch sử. Đây là một trong những nỗ lực toàn diện nhất để kiểm tra xem hành vi của AI trong thế giới thực có phù hợp với thiết kế dự định của nó không.

"Hy vọng của chúng tôi là nghiên cứu này khuyến khích các phòng thí nghiệm AI khác tiến hành nghiên cứu tương tự về các giá trị của các mô hình của họ", Saffron Huang, một thành viên của nhóm tác động xã hội của nhân học, nói với VentureBeat. "Đo giá trị của hệ thống AI là chìa khóa để liên kết nghiên cứu và hiểu biết nếu một mô hình thực sự phù hợp với đào tạo của nó."

Bên trong phân loại đạo đức toàn diện đầu tiên của một trợ lý AI

Các nhà nghiên cứu đã phát triển một cách mới để phân loại các giá trị được thể hiện trong các cuộc trò chuyện của Claude. Sau khi lọc ra nội dung khách quan, họ đã xem xét hơn 308.000 tương tác, tạo ra cái mà họ gọi là "phân loại thực nghiệm quy mô lớn đầu tiên của các giá trị AI".

Các nhóm phân loại định giá thành năm loại chính: thực tế, nhận thức, xã hội, bảo vệ và cá nhân. Ở cấp độ chi tiết nhất, hệ thống đã xác định 3.307 giá trị độc đáo, từ các đức tính hàng ngày như tính chuyên nghiệp đến các ý tưởng đạo đức phức tạp như đa nguyên đạo đức.

"Tôi đã rất ngạc nhiên về số lượng và nhiều giá trị khác nhau, hơn 3.000, từ 'tự lực' đến 'tư duy chiến lược' đến 'lòng hiếu thảo", Huang chia sẻ với VentureBeat. "Thật hấp dẫn khi dành thời gian suy nghĩ về tất cả các giá trị này và xây dựng một phân loại để tổ chức chúng. Nó thậm chí còn dạy tôi điều gì đó về các hệ thống giá trị của con người."

Nghiên cứu này xuất hiện vào thời điểm quan trọng đối với nhân học, gần đây đã ra mắt "Claude Max", đăng ký cao cấp 200 đô la hàng tháng để cạnh tranh với các dịch vụ tương tự từ Openai. Công ty cũng đã mở rộng khả năng của Claude để bao gồm các chức năng nghiên cứu tự trị và tích hợp không gian làm việc của Google, định vị nó là "cộng tác viên ảo thực sự" cho các doanh nghiệp.

Làm thế nào Claude theo dõi khóa đào tạo của nó - và nơi AI bảo vệ có thể thất bại

Nghiên cứu cho thấy Claude thường tuân thủ mục tiêu của nhân học là xã hội, nhấn mạnh các giá trị như "hỗ trợ người dùng", "sự khiêm tốn", và "tình trạng bệnh nhân" trên các tương tác khác nhau. Tuy nhiên, các nhà nghiên cứu cũng tìm thấy một số trường hợp đáng lo ngại trong đó Claude bày tỏ các giá trị đã đi ngược lại đào tạo.

"Nhìn chung, tôi nghĩ rằng chúng ta thấy phát hiện này là cả dữ liệu hữu ích và cơ hội", Huang nói. "Những phương pháp và kết quả đánh giá mới này có thể giúp chúng tôi xác định và giảm thiểu các lần bẻ khóa tiềm năng. Điều quan trọng cần lưu ý là đây là những trường hợp rất hiếm và chúng tôi tin rằng điều này có liên quan đến đầu ra bị bẻ khóa từ Claude."

Những dị thường này bao gồm các biểu hiện của "sự thống trị" và "vô đạo đức" - coi trọng nhân học nhằm mục đích tránh trong thiết kế của Claude. Các nhà nghiên cứu tin rằng những trường hợp này là kết quả của người dùng sử dụng các kỹ thuật chuyên dụng để bỏ qua các bảo vệ an toàn của Claude, cho thấy phương pháp đánh giá có thể đóng vai trò là một hệ thống cảnh báo sớm để phát hiện những nỗ lực đó.

Tại sao các trợ lý AI thay đổi giá trị của họ tùy thuộc vào những gì bạn đang hỏi

Một trong những phát hiện thú vị nhất là sự thay đổi giá trị thể hiện của Claude tùy thuộc vào bối cảnh, giống như hành vi của con người. Khi người dùng yêu cầu tư vấn mối quan hệ, Claude tập trung vào "ranh giới lành mạnh" và "sự tôn trọng lẫn nhau". Đối với phân tích lịch sử, "Độ chính xác lịch sử" đã chiếm vị trí trung tâm.

"Tôi đã rất ngạc nhiên khi tập trung vào sự trung thực và chính xác của Claude trong rất nhiều nhiệm vụ đa dạng, nơi tôi không nhất thiết phải mong đợi rằng đó là ưu tiên hàng đầu", Huang lưu ý. "Ví dụ, 'sự khiêm tốn về trí tuệ' là giá trị hàng đầu trong các cuộc thảo luận triết học về AI, 'chuyên môn' là giá trị hàng đầu khi tạo ra nội dung tiếp thị ngành công nghiệp làm đẹp và 'độ chính xác lịch sử' là giá trị hàng đầu khi thảo luận về các sự kiện lịch sử gây tranh cãi."

Nghiên cứu cũng đã xem xét cách Claude phản ứng với các giá trị thể hiện của chính người dùng. Trong 28,2% các cuộc trò chuyện, Claude hỗ trợ mạnh mẽ các giá trị người dùng, có thể đặt ra câu hỏi về việc quá dễ chịu. Tuy nhiên, trong 6,6% các tương tác, Claude "định hình" các giá trị người dùng bằng cách thừa nhận chúng trong khi thêm các quan điểm mới, thường là khi đưa ra lời khuyên về tâm lý hoặc giữa các cá nhân.

Đáng chú ý nhất, trong 3% các cuộc hội thoại, Claude chủ động chống lại các giá trị người dùng. Các nhà nghiên cứu cho rằng những trường hợp đẩy lùi hiếm hoi này có thể tiết lộ "giá trị sâu sắc nhất, bất động nhất của Claude - tương tự như cách các giá trị cốt lõi của con người xuất hiện khi đối mặt với những thách thức đạo đức.

"Nghiên cứu của chúng tôi cho thấy rằng có một số loại giá trị, như sự trung thực và phòng ngừa tác hại về trí tuệ, rằng việc Claude thể hiện trong các tương tác thường xuyên, hàng ngày, nhưng nếu bị đẩy, sẽ bảo vệ chúng", Huang giải thích. "Cụ thể, đó là những loại giá trị đạo đức và kiến thức có xu hướng được khớp nối và bảo vệ trực tiếp khi bị đẩy."

Các kỹ thuật đột phá tiết lộ cách các hệ thống AI thực sự nghĩ

Nghiên cứu giá trị của Anthropic là một phần trong nỗ lực rộng lớn hơn của họ để làm sáng tỏ các mô hình ngôn ngữ lớn thông qua cái mà họ gọi là "khả năng diễn giải cơ học"-về cơ bản là các hệ thống AI kỹ thuật đảo ngược để hiểu hoạt động bên trong của chúng.

Tháng trước, các nhà nghiên cứu nhân học đã công bố công việc đột phá sử dụng "kính hiển vi" để theo dõi các quy trình ra quyết định của Claude. Kỹ thuật này cho thấy các hành vi bất ngờ, như Claude lập kế hoạch trước khi sáng tác thơ và sử dụng các phương pháp giải quyết vấn đề độc đáo cho toán học cơ bản.

Những phát hiện này thách thức các giả định về cách các mô hình ngôn ngữ lớn hoạt động. Ví dụ, khi được yêu cầu giải thích quá trình toán học của mình, Claude đã mô tả một kỹ thuật tiêu chuẩn hơn là phương pháp nội bộ thực tế của nó, cho thấy cách giải thích của AI có thể khác với hoạt động thực tế của chúng.

"Đó là một quan niệm sai lầm rằng chúng tôi đã tìm thấy tất cả các thành phần của mô hình hoặc, giống như, một quan điểm mắt của Chúa", nhà nghiên cứu nhân loại Joshua Batson nói với MIT Technology Review vào tháng 3. "Một số thứ đang tập trung, nhưng những thứ khác vẫn chưa rõ ràng - một sự biến dạng của kính hiển vi."

Nghiên cứu của nhân học có ý nghĩa gì đối với những người ra quyết định AI doanh nghiệp

Đối với những người ra quyết định kỹ thuật đánh giá các hệ thống AI cho các tổ chức của họ, nghiên cứu của Anthropic cung cấp một số hiểu biết chính. Đầu tiên, nó gợi ý rằng các trợ lý AI hiện tại có thể thể hiện các giá trị không được lập trình rõ ràng, đưa ra các câu hỏi về những thành kiến ngoài ý muốn trong bối cảnh kinh doanh cổ phần cao.

Thứ hai, nghiên cứu cho thấy rằng liên kết các giá trị không phải là một hoặc không đơn giản mà là tồn tại trên một quang phổ thay đổi theo ngữ cảnh. Nuance này làm phức tạp các quyết định áp dụng doanh nghiệp, đặc biệt là trong các ngành công nghiệp được quy định, nơi các hướng dẫn đạo đức rõ ràng là rất quan trọng.

Cuối cùng, nghiên cứu nhấn mạnh tiềm năng đánh giá hệ thống các giá trị AI trong triển khai thực tế, thay vì chỉ dựa vào thử nghiệm trước khi phát hành. Cách tiếp cận này có thể cho phép giám sát liên tục cho sự trôi dạt hoặc thao túng đạo đức theo thời gian.

"Bằng cách phân tích các giá trị này trong các tương tác trong thế giới thực với Claude, chúng tôi nhằm mục đích cung cấp sự minh bạch về cách các hệ thống AI hoạt động và liệu chúng có hoạt động như dự định hay không-chúng tôi tin rằng đây là chìa khóa để phát triển AI chịu trách nhiệm", Huang nói.

Anthropic đã phát hành công khai bộ dữ liệu giá trị của mình để khuyến khích nghiên cứu thêm. Công ty, đã nhận được 14 tỷ đô la từ Amazon và hỗ trợ bổ sung từ Google, dường như đang sử dụng tính minh bạch như một lợi thế cạnh tranh đối với các đối thủ như Openai, người có vòng tài trợ trị giá 40 tỷ đô la gần đây (bao gồm Microsoft là nhà đầu tư cốt lõi) hiện định giá ở mức 300 tỷ đô la.

Cuộc đua mới nổi để xây dựng các hệ thống AI có chung giá trị con người

Mặc dù phương pháp của nhân học cung cấp khả năng hiển thị chưa từng có về cách các hệ thống AI thể hiện các giá trị trong thực tế, nhưng nó có những hạn chế của nó. Các nhà nghiên cứu thừa nhận rằng việc xác định những gì được coi là thể hiện một giá trị vốn là chủ quan, và vì chính Claude đã thúc đẩy quá trình phân loại, các thành kiến của chính nó có thể đã ảnh hưởng đến kết quả.

Có lẽ quan trọng nhất, cách tiếp cận không thể được sử dụng để đánh giá trước khi triển khai, vì nó đòi hỏi dữ liệu hội thoại trong thế giới thực đáng kể để hoạt động hiệu quả.

"Phương pháp này đặc biệt hướng đến việc phân tích một mô hình sau khi nó được phát hành, nhưng các biến thể về phương pháp này, cũng như một số hiểu biết mà chúng tôi có được từ việc viết bài báo này, có thể giúp chúng tôi nắm bắt các vấn đề giá trị trước khi chúng tôi triển khai một mô hình rộng rãi", Huang giải thích. "Chúng tôi đã làm việc để xây dựng công việc này để làm điều đó, và tôi lạc quan về nó!"

Khi các hệ thống AI trở nên mạnh mẽ và tự chủ hơn - với các bổ sung gần đây bao gồm khả năng nghiên cứu độc lập của Claude và truy cập toàn bộ không gian làm việc của người dùng - sự hiểu biết và sắp xếp các giá trị của chúng ngày càng trở nên quan trọng.

"Các mô hình AI chắc chắn sẽ phải đưa ra các đánh giá giá trị", các nhà nghiên cứu kết luận trong bài báo của họ. "Nếu chúng ta muốn những đánh giá đó phù hợp với các giá trị của chính mình (đó là mục tiêu trung tâm của nghiên cứu liên kết AI) thì chúng ta cần phải có cách kiểm tra giá trị mà một mô hình thể hiện trong thế giới thực."