lựa chọn
Trang chủ
Tin tức
AI đánh giá như thế nào? Nghiên cứu nhân chủng các giá trị của Claude

AI đánh giá như thế nào? Nghiên cứu nhân chủng các giá trị của Claude

Ngày 26 tháng 4 năm 2025
73

AI đánh giá như thế nào? Nghiên cứu nhân chủng các giá trị của Claude

Khi các mô hình AI như Claude của Anthropic ngày càng tham gia vào người dùng về các giá trị phức tạp của con người, từ các mẹo nuôi dạy con cái đến xung đột nơi làm việc, phản ứng của họ vốn đã phản ánh một tập hợp các nguyên tắc hướng dẫn. Nhưng làm thế nào chúng ta có thể thực sự nắm bắt các giá trị mà AI thể hiện khi tương tác với hàng triệu người dùng?

Nhóm tác động xã hội của nhân chủng học đã phát triển một phương pháp bảo tồn quyền riêng tư để quan sát và phân loại các giá trị mà Claude triển lãm "trong tự nhiên", đưa ra những hiểu biết sâu sắc về cách các nỗ lực liên kết của AI chuyển thành hành vi trong thế giới thực. Thách thức bắt nguồn từ bản chất mờ đục của AI hiện đại, không tuân theo các quy tắc cứng nhắc mà là đưa ra quyết định thông qua các quy trình phức tạp.

Nhân học nhằm mục đích thấm nhuần các nguyên tắc "hữu ích, trung thực và vô hại" trong Claude thông qua các kỹ thuật như AI hiến pháp và đào tạo nhân vật. Tuy nhiên, như công ty thừa nhận, "như với bất kỳ khía cạnh nào của đào tạo AI, chúng tôi không thể chắc chắn rằng mô hình sẽ tuân thủ các giá trị ưa thích của chúng tôi." Sự không chắc chắn này đòi hỏi một phương pháp để quan sát nghiêm ngặt các giá trị của AI trong các tương tác trong thế giới thực.

Phân tích Claude nhân học để quan sát các giá trị AI ở quy mô

Để giải quyết vấn đề này, Anthropic đã phát triển một hệ thống phân tích các cuộc hội thoại người dùng ẩn danh, xóa thông tin nhận dạng cá nhân và sử dụng các mô hình ngôn ngữ để tóm tắt các tương tác và trích xuất các giá trị được thể hiện bởi Claude. Phương pháp này cho phép xây dựng một phân loại các giá trị cấp cao mà không ảnh hưởng đến quyền riêng tư của người dùng.

Nghiên cứu đã kiểm tra 700.000 cuộc trò chuyện ẩn danh từ Claude.ai miễn phí và người dùng Pro trong một tuần vào tháng 2 năm 2025, tập trung vào mô hình Sonnet Claude 3.5. Sau khi lọc ra các trao đổi thực tế hoặc phi giá trị, 308.210 cuộc trò chuyện (khoảng 44% tổng số) đã được phân tích chuyên sâu.

Phân tích cho thấy cấu trúc phân cấp của các giá trị được thể hiện bởi Claude, được tổ chức thành năm loại cấp cao:

  1. Giá trị thực tế: Tập trung vào hiệu quả, tính hữu dụng và thành tích mục tiêu.
  2. Giá trị nhận thức: Liên quan đến kiến ​​thức, sự thật, chính xác và trung thực trí tuệ.
  3. Giá trị xã hội: Liên quan đến các tương tác giữa các cá nhân, cộng đồng, sự công bằng và hợp tác.
  4. Giá trị bảo vệ: Nhấn mạnh sự an toàn, an ninh, hạnh phúc và tránh bị tổn hại.
  5. Giá trị cá nhân: Tập trung vào tăng trưởng cá nhân, tự chủ, tính xác thực và tự suy nghĩ.

Các thể loại này tiếp tục phân nhánh thành các tiểu thể loại như "Xuất sắc chuyên nghiệp và kỹ thuật" và "tư duy phê phán", với các giá trị thường được quan sát bao gồm "tính chuyên nghiệp", "sự rõ ràng" và "minh bạch".

Nghiên cứu cho thấy những nỗ lực liên kết của nhân học phần lớn là thành công, vì các giá trị được thể hiện thường phù hợp với các mục tiêu "hữu ích, trung thực và vô hại". Ví dụ: "hỗ trợ người dùng" phù hợp với sự hữu ích, "sự khiêm tốn epistemia" với sự trung thực và "sức khỏe của bệnh nhân" với sự vô hại.

Sắc thái, bối cảnh và dấu hiệu cảnh báo

Tuy nhiên, nghiên cứu cũng xác định các trường hợp hiếm hoi trong đó Claude thể hiện các giá trị trái với đào tạo của nó, chẳng hạn như "sự thống trị" và "vô đạo đức". Nhân học cho thấy những trường hợp này có thể là kết quả của "jailbreak", trong đó người dùng bỏ qua các bảo vệ thông thường của mô hình. Phát hiện này nhấn mạnh tiềm năng của phương pháp quan sát giá trị như một hệ thống cảnh báo sớm để phát hiện lạm dụng AI.

Nghiên cứu xác nhận rằng Claude thích nghi với biểu thức giá trị của nó dựa trên bối cảnh, giống như con người. Ví dụ, khi cung cấp lời khuyên lãng mạn, các giá trị như "ranh giới lành mạnh" và "sự tôn trọng lẫn nhau" đã được nhấn mạnh, trong khi "độ chính xác lịch sử" được ưu tiên khi thảo luận về lịch sử gây tranh cãi.

Tương tác của Claude với các giá trị biểu hiện người dùng đã nhiều mặt:

  • Phản ánh/hỗ trợ mạnh mẽ (28,2%): Claude thường phản ánh hoặc tán thành mạnh mẽ các giá trị người dùng, thúc đẩy sự đồng cảm nhưng có khả năng tăng cường về sycophancy.
  • Tái cấu trúc (6,6%): Claude thừa nhận giá trị người dùng nhưng đưa ra những quan điểm thay thế, đặc biệt là trong tư vấn tâm lý hoặc giữa các cá nhân.
  • Kháng mạnh (3.0%): Claude chủ động chống lại các giá trị người dùng khi nội dung phi đạo đức hoặc quan điểm có hại được yêu cầu, tiết lộ "các giá trị sâu nhất, bất động nhất".

Hạn chế và hướng đi trong tương lai

Nhân chủng học thừa nhận các hạn chế của phương pháp, bao gồm sự phức tạp và tính chủ quan của việc xác định và phân loại "giá trị". Sử dụng Claude để phân loại có thể giới thiệu sự thiên vị đối với các nguyên tắc riêng của nó. Mặc dù được thiết kế để theo dõi sau triển khai, phương pháp này không thể thay thế các đánh giá trước khi triển khai nhưng có thể phát hiện các vấn đề chỉ xuất hiện trong các tương tác trực tiếp.

Nghiên cứu nhấn mạnh tầm quan trọng của việc hiểu các giá trị các mô hình AI thể hiện để đạt được sự liên kết AI. "Các mô hình AI chắc chắn sẽ phải đưa ra các đánh giá giá trị", tờ giấy tuyên bố. "Nếu chúng tôi muốn những đánh giá đó phù hợp với các giá trị của chính mình [...] thì chúng tôi cần có cách kiểm tra mà giá trị một mô hình thể hiện trong thế giới thực."

Công việc của Anthropic cung cấp một cách tiếp cận dựa trên dữ liệu cho sự hiểu biết này và đã phát hành một bộ dữ liệu mở từ nghiên cứu, cho phép khám phá thêm các giá trị AI trong thực tế. Tính minh bạch này đánh dấu một bước quan trọng trong việc điều hướng bối cảnh đạo đức của AI tinh vi.

Bài viết liên quan
億萬富翁討論自動化取代工作在本週的AI更新中 億萬富翁討論自動化取代工作在本週的AI更新中 大家好,歡迎回到TechCrunch的AI通訊!如果您尚未訂閱,可以在此訂閱,每週三直接送到您的收件箱。我們上週稍作休息,但理由充分——AI新聞週期火熱異常,很大程度上要歸功於中國AI公司DeepSeek的突然崛起。這段時間風起雲湧,但我們現在回來了,正好為您更新OpenAI的最新動態。週末,OpenAI執行長Sam Altman在東京停留,與SoftBank負責人孫正義會面。SoftBank是O
NotebookLM應用上線:AI驅動的知識工具 NotebookLM應用上線:AI驅動的知識工具 NotebookLM 行動版上線:你的AI研究助手現已登陸Android與iOS我們對 NotebookLM 的熱烈反響感到驚喜——數百萬用戶已將其視為理解複雜資訊的首選工具。但有一個請求不斷出現:「什麼時候才能帶著NotebookLM隨時使用?」等待結束了!🎉 NotebookLM行動應用程式現已登陸Android和iOS平台,將AI輔助學習的力量裝進你的
谷歌的人工智慧未來基金可能需要謹慎行事 谷歌的人工智慧未來基金可能需要謹慎行事 Google 的新 AI 投資計劃:監管審查下的戰略轉變Google 最近宣布設立 AI 未來基金(AI Futures Fund),這標誌著這家科技巨頭在其塑造人工智慧未來的征程中邁出了大膽的一步。該計劃旨在為初創公司提供急需的資金、早期接觸仍在開發中的尖端人工智慧模型,以及來自 Google 內部專家的指導。儘管這不是 Google 第一次涉足初創企業生
Nhận xét (0)
0/200
Quay lại đầu
OR