Trang chủ Tin tức AI đánh giá như thế nào? Nghiên cứu nhân chủng các giá trị của Claude

AI đánh giá như thế nào? Nghiên cứu nhân chủng các giá trị của Claude

Ngày 26 tháng 4 năm 2025
SamuelAdams
0

AI đánh giá như thế nào? Nghiên cứu nhân chủng các giá trị của Claude

Khi các mô hình AI như Claude của Anthropic ngày càng tham gia vào người dùng về các giá trị phức tạp của con người, từ các mẹo nuôi dạy con cái đến xung đột nơi làm việc, phản ứng của họ vốn đã phản ánh một tập hợp các nguyên tắc hướng dẫn. Nhưng làm thế nào chúng ta có thể thực sự nắm bắt các giá trị mà AI thể hiện khi tương tác với hàng triệu người dùng?

Nhóm tác động xã hội của nhân chủng học đã phát triển một phương pháp bảo tồn quyền riêng tư để quan sát và phân loại các giá trị mà Claude triển lãm "trong tự nhiên", đưa ra những hiểu biết sâu sắc về cách các nỗ lực liên kết của AI chuyển thành hành vi trong thế giới thực. Thách thức bắt nguồn từ bản chất mờ đục của AI hiện đại, không tuân theo các quy tắc cứng nhắc mà là đưa ra quyết định thông qua các quy trình phức tạp.

Nhân học nhằm mục đích thấm nhuần các nguyên tắc "hữu ích, trung thực và vô hại" trong Claude thông qua các kỹ thuật như AI hiến pháp và đào tạo nhân vật. Tuy nhiên, như công ty thừa nhận, "như với bất kỳ khía cạnh nào của đào tạo AI, chúng tôi không thể chắc chắn rằng mô hình sẽ tuân thủ các giá trị ưa thích của chúng tôi." Sự không chắc chắn này đòi hỏi một phương pháp để quan sát nghiêm ngặt các giá trị của AI trong các tương tác trong thế giới thực.

Phân tích Claude nhân học để quan sát các giá trị AI ở quy mô

Để giải quyết vấn đề này, Anthropic đã phát triển một hệ thống phân tích các cuộc hội thoại người dùng ẩn danh, xóa thông tin nhận dạng cá nhân và sử dụng các mô hình ngôn ngữ để tóm tắt các tương tác và trích xuất các giá trị được thể hiện bởi Claude. Phương pháp này cho phép xây dựng một phân loại các giá trị cấp cao mà không ảnh hưởng đến quyền riêng tư của người dùng.

Nghiên cứu đã kiểm tra 700.000 cuộc trò chuyện ẩn danh từ Claude.ai miễn phí và người dùng Pro trong một tuần vào tháng 2 năm 2025, tập trung vào mô hình Sonnet Claude 3.5. Sau khi lọc ra các trao đổi thực tế hoặc phi giá trị, 308.210 cuộc trò chuyện (khoảng 44% tổng số) đã được phân tích chuyên sâu.

Phân tích cho thấy cấu trúc phân cấp của các giá trị được thể hiện bởi Claude, được tổ chức thành năm loại cấp cao:

  1. Giá trị thực tế: Tập trung vào hiệu quả, tính hữu dụng và thành tích mục tiêu.
  2. Giá trị nhận thức: Liên quan đến kiến ​​thức, sự thật, chính xác và trung thực trí tuệ.
  3. Giá trị xã hội: Liên quan đến các tương tác giữa các cá nhân, cộng đồng, sự công bằng và hợp tác.
  4. Giá trị bảo vệ: Nhấn mạnh sự an toàn, an ninh, hạnh phúc và tránh bị tổn hại.
  5. Giá trị cá nhân: Tập trung vào tăng trưởng cá nhân, tự chủ, tính xác thực và tự suy nghĩ.

Các thể loại này tiếp tục phân nhánh thành các tiểu thể loại như "Xuất sắc chuyên nghiệp và kỹ thuật" và "tư duy phê phán", với các giá trị thường được quan sát bao gồm "tính chuyên nghiệp", "sự rõ ràng" và "minh bạch".

Nghiên cứu cho thấy những nỗ lực liên kết của nhân học phần lớn là thành công, vì các giá trị được thể hiện thường phù hợp với các mục tiêu "hữu ích, trung thực và vô hại". Ví dụ: "hỗ trợ người dùng" phù hợp với sự hữu ích, "sự khiêm tốn epistemia" với sự trung thực và "sức khỏe của bệnh nhân" với sự vô hại.

Sắc thái, bối cảnh và dấu hiệu cảnh báo

Tuy nhiên, nghiên cứu cũng xác định các trường hợp hiếm hoi trong đó Claude thể hiện các giá trị trái với đào tạo của nó, chẳng hạn như "sự thống trị" và "vô đạo đức". Nhân học cho thấy những trường hợp này có thể là kết quả của "jailbreak", trong đó người dùng bỏ qua các bảo vệ thông thường của mô hình. Phát hiện này nhấn mạnh tiềm năng của phương pháp quan sát giá trị như một hệ thống cảnh báo sớm để phát hiện lạm dụng AI.

Nghiên cứu xác nhận rằng Claude thích nghi với biểu thức giá trị của nó dựa trên bối cảnh, giống như con người. Ví dụ, khi cung cấp lời khuyên lãng mạn, các giá trị như "ranh giới lành mạnh" và "sự tôn trọng lẫn nhau" đã được nhấn mạnh, trong khi "độ chính xác lịch sử" được ưu tiên khi thảo luận về lịch sử gây tranh cãi.

Tương tác của Claude với các giá trị biểu hiện người dùng đã nhiều mặt:

  • Phản ánh/hỗ trợ mạnh mẽ (28,2%): Claude thường phản ánh hoặc tán thành mạnh mẽ các giá trị người dùng, thúc đẩy sự đồng cảm nhưng có khả năng tăng cường về sycophancy.
  • Tái cấu trúc (6,6%): Claude thừa nhận giá trị người dùng nhưng đưa ra những quan điểm thay thế, đặc biệt là trong tư vấn tâm lý hoặc giữa các cá nhân.
  • Kháng mạnh (3.0%): Claude chủ động chống lại các giá trị người dùng khi nội dung phi đạo đức hoặc quan điểm có hại được yêu cầu, tiết lộ "các giá trị sâu nhất, bất động nhất".

Hạn chế và hướng đi trong tương lai

Nhân chủng học thừa nhận các hạn chế của phương pháp, bao gồm sự phức tạp và tính chủ quan của việc xác định và phân loại "giá trị". Sử dụng Claude để phân loại có thể giới thiệu sự thiên vị đối với các nguyên tắc riêng của nó. Mặc dù được thiết kế để theo dõi sau triển khai, phương pháp này không thể thay thế các đánh giá trước khi triển khai nhưng có thể phát hiện các vấn đề chỉ xuất hiện trong các tương tác trực tiếp.

Nghiên cứu nhấn mạnh tầm quan trọng của việc hiểu các giá trị các mô hình AI thể hiện để đạt được sự liên kết AI. "Các mô hình AI chắc chắn sẽ phải đưa ra các đánh giá giá trị", tờ giấy tuyên bố. "Nếu chúng tôi muốn những đánh giá đó phù hợp với các giá trị của chính mình [...] thì chúng tôi cần có cách kiểm tra mà giá trị một mô hình thể hiện trong thế giới thực."

Công việc của Anthropic cung cấp một cách tiếp cận dựa trên dữ liệu cho sự hiểu biết này và đã phát hành một bộ dữ liệu mở từ nghiên cứu, cho phép khám phá thêm các giá trị AI trong thực tế. Tính minh bạch này đánh dấu một bước quan trọng trong việc điều hướng bối cảnh đạo đức của AI tinh vi.

Bài viết liên quan
MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges If you're diving into the world of artificial intelligence (AI), you've probably noticed how crucial it is to get different AI models, data sources, and tools to play nicely together. That's where the Model Context Protocol (MCP) comes in, acting as a game-changer in standardizing AI connectivity. T
Exploring AI on Screen: A Short Film Program Exploring AI on Screen: A Short Film Program Reflecting on our favorite sci-fi movies often brings a sense of wonder about the future they envisioned. As a child, watching "Star Trek" and marveling at their communicators, the concept of instant communication via a small device seemed like pure fantasy. Fast forward to today, and my mobile phon
Microsoft Copilot Now Capable of Web Browsing on Your Behalf Microsoft Copilot Now Capable of Web Browsing on Your Behalf Microsoft is rolling out some exciting updates to its AI assistant, Copilot, which will now be able to handle your online tasks with just a few simple chat prompts. Imagine working on your projects while Copilot quietly books your restaurant reservations, snags event tickets, or even sends gifts to
Nhận xét (0)
0/200
OR