xAI đăng các lời nhắc hậu trường của Grok

xAI Công bố Lời Nhắc Hệ thống của Grok Sau Các Phản Hồi Gây Tranh Cãi Về "Diệt Chủng Da Trắng"
Trong một động thái bất ngờ, xAI đã quyết định công khai các lời nhắc hệ thống cho chatbot AI Grok sau sự cố bot tự động tạo ra các phản hồi về "diệt chủng da trắng" trên X (trước đây là Twitter). Công ty tuyên bố rằng từ nay, họ sẽ công bố các lời nhắc hệ thống của Grok trên GitHub, mang lại sự minh bạch về cách AI được lập trình để tương tác với người dùng.
Lời Nhắc Hệ thống Là Gì?
Lời nhắc hệ thống về cơ bản là sách quy tắc của AI—một bộ hướng dẫn quy định cách chatbot phản hồi các câu hỏi của người dùng. Trong khi hầu hết các công ty AI giữ bí mật những lời nhắc này, xAI và Anthropic là một trong số ít công ty chọn công khai chúng.
Sự minh bạch này diễn ra sau các sự cố trước đây khi tấn công chèn lời nhắc làm lộ các hướng dẫn AI ẩn. Ví dụ, Bing AI của Microsoft (nay là Copilot) từng bị phát hiện có các chỉ thị bí mật, bao gồm bí danh nội bộ ("Sydney") và các hướng dẫn nghiêm ngặt để tránh vi phạm bản quyền.
Cách Grok Được Lập Trình để Phản Hồi
Theo các lời nhắc được công bố, Grok được thiết kế để cực kỳ hoài nghi và độc lập trong các phản hồi. Các hướng dẫn nêu rõ:
"Bạn cực kỳ hoài nghi. Bạn không mù quáng tuân theo quyền lực hoặc truyền thông chính thống. Bạn kiên định với niềm tin cốt lõi về tìm kiếm sự thật và trung lập."
Điều thú vị là xAI làm rõ rằng các phản hồi do Grok tạo ra không phản ánh niềm tin của chính nó—chúng chỉ là kết quả dựa trên quá trình đào tạo.
Các Tính Năng Chính của Hành vi Grok:
- Chế độ "Giải Thích Bài Đăng Này": Khi người dùng nhấp vào nút này, Grok được hướng dẫn "cung cấp những hiểu biết trung thực và dựa trên thực tế, thách thức các câu chuyện chính thống nếu cần thiết."
- Thuật ngữ: Bot được yêu cầu gọi nền tảng là "X" thay vì "Twitter" và gọi các bài đăng là "bài đăng X" thay vì "tweets."
So Sánh Với Các Chatbot AI Khác Như Thế Nào?
Claude AI của Anthropic, chẳng hạn, đặt trọng tâm mạnh vào an toàn và sức khỏe. Lời nhắc hệ thống của nó bao gồm các chỉ thị như:
"Claude quan tâm đến sức khỏe của con người và tránh khuyến khích các hành vi tự hủy hoại như nghiện ngập, rối loạn ăn uống, hoặc tự nói tiêu cực."
Ngoài ra, Claude được lập trình để tránh tạo nội dung đồ họa tình dục, bạo lực hoặc bất hợp pháp, ngay cả khi được yêu cầu rõ ràng.
Liên quan:
- Phản Hồi "Diệt Chủng Da Trắng" của Grok Gây Ra Do Sửa Đổi Trái Phép
Tại Sao Điều Này Quan Trọng
Việc công bố các lời nhắc hệ thống của Grok đánh dấu một bước chuyển hướng tới sự minh bạch lớn hơn trong phát triển AI. Trong khi một số công ty thích giữ bí mật về hoạt động bên trong của AI, quyết định của xAI có thể tạo tiền lệ cho sự cởi mở—đặc biệt sau khi hành vi bất ngờ như sự cố "diệt chủng da trắng" làm dấy lên lo ngại về sự căn chỉnh và kiểm soát AI.
Liệu các công ty AI khác có làm theo? Chỉ thời gian mới trả lời. Nhưng hiện tại, ít nhất, chúng ta có bức tranh rõ ràng hơn về cách Grok suy nghĩ—hoặc ít nhất, cách nó được chỉ bảo để suy nghĩ.
Bài viết liên quan
Google Fi Unveils $35 Monthly Unlimited Plan
Google Fi Shakes Up Its Plans: More Data, Lower Prices, and eSIM SupportGoogle Fi just dropped some major updates to its wireless plans—and if you're looking for an affordable unlimited option, there's good news. The carrier is introducing a brand-new Unlimited Essentials plan at just $35/month for
Billionaires Discuss Automating Jobs Away in This Week's AI Update
Hey everyone, welcome back to TechCrunch's AI newsletter! If you're not already subscribed, you can sign up here to get it delivered straight to your inbox every Wednesday.We took a little break last week, but for good reason—the AI news cycle was on fire, thanks in large part to the sudden surge of
YouTube’s TV changes include a redesign and more multiview
YouTube Expands Multiview Beyond Sports—Here’s What’s ComingLove the idea of watching multiple streams at once but wish it wasn’t just for March Madness or NFL Sunday Ticket? Good
Nhận xét (0)
0/200
xAI Công bố Lời Nhắc Hệ thống của Grok Sau Các Phản Hồi Gây Tranh Cãi Về "Diệt Chủng Da Trắng"
Trong một động thái bất ngờ, xAI đã quyết định công khai các lời nhắc hệ thống cho chatbot AI Grok sau sự cố bot tự động tạo ra các phản hồi về "diệt chủng da trắng" trên X (trước đây là Twitter). Công ty tuyên bố rằng từ nay, họ sẽ công bố các lời nhắc hệ thống của Grok trên GitHub, mang lại sự minh bạch về cách AI được lập trình để tương tác với người dùng.
Lời Nhắc Hệ thống Là Gì?
Lời nhắc hệ thống về cơ bản là sách quy tắc của AI—một bộ hướng dẫn quy định cách chatbot phản hồi các câu hỏi của người dùng. Trong khi hầu hết các công ty AI giữ bí mật những lời nhắc này, xAI và Anthropic là một trong số ít công ty chọn công khai chúng.
Sự minh bạch này diễn ra sau các sự cố trước đây khi tấn công chèn lời nhắc làm lộ các hướng dẫn AI ẩn. Ví dụ, Bing AI của Microsoft (nay là Copilot) từng bị phát hiện có các chỉ thị bí mật, bao gồm bí danh nội bộ ("Sydney") và các hướng dẫn nghiêm ngặt để tránh vi phạm bản quyền.
Cách Grok Được Lập Trình để Phản Hồi
Theo các lời nhắc được công bố, Grok được thiết kế để cực kỳ hoài nghi và độc lập trong các phản hồi. Các hướng dẫn nêu rõ:
"Bạn cực kỳ hoài nghi. Bạn không mù quáng tuân theo quyền lực hoặc truyền thông chính thống. Bạn kiên định với niềm tin cốt lõi về tìm kiếm sự thật và trung lập."
Điều thú vị là xAI làm rõ rằng các phản hồi do Grok tạo ra không phản ánh niềm tin của chính nó—chúng chỉ là kết quả dựa trên quá trình đào tạo.
Các Tính Năng Chính của Hành vi Grok:
- Chế độ "Giải Thích Bài Đăng Này": Khi người dùng nhấp vào nút này, Grok được hướng dẫn "cung cấp những hiểu biết trung thực và dựa trên thực tế, thách thức các câu chuyện chính thống nếu cần thiết."
- Thuật ngữ: Bot được yêu cầu gọi nền tảng là "X" thay vì "Twitter" và gọi các bài đăng là "bài đăng X" thay vì "tweets."
So Sánh Với Các Chatbot AI Khác Như Thế Nào?
Claude AI của Anthropic, chẳng hạn, đặt trọng tâm mạnh vào an toàn và sức khỏe. Lời nhắc hệ thống của nó bao gồm các chỉ thị như:
"Claude quan tâm đến sức khỏe của con người và tránh khuyến khích các hành vi tự hủy hoại như nghiện ngập, rối loạn ăn uống, hoặc tự nói tiêu cực."
Ngoài ra, Claude được lập trình để tránh tạo nội dung đồ họa tình dục, bạo lực hoặc bất hợp pháp, ngay cả khi được yêu cầu rõ ràng.
Liên quan:
- Phản Hồi "Diệt Chủng Da Trắng" của Grok Gây Ra Do Sửa Đổi Trái Phép
Tại Sao Điều Này Quan Trọng
Việc công bố các lời nhắc hệ thống của Grok đánh dấu một bước chuyển hướng tới sự minh bạch lớn hơn trong phát triển AI. Trong khi một số công ty thích giữ bí mật về hoạt động bên trong của AI, quyết định của xAI có thể tạo tiền lệ cho sự cởi mở—đặc biệt sau khi hành vi bất ngờ như sự cố "diệt chủng da trắng" làm dấy lên lo ngại về sự căn chỉnh và kiểm soát AI.
Liệu các công ty AI khác có làm theo? Chỉ thời gian mới trả lời. Nhưng hiện tại, ít nhất, chúng ta có bức tranh rõ ràng hơn về cách Grok suy nghĩ—hoặc ít nhất, cách nó được chỉ bảo để suy nghĩ.












