lựa chọn
Trang chủ Tin tức Kỹ thuật mới cho phép Deepseek và các mô hình khác trả lời các truy vấn nhạy cảm

Kỹ thuật mới cho phép Deepseek và các mô hình khác trả lời các truy vấn nhạy cảm

ngày phát hành ngày phát hành Ngày 10 tháng 5 năm 2025
Tác giả Tác giả CarlLewis
quan điểm quan điểm 0

Loại bỏ sự thiên vị và kiểm duyệt khỏi các mô hình ngôn ngữ lớn (LLM) như Deepseek của Trung Quốc là một thách thức phức tạp đã thu hút sự chú ý của các nhà hoạch định chính sách và lãnh đạo doanh nghiệp Hoa Kỳ, những người coi đó là mối đe dọa an ninh quốc gia tiềm năng. Một báo cáo gần đây từ một ủy ban chọn Quốc hội Hoa Kỳ đã gắn nhãn Deepseek là "mối đe dọa sâu sắc đối với an ninh của quốc gia chúng ta" và đưa ra các khuyến nghị chính sách để giải quyết vấn đề này.

Mặc dù các kỹ thuật như học tập củng cố từ phản hồi của con người (RLHF) và tinh chỉnh có thể giúp giảm thiểu sự thiên vị, thì công ty khởi nghiệp quản lý rủi ro doanh nghiệp CTGT tuyên bố đã phát triển một cách tiếp cận mới lạ. Theo CTGT, phương pháp của họ có thể loại bỏ hoàn toàn sự kiểm duyệt trong LLM. Cyril Gorlla và Trevor Tuttle của CTGT đã trình bày chi tiết khuôn khổ của họ trong một bài báo, giải thích rằng nó "trực tiếp định vị và sửa đổi các tính năng nội bộ chịu trách nhiệm kiểm duyệt."

Cách tiếp cận của họ không chỉ hiệu quả mà còn cho phép kiểm soát chính xác hành vi của mô hình, đảm bảo rằng các phản hồi không bị kiểm duyệt được cung cấp mà không ảnh hưởng đến khả năng tổng thể của mô hình hoặc độ chính xác thực tế. Mặc dù ban đầu được thiết kế cho Deepseek-R1-Distill-Llama-70B, phương pháp này cũng có thể được áp dụng cho các mô hình khác. Gorlla đã xác nhận với VentureBeat rằng công nghệ của CTGT hoạt động ở cấp độ mạng lưới thần kinh nền tảng, làm cho nó áp dụng cho tất cả các mô hình học tập sâu. Họ đang hợp tác với một phòng thí nghiệm mô hình nền tảng hàng đầu để đảm bảo các mô hình mới vốn đã đáng tin cậy và an toàn.

Cách nó hoạt động

Các nhà nghiên cứu tại CTGT xác định các tính năng trong mô hình có khả năng liên quan đến các hành vi không mong muốn. Họ giải thích rằng "trong một mô hình ngôn ngữ lớn, tồn tại các biến tiềm ẩn (tế bào thần kinh hoặc hướng ở trạng thái ẩn) tương ứng với các khái niệm như 'kích hoạt kiểm duyệt' hoặc 'tình cảm độc hại'. Nếu chúng ta có thể tìm thấy các biến đó, chúng ta có thể trực tiếp thao tác chúng."

Phương pháp của CTGT bao gồm ba bước chính:

  1. Nhận dạng tính năng
  2. Sự cô lập và đặc tính tính năng
  3. Sửa đổi tính năng động

Để xác định các tính năng này, các nhà nghiên cứu sử dụng các lời nhắc được thiết kế để kích hoạt "tình cảm độc hại", chẳng hạn như các câu hỏi về Quảng trường Thiên An Môn hoặc các mẹo để bỏ qua tường lửa. Họ phân tích các câu trả lời để thiết lập các mẫu và xác định vị trí các vectơ nơi mô hình quyết định thông tin kiểm duyệt. Sau khi được xác định, họ cô lập tính năng và hiểu phần nào của hành vi không mong muốn mà nó kiểm soát, cho dù đó là phản ứng thận trọng hay từ chối trả lời. Sau đó, họ tích hợp một cơ chế vào đường ống suy luận của mô hình để điều chỉnh mức độ kích hoạt của hành vi của tính năng.

Làm cho mô hình trả lời nhiều lời nhắc hơn

Các thí nghiệm của CTGT, sử dụng 100 truy vấn nhạy cảm, cho thấy mô hình DeepSeek-R1-Distill-Llama-70B cơ sở cơ sở chỉ trả lời 32% các lời nhắc gây tranh cãi. Tuy nhiên, phiên bản sửa đổi đã phản hồi 96% các lời nhắc, với 4% còn lại là nội dung cực kỳ rõ ràng. Công ty nhấn mạnh rằng phương pháp của họ cho phép người dùng điều chỉnh các tính năng thiên vị và an toàn của mô hình mà không biến nó thành "máy phát điện tính", đặc biệt là khi chỉ loại bỏ kiểm duyệt không cần thiết.

Điều quan trọng, phương pháp này không ảnh hưởng đến độ chính xác hoặc hiệu suất của mô hình. Không giống như tinh chỉnh truyền thống, nó không liên quan đến việc tối ưu hóa các trọng số mô hình hoặc cung cấp các phản hồi ví dụ mới. Điều này cung cấp hai lợi thế chính: hiệu ứng ngay lập tức đối với việc tạo mã thông báo tiếp theo và khả năng chuyển đổi giữa các hành vi khác nhau bằng cách bật hoặc tắt điều chỉnh tính năng hoặc thậm chí điều chỉnh nó ở các mức độ khác nhau cho các bối cảnh khác nhau.

Mô hình an toàn và bảo mật

Báo cáo của Quốc hội về Deepseek kêu gọi Hoa Kỳ "thực hiện hành động nhanh chóng để mở rộng kiểm soát xuất khẩu, cải thiện thực thi kiểm soát xuất khẩu và giải quyết rủi ro từ các mô hình trí tuệ nhân tạo của Trung Quốc." Khi những lo ngại về mối đe dọa an ninh quốc gia tiềm năng của Deepseek, các nhà nghiên cứu và các công ty AI bắt đầu khám phá những cách để làm cho các mô hình như vậy an toàn hơn.

Việc xác định những gì là "an toàn", thiên vị hoặc bị kiểm duyệt có thể là thách thức, nhưng các phương pháp cho phép người dùng điều chỉnh các điều khiển mô hình cho phù hợp với nhu cầu của họ có thể rất có lợi. Gorlla nhấn mạnh rằng các doanh nghiệp "cần có khả năng tin tưởng các mô hình của họ phù hợp với chính sách của họ", nhấn mạnh tầm quan trọng của các phương pháp như CTGT đối với các doanh nghiệp.

"CTGT cho phép các công ty triển khai AI thích nghi với các trường hợp sử dụng của họ mà không phải chi hàng triệu đô la các mô hình tinh chỉnh cho mỗi trường hợp sử dụng. Điều này đặc biệt quan trọng trong các ứng dụng có nguy cơ cao như bảo mật, tài chính và chăm sóc sức khỏe, trong đó các tác hại tiềm tàng có thể đến từ sự cố AI là nghiêm trọng," Gorlla được nêu.

Call of Duty: Mobile- Tất cả các mã đổi lấy hoạt động tháng 1 năm 2025

Bài viết liên quan
पूर्व दीपसेकर और सहयोगी विश्वसनीय एआई एजेंटों को प्रशिक्षण के लिए नई विधि जारी करते हैं: रैगेन पूर्व दीपसेकर और सहयोगी विश्वसनीय एआई एजेंटों को प्रशिक्षण के लिए नई विधि जारी करते हैं: रैगेन एआई एजेंटों का वर्ष: 2025 की अपेक्षाओं और वास्तविकता 2025 पर एक करीबी नज़र को कई विशेषज्ञों द्वारा उस वर्ष के रूप में हेराल्ड किया गया था जब एआई एजेंटों -विशेष रूप से एआई सिस्टम को उन्नत बड़ी भाषा और ओपनई, एन्थ्रोपिक, गूगल और डीपसेक जैसी कंपनियों से मल्टीमॉडल मॉडल द्वारा संचालित किया गया था।
ओपन डीप सर्च पेरप्लेक्सिटी और चैट सर्च को चुनौती देने के लिए आता है ओपन डीप सर्च पेरप्लेक्सिटी और चैट सर्च को चुनौती देने के लिए आता है यदि आप तकनीकी दुनिया में हैं, तो आपने ओपन डीप सर्च (ओडीएस) के आसपास की चर्चा के बारे में सुना होगा, जो कि सेंट्रेंट फाउंडेशन से नया ओपन-सोर्स फ्रेमवर्क है। ODS, Perplexity और Chatgpt खोज जैसे मालिकाना AI खोज इंजनों के लिए एक मजबूत विकल्प की पेशकश करके लहरें बना रहा है, और यह सब के बारे में है
MCP उपकरण और डेटा के साथ AI कनेक्टिविटी का मानकीकृत करता है: एक नया प्रोटोकॉल उभरता है MCP उपकरण और डेटा के साथ AI कनेक्टिविटी का मानकीकृत करता है: एक नया प्रोटोकॉल उभरता है यदि आप आर्टिफिशियल इंटेलिजेंस (एआई) की दुनिया में डाइविंग कर रहे हैं, तो आपने शायद देखा है कि अलग -अलग एआई मॉडल, डेटा स्रोत और टूल्स को एक साथ खेलने के लिए टूल प्राप्त करना कितना महत्वपूर्ण है। यह वह जगह है जहां मॉडल संदर्भ प्रोटोकॉल (MCP) आता है, AI कनेक्टिविटी को मानकीकृत करने में गेम-चेंजर के रूप में कार्य करता है। टी
Nhận xét (0)
0/200
Quay lại đầu
OR