Các Mô Hình AI Mới từ OpenAI Thể Hiện Tỷ Lệ Ảo Giác Cao Hơn trong Các Nhiệm Vụ Suy Luận

Trang chủ

Tin tức

Ngày 21 tháng 7 năm 2025

PatrickMartinez

# ChatGPT # openai

Các Mô Hình AI Mới từ OpenAI Thể Hiện Tỷ Lệ Ảo Giác Cao Hơn trong Các Nhiệm Vụ Suy Luận

Các mô hình AI o3 và o4-mini mới ra mắt của OpenAI vượt trội trong nhiều lĩnh vực nhưng cho thấy xu hướng ảo giác tăng cao so với các mô hình trước đó, tạo ra nhiều thông tin bịa đặt hơn.

Ảo giác vẫn là một thách thức dai dẳng trong AI, ngay cả đối với các hệ thống hàng đầu. Thông thường, các mô hình mới hơn giảm tỷ lệ ảo giác, nhưng o3 và o4-mini lại đi ngược xu hướng này.

Các bài kiểm tra nội bộ của OpenAI cho thấy o3 và o4-mini, được thiết kế làm mô hình suy luận, có tần suất ảo giác cao hơn so với các mô hình suy luận trước đó như o1, o1-mini và o3-mini, cũng như các mô hình không suy luận như GPT-4o.

Nguyên nhân của sự gia tăng này vẫn chưa rõ ràng đối với OpenAI, làm dấy lên mối quan ngại.

Báo cáo kỹ thuật của OpenAI về o3 và o4-mini lưu ý rằng cần nghiên cứu thêm để xác định lý do tại sao tỷ lệ ảo giác tăng lên khi mở rộng các mô hình suy luận. Mặc dù các mô hình này vượt trội trong các lĩnh vực như lập trình và toán học, xu hướng đưa ra nhiều tuyên bố hơn dẫn đến cả kết quả chính xác và không chính xác, theo báo cáo.

Trong bài kiểm tra PersonQA của OpenAI, o3 ảo giác trong 33% phản hồi, gấp đôi tỷ lệ của o1 (16%) và o3-mini (14.8%). O4-mini thể hiện tệ hơn, ảo giác trong 48% trường hợp.

Transluce, một nhóm nghiên cứu AI phi lợi nhuận, phát hiện o3 bịa đặt các hành động, chẳng hạn như tuyên bố nó đã chạy mã trên MacBook Pro 2021 bên ngoài ChatGPT, mặc dù không có khả năng này.

“Chúng tôi nghi ngờ rằng học tăng cường được sử dụng trong các mô hình dòng o có thể làm trầm trọng thêm các vấn đề thường được giảm bớt bởi các phương pháp hậu huấn luyện tiêu chuẩn,” nhà nghiên cứu Transluce và cựu nhân viên OpenAI Neil Chowdhury nói trong một email gửi tới TechCrunch.

Đồng sáng lập Transluce Sarah Schwettmann lưu ý rằng tỷ lệ ảo giác của o3 có thể làm giảm tính hữu ích thực tiễn của nó.

Kian Katanforoosh, giáo sư phụ giảng tại Stanford và CEO của Workera, nói với TechCrunch rằng đội của ông nhận thấy o3 vượt trội trong quy trình lập trình nhưng dễ tạo ra các liên kết website bị hỏng.

Mặc dù ảo giác có thể khơi dậy ý tưởng sáng tạo, chúng đặt ra thách thức cho các ngành như luật, nơi độ chính xác là tối quan trọng và sai sót trong tài liệu là không thể chấp nhận được.

Việc tích hợp khả năng tìm kiếm web cho thấy tiềm năng cải thiện độ chính xác. GPT-4o của OpenAI với tìm kiếm web đạt độ chính xác 90% trên SimpleQA, cho thấy khả năng giảm ảo giác trong các mô hình suy luận khi người dùng cho phép truy cập tìm kiếm bên thứ ba.

Nếu việc mở rộng các mô hình suy luận tiếp tục làm tăng ảo giác, việc tìm ra giải pháp sẽ ngày càng trở nên quan trọng.

“Việc cải thiện độ chính xác và độ tin cậy của mô hình là trọng tâm chính trong nghiên cứu liên tục của chúng tôi,” phát ngôn viên OpenAI Niko Felix nói trong một email gửi tới TechCrunch.

Ngành công nghiệp AI gần đây đã chuyển hướng sang các mô hình suy luận, giúp cải thiện hiệu suất mà không cần nguồn lực tính toán lớn. Tuy nhiên, sự chuyển đổi này dường như làm tăng rủi ro ảo giác, tạo ra một thách thức đáng kể.

Bài viết liên quan

Lo ngại về việc giữ chân nhân tài tại Mỹ do từ chối thẻ xanh của nhà nghiên cứu AI Kai Chen, một chuyên gia AI người Canada tại OpenAI với 12 năm ở Mỹ, đã bị từ chối thẻ xanh, theo Noam Brown, một nhà khoa học nghiên cứu nổi tiếng tại công ty. Trong một bài đăng trên X, Brown tiết l

Washington Post Hợp tác với OpenAI để Nâng cao Tiếp cận Tin tức qua ChatGPT The Washington Post và OpenAI đã công bố một “quan hệ đối tác chiến lược” để “mở rộng tiếp cận tin tức đáng tin cậy qua ChatGPT,” theo một thông cáo báo chí của Washington Post.OpenAI đã thiết lập liê

OpenAI Tái Khẳng Định Gốc Rễ Phi Lợi Nhuận Trong Cuộc Đại Tu Doanh Nghiệp Lớn OpenAI vẫn kiên định với sứ mệnh phi lợi nhuận khi trải qua một cuộc tái cơ cấu doanh nghiệp quan trọng, cân bằng giữa tăng trưởng và cam kết phát triển AI một cách có đạo đức.CEO Sam Altman đã phác t

Nhận xét (0)

0/200

Nộp

Tin tức hàng đầu

Gemini 2.5 Pro hiện không giới hạn và rẻ hơn Claude, GPT-4O Máy phát video AI hàng đầu vào năm 2025: Pika Labs so với các lựa chọn thay thế Openai tăng cường trợ lý giọng nói AI để trò chuyện tốt hơn Người sáng lập AI để tiêu thụ sức mạnh của nhiều NYC vào năm 2026, người sáng lập Giám đốc điều hành NVIDIA làm rõ những quan niệm sai lầm về tác động thị trường của Deepseek Trải nghiệm ô chữ I/O do AI hỗ trợ Notebooklm mở rộng toàn cầu, thêm các slide và kiểm tra thực tế nâng cao Các trung tâm dữ liệu của Hoa Kỳ có thể mở khóa 76 GW công suất năng lượng mới GenAI Cách Mạng Hóa Thiết Kế Rubric Giáo Dục 2025 Sao chép giọng nói AI: Hướng dẫn tối thượng để làm chủ chuyển đổi giọng nói

Hơn

Đặc trưng