Nghiên cứu của Microsoft tiết lộ giới hạn của các mô hình AI trong việc gỡ lỗi phần mềm
Các mô hình AI từ OpenAI, Anthropic và các phòng thí nghiệm AI hàng đầu khác ngày càng được sử dụng cho các nhiệm vụ lập trình. Giám đốc điều hành Google Sundar Pichai đã lưu ý vào tháng 10 rằng AI tạo ra 25% mã mới tại công ty, trong khi Giám đốc điều hành Meta Mark Zuckerberg hướng đến việc triển khai rộng rãi các công cụ lập trình AI trong gã khổng lồ mạng xã hội.
Tuy nhiên, ngay cả những mô hình hoạt động hàng đầu cũng gặp khó khăn trong việc sửa lỗi phần mềm mà các nhà phát triển có kinh nghiệm xử lý dễ dàng.
Một nghiên cứu gần đây của Microsoft Research, được thực hiện bởi bộ phận R&D của Microsoft, cho thấy các mô hình như Claude 3.7 Sonnet của Anthropic và o3-mini của OpenAI gặp khó khăn trong việc giải quyết nhiều vấn đề trong chuẩn đánh giá phát triển phần mềm SWE-bench Lite. Kết quả nhấn mạnh rằng, bất chấp những tuyên bố tham vọng từ các công ty như OpenAI, AI vẫn chưa đạt được chuyên môn của con người trong các lĩnh vực như lập trình.
Các nhà nghiên cứu của nghiên cứu đã thử nghiệm chín mô hình làm nền tảng cho một “tác nhân dựa trên lời nhắc đơn” được trang bị các công cụ gỡ lỗi, bao gồm một trình gỡ lỗi Python. Tác nhân này được giao nhiệm vụ xử lý 300 thách thức gỡ lỗi phần mềm được chọn lọc từ SWE-bench Lite.
Kết quả cho thấy ngay cả với các mô hình tiên tiến, tác nhân hiếm khi giải quyết thành công quá nửa số nhiệm vụ. Claude 3.7 Sonnet dẫn đầu với tỷ lệ thành công 48,4%, tiếp theo là o1 của OpenAI với 30,2%, và o3-mini với 22,1%.

Biểu đồ từ nghiên cứu cho thấy sự cải thiện hiệu suất mà các mô hình nhận được từ các công cụ gỡ lỗi. Nguồn ảnh: Microsoft Điều gì giải thích cho kết quả kém cỏi này? Một số mô hình gặp khó khăn trong việc sử dụng hiệu quả các công cụ gỡ lỗi có sẵn hoặc xác định công cụ nào phù hợp với các vấn đề cụ thể. Vấn đề chính, theo các nhà nghiên cứu, là thiếu dữ liệu huấn luyện đủ, đặc biệt là dữ liệu ghi lại “quy trình ra quyết định tuần tự” như dấu vết gỡ lỗi của con người.
“Chúng tôi tin rằng việc huấn luyện hoặc tinh chỉnh các mô hình này có thể cải thiện khả năng gỡ lỗi của chúng,” các nhà nghiên cứu viết. “Tuy nhiên, điều này đòi hỏi dữ liệu chuyên biệt, chẳng hạn như dữ liệu quỹ đạo ghi lại các tác nhân tương tác với trình gỡ lỗi để thu thập thông tin trước khi đề xuất sửa chữa.”
Tham dự TechCrunch Sessions: AI
Đặt chỗ của bạn tại sự kiện hàng đầu trong ngành AI của chúng tôi, với các diễn giả từ OpenAI, Anthropic và Cohere. Trong thời gian có hạn, vé chỉ có giá 292 đô la cho một ngày đầy đủ các bài nói chuyện chuyên gia, hội thảo và cơ hội kết nối.
Trình diễn tại TechCrunch Sessions: AI
Đặt chỗ của bạn tại TC Sessions: AI để trình bày công việc của bạn trước hơn 1.200 nhà ra quyết định. Cơ hội triển lãm có sẵn đến ngày 9 tháng 5 hoặc cho đến khi các bàn được đặt kín.
Kết quả này không đáng ngạc nhiên. Nhiều nghiên cứu đã chỉ ra rằng mã do AI tạo ra thường gây ra các lỗ hổng bảo mật và lỗi do yếu kém trong việc hiểu logic lập trình. Một bài kiểm tra gần đây về Devin, một công cụ lập trình AI nổi tiếng, cho thấy nó chỉ có thể hoàn thành ba trong số 20 nhiệm vụ lập trình.
Nghiên cứu của Microsoft cung cấp một trong những phân tích sâu sắc nhất về thách thức đang diễn ra này đối với các mô hình AI. Mặc dù không chắc sẽ làm giảm sự quan tâm của các nhà đầu tư đối với các công cụ lập trình hỗ trợ AI, nhưng nó có thể khiến các nhà phát triển và lãnh đạo của họ xem xét lại việc phụ thuộc quá nhiều vào AI cho các nhiệm vụ lập trình.
Đáng chú ý, một số lãnh đạo công nghệ đã phản đối ý kiến rằng AI sẽ xóa bỏ các công việc lập trình. Đồng sáng lập Microsoft Bill Gates, Giám đốc điều hành Replit Amjad Masad, Giám đốc điều hành Okta Todd McKinnon và Giám đốc điều hành IBM Arvind Krishna đều bày tỏ sự tin tưởng rằng nghề lập trình sẽ trường tồn.
Bài viết liên quan
Giải pháp được hỗ trợ bởi AI có thể giảm đáng kể lượng phát thải carbon toàn cầu
Một nghiên cứu gần đây của Trường Kinh tế London và Systemiq cho thấy trí tuệ nhân tạo có thể giảm đáng kể lượng phát thải carbon toàn cầu mà không làm mất đi các tiện nghi hiện đại, định vị AI như mộ
Apple Ra Mắt Các Tính Năng Siri Nâng Cao Vào Mùa Thu Này
Apple chuẩn bị ra mắt các tính năng Siri tiên tiến, tập trung vào người dùng trước mùa lễ hội 2025, theo The New York Times. Dẫn lời ba nguồn tin đáng tin cậy, tờ báo này cho biết trợ lý ảo được cập n
Washington Post Hợp tác với OpenAI để Nâng cao Tiếp cận Tin tức qua ChatGPT
The Washington Post và OpenAI đã công bố một “quan hệ đối tác chiến lược” để “mở rộng tiếp cận tin tức đáng tin cậy qua ChatGPT,” theo một thông cáo báo chí của Washington Post.OpenAI đã thiết lập liê
Nhận xét (0)
0/200
Các mô hình AI từ OpenAI, Anthropic và các phòng thí nghiệm AI hàng đầu khác ngày càng được sử dụng cho các nhiệm vụ lập trình. Giám đốc điều hành Google Sundar Pichai đã lưu ý vào tháng 10 rằng AI tạo ra 25% mã mới tại công ty, trong khi Giám đốc điều hành Meta Mark Zuckerberg hướng đến việc triển khai rộng rãi các công cụ lập trình AI trong gã khổng lồ mạng xã hội.
Tuy nhiên, ngay cả những mô hình hoạt động hàng đầu cũng gặp khó khăn trong việc sửa lỗi phần mềm mà các nhà phát triển có kinh nghiệm xử lý dễ dàng.
Một nghiên cứu gần đây của Microsoft Research, được thực hiện bởi bộ phận R&D của Microsoft, cho thấy các mô hình như Claude 3.7 Sonnet của Anthropic và o3-mini của OpenAI gặp khó khăn trong việc giải quyết nhiều vấn đề trong chuẩn đánh giá phát triển phần mềm SWE-bench Lite. Kết quả nhấn mạnh rằng, bất chấp những tuyên bố tham vọng từ các công ty như OpenAI, AI vẫn chưa đạt được chuyên môn của con người trong các lĩnh vực như lập trình.
Các nhà nghiên cứu của nghiên cứu đã thử nghiệm chín mô hình làm nền tảng cho một “tác nhân dựa trên lời nhắc đơn” được trang bị các công cụ gỡ lỗi, bao gồm một trình gỡ lỗi Python. Tác nhân này được giao nhiệm vụ xử lý 300 thách thức gỡ lỗi phần mềm được chọn lọc từ SWE-bench Lite.
Kết quả cho thấy ngay cả với các mô hình tiên tiến, tác nhân hiếm khi giải quyết thành công quá nửa số nhiệm vụ. Claude 3.7 Sonnet dẫn đầu với tỷ lệ thành công 48,4%, tiếp theo là o1 của OpenAI với 30,2%, và o3-mini với 22,1%.

Điều gì giải thích cho kết quả kém cỏi này? Một số mô hình gặp khó khăn trong việc sử dụng hiệu quả các công cụ gỡ lỗi có sẵn hoặc xác định công cụ nào phù hợp với các vấn đề cụ thể. Vấn đề chính, theo các nhà nghiên cứu, là thiếu dữ liệu huấn luyện đủ, đặc biệt là dữ liệu ghi lại “quy trình ra quyết định tuần tự” như dấu vết gỡ lỗi của con người.
“Chúng tôi tin rằng việc huấn luyện hoặc tinh chỉnh các mô hình này có thể cải thiện khả năng gỡ lỗi của chúng,” các nhà nghiên cứu viết. “Tuy nhiên, điều này đòi hỏi dữ liệu chuyên biệt, chẳng hạn như dữ liệu quỹ đạo ghi lại các tác nhân tương tác với trình gỡ lỗi để thu thập thông tin trước khi đề xuất sửa chữa.”
Tham dự TechCrunch Sessions: AI
Đặt chỗ của bạn tại sự kiện hàng đầu trong ngành AI của chúng tôi, với các diễn giả từ OpenAI, Anthropic và Cohere. Trong thời gian có hạn, vé chỉ có giá 292 đô la cho một ngày đầy đủ các bài nói chuyện chuyên gia, hội thảo và cơ hội kết nối.
Trình diễn tại TechCrunch Sessions: AI
Đặt chỗ của bạn tại TC Sessions: AI để trình bày công việc của bạn trước hơn 1.200 nhà ra quyết định. Cơ hội triển lãm có sẵn đến ngày 9 tháng 5 hoặc cho đến khi các bàn được đặt kín.
Kết quả này không đáng ngạc nhiên. Nhiều nghiên cứu đã chỉ ra rằng mã do AI tạo ra thường gây ra các lỗ hổng bảo mật và lỗi do yếu kém trong việc hiểu logic lập trình. Một bài kiểm tra gần đây về Devin, một công cụ lập trình AI nổi tiếng, cho thấy nó chỉ có thể hoàn thành ba trong số 20 nhiệm vụ lập trình.
Nghiên cứu của Microsoft cung cấp một trong những phân tích sâu sắc nhất về thách thức đang diễn ra này đối với các mô hình AI. Mặc dù không chắc sẽ làm giảm sự quan tâm của các nhà đầu tư đối với các công cụ lập trình hỗ trợ AI, nhưng nó có thể khiến các nhà phát triển và lãnh đạo của họ xem xét lại việc phụ thuộc quá nhiều vào AI cho các nhiệm vụ lập trình.
Đáng chú ý, một số lãnh đạo công nghệ đã phản đối ý kiến rằng AI sẽ xóa bỏ các công việc lập trình. Đồng sáng lập Microsoft Bill Gates, Giám đốc điều hành Replit Amjad Masad, Giám đốc điều hành Okta Todd McKinnon và Giám đốc điều hành IBM Arvind Krishna đều bày tỏ sự tin tưởng rằng nghề lập trình sẽ trường tồn.











