AI của Openai được đào tạo về những cuốn sách O'Reilly được trả lương, các nhà nghiên cứu tuyên bố

Trang chủ

Tin tức

Ngày 07 tháng 4 năm 2025

JuanThomas

# openai

AI của Openai được đào tạo về những cuốn sách O'Reilly được trả lương, các nhà nghiên cứu tuyên bố

Openai đã phải đối mặt với nhiều cáo buộc sử dụng tài liệu có bản quyền mà không được phép đào tạo các mô hình AI của mình. Một nghiên cứu gần đây của Dự án Tiết lộ AI, một tổ chức phi lợi nhuận được thành lập vào năm 2024 bởi ông trùm truyền thông Tim O'Reilly và nhà kinh tế Ilan Strauss, cho thấy Openai có thể đã sử dụng các cuốn sách không công khai từ O'Reilly Media để đào tạo mô hình nâng cao hơn của mình, GPT-4O. Các mô hình AI, về cơ bản là các công cụ dự đoán tinh vi, được đào tạo trên các bộ dữ liệu rộng lớn bao gồm sách, phim và chương trình truyền hình. Họ học các mẫu và tạo ra các câu trả lời dựa trên các mẫu này, không tạo ra bất cứ điều gì thực sự mới mà là gần đúng từ cơ sở kiến thức sâu rộng của chúng. Khi các nguồn dữ liệu trong thế giới thực như Web công cộng trở nên kiệt sức, một số phòng thí nghiệm AI, bao gồm cả OpenAI, đã bắt đầu sử dụng dữ liệu do AI tạo để đào tạo, mặc dù rất ít người từ bỏ dữ liệu trong thế giới thực hoàn toàn do rủi ro về hiệu suất mô hình suy giảm. Bài báo của Dự án Tiết lộ AI tuyên bố rằng mô hình GPT-4O của Openai, đây là mặc định trong TATGPT, cho thấy sự công nhận mạnh mẽ nội dung từ các cuốn sách O'Reilly được trả lương, không giống như mô hình GPT-3.5 Turbo trước đó. Bài viết cho thấy GPT-4O có khả năng được đào tạo trên những cuốn sách không công khai này, mặc dù O'Reilly Media không có thỏa thuận cấp phép với Openai. Nghiên cứu đã sử dụng một phương pháp gọi là de-COP, được giới thiệu vào năm 2024, để phát hiện nội dung có bản quyền trong dữ liệu đào tạo AI. "Tấn công thành viên tấn công" này kiểm tra xem một mô hình có thể phân biệt giữa các văn bản do con người và các diễn giải do AI tạo ra hay không, cho thấy kiến thức trước về văn bản nếu nó có thể làm như vậy một cách đáng tin cậy. Các nhà nghiên cứu đã thử nghiệm GPT-4O, GPT-3.5 Turbo và các mô hình OpenAI khác sử dụng các đoạn trích 13.962 đoạn từ 34 o'Reilly, thấy rằng GPT-4O nhận ra nội dung được trả lương cao hơn đáng kể so với các mô hình cũ. Mặc dù các tác giả thừa nhận rằng phương pháp của họ không phải là hoàn hảo và nội dung được trả lương có thể đã được người dùng sao chép và dán vào TATGPT, các phát hiện đặt ra câu hỏi về thực tiễn dữ liệu của Openai. Nghiên cứu không đánh giá các mô hình mới nhất của Openai, chẳng hạn như GPT-4.5 và các mô hình lý luận như O3-Mini và O1, để mở ra khả năng những điều này có thể không được đào tạo trên cùng một dữ liệu. Openai đã thúc đẩy các luật bản quyền thoải mái hơn về dữ liệu đào tạo AI và đã tìm kiếm các nguồn dữ liệu chất lượng cao hơn. Công ty thậm chí đã thuê các nhà báo để tinh chỉnh sản lượng của các mô hình của mình, một thực tiễn được thấy trong ngành công nghiệp AI nơi các chuyên gia trong các lĩnh vực khác nhau được tuyển dụng để tăng cường các hệ thống AI. Openai trả tiền cho một số dữ liệu đào tạo của mình, có các thỏa thuận cấp phép với các nhà cung cấp nội dung khác nhau và cung cấp các cơ chế từ chối cho chủ sở hữu bản quyền. Tuy nhiên, khi công ty phải đối mặt với những thách thức pháp lý đối với các hoạt động dữ liệu của mình, những phát hiện của tờ giấy O'Reilly đã tạo ra một cái bóng về các hoạt động của nó. Openai đã không trả lời các yêu cầu bình luận về nghiên cứu.

Bài viết liên quan

Tìm kiếm Google giới thiệu 'chế độ AI' cho các truy vấn phức tạp, đa phần Google tiết lộ "Chế độ AI" khi tìm kiếm đối thủ Perplexity AI và Chatgptgoogle đang đẩy mạnh trò chơi của mình trong AI Arena với sự ra mắt của tính năng "AI Mode" thử nghiệm trong công cụ tìm kiếm. Nhằm mục đích tham gia vào tìm kiếm của Perplexity AI và Openai, chế độ mới này đã được công bố vào Wed

Việc sử dụng tên người dùng không được yêu cầu của Chats Một số người dùng Chatgpt gần đây đã gặp phải một tính năng mới kỳ lạ: Chatbot thỉnh thoảng sử dụng tên của họ trong khi làm việc thông qua các vấn đề. Đây không phải là một phần của hành vi thông thường của nó trước đây và nhiều người dùng báo cáo rằng TATGPT đề cập đến tên của họ mà không bao giờ được nói những gì cần gọi họ. Ý kiến về

Openai tăng cường Chatgpt để nhớ lại các cuộc hội thoại trước đó Openai đã đưa ra một thông báo lớn vào thứ năm về việc tung ra một tính năng mới trong TATGPT có tên là "Bộ nhớ". Công cụ tiện lợi này được thiết kế để làm cho các cuộc trò chuyện của bạn với AI được cá nhân hóa hơn bằng cách ghi nhớ những gì bạn đã nói trước đây. Hãy tưởng tượng không phải lặp lại bản thân mỗi khi bạn bắt đầu một cuộc truyền đạt mới

Nhận xét (40)

0/200

Nộp

RoyPerez

04:31:26 GMT Ngày 11 tháng 4 năm 2025

So, OpenAI's AI got trained on paywalled books? That's a bit shady, isn't it? I mean, I love the tech, but using copyrighted material without permission? Come on, OpenAI, you can do better than that. Maybe they should focus on creating their own content instead.

KeithGonzález

19:27:39 GMT Ngày 10 tháng 4 năm 2025

オープンAIのAIが有料の本で訓練されたって？ちょっと怪しいよね？技術は好きだけど、許可なく著作権物を使うなんて。オープンAI、もっとできるはずだよ。自分のコンテンツを作ることに集中すべきだね。

MatthewHill

19:28:56 GMT Ngày 07 tháng 4 năm 2025

오픈AI의 AI가 유료 책으로 훈련되었다고요? 좀 수상하죠? 기술은 좋아하지만, 허락 없이 저작권이 있는 자료를 사용하다니요. 오픈AI, 더 잘할 수 있어요. 자신의 콘텐츠를 만드는 데 집중해야 해요.

BenWalker

13:31:14 GMT Ngày 09 tháng 4 năm 2025

Então, a IA da OpenAI foi treinada com livros pagos? Isso é um pouco suspeito, não é? Eu gosto da tecnologia, mas usar material com direitos autorais sem permissão? Vamos, OpenAI, você pode fazer melhor do que isso. Talvez eles deveriam se concentrar em criar seu próprio conteúdo.

FrankMartínez

10:03:15 GMT Ngày 09 tháng 4 năm 2025

¿Así que la IA de OpenAI fue entrenada con libros de pago? Eso es un poco sospechoso, ¿no? Me gusta la tecnología, pero usar material con derechos de autor sin permiso... Vamos, OpenAI, puedes hacerlo mejor. Tal vez deberían centrarse en crear su propio contenido.

LarryHernández

06:32:40 GMT Ngày 10 tháng 4 năm 2025

I'm torn about OpenAI using O’Reilly books to train their AI. On one hand, it's impressive how advanced their models are getting. On the other, it feels a bit shady to use paywalled content. I guess innovation sometimes walks a fine line, huh? Maybe they should just pay for the books next time!

Tin tức hàng đầu

Các trung tâm dữ liệu của Hoa Kỳ có thể mở khóa 76 GW công suất năng lượng mới Một bước đột phá trong phát hiện cháy rừng: Làm thế nào một chòm sao vệ tinh mới có thể phát hiện các vụ cháy rừng nhỏ hơn sớm hơn Notebooklm thêm tính năng Discovery nguồn Web AI của Cambium biến gỗ chất thải thành gỗ Người sáng lập AI để tiêu thụ sức mạnh của nhiều NYC vào năm 2026, người sáng lập Giám đốc điều hành NVIDIA làm rõ những quan niệm sai lầm về tác động thị trường của Deepseek AI của Openai được đào tạo về những cuốn sách O'Reilly được trả lương, các nhà nghiên cứu tuyên bố AI có thể là chìa khóa để mở khóa một khu vực công cộng hiệu quả hơn của Vương quốc Anh Google.org tiết lộ 15 triệu đô la tài trợ đào tạo AI cho nhân viên chính phủ Deep Cogito's LLMS vượt trội so với các mô hình có kích thước tương tự bằng IDA

Hơn

Đặc trưng