lựa chọn
Trang chủ Tin tức Nghiên cứu: Các mô hình Openai đã ghi nhớ nội dung có bản quyền

Nghiên cứu: Các mô hình Openai đã ghi nhớ nội dung có bản quyền

ngày phát hành ngày phát hành Ngày 10 tháng 4 năm 2025
Tác giả Tác giả RonaldHernández
quan điểm quan điểm 44

Một nghiên cứu gần đây cho thấy Openai có thể thực sự đã sử dụng tài liệu có bản quyền để đào tạo một số mô hình AI của nó, thêm nhiên liệu vào các cuộc chiến pháp lý đang diễn ra mà công ty phải đối mặt. Các tác giả, lập trình viên và các nhà sáng tạo nội dung khác đã cáo buộc Openai sử dụng các tác phẩm của họ như sách và mã mà không có sự cho phép phát triển các mô hình AI của mình. Mặc dù Openai đã tự bảo vệ mình bằng cách tuyên bố sử dụng hợp lý, các nguyên đơn cho rằng luật bản quyền của Hoa Kỳ không cung cấp một ngoại lệ cho dữ liệu đào tạo.

Nghiên cứu, sự hợp tác giữa các nhà nghiên cứu từ Đại học Washington, Đại học Copenhagen và Stanford, giới thiệu một kỹ thuật mới để phát hiện dữ liệu đào tạo "ghi nhớ" trong các mô hình được truy cập thông qua API, giống như các mô hình từ Openai. Các mô hình AI về cơ bản học hỏi từ một lượng lớn dữ liệu để nhận ra các mẫu, cho phép chúng tạo ra các bài tiểu luận, hình ảnh và hơn thế nữa. Mặc dù hầu hết các đầu ra không phải là bản sao trực tiếp của dữ liệu đào tạo, một số người chắc chắn là do quá trình học tập. Ví dụ, các mô hình hình ảnh đã được biết đến để tái tạo ảnh chụp màn hình phim, trong khi các mô hình ngôn ngữ đã bị bắt gặp về cơ bản là đạo văn các bài báo.

Phương pháp được mô tả trong nghiên cứu tập trung vào các từ "Surnpralal" từ "cao" là bất thường trong một bối cảnh nhất định. Ví dụ, trong câu "Jack và tôi ngồi hoàn toàn yên tĩnh với tiếng ồn ào," radar "sẽ là một từ xa vì nó ít được mong đợi hơn các từ như" động cơ "hoặc" radio "để đi trước" humming ".

Các nhà nghiên cứu đã thử nghiệm một số mô hình OpenAI, bao gồm GPT-4 và GPT-3.5, bằng cách loại bỏ các từ ngữ cao từ các trích đoạn của các cuốn sách tiểu thuyết và các bài báo của New York Times và yêu cầu các mô hình dự đoán những từ còn thiếu này. Nếu các mô hình đoán chính xác các từ, nó cho rằng họ đã ghi nhớ văn bản trong quá trình đào tạo.

Nghiên cứu bản quyền Openai

Một ví dụ về việc có một mô hình
Kết quả chỉ ra rằng GPT-4 có khả năng ghi nhớ các phần của các cuốn sách tiểu thuyết phổ biến, bao gồm cả những cuốn sách trong cuốn sách Bookmia của Sách điện tử có bản quyền. Nó cũng dường như đã ghi nhớ một số bài báo của New York Times, mặc dù ở tần số thấp hơn.

Abhilasha Ravichander, một sinh viên tiến sĩ tại Đại học Washington và đồng tác giả của nghiên cứu, nhấn mạnh với TechCrunch rằng những phát hiện này nêu bật "dữ liệu gây tranh cãi" có thể được sử dụng để đào tạo các mô hình này. "Để có các mô hình ngôn ngữ lớn đáng tin cậy, chúng ta cần có các mô hình mà chúng ta có thể thăm dò và kiểm toán và kiểm tra một cách khoa học", Ravichander tuyên bố. "Công việc của chúng tôi nhằm mục đích cung cấp một công cụ để thăm dò các mô hình ngôn ngữ lớn, nhưng có một nhu cầu thực sự về tính minh bạch dữ liệu lớn hơn trong toàn bộ hệ sinh thái."

Openai đã thúc đẩy các quy tắc thoải mái hơn về việc sử dụng dữ liệu có bản quyền để phát triển các mô hình AI. Mặc dù công ty có một số thỏa thuận cấp phép nội dung và cung cấp các tùy chọn từ chối cho chủ sở hữu bản quyền, nhưng nó đã vận động các chính phủ khác nhau để thiết lập các quy tắc "sử dụng hợp lý" để đào tạo AI.

Bài viết liên quan
Google搜索引入了複雜的多部分查詢的“ AI模式” Google搜索引入了複雜的多部分查詢的“ AI模式” Google推出了“ AI模式”,以搜索與競爭對手的困惑AI和ChatgptGoogle在AI Arena中加強遊戲,並在其搜索引擎中啟動了實驗性的“ AI模式”功能。旨在進行困惑AI和Openai的Chatgpt搜索之類
Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題 Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題 Chatgpt的一些用戶最近遇到了一個奇怪的新功能:聊天機器人偶爾在解決問題時使用他們的名字。這不是以前其通常行為的一部分,許多用戶報告Chatgpt提到了他們的名字,而沒有被告知該怎麼稱呼。意見
Openai增強了Chatgpt,以回憶以前的對話 Openai增強了Chatgpt,以回憶以前的對話 Openai在周四發表了一項重大宣布,內容涉及在Chatgpt中推出一個名為“ Memory”的新功能。這種漂亮的工具旨在通過記住您以前談論的內容來使您與AI的聊天更為個性化。想像一下,每次開始新的轉換時都不必重複自己
Nhận xét (20)
0/200
AlbertHernández
AlbertHernández 21:39:34 GMT Ngày 14 tháng 4 năm 2025

This study about OpenAI using copyrighted material is pretty eye-opening! I mean, it's kind of a bummer for creators, but also fascinating to see how AI is trained. It makes you wonder what else is out there that we don't know about. Maybe OpenAI should start being more transparent? 🤔

TimothyMitchell
TimothyMitchell 00:12:42 GMT Ngày 22 tháng 4 năm 2025

OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね!クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね?🤔

WillLopez
WillLopez 11:49:05 GMT Ngày 21 tháng 4 năm 2025

오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔

JamesMiller
JamesMiller 18:07:57 GMT Ngày 10 tháng 4 năm 2025

Esse estudo sobre a OpenAI usando material com direitos autorais é bem revelador! É uma pena para os criadores, mas também fascinante ver como o AI é treinado. Faz você se perguntar o que mais está por aí que não sabemos. Talvez a OpenAI devesse ser mais transparente? 🤔

BruceSmith
BruceSmith 01:01:58 GMT Ngày 13 tháng 4 năm 2025

Este estudio sobre OpenAI usando material con derechos de autor es bastante revelador. Es una lástima para los creadores, pero también fascinante ver cómo se entrena la IA. Te hace preguntarte qué más hay por ahí que no sabemos. ¿Quizás OpenAI debería ser más transparente? 🤔

JohnWilson
JohnWilson 17:16:23 GMT Ngày 17 tháng 4 năm 2025

This study on OpenAI's models using copyrighted content is kinda scary! 😱 I mean, it's cool how smart AI is getting, but it feels wrong if they're just copying books and code without asking. Hope they sort it out soon! 🤞

Quay lại đầu
OR