Nghiên cứu: Các mô hình Openai đã ghi nhớ nội dung có bản quyền

Trang chủ

Tin tức

Ngày 10 tháng 4 năm 2025

RonaldHernández

147

# openai # Study

Một nghiên cứu gần đây cho thấy Openai có thể thực sự đã sử dụng tài liệu có bản quyền để đào tạo một số mô hình AI của nó, thêm nhiên liệu vào các cuộc chiến pháp lý đang diễn ra mà công ty phải đối mặt. Các tác giả, lập trình viên và các nhà sáng tạo nội dung khác đã cáo buộc Openai sử dụng các tác phẩm của họ như sách và mã mà không có sự cho phép phát triển các mô hình AI của mình. Mặc dù Openai đã tự bảo vệ mình bằng cách tuyên bố sử dụng hợp lý, các nguyên đơn cho rằng luật bản quyền của Hoa Kỳ không cung cấp một ngoại lệ cho dữ liệu đào tạo.

Nghiên cứu, sự hợp tác giữa các nhà nghiên cứu từ Đại học Washington, Đại học Copenhagen và Stanford, giới thiệu một kỹ thuật mới để phát hiện dữ liệu đào tạo "ghi nhớ" trong các mô hình được truy cập thông qua API, giống như các mô hình từ Openai. Các mô hình AI về cơ bản học hỏi từ một lượng lớn dữ liệu để nhận ra các mẫu, cho phép chúng tạo ra các bài tiểu luận, hình ảnh và hơn thế nữa. Mặc dù hầu hết các đầu ra không phải là bản sao trực tiếp của dữ liệu đào tạo, một số người chắc chắn là do quá trình học tập. Ví dụ, các mô hình hình ảnh đã được biết đến để tái tạo ảnh chụp màn hình phim, trong khi các mô hình ngôn ngữ đã bị bắt gặp về cơ bản là đạo văn các bài báo.

Phương pháp được mô tả trong nghiên cứu tập trung vào các từ "Surnpralal" từ "cao" là bất thường trong một bối cảnh nhất định. Ví dụ, trong câu "Jack và tôi ngồi hoàn toàn yên tĩnh với tiếng ồn ào," radar "sẽ là một từ xa vì nó ít được mong đợi hơn các từ như" động cơ "hoặc" radio "để đi trước" humming ".

Các nhà nghiên cứu đã thử nghiệm một số mô hình OpenAI, bao gồm GPT-4 và GPT-3.5, bằng cách loại bỏ các từ ngữ cao từ các trích đoạn của các cuốn sách tiểu thuyết và các bài báo của New York Times và yêu cầu các mô hình dự đoán những từ còn thiếu này. Nếu các mô hình đoán chính xác các từ, nó cho rằng họ đã ghi nhớ văn bản trong quá trình đào tạo.

Nghiên cứu bản quyền Openai

Một ví dụ về việc có một mô hình

Kết quả chỉ ra rằng GPT-4 có khả năng ghi nhớ các phần của các cuốn sách tiểu thuyết phổ biến, bao gồm cả những cuốn sách trong cuốn sách Bookmia của Sách điện tử có bản quyền. Nó cũng dường như đã ghi nhớ một số bài báo của New York Times, mặc dù ở tần số thấp hơn.

Abhilasha Ravichander, một sinh viên tiến sĩ tại Đại học Washington và đồng tác giả của nghiên cứu, nhấn mạnh với TechCrunch rằng những phát hiện này nêu bật "dữ liệu gây tranh cãi" có thể được sử dụng để đào tạo các mô hình này. "Để có các mô hình ngôn ngữ lớn đáng tin cậy, chúng ta cần có các mô hình mà chúng ta có thể thăm dò và kiểm toán và kiểm tra một cách khoa học", Ravichander tuyên bố. "Công việc của chúng tôi nhằm mục đích cung cấp một công cụ để thăm dò các mô hình ngôn ngữ lớn, nhưng có một nhu cầu thực sự về tính minh bạch dữ liệu lớn hơn trong toàn bộ hệ sinh thái."

Openai đã thúc đẩy các quy tắc thoải mái hơn về việc sử dụng dữ liệu có bản quyền để phát triển các mô hình AI. Mặc dù công ty có một số thỏa thuận cấp phép nội dung và cung cấp các tùy chọn từ chối cho chủ sở hữu bản quyền, nhưng nó đã vận động các chính phủ khác nhau để thiết lập các quy tắc "sử dụng hợp lý" để đào tạo AI.

203

Bài viết liên quan

OpenAI nâng cấp mô hình AI của Operator Agent OpenAI Đưa Operator Lên Tầm Cao MớiOpenAI đang nâng cấp lớn cho trợ lý AI tự động Operator của mình. Những thay đổi sắp tới đồng nghĩa Operator sẽ sớm chạy trên mô hình o3 - một tr

Mô hình AI o3 của OpenAI đạt điểm thấp hơn trong bài kiểm tra benchmark so với ban đầu ngụ ý Tại sao Sự Khác Biệt Trong Các Chỉ Số Đo Lường Quan Trọng Trong AI?Khi nói đến AI, con số thường kể nên câu chuyện — và đôi khi, những con số đó không hoàn toàn khớp nhau. Hãy lấy

Ziff Davis kiện OpenAI vì cáo buộc vi phạm bản quyền Ziff Davis nộp đơn kiện vi phạm bản quyền chống lại OpenAITrong một động thái gây chấn động cả ngành công nghệ và xuất bản, Ziff Davis – tập đoàn khổng lồ đứng sau các thương hiệu

Nhận xét (30)

0/200

Nộp

AlbertHernández

00:00:00 GMT Ngày 15 tháng 4 năm 2025

This study about OpenAI using copyrighted material is pretty eye-opening! I mean, it's kind of a bummer for creators, but also fascinating to see how AI is trained. It makes you wonder what else is out there that we don't know about. Maybe OpenAI should start being more transparent? 🤔

TimothyMitchell

00:00:00 GMT Ngày 22 tháng 4 năm 2025

OpenAIが著作権付きの資料を使ってAIを訓練しているという研究は本当に驚きですね！クリエイターにとっては残念ですが、AIの訓練方法について知るのは面白いです。もっと透明性が必要かもしれませんね？🤔

WillLopez

00:00:00 GMT Ngày 21 tháng 4 năm 2025

오픈AI가 저작권 있는 자료를 사용해 AI를 훈련했다는 연구는 정말 충격적이에요! 창작자들에게는 안타까운 일이지만, AI가 어떻게 훈련되는지 아는 건 흥미로워요. 오픈AI가 더 투명해져야 할까요? 🤔

JamesMiller

00:00:00 GMT Ngày 11 tháng 4 năm 2025

Esse estudo sobre a OpenAI usando material com direitos autorais é bem revelador! É uma pena para os criadores, mas também fascinante ver como o AI é treinado. Faz você se perguntar o que mais está por aí que não sabemos. Talvez a OpenAI devesse ser mais transparente? 🤔

BruceSmith

00:00:00 GMT Ngày 13 tháng 4 năm 2025

Este estudio sobre OpenAI usando material con derechos de autor es bastante revelador. Es una lástima para los creadores, pero también fascinante ver cómo se entrena la IA. Te hace preguntarte qué más hay por ahí que no sabemos. ¿Quizás OpenAI debería ser más transparente? 🤔

JohnWilson

00:00:00 GMT Ngày 18 tháng 4 năm 2025

This study on OpenAI's models using copyrighted content is kinda scary! 😱 I mean, it's cool how smart AI is getting, but it feels wrong if they're just copying books and code without asking. Hope they sort it out soon! 🤞

Tin tức hàng đầu

Openai tăng cường trợ lý giọng nói AI để trò chuyện tốt hơn Trải nghiệm ô chữ I/O do AI hỗ trợ Người sáng lập AI để tiêu thụ sức mạnh của nhiều NYC vào năm 2026, người sáng lập Notebooklm mở rộng toàn cầu, thêm các slide và kiểm tra thực tế nâng cao Giám đốc điều hành NVIDIA làm rõ những quan niệm sai lầm về tác động thị trường của Deepseek Adobe tiết lộ 10 đại lý AI chuyên dụng: Khám phá các ứng dụng kinh doanh của họ Hàn Quốc dừng tải xuống ứng dụng DeepSeek trong các cửa hàng địa phương Sử dụng năng lượng của nhà thờ thấp hơn dự kiến Mô hình O3 của Openai có khả năng hoạt động đắt hơn so với suy nghĩ ban đầu Notebooklm thêm tính năng Discovery nguồn Web

Hơn

Đặc trưng