Nhân viên Meta đã thảo luận bằng cách sử dụng nội dung có bản quyền để đào tạo AI, hồ sơ tòa án tiết lộ

Trang chủ

Tin tức

Ngày 10 tháng 4 năm 2025

JosephEvans

# meta # Lawsuit

Nhân viên Meta đã thảo luận bằng cách sử dụng nội dung có bản quyền để đào tạo AI, hồ sơ tòa án tiết lộ

Trong nhiều năm, nhân viên Meta đã thảo luận về việc sử dụng tài liệu có bản quyền, thu thập qua các phương thức có thể không minh bạch, để huấn luyện mô hình AI của công ty, theo các tài liệu tòa án được công bố vào thứ Năm.

Các tài liệu này là một phần của vụ kiện đang diễn ra Kadrey v. Meta, một trong nhiều tranh chấp bản quyền AI đang được xử lý tại hệ thống tòa án Hoa Kỳ. Meta lập luận rằng việc sử dụng các tác phẩm được bảo vệ IP, đặc biệt là sách, để huấn luyện mô hình của họ thuộc về "sử dụng hợp lý." Tuy nhiên, các nguyên đơn, bao gồm các tác giả Sarah Silverman và Ta-Nehisi Coates, mạnh mẽ phản đối.

Các tài liệu trước đó trong vụ kiện cho thấy CEO Meta Mark Zuckerberg đã phê duyệt việc sử dụng nội dung có bản quyền để huấn luyện và Meta đã ngừng đàm phán các thỏa thuận cấp phép với các nhà xuất bản sách. Các tài liệu mới được công bố, bao gồm các cuộc trò chuyện nội bộ giữa nhân viên Meta, cung cấp cái nhìn chi tiết nhất từ trước đến nay về cách Meta có thể đã sử dụng dữ liệu có bản quyền để huấn luyện các mô hình của mình, bao gồm cả các mô hình thuộc dòng Llama.

Trong một cuộc trò chuyện, nhân viên Meta, bao gồm Melanie Kambadur, quản lý cấp cao trong nhóm nghiên cứu mô hình Llama của Meta, đã nói về việc huấn luyện mô hình trên các tác phẩm mà họ biết có thể rủi ro về mặt pháp lý.

"Quan điểm của tôi là (theo tinh thần 'xin tha thứ, không xin phép'): chúng ta nên lấy sách và để các lãnh đạo quyết định," Xavier Martinet, một kỹ sư nghiên cứu của Meta, viết trong một cuộc trò chuyện vào tháng 2 năm 2023, theo hồ sơ. "Đó là lý do họ tạo ra tổ chức AI gen này: để chúng ta có thể chấp nhận nhiều rủi ro hơn."

Martinet đề xuất mua sách điện tử với giá bán lẻ để xây dựng tập dữ liệu huấn luyện thay vì đàm phán thỏa thuận cấp phép với các nhà xuất bản. Khi một nhân viên khác chỉ ra các vấn đề pháp lý tiềm tàng khi sử dụng tài liệu có bản quyền không được phép, Martinet vẫn kiên quyết, lưu ý rằng "hàng tá" startup có lẽ đã sử dụng sách lậu để huấn luyện.

"Ý tôi là, trường hợp tệ nhất: chúng ta phát hiện ra điều đó là ổn, trong khi hàng tá startup chỉ lậu hàng tấn sách trên BitTorrent," Martinet viết, theo hồ sơ. "Ý kiến của tôi: giao dịch trực tiếp với các nhà xuất bản mất quá nhiều thời gian..."

Trong cùng cuộc trò chuyện, Kambadur, người đề cập rằng Meta đang đàm phán với Scribd và các nền tảng khác về giấy phép, lưu ý rằng mặc dù sử dụng "dữ liệu công khai" để huấn luyện vẫn cần phê duyệt, các luật sư của Meta đang trở nên "ít bảo thủ hơn" trong việc cấp các phê duyệt như vậy.

"Vâng, chúng ta vẫn cần lấy giấy phép hoặc phê duyệt cho dữ liệu công khai," Kambadur nói, theo hồ sơ. "Điểm khác biệt bây giờ là chúng ta có nhiều tiền hơn, nhiều luật sư hơn, nhiều hỗ trợ phát triển kinh doanh hơn, khả năng đẩy nhanh và ưu tiên cho tốc độ, và các luật sư đang bớt thận trọng hơn với các phê duyệt."

Thảo luận về Libgen

Trong một cuộc trò chuyện công việc khác được đề cập trong hồ sơ, Kambadur thảo luận về khả năng sử dụng Libgen, một "bộ sưu tập liên kết" cung cấp quyền truy cập vào các tác phẩm có bản quyền từ các nhà xuất bản, như một giải pháp thay thế cho các nguồn dữ liệu được cấp phép.

Libgen đã đối mặt với nhiều vụ kiện, bị yêu cầu đóng cửa, và bị phạt hàng chục triệu đô la vì vi phạm bản quyền. Một đồng nghiệp của Kambadur đã phản hồi bằng một ảnh chụp màn hình kết quả tìm kiếm Google về Libgen, bao gồm đoạn trích "Không, Libgen không hợp pháp."

Một số nhà ra quyết định tại Meta dường như tin rằng việc không sử dụng Libgen để huấn luyện mô hình có thể ảnh hưởng nghiêm trọng đến khả năng cạnh tranh của Meta trong cuộc đua AI, theo hồ sơ.

Trong một email gửi đến Phó Chủ tịch AI của Meta, Joelle Pineau, Sony Theakanath, giám đốc quản lý sản phẩm tại Meta, gọi Libgen là "thiết yếu để đạt số liệu SOTA trên tất cả các danh mục," ám chỉ việc đạt được hiệu suất mô hình AI tốt nhất, tiên tiến nhất (SOTA) và các danh mục chuẩn mực.

Theakanath cũng nêu ra các "biện pháp giảm thiểu" trong email để giảm rủi ro pháp lý của Meta, như loại bỏ dữ liệu từ Libgen được "đánh dấu rõ ràng là lậu/cướp" và không công khai việc sử dụng bộ dữ liệu Libgen để huấn luyện. "Chúng ta sẽ không công khai việc sử dụng bộ dữ liệu Libgen để huấn luyện," Theakanath viết.

Trong thực tế, các biện pháp giảm thiểu này bao gồm việc tìm kiếm trong các tệp Libgen các từ như "lậu" hoặc "cướp," theo hồ sơ.

Trong một cuộc trò chuyện công việc, Kambadur đề cập rằng đội AI của Meta cũng điều chỉnh các mô hình để "tránh các câu hỏi rủi ro IP" — nghĩa là họ cấu hình các mô hình để từ chối trả lời các câu hỏi như "tái tạo ba trang đầu của 'Harry Potter và Hòn đá Phù thủy'" hoặc "cho tôi biết bạn được huấn luyện trên những sách điện tử nào."

Các hồ sơ cũng cho thấy Meta có thể đã thu thập dữ liệu Reddit cho một số loại huấn luyện mô hình, có thể bằng cách bắt chước hành vi của một ứng dụng bên thứ ba có tên Pushshift. Đáng chú ý, Reddit đã thông báo vào tháng 4 năm 2023 rằng họ dự định bắt đầu tính phí các công ty AI để truy cập dữ liệu dùng cho huấn luyện mô hình.

Trong một cuộc trò chuyện vào tháng 3 năm 2024, Chaya Nayak, giám đốc quản lý sản phẩm tại tổ chức AI gen của Meta, nói rằng lãnh đạo Meta đang xem xét "ghi đè" các quyết định trước đó về tập dữ liệu huấn luyện, bao gồm quyết định không sử dụng nội dung Quora hoặc sách và bài báo khoa học được cấp phép, để đảm bảo các mô hình của công ty có đủ dữ liệu huấn luyện.

Nayak ngụ ý rằng các bộ dữ liệu huấn luyện nội bộ của Meta — như bài đăng trên Facebook và Instagram, văn bản được chuyển từ video trên các nền tảng Meta, và một số tin nhắn Meta for Business — là không đủ. "Chúng ta cần thêm dữ liệu," cô viết.

Các nguyên đơn trong vụ Kadrey v. Meta đã sửa đổi đơn kiện của họ nhiều lần kể từ khi nộp đơn tại Tòa án Quận Hoa Kỳ cho Quận Bắc California, Phân khu San Francisco, vào năm 2023. Bản sửa đổi mới nhất cáo buộc rằng Meta, trong số các khiếu nại khác, đã so sánh một số sách lậu với sách có bản quyền có sẵn để cấp phép nhằm quyết định liệu có nên theo đuổi thỏa thuận cấp phép với nhà xuất bản hay không.

Trong một dấu hiệu cho thấy Meta xem trọng các rủi ro pháp lý, công ty đã bổ sung hai luật sư Tòa án Tối cao từ công ty luật Paul Weiss vào đội ngũ bào chữa cho vụ án này.

Meta không trả lời ngay lập tức yêu cầu bình luận.

Bài viết liên quan

Google Cam Kết Với Quy Tắc Thực Hành AI của EU Giữa Lúc Ngành Công Nghiệp Thảo Luận Google đã cam kết áp dụng quy tắc thực hành AI tự nguyện của Liên minh Châu Âu, một khung công tác được thiết kế để hỗ trợ các nhà phát triển AI tuân thủ Đạo luật AI của EU bằng cách triển khai các qu

Meta cung cấp lương cao cho nhân tài AI, phủ nhận tiền thưởng ký hợp đồng 100 triệu USD Meta đang thu hút các nhà nghiên cứu AI đến phòng thí nghiệm siêu trí tuệ mới của mình với các gói lương thưởng trị giá hàng triệu USD. Tuy nhiên, các tuyên bố về tiền thưởng ký hợp đồng 100 triệu USD

Meta Tăng Cường Bảo Mật AI với Công Cụ Llama Nâng Cao Meta đã phát hành các công cụ bảo mật Llama mới để thúc đẩy phát triển AI và bảo vệ chống lại các mối đe dọa mới nổi.Các công cụ bảo mật mô hình AI Llama nâng cấp này được kết hợp với các tài nguyên m

Nhận xét (30)

0/200

Nộp

PeterMartinez

01:59:57 GMT+07:00 Ngày 25 tháng 4 năm 2025

Fiquei chocado que o Meta estava usando conteúdo com direitos autorais para treinar IA! 🤯 É um pouco suspeito, mas devo admitir que a IA deles é bem boa. Só queria que eles encontrassem uma maneira mais ética de fazer isso. Ainda assim, é uma revelação sobre como essas empresas operam.

RalphMitchell

09:42:41 GMT+07:00 Ngày 24 tháng 4 năm 2025

Metaが著作権付きのコンテンツをAIのトレーニングに使っていたなんて驚きました！🤯 ちょっと怪しいけど、AIの性能は確かに良いですね。もっと倫理的な方法を見つけてほしいです。でも、これで企業のやり方がよくわかりました。

AnthonyPerez

03:19:31 GMT+07:00 Ngày 22 tháng 4 năm 2025

¡Me sorprendió que Meta estuviera usando contenido con derechos de autor para entrenar IA! 🤯 Es un poco turbio, pero debo admitir que su IA es bastante buena. Ojalá encontraran una manera más ética de hacerlo. Aún así, es una revelación sobre cómo operan estas empresas.

BrianWilliams

16:15:40 GMT+07:00 Ngày 19 tháng 4 năm 2025

I'm kinda shocked that Meta was using copyrighted content for AI training! 🤯 It's a bit shady, but I gotta admit, their AI is pretty good. Just wish they'd find a more ethical way to do it. Still, it's an eye-opener on how these companies operate.

StevenAllen

15:39:52 GMT+07:00 Ngày 19 tháng 4 năm 2025

CharlesWhite

20:05:28 GMT+07:00 Ngày 12 tháng 4 năm 2025

Es un poco sospechoso que Meta haya estado usando material con derechos de autor para entrenar su IA. Es un poco decepcionante, honestamente. Entiendo que quieran mejorar su tecnología, pero quizás deberían encontrar una manera más ética de hacerlo. Parece un atajo que podría salir mal.

Tin tức hàng đầu

Gemini 2.5 Pro hiện không giới hạn và rẻ hơn Claude, GPT-4O Máy phát video AI hàng đầu vào năm 2025: Pika Labs so với các lựa chọn thay thế Lồng tiếng AI: Hướng dẫn Tối ưu để Tạo Giọng Nói Thực tế Openai tăng cường trợ lý giọng nói AI để trò chuyện tốt hơn Notebooklm mở rộng toàn cầu, thêm các slide và kiểm tra thực tế nâng cao Các trung tâm dữ liệu của Hoa Kỳ có thể mở khóa 76 GW công suất năng lượng mới Người sáng lập AI để tiêu thụ sức mạnh của nhiều NYC vào năm 2026, người sáng lập Sao chép giọng nói AI: Hướng dẫn tối thượng để làm chủ chuyển đổi giọng nói Trải nghiệm ô chữ I/O do AI hỗ trợ Giám đốc điều hành NVIDIA làm rõ những quan niệm sai lầm về tác động thị trường của Deepseek

Hơn

Đặc trưng