Nhân viên Meta đã thảo luận bằng cách sử dụng nội dung có bản quyền để đào tạo AI, hồ sơ tòa án tiết lộ

Trong nhiều năm, các nhân viên Meta đã thảo luận về việc sử dụng các tài liệu có bản quyền, thu được thông qua các phương tiện có khả năng mờ ám, để đào tạo các mô hình AI của công ty, theo các tài liệu của tòa án đã không được tiết lộ vào thứ năm.
Những tài liệu này là một phần của vụ kiện đang diễn ra Kadrey v. Meta, một trong một số tranh chấp bản quyền của AI đang đi qua hệ thống tòa án Hoa Kỳ. Meta lập luận rằng sử dụng các tác phẩm được bảo vệ IP, đặc biệt là sách, để đào tạo các mô hình của họ thuộc "sử dụng hợp lý". Tuy nhiên, các nguyên đơn, bao gồm các tác giả Sarah Silverman và Ta-Nehisi Coates, rất không đồng ý.
Các hồ sơ trước đó trong trường hợp cho thấy Giám đốc điều hành Meta Mark Zuckerberg đã phê duyệt việc sử dụng nội dung có bản quyền để đào tạo và Meta đã ngừng đàm phán các thỏa thuận cấp phép với các nhà xuất bản sách. Các tài liệu mới chưa được tiết lộ, bao gồm các cuộc trò chuyện công việc nội bộ giữa các nhân viên Meta, cung cấp cái nhìn sâu sắc nhất về cách Meta có thể đã sử dụng dữ liệu có bản quyền để đào tạo các mô hình của mình, bao gồm cả những người trong gia đình Llama.
Trong một cuộc trò chuyện, các nhân viên Meta, bao gồm Melanie Kambadur, một người quản lý cấp cao trong nhóm nghiên cứu mô hình Llama của Meta, đã nói về các mô hình đào tạo về các công trình mà họ biết có thể có rủi ro về mặt pháp lý.
"Tôi thực hiện là (theo tinh thần 'xin tha thứ, không phải sự cho phép'): Chúng ta nên lấy những cuốn sách và để các giám đốc quyết định", Xavier Martinet, một kỹ sư nghiên cứu Meta, trong một cuộc trò chuyện tháng 2 năm 2023, theo The Filings. "Đó là lý do tại sao họ tạo ra gen AI org này: vì vậy chúng tôi có thể chấp nhận nhiều rủi ro hơn."
Martinet đề nghị mua sách điện tử với giá bán lẻ để xây dựng một bộ đào tạo thay vì đàm phán thỏa thuận cấp phép với các nhà xuất bản. Khi một nhân viên khác chỉ ra các vấn đề pháp lý tiềm năng với việc sử dụng các tài liệu có bản quyền trái phép, Martinet đã nhân đôi, lưu ý rằng các công ty khởi nghiệp "Gazillion" có thể đã sử dụng sách lậu để đào tạo.
"Ý tôi là, trường hợp xấu nhất: Chúng tôi phát hiện ra nó ổn, trong khi một công ty khởi nghiệp chỉ là tấn công hàng tấn sách về Bittorrent," Martinet viết, theo The Filings. "Hai xu của tôi một lần nữa: giao dịch trực tiếp với các nhà xuất bản sẽ mất mãi mãi ..."
Trong cùng một cuộc trò chuyện, Kambadur, người đã đề cập rằng Meta đang đàm phán với Scribd và các nền tảng khác để có giấy phép, lưu ý rằng trong khi sử dụng "dữ liệu có sẵn công khai" để đào tạo vẫn cần phê duyệt, các luật sư của Meta đã trở nên "ít bảo thủ" về việc đưa ra những phê duyệt đó.
"Vâng, chúng tôi vẫn cần nhận giấy phép hoặc phê duyệt cho dữ liệu có sẵn công khai", Kambadur nói, theo các hồ sơ. "Sự khác biệt bây giờ là chúng tôi có nhiều tiền hơn, nhiều luật sư hơn, giúp phát triển kinh doanh nhiều hơn, khả năng theo dõi nhanh và leo thang cho tốc độ, và các luật sư đang ít thận trọng hơn với sự chấp thuận."
Nói về Libgen
Trong một cuộc trò chuyện công việc khác được đề cập trong hồ sơ, Kambadur đã thảo luận về khả năng sử dụng LibGen, một "công cụ tổng hợp liên kết" cung cấp quyền truy cập vào các tác phẩm có bản quyền từ các nhà xuất bản, thay thế cho các nguồn dữ liệu được cấp phép.
Libgen đã phải đối mặt với nhiều vụ kiện, được lệnh đóng cửa và bị phạt hàng chục triệu đô la vì vi phạm bản quyền. Một trong những đồng nghiệp của Kambadur đã trả lời với ảnh chụp màn hình kết quả tìm kiếm của Google cho Libgen bao gồm đoạn trích "Không, Libgen là không hợp pháp."
Một số người ra quyết định tại Meta dường như tin rằng việc không sử dụng Libgen để đào tạo mô hình có thể ảnh hưởng nghiêm trọng đến khả năng cạnh tranh của Meta trong cuộc đua AI, theo các hồ sơ.
Trong một email gửi cho Meta AI VP Joelle Pineau, Sony Theakanath, Giám đốc Quản lý sản phẩm tại Meta, đã gọi Libgen là "cần thiết để đáp ứng các số Sota trên tất cả các danh mục", đề cập đến việc đạt được hiệu suất mô hình AI tốt nhất, hiện đại (SOTA).
Theakanath cũng phác thảo "giảm thiểu" trong email để giảm phơi nhiễm hợp pháp của Meta, chẳng hạn như loại bỏ dữ liệu khỏi Libgen "được đánh dấu rõ ràng là vi phạm bản quyền/bị đánh cắp" và không tiết lộ công khai việc sử dụng bộ dữ liệu Libgen để đào tạo. "Chúng tôi sẽ không tiết lộ việc sử dụng các bộ dữ liệu Libgen được sử dụng để đào tạo", Theakanath viết.
Trong thực tế, những giảm thiểu này liên quan đến việc tìm kiếm thông qua các tệp libgen cho các từ như "bị đánh cắp" hoặc "vi phạm bản quyền", theo các hồ sơ.
Trong một cuộc trò chuyện công việc, Kambadur đã đề cập rằng nhóm AI của Meta cũng đã điều chỉnh các mô hình để "tránh những lời nhắc rủi ro IP"-có nghĩa là họ đã cấu hình các mô hình từ chối trả lời các câu hỏi như "tái tạo ba trang đầu tiên của 'Harry Potter và Sorcerer's Stone'" hoặc "cho tôi biết cuốn sách điện tử nào được đào tạo."
Các hồ sơ cũng đề xuất rằng meta có thể đã loại bỏ dữ liệu reddit cho một số loại đào tạo mô hình, có thể bằng cách bắt chước hành vi của một ứng dụng bên thứ ba có tên là PushShift. Đáng chú ý, Reddit đã công bố vào tháng 4 năm 2023 rằng họ đã lên kế hoạch bắt đầu tính phí các công ty AI để truy cập dữ liệu để đào tạo mô hình.
Trong một cuộc trò chuyện vào tháng 3 năm 2024, Chaya Nayak, giám đốc quản lý sản phẩm tại AI Org của Meta, nói rằng Lãnh đạo Meta đang xem xét các quyết định trong quá khứ "ghi đè" về các bộ đào tạo, bao gồm cả quyết định không sử dụng nội dung Quora hoặc sách được cấp phép và các bài báo khoa học, để đảm bảo các mô hình của công ty có đủ dữ liệu đào tạo.
Nayak ngụ ý rằng các bộ dữ liệu đào tạo của bên đầu tiên của Meta-chẳng hạn như các bài đăng trên Facebook và Instagram, văn bản được sao chép từ video trên nền tảng meta và một số meta nhất định cho các tin nhắn kinh doanh-là không đủ. "Chúng tôi cần thêm dữ liệu," cô viết.
Các nguyên đơn ở Kadrey v. Meta đã sửa đổi khiếu nại của họ nhiều lần kể từ khi nộp đơn kiện tại Tòa án quận Hoa Kỳ cho Quận Bắc California, Bộ phận San Francisco, vào năm 2023.
Trong một dấu hiệu cho thấy Meta xem các cổ phần pháp lý nghiêm trọng như thế nào, công ty đã bổ sung hai vụ kiện tụng của Tòa án Tối cao từ công ty luật Paul Weiss vào đội ngũ quốc phòng của mình trong vụ án.
Meta đã không trả lời ngay lập tức yêu cầu bình luận.
Bài viết liên quan
Meta AI在欧盟推出并实施限制
Meta的人工智能虚拟助手Meta AI终于在与欧洲隐私机构的激烈监管斗争中进入了欧盟。该公司周四宣布,这款类似聊天机器人的工具将在其一系列社交平台上集成,不过功能比美国市场上的要少。在另一项发展上,Meta向TechCrunch确认,Meta AI很快将在英国的WhatsApp上可用,从今年十月在Facebook、Instagram和Ray-Ban Met
OpenAI 聘请前Facebook应用负责人
菲吉·西莫加入 OpenAI 担任应用业务主管OpenAI 通过聘请现任 Instacart 首席执行官兼前 Facebook 应用负责人菲吉·西莫来领导其应用业务,引起了广泛关注。这一任命直接来自高层,OpenAI 首席执行官山姆·阿尔特曼在 X 上分享称,新职位将使他能够更多地专注于研究、计算和安全性。显然,他们正在为应用领域的一些令人兴奋的发展奠定基础
Meta预测到2035年生成性AI收入将达1.4万亿美元
去年,Meta 大胆预测其生成式 AI 产品到 2025 年将产生 20 亿至 30 亿美元的收入。展望未来,他们预计到 2035 年将增长到惊人的 4600 亿至 1.4 万亿美元之间。这些预测是在周三浮出水面的法庭文件中披露的,当时正值书籍作者对 Meta 提起诉讼。他们指控该公司未经许可就用他们的作品训练 AI。然而,文件并未具体说明 Meta 如何定
Nhận xét (30)
0/200
FrankMartínez
00:00:00 GMT Ngày 11 tháng 4 năm 2025
So, Meta's been using copyrighted stuff to train their AI? That's shady as hell. No wonder their AI models are so good, but at what cost? Feels wrong to me. They need to clean up their act or face the music. Thoughts?
0
WilliamYoung
00:00:00 GMT Ngày 11 tháng 4 năm 2025
メタが著作権物を使ってAIを訓練していたなんて、めっちゃ怪しいですね。だからこそAIモデルが優れているのかもしれないけど、その代償は?私には間違っているように感じます。メタは行動を改めるか、責任を取るべきです。どう思いますか?
0
HenryJackson
00:00:00 GMT Ngày 11 tháng 4 năm 2025
메타가 저작권 있는 자료를 AI 훈련에 사용했다니, 정말 불법적이네요. 그래서 AI 모델이 좋은 건지 모르겠지만, 그 대가는 뭘까요? 제겐 잘못된 일로 느껴져요. 메타는 행동을 개선하거나 책임을 져야 합니다. 어떻게 생각하세요?
0
HarryRoberts
00:00:00 GMT Ngày 11 tháng 4 năm 2025
Então, a Meta estava usando material com direitos autorais para treinar seu AI? Isso é muito suspeito. Não é de se admirar que seus modelos de AI sejam tão bons, mas a que custo? Parece errado para mim. Eles precisam se corrigir ou enfrentar as consequências. O que vocês acham?
0
JoseJackson
00:00:00 GMT Ngày 11 tháng 4 năm 2025
Así que, ¿Meta ha estado usando material con derechos de autor para entrenar su IA? Eso es muy sospechoso. No es de extrañar que sus modelos de IA sean tan buenos, pero a qué costo. Me parece mal. Necesitan limpiar su acto o enfrentar las consecuencias. ¿Qué opinan?
0
AlbertHill
00:00:00 GMT Ngày 11 tháng 4 năm 2025
So, Meta's been using copyrighted stuff to train their AI? That's pretty shady if you ask me. I mean, I get wanting to improve your AI, but at what cost? This lawsuit might just open a can of worms. Thoughts?
0
Trong nhiều năm, các nhân viên Meta đã thảo luận về việc sử dụng các tài liệu có bản quyền, thu được thông qua các phương tiện có khả năng mờ ám, để đào tạo các mô hình AI của công ty, theo các tài liệu của tòa án đã không được tiết lộ vào thứ năm.
Những tài liệu này là một phần của vụ kiện đang diễn ra Kadrey v. Meta, một trong một số tranh chấp bản quyền của AI đang đi qua hệ thống tòa án Hoa Kỳ. Meta lập luận rằng sử dụng các tác phẩm được bảo vệ IP, đặc biệt là sách, để đào tạo các mô hình của họ thuộc "sử dụng hợp lý". Tuy nhiên, các nguyên đơn, bao gồm các tác giả Sarah Silverman và Ta-Nehisi Coates, rất không đồng ý.
Các hồ sơ trước đó trong trường hợp cho thấy Giám đốc điều hành Meta Mark Zuckerberg đã phê duyệt việc sử dụng nội dung có bản quyền để đào tạo và Meta đã ngừng đàm phán các thỏa thuận cấp phép với các nhà xuất bản sách. Các tài liệu mới chưa được tiết lộ, bao gồm các cuộc trò chuyện công việc nội bộ giữa các nhân viên Meta, cung cấp cái nhìn sâu sắc nhất về cách Meta có thể đã sử dụng dữ liệu có bản quyền để đào tạo các mô hình của mình, bao gồm cả những người trong gia đình Llama.
Trong một cuộc trò chuyện, các nhân viên Meta, bao gồm Melanie Kambadur, một người quản lý cấp cao trong nhóm nghiên cứu mô hình Llama của Meta, đã nói về các mô hình đào tạo về các công trình mà họ biết có thể có rủi ro về mặt pháp lý.
"Tôi thực hiện là (theo tinh thần 'xin tha thứ, không phải sự cho phép'): Chúng ta nên lấy những cuốn sách và để các giám đốc quyết định", Xavier Martinet, một kỹ sư nghiên cứu Meta, trong một cuộc trò chuyện tháng 2 năm 2023, theo The Filings. "Đó là lý do tại sao họ tạo ra gen AI org này: vì vậy chúng tôi có thể chấp nhận nhiều rủi ro hơn."
Martinet đề nghị mua sách điện tử với giá bán lẻ để xây dựng một bộ đào tạo thay vì đàm phán thỏa thuận cấp phép với các nhà xuất bản. Khi một nhân viên khác chỉ ra các vấn đề pháp lý tiềm năng với việc sử dụng các tài liệu có bản quyền trái phép, Martinet đã nhân đôi, lưu ý rằng các công ty khởi nghiệp "Gazillion" có thể đã sử dụng sách lậu để đào tạo.
"Ý tôi là, trường hợp xấu nhất: Chúng tôi phát hiện ra nó ổn, trong khi một công ty khởi nghiệp chỉ là tấn công hàng tấn sách về Bittorrent," Martinet viết, theo The Filings. "Hai xu của tôi một lần nữa: giao dịch trực tiếp với các nhà xuất bản sẽ mất mãi mãi ..."
Trong cùng một cuộc trò chuyện, Kambadur, người đã đề cập rằng Meta đang đàm phán với Scribd và các nền tảng khác để có giấy phép, lưu ý rằng trong khi sử dụng "dữ liệu có sẵn công khai" để đào tạo vẫn cần phê duyệt, các luật sư của Meta đã trở nên "ít bảo thủ" về việc đưa ra những phê duyệt đó.
"Vâng, chúng tôi vẫn cần nhận giấy phép hoặc phê duyệt cho dữ liệu có sẵn công khai", Kambadur nói, theo các hồ sơ. "Sự khác biệt bây giờ là chúng tôi có nhiều tiền hơn, nhiều luật sư hơn, giúp phát triển kinh doanh nhiều hơn, khả năng theo dõi nhanh và leo thang cho tốc độ, và các luật sư đang ít thận trọng hơn với sự chấp thuận."
Nói về Libgen
Trong một cuộc trò chuyện công việc khác được đề cập trong hồ sơ, Kambadur đã thảo luận về khả năng sử dụng LibGen, một "công cụ tổng hợp liên kết" cung cấp quyền truy cập vào các tác phẩm có bản quyền từ các nhà xuất bản, thay thế cho các nguồn dữ liệu được cấp phép.
Libgen đã phải đối mặt với nhiều vụ kiện, được lệnh đóng cửa và bị phạt hàng chục triệu đô la vì vi phạm bản quyền. Một trong những đồng nghiệp của Kambadur đã trả lời với ảnh chụp màn hình kết quả tìm kiếm của Google cho Libgen bao gồm đoạn trích "Không, Libgen là không hợp pháp."
Một số người ra quyết định tại Meta dường như tin rằng việc không sử dụng Libgen để đào tạo mô hình có thể ảnh hưởng nghiêm trọng đến khả năng cạnh tranh của Meta trong cuộc đua AI, theo các hồ sơ.
Trong một email gửi cho Meta AI VP Joelle Pineau, Sony Theakanath, Giám đốc Quản lý sản phẩm tại Meta, đã gọi Libgen là "cần thiết để đáp ứng các số Sota trên tất cả các danh mục", đề cập đến việc đạt được hiệu suất mô hình AI tốt nhất, hiện đại (SOTA).
Theakanath cũng phác thảo "giảm thiểu" trong email để giảm phơi nhiễm hợp pháp của Meta, chẳng hạn như loại bỏ dữ liệu khỏi Libgen "được đánh dấu rõ ràng là vi phạm bản quyền/bị đánh cắp" và không tiết lộ công khai việc sử dụng bộ dữ liệu Libgen để đào tạo. "Chúng tôi sẽ không tiết lộ việc sử dụng các bộ dữ liệu Libgen được sử dụng để đào tạo", Theakanath viết.
Trong thực tế, những giảm thiểu này liên quan đến việc tìm kiếm thông qua các tệp libgen cho các từ như "bị đánh cắp" hoặc "vi phạm bản quyền", theo các hồ sơ.
Trong một cuộc trò chuyện công việc, Kambadur đã đề cập rằng nhóm AI của Meta cũng đã điều chỉnh các mô hình để "tránh những lời nhắc rủi ro IP"-có nghĩa là họ đã cấu hình các mô hình từ chối trả lời các câu hỏi như "tái tạo ba trang đầu tiên của 'Harry Potter và Sorcerer's Stone'" hoặc "cho tôi biết cuốn sách điện tử nào được đào tạo."
Các hồ sơ cũng đề xuất rằng meta có thể đã loại bỏ dữ liệu reddit cho một số loại đào tạo mô hình, có thể bằng cách bắt chước hành vi của một ứng dụng bên thứ ba có tên là PushShift. Đáng chú ý, Reddit đã công bố vào tháng 4 năm 2023 rằng họ đã lên kế hoạch bắt đầu tính phí các công ty AI để truy cập dữ liệu để đào tạo mô hình.
Trong một cuộc trò chuyện vào tháng 3 năm 2024, Chaya Nayak, giám đốc quản lý sản phẩm tại AI Org của Meta, nói rằng Lãnh đạo Meta đang xem xét các quyết định trong quá khứ "ghi đè" về các bộ đào tạo, bao gồm cả quyết định không sử dụng nội dung Quora hoặc sách được cấp phép và các bài báo khoa học, để đảm bảo các mô hình của công ty có đủ dữ liệu đào tạo.
Nayak ngụ ý rằng các bộ dữ liệu đào tạo của bên đầu tiên của Meta-chẳng hạn như các bài đăng trên Facebook và Instagram, văn bản được sao chép từ video trên nền tảng meta và một số meta nhất định cho các tin nhắn kinh doanh-là không đủ. "Chúng tôi cần thêm dữ liệu," cô viết.
Các nguyên đơn ở Kadrey v. Meta đã sửa đổi khiếu nại của họ nhiều lần kể từ khi nộp đơn kiện tại Tòa án quận Hoa Kỳ cho Quận Bắc California, Bộ phận San Francisco, vào năm 2023.
Trong một dấu hiệu cho thấy Meta xem các cổ phần pháp lý nghiêm trọng như thế nào, công ty đã bổ sung hai vụ kiện tụng của Tòa án Tối cao từ công ty luật Paul Weiss vào đội ngũ quốc phòng của mình trong vụ án.
Meta đã không trả lời ngay lập tức yêu cầu bình luận.




So, Meta's been using copyrighted stuff to train their AI? That's shady as hell. No wonder their AI models are so good, but at what cost? Feels wrong to me. They need to clean up their act or face the music. Thoughts?




メタが著作権物を使ってAIを訓練していたなんて、めっちゃ怪しいですね。だからこそAIモデルが優れているのかもしれないけど、その代償は?私には間違っているように感じます。メタは行動を改めるか、責任を取るべきです。どう思いますか?




메타가 저작권 있는 자료를 AI 훈련에 사용했다니, 정말 불법적이네요. 그래서 AI 모델이 좋은 건지 모르겠지만, 그 대가는 뭘까요? 제겐 잘못된 일로 느껴져요. 메타는 행동을 개선하거나 책임을 져야 합니다. 어떻게 생각하세요?




Então, a Meta estava usando material com direitos autorais para treinar seu AI? Isso é muito suspeito. Não é de se admirar que seus modelos de AI sejam tão bons, mas a que custo? Parece errado para mim. Eles precisam se corrigir ou enfrentar as consequências. O que vocês acham?




Así que, ¿Meta ha estado usando material con derechos de autor para entrenar su IA? Eso es muy sospechoso. No es de extrañar que sus modelos de IA sean tan buenos, pero a qué costo. Me parece mal. Necesitan limpiar su acto o enfrentar las consecuencias. ¿Qué opinan?




So, Meta's been using copyrighted stuff to train their AI? That's pretty shady if you ask me. I mean, I get wanting to improve your AI, but at what cost? This lawsuit might just open a can of worms. Thoughts?












