

Nhân viên Meta đã thảo luận bằng cách sử dụng nội dung có bản quyền để đào tạo AI, hồ sơ tòa án tiết lộ
Ngày 10 tháng 4 năm 2025
JosephEvans
16

Trong nhiều năm, các nhân viên Meta đã thảo luận về việc sử dụng các tài liệu có bản quyền, thu được thông qua các phương tiện có khả năng mờ ám, để đào tạo các mô hình AI của công ty, theo các tài liệu của tòa án đã không được tiết lộ vào thứ năm.
Những tài liệu này là một phần của vụ kiện đang diễn ra Kadrey v. Meta, một trong một số tranh chấp bản quyền của AI đang đi qua hệ thống tòa án Hoa Kỳ. Meta lập luận rằng sử dụng các tác phẩm được bảo vệ IP, đặc biệt là sách, để đào tạo các mô hình của họ thuộc "sử dụng hợp lý". Tuy nhiên, các nguyên đơn, bao gồm các tác giả Sarah Silverman và Ta-Nehisi Coates, rất không đồng ý.
Các hồ sơ trước đó trong trường hợp cho thấy Giám đốc điều hành Meta Mark Zuckerberg đã phê duyệt việc sử dụng nội dung có bản quyền để đào tạo và Meta đã ngừng đàm phán các thỏa thuận cấp phép với các nhà xuất bản sách. Các tài liệu mới chưa được tiết lộ, bao gồm các cuộc trò chuyện công việc nội bộ giữa các nhân viên Meta, cung cấp cái nhìn sâu sắc nhất về cách Meta có thể đã sử dụng dữ liệu có bản quyền để đào tạo các mô hình của mình, bao gồm cả những người trong gia đình Llama.
Trong một cuộc trò chuyện, các nhân viên Meta, bao gồm Melanie Kambadur, một người quản lý cấp cao trong nhóm nghiên cứu mô hình Llama của Meta, đã nói về các mô hình đào tạo về các công trình mà họ biết có thể có rủi ro về mặt pháp lý.
"Tôi thực hiện là (theo tinh thần 'xin tha thứ, không phải sự cho phép'): Chúng ta nên lấy những cuốn sách và để các giám đốc quyết định", Xavier Martinet, một kỹ sư nghiên cứu Meta, trong một cuộc trò chuyện tháng 2 năm 2023, theo The Filings. "Đó là lý do tại sao họ tạo ra gen AI org này: vì vậy chúng tôi có thể chấp nhận nhiều rủi ro hơn."
Martinet đề nghị mua sách điện tử với giá bán lẻ để xây dựng một bộ đào tạo thay vì đàm phán thỏa thuận cấp phép với các nhà xuất bản. Khi một nhân viên khác chỉ ra các vấn đề pháp lý tiềm năng với việc sử dụng các tài liệu có bản quyền trái phép, Martinet đã nhân đôi, lưu ý rằng các công ty khởi nghiệp "Gazillion" có thể đã sử dụng sách lậu để đào tạo.
"Ý tôi là, trường hợp xấu nhất: Chúng tôi phát hiện ra nó ổn, trong khi một công ty khởi nghiệp chỉ là tấn công hàng tấn sách về Bittorrent," Martinet viết, theo The Filings. "Hai xu của tôi một lần nữa: giao dịch trực tiếp với các nhà xuất bản sẽ mất mãi mãi ..."
Trong cùng một cuộc trò chuyện, Kambadur, người đã đề cập rằng Meta đang đàm phán với Scribd và các nền tảng khác để có giấy phép, lưu ý rằng trong khi sử dụng "dữ liệu có sẵn công khai" để đào tạo vẫn cần phê duyệt, các luật sư của Meta đã trở nên "ít bảo thủ" về việc đưa ra những phê duyệt đó.
"Vâng, chúng tôi vẫn cần nhận giấy phép hoặc phê duyệt cho dữ liệu có sẵn công khai", Kambadur nói, theo các hồ sơ. "Sự khác biệt bây giờ là chúng tôi có nhiều tiền hơn, nhiều luật sư hơn, giúp phát triển kinh doanh nhiều hơn, khả năng theo dõi nhanh và leo thang cho tốc độ, và các luật sư đang ít thận trọng hơn với sự chấp thuận."
Nói về Libgen
Trong một cuộc trò chuyện công việc khác được đề cập trong hồ sơ, Kambadur đã thảo luận về khả năng sử dụng LibGen, một "công cụ tổng hợp liên kết" cung cấp quyền truy cập vào các tác phẩm có bản quyền từ các nhà xuất bản, thay thế cho các nguồn dữ liệu được cấp phép.
Libgen đã phải đối mặt với nhiều vụ kiện, được lệnh đóng cửa và bị phạt hàng chục triệu đô la vì vi phạm bản quyền. Một trong những đồng nghiệp của Kambadur đã trả lời với ảnh chụp màn hình kết quả tìm kiếm của Google cho Libgen bao gồm đoạn trích "Không, Libgen là không hợp pháp."
Một số người ra quyết định tại Meta dường như tin rằng việc không sử dụng Libgen để đào tạo mô hình có thể ảnh hưởng nghiêm trọng đến khả năng cạnh tranh của Meta trong cuộc đua AI, theo các hồ sơ.
Trong một email gửi cho Meta AI VP Joelle Pineau, Sony Theakanath, Giám đốc Quản lý sản phẩm tại Meta, đã gọi Libgen là "cần thiết để đáp ứng các số Sota trên tất cả các danh mục", đề cập đến việc đạt được hiệu suất mô hình AI tốt nhất, hiện đại (SOTA).
Theakanath cũng phác thảo "giảm thiểu" trong email để giảm phơi nhiễm hợp pháp của Meta, chẳng hạn như loại bỏ dữ liệu khỏi Libgen "được đánh dấu rõ ràng là vi phạm bản quyền/bị đánh cắp" và không tiết lộ công khai việc sử dụng bộ dữ liệu Libgen để đào tạo. "Chúng tôi sẽ không tiết lộ việc sử dụng các bộ dữ liệu Libgen được sử dụng để đào tạo", Theakanath viết.
Trong thực tế, những giảm thiểu này liên quan đến việc tìm kiếm thông qua các tệp libgen cho các từ như "bị đánh cắp" hoặc "vi phạm bản quyền", theo các hồ sơ.
Trong một cuộc trò chuyện công việc, Kambadur đã đề cập rằng nhóm AI của Meta cũng đã điều chỉnh các mô hình để "tránh những lời nhắc rủi ro IP"-có nghĩa là họ đã cấu hình các mô hình từ chối trả lời các câu hỏi như "tái tạo ba trang đầu tiên của 'Harry Potter và Sorcerer's Stone'" hoặc "cho tôi biết cuốn sách điện tử nào được đào tạo."
Các hồ sơ cũng đề xuất rằng meta có thể đã loại bỏ dữ liệu reddit cho một số loại đào tạo mô hình, có thể bằng cách bắt chước hành vi của một ứng dụng bên thứ ba có tên là PushShift. Đáng chú ý, Reddit đã công bố vào tháng 4 năm 2023 rằng họ đã lên kế hoạch bắt đầu tính phí các công ty AI để truy cập dữ liệu để đào tạo mô hình.
Trong một cuộc trò chuyện vào tháng 3 năm 2024, Chaya Nayak, giám đốc quản lý sản phẩm tại AI Org của Meta, nói rằng Lãnh đạo Meta đang xem xét các quyết định trong quá khứ "ghi đè" về các bộ đào tạo, bao gồm cả quyết định không sử dụng nội dung Quora hoặc sách được cấp phép và các bài báo khoa học, để đảm bảo các mô hình của công ty có đủ dữ liệu đào tạo.
Nayak ngụ ý rằng các bộ dữ liệu đào tạo của bên đầu tiên của Meta-chẳng hạn như các bài đăng trên Facebook và Instagram, văn bản được sao chép từ video trên nền tảng meta và một số meta nhất định cho các tin nhắn kinh doanh-là không đủ. "Chúng tôi cần thêm dữ liệu," cô viết.
Các nguyên đơn ở Kadrey v. Meta đã sửa đổi khiếu nại của họ nhiều lần kể từ khi nộp đơn kiện tại Tòa án quận Hoa Kỳ cho Quận Bắc California, Bộ phận San Francisco, vào năm 2023.
Trong một dấu hiệu cho thấy Meta xem các cổ phần pháp lý nghiêm trọng như thế nào, công ty đã bổ sung hai vụ kiện tụng của Tòa án Tối cao từ công ty luật Paul Weiss vào đội ngũ quốc phòng của mình trong vụ án.
Meta đã không trả lời ngay lập tức yêu cầu bình luận.
Bài viết liên quan
메타는 LLAMA 4 릴리스를 방어하고 혼합 품질 보고서의 원인으로 버그를 인용합니다.
주말 동안, Facebook, Instagram, Whatsapp 및 Quest VR 뒤의 강국 인 Meta는 최신 AI 언어 모델 인 Llama 4를 공개하여 모든 사람들을 놀라게했습니다. 하나뿐만 아니라 3 개의 새로운 버전이 소개되었습니다.
법률 교수는 Meta와의 AI 저작권 전투에서 저자를 지원합니다.
한 저작권법 교수 그룹은 기술 대기업이 저자의 동의없이 전자 책에 대해 LLAMA AI 모델을 전자 책으로 훈련 시켰다고 주장하면서 메타를 고소하는 저자의지지를 주었다. 교수들은 금요일 캘리포니아 북부 지역의 미국 지방 법원에서 아미 쿠스 브리핑을 제출했습니다.
Openai Strikes Back : AI 경쟁자를 훼손하려는 노력으로 Elon Musk를 고소합니다.
Openai는 공동 설립자 인 Elon Musk와 그의 경쟁 AI 회사 인 Xai에 대한 치열한 법적 반격을 시작했습니다. Openai는 진행중인 불화의 극적인 에스컬레이션에서 Musk가 "끊임없는"및 "악의적 인"캠페인을 시작하여 그가 시작한 회사를 훼손하기위한 "악의적 인"캠페인을 촉구했다고 비난합니다. 법원에 따르면 d
Nhận xét (25)
0/200
FrankMartínez
02:36:50 GMT Ngày 11 tháng 4 năm 2025
So, Meta's been using copyrighted stuff to train their AI? That's shady as hell. No wonder their AI models are so good, but at what cost? Feels wrong to me. They need to clean up their act or face the music. Thoughts?
0
WilliamYoung
02:36:50 GMT Ngày 11 tháng 4 năm 2025
メタが著作権物を使ってAIを訓練していたなんて、めっちゃ怪しいですね。だからこそAIモデルが優れているのかもしれないけど、その代償は?私には間違っているように感じます。メタは行動を改めるか、責任を取るべきです。どう思いますか?
0
HenryJackson
02:36:50 GMT Ngày 11 tháng 4 năm 2025
메타가 저작권 있는 자료를 AI 훈련에 사용했다니, 정말 불법적이네요. 그래서 AI 모델이 좋은 건지 모르겠지만, 그 대가는 뭘까요? 제겐 잘못된 일로 느껴져요. 메타는 행동을 개선하거나 책임을 져야 합니다. 어떻게 생각하세요?
0
HarryRoberts
02:36:50 GMT Ngày 11 tháng 4 năm 2025
Então, a Meta estava usando material com direitos autorais para treinar seu AI? Isso é muito suspeito. Não é de se admirar que seus modelos de AI sejam tão bons, mas a que custo? Parece errado para mim. Eles precisam se corrigir ou enfrentar as consequências. O que vocês acham?
0
JoseJackson
02:36:50 GMT Ngày 11 tháng 4 năm 2025
Así que, ¿Meta ha estado usando material con derechos de autor para entrenar su IA? Eso es muy sospechoso. No es de extrañar que sus modelos de IA sean tan buenos, pero a qué costo. Me parece mal. Necesitan limpiar su acto o enfrentar las consecuencias. ¿Qué opinan?
0
AlbertHill
19:16:25 GMT Ngày 10 tháng 4 năm 2025
So, Meta's been using copyrighted stuff to train their AI? That's pretty shady if you ask me. I mean, I get wanting to improve your AI, but at what cost? This lawsuit might just open a can of worms. Thoughts?
0






Trong nhiều năm, các nhân viên Meta đã thảo luận về việc sử dụng các tài liệu có bản quyền, thu được thông qua các phương tiện có khả năng mờ ám, để đào tạo các mô hình AI của công ty, theo các tài liệu của tòa án đã không được tiết lộ vào thứ năm.
Những tài liệu này là một phần của vụ kiện đang diễn ra Kadrey v. Meta, một trong một số tranh chấp bản quyền của AI đang đi qua hệ thống tòa án Hoa Kỳ. Meta lập luận rằng sử dụng các tác phẩm được bảo vệ IP, đặc biệt là sách, để đào tạo các mô hình của họ thuộc "sử dụng hợp lý". Tuy nhiên, các nguyên đơn, bao gồm các tác giả Sarah Silverman và Ta-Nehisi Coates, rất không đồng ý.
Các hồ sơ trước đó trong trường hợp cho thấy Giám đốc điều hành Meta Mark Zuckerberg đã phê duyệt việc sử dụng nội dung có bản quyền để đào tạo và Meta đã ngừng đàm phán các thỏa thuận cấp phép với các nhà xuất bản sách. Các tài liệu mới chưa được tiết lộ, bao gồm các cuộc trò chuyện công việc nội bộ giữa các nhân viên Meta, cung cấp cái nhìn sâu sắc nhất về cách Meta có thể đã sử dụng dữ liệu có bản quyền để đào tạo các mô hình của mình, bao gồm cả những người trong gia đình Llama.
Trong một cuộc trò chuyện, các nhân viên Meta, bao gồm Melanie Kambadur, một người quản lý cấp cao trong nhóm nghiên cứu mô hình Llama của Meta, đã nói về các mô hình đào tạo về các công trình mà họ biết có thể có rủi ro về mặt pháp lý.
"Tôi thực hiện là (theo tinh thần 'xin tha thứ, không phải sự cho phép'): Chúng ta nên lấy những cuốn sách và để các giám đốc quyết định", Xavier Martinet, một kỹ sư nghiên cứu Meta, trong một cuộc trò chuyện tháng 2 năm 2023, theo The Filings. "Đó là lý do tại sao họ tạo ra gen AI org này: vì vậy chúng tôi có thể chấp nhận nhiều rủi ro hơn."
Martinet đề nghị mua sách điện tử với giá bán lẻ để xây dựng một bộ đào tạo thay vì đàm phán thỏa thuận cấp phép với các nhà xuất bản. Khi một nhân viên khác chỉ ra các vấn đề pháp lý tiềm năng với việc sử dụng các tài liệu có bản quyền trái phép, Martinet đã nhân đôi, lưu ý rằng các công ty khởi nghiệp "Gazillion" có thể đã sử dụng sách lậu để đào tạo.
"Ý tôi là, trường hợp xấu nhất: Chúng tôi phát hiện ra nó ổn, trong khi một công ty khởi nghiệp chỉ là tấn công hàng tấn sách về Bittorrent," Martinet viết, theo The Filings. "Hai xu của tôi một lần nữa: giao dịch trực tiếp với các nhà xuất bản sẽ mất mãi mãi ..."
Trong cùng một cuộc trò chuyện, Kambadur, người đã đề cập rằng Meta đang đàm phán với Scribd và các nền tảng khác để có giấy phép, lưu ý rằng trong khi sử dụng "dữ liệu có sẵn công khai" để đào tạo vẫn cần phê duyệt, các luật sư của Meta đã trở nên "ít bảo thủ" về việc đưa ra những phê duyệt đó.
"Vâng, chúng tôi vẫn cần nhận giấy phép hoặc phê duyệt cho dữ liệu có sẵn công khai", Kambadur nói, theo các hồ sơ. "Sự khác biệt bây giờ là chúng tôi có nhiều tiền hơn, nhiều luật sư hơn, giúp phát triển kinh doanh nhiều hơn, khả năng theo dõi nhanh và leo thang cho tốc độ, và các luật sư đang ít thận trọng hơn với sự chấp thuận."
Nói về Libgen
Trong một cuộc trò chuyện công việc khác được đề cập trong hồ sơ, Kambadur đã thảo luận về khả năng sử dụng LibGen, một "công cụ tổng hợp liên kết" cung cấp quyền truy cập vào các tác phẩm có bản quyền từ các nhà xuất bản, thay thế cho các nguồn dữ liệu được cấp phép.
Libgen đã phải đối mặt với nhiều vụ kiện, được lệnh đóng cửa và bị phạt hàng chục triệu đô la vì vi phạm bản quyền. Một trong những đồng nghiệp của Kambadur đã trả lời với ảnh chụp màn hình kết quả tìm kiếm của Google cho Libgen bao gồm đoạn trích "Không, Libgen là không hợp pháp."
Một số người ra quyết định tại Meta dường như tin rằng việc không sử dụng Libgen để đào tạo mô hình có thể ảnh hưởng nghiêm trọng đến khả năng cạnh tranh của Meta trong cuộc đua AI, theo các hồ sơ.
Trong một email gửi cho Meta AI VP Joelle Pineau, Sony Theakanath, Giám đốc Quản lý sản phẩm tại Meta, đã gọi Libgen là "cần thiết để đáp ứng các số Sota trên tất cả các danh mục", đề cập đến việc đạt được hiệu suất mô hình AI tốt nhất, hiện đại (SOTA).
Theakanath cũng phác thảo "giảm thiểu" trong email để giảm phơi nhiễm hợp pháp của Meta, chẳng hạn như loại bỏ dữ liệu khỏi Libgen "được đánh dấu rõ ràng là vi phạm bản quyền/bị đánh cắp" và không tiết lộ công khai việc sử dụng bộ dữ liệu Libgen để đào tạo. "Chúng tôi sẽ không tiết lộ việc sử dụng các bộ dữ liệu Libgen được sử dụng để đào tạo", Theakanath viết.
Trong thực tế, những giảm thiểu này liên quan đến việc tìm kiếm thông qua các tệp libgen cho các từ như "bị đánh cắp" hoặc "vi phạm bản quyền", theo các hồ sơ.
Trong một cuộc trò chuyện công việc, Kambadur đã đề cập rằng nhóm AI của Meta cũng đã điều chỉnh các mô hình để "tránh những lời nhắc rủi ro IP"-có nghĩa là họ đã cấu hình các mô hình từ chối trả lời các câu hỏi như "tái tạo ba trang đầu tiên của 'Harry Potter và Sorcerer's Stone'" hoặc "cho tôi biết cuốn sách điện tử nào được đào tạo."
Các hồ sơ cũng đề xuất rằng meta có thể đã loại bỏ dữ liệu reddit cho một số loại đào tạo mô hình, có thể bằng cách bắt chước hành vi của một ứng dụng bên thứ ba có tên là PushShift. Đáng chú ý, Reddit đã công bố vào tháng 4 năm 2023 rằng họ đã lên kế hoạch bắt đầu tính phí các công ty AI để truy cập dữ liệu để đào tạo mô hình.
Trong một cuộc trò chuyện vào tháng 3 năm 2024, Chaya Nayak, giám đốc quản lý sản phẩm tại AI Org của Meta, nói rằng Lãnh đạo Meta đang xem xét các quyết định trong quá khứ "ghi đè" về các bộ đào tạo, bao gồm cả quyết định không sử dụng nội dung Quora hoặc sách được cấp phép và các bài báo khoa học, để đảm bảo các mô hình của công ty có đủ dữ liệu đào tạo.
Nayak ngụ ý rằng các bộ dữ liệu đào tạo của bên đầu tiên của Meta-chẳng hạn như các bài đăng trên Facebook và Instagram, văn bản được sao chép từ video trên nền tảng meta và một số meta nhất định cho các tin nhắn kinh doanh-là không đủ. "Chúng tôi cần thêm dữ liệu," cô viết.
Các nguyên đơn ở Kadrey v. Meta đã sửa đổi khiếu nại của họ nhiều lần kể từ khi nộp đơn kiện tại Tòa án quận Hoa Kỳ cho Quận Bắc California, Bộ phận San Francisco, vào năm 2023.
Trong một dấu hiệu cho thấy Meta xem các cổ phần pháp lý nghiêm trọng như thế nào, công ty đã bổ sung hai vụ kiện tụng của Tòa án Tối cao từ công ty luật Paul Weiss vào đội ngũ quốc phòng của mình trong vụ án.
Meta đã không trả lời ngay lập tức yêu cầu bình luận.



So, Meta's been using copyrighted stuff to train their AI? That's shady as hell. No wonder their AI models are so good, but at what cost? Feels wrong to me. They need to clean up their act or face the music. Thoughts?




メタが著作権物を使ってAIを訓練していたなんて、めっちゃ怪しいですね。だからこそAIモデルが優れているのかもしれないけど、その代償は?私には間違っているように感じます。メタは行動を改めるか、責任を取るべきです。どう思いますか?




메타가 저작권 있는 자료를 AI 훈련에 사용했다니, 정말 불법적이네요. 그래서 AI 모델이 좋은 건지 모르겠지만, 그 대가는 뭘까요? 제겐 잘못된 일로 느껴져요. 메타는 행동을 개선하거나 책임을 져야 합니다. 어떻게 생각하세요?




Então, a Meta estava usando material com direitos autorais para treinar seu AI? Isso é muito suspeito. Não é de se admirar que seus modelos de AI sejam tão bons, mas a que custo? Parece errado para mim. Eles precisam se corrigir ou enfrentar as consequências. O que vocês acham?




Así que, ¿Meta ha estado usando material con derechos de autor para entrenar su IA? Eso es muy sospechoso. No es de extrañar que sus modelos de IA sean tan buenos, pero a qué costo. Me parece mal. Necesitan limpiar su acto o enfrentar las consecuencias. ¿Qué opinan?




So, Meta's been using copyrighted stuff to train their AI? That's pretty shady if you ask me. I mean, I get wanting to improve your AI, but at what cost? This lawsuit might just open a can of worms. Thoughts?












