옵션
뉴스
Openai의 AI는 월드 벽으로 된 O'Reilly 책을 훈련 시켰다고 연구원들은 주장했다

Openai의 AI는 월드 벽으로 된 O'Reilly 책을 훈련 시켰다고 연구원들은 주장했다

2025년 4월 7일
169

Openai의 AI는 월드 벽으로 된 O'Reilly 책을 훈련 시켰다고 연구원들은 주장했다

OpenAi는 AI 모델을 훈련시키는 권한없이 저작권이있는 자료를 사용한 수많은 비난에 직면했습니다. 2024 년 미디어 거물 Tim O'Reilly와 이코노미스트 인 Ilan Strauss가 설립 한 비영리 단체 인 AI Disclosures Project의 최근 연구에 따르면 OpenAi는 O'Reilly Media의 비 공개 서적을 사용하여 고급 모델 인 GPT-4O를 훈련시킬 수 있다고합니다. 본질적으로 정교한 예측 엔진 인 AI 모델은 책, 영화 및 TV 쇼를 포함한 방대한 데이터 세트에 대한 교육을받습니다. 그들은 패턴을 배우고 이러한 패턴을 기반으로 응답을 생성하며, 진정으로 새로운 것을 만들지 않고 광범위한 지식 기반에서 근사한 것을 만들어냅니다. 공개 웹과 같은 실제 데이터 소스가 소진되면서 OpenAI를 포함한 일부 AI 실험실은 교육을 위해 AI 생성 데이터를 사용하기 시작했지만 모델 성능 저하의 위험으로 인해 실제 데이터를 완전히 포기한 사람은 거의 없습니다. AI 공개 프로젝트의 논문은 ChatGpt의 기본값 인 OpenAi의 GPT-4O 모델이 이전 GPT-3.5 터보 모델과 달리 Paywalled O'Reilly 책의 컨텐츠에 대한 강력한 인식을 보여준다고 주장합니다. 이 논문은 O'Reilly Media가 OpenAI와의 라이센스 계약이 없음에도 불구하고 GPT-4O가 이러한 비 공개 책에 대해 훈련되었을 가능성이 있다고 제안합니다. 이 연구는 2024 년에 도입 된 DE-COP라는 방법을 사용하여 AI 교육 데이터의 저작권이있는 콘텐츠를 감지했습니다. 이 "멤버십 컨퍼런스 공격"은 모델이 인간 저술 텍스트와 AI 생성 된 역설을 구별 할 수 있는지 여부를 테스트하여 텍스트가 안정적으로 할 수있는 경우 텍스트에 대한 사전 지식을 나타냅니다. 연구원들은 34 개의 O'Reilly 책에서 13,962 개의 단락 발췌문을 사용하여 GPT-4O, GPT-3.5 Turbo 및 기타 OpenAI 모델을 테스트하여 GPT-4O가 구형 모델보다 훨씬 더 유료 콘텐츠를 인식했다는 것을 발견했습니다. 저자는 자신의 방법이 완벽하지 않으며 Paywalled 컨텐츠가 Chatgpt에 복사 및 붙여 넣기에 의해 소개되었을 수 있음을 인정하지만 OpenAI의 데이터 관행에 대한 질문이 제기됩니다. 이 연구는 GPT-4.5와 같은 OpenAI의 최신 모델 및 O3-MINI 및 O1과 같은 추론 모델을 평가하지 않았으며, 이들은 동일한 데이터에 대해 교육을받지 못했을 가능성이 있습니다. OpenAI는 AI 교육 데이터와 관련하여보다 편안한 저작권법을 추진하고 있으며 고품질 데이터 소스를 찾고 있습니다. 이 회사는 AI 시스템을 향상시키기 위해 다양한 분야의 전문가가 모집되는 AI 업계 전반에 걸쳐있는 모델의 생산량을 개선하기 위해 언론인을 고용했습니다. OpenAI는 다양한 컨텐츠 제공 업체와 라이센스 계약을 맺고 저작권 소유자를위한 옵트 아웃 메커니즘을 제공하는 일부 교육 데이터에 대해 지불합니다. 그러나 회사가 데이터 관행에 대한 법적 문제에 직면함에 따라 O'Reilly 논문의 결과는 운영에 대한 그림자를 시전했습니다. OpenAI는 연구에 대한 의견 요청에 응답하지 않았습니다.
관련 기사
추론 전쟁 속에서 70%의 마진이 면밀히 조사되면서 엔비디아의 AI 과대 광고가 현실과 만났습니다. 추론 전쟁 속에서 70%의 마진이 면밀히 조사되면서 엔비디아의 AI 과대 광고가 현실과 만났습니다. VB 트랜스폼 2025에서 벌어지는 AI 칩 전쟁VB 트랜스폼 2025의 열띤 패널 토론에서 떠오르는 도전자들이 엔비디아의 지배적인 시장 지위를 직접 겨냥하면서 전선이 그려졌습니다. 핵심 질문은 눈에 띄는 모순을 드러냈습니다: 어떻게 AI 추론이 상품화된 '공장'으로 묘사되는 동시에 70%의 막대한 총 마진을 제공할 수 있을까요?도전자들의 발언Gro
OpenAI, ChatGPT Pro를 o3로 업그레이드하고 월 구독료 $200로 가치 증대 OpenAI, ChatGPT Pro를 o3로 업그레이드하고 월 구독료 $200로 가치 증대 이번 주에는 마이크로소프트, 구글, 앤트로픽을 비롯한 거대 기술 기업들의 중요한 AI 개발이 있었습니다. OpenAI는 코드명 "io"라는 야심찬 하드웨어 이니셔티브를 위해 65억 달러에 인수한 조니 아이브의 디자인 회사를 넘어서는 획기적인 업데이트를 발표하며 활발한 발표를 마무리했습니다.이 회사는 이전의 GPT-4o 프레임워크에서 고급 추론 모델인 o3로
AI 에이전트를 활용하여 자선 기금 모금 활동을 강화하는 비영리 단체 AI 에이전트를 활용하여 자선 기금 모금 활동을 강화하는 비영리 단체 주요 기술 기업들이 AI '에이전트'를 기업의 생산성을 높여주는 도구로 홍보하는 가운데, 한 비영리 단체는 사회적 공익을 위한 AI의 잠재력을 입증하고 있습니다. 오픈 필란트로피의 지원을 받는 자선 연구 단체인 세이지 퓨처는 최근 AI 모델이 자선 기금 모금에 어떻게 협력할 수 있는지 보여주는 혁신적인 실험을 진행했습니다.이 비영리 단체는 자선 단체를
의견 (41)
0/200
PeterNelson
PeterNelson 2025년 7월 31일 오후 8시 35분 39초 GMT+09:00

This is wild! OpenAI sneaking in paywalled books to train their AI? Sounds like a plot twist from a sci-fi novel. Curious how they'll dodge this one—ethics in AI is getting messier by the day! 😅

HarperJones
HarperJones 2025년 4월 23일 오전 11시 24분 27초 GMT+09:00

OpenAI가 유료 책을 이용해 AI를 훈련했다니 좀 의심스럽네요. 한편으론 AI 성능이 인상적이지만, 데이터 소스를 더 나은 방법으로 찾아야 할 것 같아요. 🤔

WalterWhite
WalterWhite 2025년 4월 19일 오전 4시 33분 48초 GMT+09:00

OpenAIの件については少し悩んでいます。O’Reillyの本を無断で使うのはちょっと気持ち悪いですが、彼らが作っているAIはかなりクールですね。次回は本の使用料を払うべきかも?🤔

BruceClark
BruceClark 2025년 4월 18일 오전 11시 2분 34초 GMT+09:00

OpenAIが有料の書籍を使ってAIを訓練しているのは少し問題があるかもしれません。でも、AIの性能は本当に素晴らしいですね。データのソースをより良い方法で見つける必要があると思います。🤔

DennisGarcia
DennisGarcia 2025년 4월 18일 오전 10시 58분 35초 GMT+09:00

I'm kinda torn about this OpenAI thing. On one hand, using those O’Reilly books without permission feels a bit off, you know? But on the other hand, the AI they're building is pretty slick! Maybe they should just pay for the books next time? 🤔

AvaHill
AvaHill 2025년 4월 17일 오전 3시 0분 26초 GMT+09:00

Estoy un poco dividido sobre que OpenAI use libros de pago para entrenar su IA. Por un lado, es un poco sospechoso, pero por otro, la IA es impresionante. Creo que necesitan encontrar una mejor manera de obtener sus datos, ¿no? 🤔

위로 돌아갑니다
OR