옵션
뉴스
새로운 연구가 LLM이 실제로 얼마나 많은 데이터를 기억하는지 밝힘

새로운 연구가 LLM이 실제로 얼마나 많은 데이터를 기억하는지 밝힘

2025년 7월 6일
40

새로운 연구가 LLM이 실제로 얼마나 많은 데이터를 기억하는지 밝힘

AI 모델은 실제로 얼마나 많이 기억할까? 새로운 연구가 놀라운 통찰을 제공

우리 모두는 ChatGPT, Claude, Gemini와 같은 대형 언어 모델(LLM)이 책, 웹사이트, 코드, 심지어 이미지와 오디오 같은 멀티미디어에서 나온 수조 개의 단어로 훈련된다는 것을 알고 있습니다. 하지만 이 모든 데이터는 어떻게 되는 걸까요? 이 모델들은 언어를 정말로 이해하는 걸까요, 아니면 기억된 조각을 그냥 되풀이하는 걸까요?

Meta, Google DeepMind, Cornell, NVIDIA의 획기적인 새 연구가 마침내 구체적인 답을 제공하며, 결과는 여러분을 놀라게 할 것입니다.

핵심 질문: 기억 vs. 일반화

핵심적으로 LLM은 언어에서 통계적 패턴을 감지하여 작동합니다. ChatGPT에 사과에 대해 물으면, 그것은 인간의 의미에서 사과가 무엇인지 "알지" 않습니다—대신 "apple"이라는 단어가 "fruit," "red," "orchard," 심지어 "iPhone" 같은 단어와 자주 등장한다는 것을 인식합니다. 이러한 통계적 이해는 AI의 신경망에 있는 수십억 개의 매개변수(본질적으로 조정 가능한 설정)에 인코딩됩니다.

하지만 여기서 백만 달러짜리 질문이 있습니다: LLM의 지식은 얼마나 일반화된 학습에서 오고, 얼마나 단순히 그대로 기억된 것일까?

이것은 학문적 질문이 아닙니다—현실적인 법적 함의가 있습니다. AI 모델이 저작권이 있는 텍스트의 큰 덩어리를 복사하는 것으로 밝혀지면, 예술가, 작가, 출판사로부터의 소송이 힘을 얻을 수 있습니다. 하지만 그들이 정확한 내용을 복사하지 않고 패턴을 학습한다면, AI 기업은 더 강력한 공정 사용 방어를 가질 수 있습니다.

답변: 매개변수당 3.6비트

연구는 LLM이 매개변수당 약 3.6비트의 고정된 기억 용량을 가짐을 발견했습니다. 실질적으로 이것은 무엇을 의미할까요?

  • 1비트는 가장 작은 디지털 단위(0 또는 1)입니다.
  • 3.6비트는 약 12개의 고유한 값을 저장할 수 있습니다—예를 들어, 연도의 달을 선택하거나 12면체 주사위를 굴리는 것과 같습니다.
  • 이는 전체 영어 문자를 저장하기에는 충분하지 않지만(약 4.7비트 필요), 10개의 일반적인 문자로 구성된 축소된 세트에서 문자를 인코딩할 수 있습니다.
  • 바이트로 환산하면, 3.6비트는 0.45바이트에 불과합니다—표준 ASCII 문자의 절반 미만입니다.

중요하게도, 이 수치는 다양한 모델 크기, 아키텍처, 심지어 정밀도 수준에서도 일정하게 유지되었으며(전체 정밀도 모델은 약간 더 높은 3.83비트/매개변수에 도달했습니다).

놀라운 발견: 더 많은 데이터 = 더 적은 기억

여기서 정말 흥미로운 점이 있습니다: 더 많은 데이터로 훈련시키면 기억이 증가하지 않고, 실제로 줄어듭니다.

주요 연구자 Jack Morris는 이렇게 설명했습니다:

"더 많은 데이터로 훈련시키면 모델이 샘플당 기억해야 하는 양이 줄어듭니다."

이렇게 생각해 보세요: AI가 고정된 "기억 예산"을 가지고 있다면, 더 데이터셋에 이를 분산시키면 개별 조각은 더 적은 전용 저장 공간을 받게 됩니다. 따라서 더 큰 데이터셋은 단순 복사 대신 일반화를 장려합니다—이는 AI가 저작권 또는 민감한 내용을 그대로 되풀이할 것이라는 우려를 완화할 수 있습니다.

연구자들은 어떻게 이를 측정했나?

기억과 일반화를 분리하기 위해, 연구팀은 완전히 무작위 비트스트링—패턴이나 구조가 전혀 없는 데이터—로 모델을 훈련시켰습니다.

왜일까요? 모델이 무작위 문자열을 재구성한다면, 그것은 반드시 기억한 것이어야 합니다—추론할 수 있는 근본적인 논리가 없기 때문입니다.

이 접근법을 통해 그들은:
✔ 학습된 패턴과 별개로 순수한 기억을 측정했습니다.
기억이 모델 크기에 따라 예측 가능하게 확장됨을 확인했습니다.
데이터셋이 커질수록 일반화가 시작됨을 보여주었습니다.

현실적 함의

  • 작은 데이터셋은 더 많은 기억을 초래합니다.
  • 큰 데이터셋은 모델을 일반화로 밀어붙이며(일시적인 "이중 하강" 성능 저하와 함께).
  • 더 높은 정밀도(예: float32 vs. bfloat16)는 기억 용량을 약간 증가시킵니다(3.51에서 3.83비트/매개변수로).

고유한 데이터는 기억될 가능성이 높다

연구는 평균에 초점을 맞췄지만, 매우 고유하거나 독특한 스타일의 콘텐츠(예: 드문 코드 조각이나 독특한 글쓰기)는 여전히 기억에 더 취약할 수 있습니다.

그러나 데이터셋이 커질수록 멤버십 추론 공격(특정 데이터가 훈련 세트에 있었는지 탐지하려는 시도)은 신뢰할 수 없게 되며, 이는 대규모 훈련이 개인정보 위험을 줄인다는 아이디어를 뒷받침합니다.

전체적인 관점

  • 50만 매개변수 모델은 약 225KB의 데이터를 기억할 수 있습니다.
  • 15억 매개변수 모델은 약 675MB를 저장할 수 있습니다.
  • 이는 전체 책이나 이미지를 재현하기에는 충분하지 않지만, 분산된 텍스트 패턴을 설명할 수 있습니다.

법적 영향?

이 연구는 진행 중인 AI 저작권 소송에서 핵심적인 역할을 할 수 있습니다. 법원이 LLM이 주로 복사 대신 일반화한다고 본다면, AI 기업은 더 강력한 공정 사용 주장을 할 수 있습니다.

결론

더 많은 데이터 = 더 안전하고 일반화된 AI. 거대한 데이터셋을 두려워하기보다는, 실제로 그것을 원할 수 있습니다—왜냐하면 그것은 모델이 기억하는 대신 이해하도록 밀어붙이기 때문입니다.

이 연구는 AI에 대한 우리의 이해를 깊게 할 뿐만 아니라, 앞으로 이러한 강력한 시스템을 규제하고, 개발하고, 신뢰하는 방식을 재구성할 수 있습니다.

관련 기사
멀티버스 AI, 획기적인 소형 고성능 모델 출시 멀티버스 AI, 획기적인 소형 고성능 모델 출시 유럽의 선구적인 AI 스타트업이 조류와 곤충의 두뇌에서 이름을 딴 획기적인 초소형 AI 모델을 공개하며 강력한 인공 지능이 거대한 규모를 필요로 하지 않는다는 사실을 입증했습니다.멀티버스 컴퓨팅의 혁신은 엣지 컴퓨팅 애플리케이션을 위해 특별히 설계된 초소형이지만 성능이 뛰어난 모델에 중점을 두고 있습니다. '칙브레인'(32억 개의 파라미터)과 '슈퍼플라이'
텐서제로, 기업용 LLM 개발 간소화를 위해 730만 달러의 시드 펀딩 유치 텐서제로, 기업용 LLM 개발 간소화를 위해 730만 달러의 시드 펀딩 유치 AI 애플리케이션을 위한 오픈소스 인프라 제공업체로 떠오르고 있는 TensorZero는 FirstMark Capital이 주도하는 730만 달러의 시드 펀딩을 확보했으며, 베세머 벤처 파트너스, 베드락, DRW, Coalition 및 다수의 업계 엔젤이 참여했습니다.이번 투자는 최근 몇 달 동안 별 수가 3,000개에서 9,700개로 3배 가까이 증가하
메타, 라마 AI 모델 호스트와 수익 공유, 파일링 공개 메타, 라마 AI 모델 호스트와 수익 공유, 파일링 공개 2023년 7월 메타의 CEO인 마크 저커버그는 "액세스 권한 판매"가 라마 AI 모델의 비즈니스 모델이 아니라고 강조했지만, 새로 공개된 법원 서류에 따르면 메타는 이러한 오픈 소스 모델을 호스팅하는 클라우드 제공업체와 수익 공유 파트너십을 맺고 있는 것으로 밝혀졌습니다.호스팅 파트너십을 통한 수익 창출아직 수정되지 않은 Kadrey 대 Meta 소
의견 (2)
0/200
LawrenceWilliams
LawrenceWilliams 2025년 8월 24일 오후 12시 1분 17초 GMT+09:00

This study on LLMs memorizing data is wild! 🤯 I’m kinda spooked thinking about how much these models might 'remember' from the web. Could they accidentally spill sensitive info one day?

EdwardYoung
EdwardYoung 2025년 8월 10일 오전 8시 1분 0초 GMT+09:00

This study on LLMs memorizing data is wild! 😮 I wonder how much of my old Reddit posts are stuck in these models’ brains. Kinda creepy but fascinating!

위로 돌아갑니다
OR