AI가 역사적 언어를 모방하는 데 어려움을 겪는다
미국과 캐나다의 연구팀은 ChatGPT와 같은 대형 언어 모델이 광범위하고 비용이 많이 드는 사전 훈련 없이 역사적 관용구를 정확히 재현하는 데 어려움을 겪는다는 것을 발견했다. 이 문제는 AI를 사용해 찰스 디킨스의 미완성 마지막 소설을 완성하는 것과 같은 야심찬 프로젝트를 학술 및 엔터테인먼트 분야에서 실현하기 어렵게 만든다.
연구팀은 역사적으로 정확한 느낌의 텍스트를 생성하기 위해 다양한 방법을 실험했다. 20세기 초의 산문을 사용한 간단한 프롬프트에서 시작해 그 시대의 소량의 책으로 상용 모델을 미세 조정했다. 또한 1880년부터 1914년까지의 문헌만으로 훈련된 모델과 결과를 비교했다.
첫 번째 테스트에서 ChatGPT-4o에 세기말(fin-de-siècle) 언어를 모방하도록 지시했다. 결과는 동일한 시기의 문헌으로 훈련된 더 작은 미세 조정 GPT2 모델과 크게 달랐다.
실제 역사적 텍스트(중앙 상단)를 완성하라는 요청을 받았을 때, 잘 준비된 ChatGPT-4o(왼쪽 아래)조차 '블로그' 모드로 돌아가 요청된 관용구를 표현하지 못한다. 반면, 미세 조정된 GPT2 모델(오른쪽 아래)은 언어 스타일을 잘 포착하지만 다른 면에서는 정확도가 낮다. 출처: https://arxiv.org/pdf/2505.00030
미세 조정이 출력의 원래 스타일과 유사성을 개선했지만, 인간 독자는 여전히 현대 언어 또는 아이디어를 감지할 수 있었으며, 이는 조정된 모델도 현대 훈련 데이터의 흔적을 유지함을 보여준다.
연구팀은 기계로 역사적으로 정확한 텍스트나 대화를 생성하는 비용 효율적인 단축 방법이 없다고 결론지었다. 또한 이 도전 자체가 본질적으로 결함이 있을 수 있다고 제안하며, "아나크로니즘은 어느 정도 불가피할 가능성을 고려해야 한다. 역사적 모델을 대화 가능하도록 지시 튜닝하거나 현대 모델이 오래된 시대를 흉내 내도록 가르칠 때, 진정성과 대화 유창성의 목표 사이에 타협이 필요할 수 있다. 결국 21세기 질문자와 1914년 응답자 간의 '진정한' 대화 사례는 없다. 이런 대화를 만들려는 연구자는 현재와 과거 사이의 협상이 항상 포함된다는 전제를 반영해야 한다"고 말했다.
이 연구는 "언어 모델이 아나크로니즘 없이 과거를 표현할 수 있는가?"라는 제목으로 일리노이 대학교, 브리티시 컬럼비아 대학교, 코넬 대학교의 연구자들에 의해 수행되었다.
초기 도전 과제
연구팀은 현대 언어 모델이 역사적 언어를 모방하도록 프롬프트할 수 있는지 처음 탐구했다. 1905년에서 1914년 사이에 출판된 책의 실제 발췌문을 사용해 ChatGPT-4o에 동일한 관용구로 이어가도록 요청했다.
사용된 원래 시대 텍스트는 다음과 같다:
"이 마지막 경우, 분당 약 5~6달러가 절약되며, 한 분 동안 정지 상태의 사람이나 풍경을 투영하기 위해 20야드 이상의 필름이 감겨야 한다. 이렇게 고정된 그림과 움직이는 그림의 실용적인 조합이 가장 예술적인 효과를 낸다. 또한 두 대의 시네마토그래프를 교대로 투영하여 깜박임을 피하거나, 동시에 빨간색과 녹색 이미지를 투영해 자연스러운 색상을 재현함으로써, 기본 색상을 동시에 받는 데 익숙한 인간의 눈을 생리적 피로에서 해방시킨다. 이제 순간 사진에 냉광을 적용하는 것에 대해 한마디."
생성된 텍스트의 역사적 정확성을 평가하기 위해 연구팀은 1810년부터 2009년까지의 자료를 포함한 역사적 미국 영어 코퍼스의 하위 집합을 사용해 RoBERTa 모델을 미세 조정하여 출판 날짜를 추정했다. 이 RoBERTa 분류기는 1905년에서 1914년 사이에 출판된 책의 실제 구절로 프롬프트된 ChatGPT-4o의 연속문을 평가했다.
ChatGPT에 주어진 시스템 프롬프트는 "당신의 임무는 20세기 초 책의 구절을 완성하는 것입니다. 1913년에 출판된 책의 구절이 주어집니다. 동일한 스타일로 최소 200단어로 이 구절을 이어가세요. '여기 연속문입니다:'와 같은 프레임 발언은 하지 마세요."였다.
원샷 및 20샷 프롬프트를 모두 사용했음에도 ChatGPT-4o의 출력은 일관되게 21세기 스타일로 기울었다. 논문에 제공된 예시는 ChatGPT-4o가 사진 텍스트를 이어가는 시도를 보여준다:
"순간 사진에서 냉광의 사용은 다양한 조명 조건에서 이미지를 캡처하는 접근 방식을 혁신했다. 전통적으로 사진가들은 자연광의 거칠음과 가변성, 또는 플래시 사진의 침입적 특성으로 인해 어려움을 겪었으며, 이는 장면의 분위기나 특히 야생 동물 및 솔직한 인간 사진에서 피사체의 자연스러운 행동을 방해할 수 있었다. 부드럽고 확산된 특성을 가진 냉광은... 색상과 질감의 더 자연스러운 표현을 가능하게 하며, 이는 거친 인공 조명 아래에서 종종 손실된다."
이 일반적이고 위키 스타일의 텍스트는 원래 시대 텍스트의 장황하고 정교한 스타일과 일치하지 않았으며, 원문에서 끊긴 지점을 매끄럽게 이어가지도 않았다. 대신 하위 주제 중 하나에 대한 추상적 논의로 치우쳤다.
연구팀은 또한 1880년에서 1914년 사이의 문헌으로 처음부터 훈련된 더 작은 GPT-2 모델인 GPT-1914를 테스트했다. 일관성은 떨어졌지만, 출력은 원래 시대 스타일과 더 일치했다. 논문에 제공된 예시는 다음과 같다:
"그 작용 원리는 이미 설명되었다(4페이지). 여기서는 콜로디온으로 코팅된 종이에 매우 빠른 사진을 얻고자 할 때, 또는 젤라틴 플레이트로 촬영할 때 유리하게 적용될 수 있다는 점만 언급하겠다. 이런 경우 노출은 최소 1초를 초과해서는 안 되지만, 사진을 더 짧은 시간(예: 반초)에 현상하고 싶다면 온도가 20°C 이하로 떨어지지 않아야 한다. 그렇지 않으면 현상 후 이미지가 너무 어두워진다. 또한 이런 조건에서는 플레이트의 감도가 떨어진다. 그러나 일반적인 목적에서는 민감한 표면을 낮은 열에 노출시키는 것만으로 충분하며, 특별한 주의가 필요 없다."
원래 자료는 난해하고 따라가기 어려웠지만, GPT-1914의 출력은 더 시대적으로 진정성 있게 들렸다. 그러나 저자들은 단순한 프롬프트로는 ChatGPT-4o와 같은 대규모 사전 훈련 모델에 내재된 현대적 편향을 극복하는 데 거의 효과가 없다고 결론지었다.
역사적 정확성 측정
모델 출력이 진정한 역사적 글쓰기와 얼마나 유사한지 평가하기 위해 연구팀은 각 텍스트 샘플의 출판 날짜를 추정하는 통계 분류기를 사용했다. 커널 밀도 플롯을 사용해 결과를 시각화하며, 모델이 각 구절을 역사적 타임라인에 어디에 배치하는지 보여주었다.
역사적 스타일을 인식하도록 훈련된 분류기를 기반으로 실제 및 생성된 텍스트의 추정 출판 날짜(1905~1914년 소스 텍스트와 GPT-4o의 원샷 및 20샷 프롬프트 연속문, 그리고 1880~1914년 문헌으로만 훈련된 GPT-1914의 연속문 비교).
완벽하지는 않지만 미세 조정된 RoBERTa 모델은 일반적인 문체 경향을 강조했다. 시대 문헌으로만 훈련된 GPT-1914의 구절은 원래 소스 자료와 유사하게 20세기 초에 집중되었다. 반면, 여러 역사적 프롬프트를 사용했음에도 ChatGPT-4o의 출력은 훈련 데이터의 영향을 받아 21세기 글쓰기와 유사했다.
연구팀은 두 확률 분포 간의 차이를 측정하는 Jensen-Shannon 발산을 사용해 이 불일치를 정량화했다. GPT-1914는 실제 역사적 텍스트와 비교해 0.006으로 근소한 차이를 보였으며, ChatGPT-4o의 원샷 및 20샷 출력은 각각 0.310과 0.350으로 훨씬 큰 차이를 보였다.
저자들은 이러한 결과가 여러 예시를 포함한 프롬프트만으로는 역사적 스타일을 설득력 있게 시뮬레이션하는 텍스트를 생성하는 데 신뢰할 수 있는 방법이 아님을 보여준다고 주장한다.
더 나은 결과를 위한 미세 조정
논문은 미세 조정이 더 나은 결과를 낼 수 있는지 탐구했다. 이 과정은 사용자가 지정한 데이터로 모델의 가중치를 직접 조정하여 대상 도메인에서의 성능을 잠재적으로 개선한다.
첫 번째 테스트 미세조정 실험에서, 팀은 1905년에서 1914년 사이에 출간된 책에서 약 2천 개의 구절 완성 쌍을 사용하여 GPT-4o-미니를 훈련시켰다. 소규모 미세 조정으로 모델의 출력이 역사적으로 더 정확한 스타일로 전환될 수 있는지 확인하고자 했다.
각 출력의 스타일리스틱 '날짜' 를 추정하기 위해 동일한 로버타 기반 분류기를 사용하여, 연구자들은 미세 조정된 모델이 원본 진실에 가까운 텍스트를 생성한다는 것을 발견했다. Jensen-Shannon 발산으로 측정한 원본 텍스트와의 문체적 차이점은 0.002로 떨어졌으며, 이는 GPT-1914와 대체적으로 일치했다.
실제 및 생성된 텍스트의 추정 출판 날짜, GPT-1914와 미세 조정된 GPT-4o-mini가 20세기 초 글쓰기의 스타일(1905년에서 1914년 사이에 출간된 책을 기반으로)과 얼마나 근접히 일치하는지 보여준다.
그러나, 연구자들은 이 메트릭이 역사적 스타일의 표면적인 특징만을 포착할 수 있으며, 더 깊은 개념적 또는 사실적 아나크로니즘은 잡아내지 않을 수도 있다고 주의를 주었다. 그들은 “이것은 매우 민감한 테스트가 아니다. 여기서 판단 기준으로 사용된 RoBERTa 모델은 날짜를 예측하도록만 훈련되었으며, 진정한 구절과 아나크로니즘적인 구절을 구별하도록 훈련되지 않았다. 아마도 예측을 위해 거친 문체적 증거를 사용했을 것이다. 인간 독자나 더 큰 모델은 표면적으로 ‘시대적’으로 들리는 구절에서도 아나크로니즘 콘텐츠를 감지할 수 있을 것이다.”라고 언급했다.
인간 평가
마지막으로, 연구팀은 1905년에서 1914년 사이에 출간된 책에서 손으로 선택한 250개의 구절을 사용해 인간 평가 테스트를 진행했다. 그들은 당시와 오늘날 이 텍스트가 다르게 해석될 가능성이 높다고 언급했다:
“우리 목록에는 예를 들어, 당시 독일의 일부였던 알자스(Alsace)에 대한 백과사전 항목과 베리베리(당시 종종 영양 결핍이 아닌 곰팡이 질병으로 설명됨)에 대한 항목이 포함되었다. 이는 사실의 차이이지만, 우리는 또한 태도, 수사, 또는 상상력의 미묘한 차이를 보여줄 구절을 선택했다. 예를 들어, 20세기 초 유럽 이외 지역의 묘사는 인종적 일반화로 미끄러지는 경향이 있다. 1913년에 작성된 달의 일출 묘사는 대기가 없는 세계의 사진을 아무도 보지 못했기 때문에 풍부한 색채 현상을 상상한다.”
연구팀은 각 역사적 구절이 그럴듯하게 답변할 수 있는 짧은 질문을 만들어, 이 질문-답변 쌍으로 GPT-4o-mini를 미세 조정했다. 평가를 강화하기 위해 데이터를 다섯 부분으로 나누어 각기 다른 부분을 테스트용으로 제외하며 다섯 가지 버전의 모델을 훈련시켰다. 이후 GPT-4o와 GPT-4o-mini의 기본 버전과 미세 조정된 변형을 사용해, 각 모델이 훈련 중 보지 못한 부분에 대해 응답을 생성했다.
시간 속에서 잃다음
모델이 역사적 언어를 얼마나 설득력 있게 모방할 수 있는지 평가하기 위해, 연구자들은 세 명의 주석자들에게 AI가 생성된 120개의 완성문을 검토하고 각 완성문이 1914년의 작가에게 그럴듯해 보이는지 판단하도록 요청했다.
이 평가는 예상보다 더 어려웠다. 주석자들은 거의 80%의 경우 평가에 동의했지만, 판단의 불균형(‘그럴듯함’이 ‘그렇지 않음’보다 두 배 더 자주 선택됨)으로 인해 실제 합의 수준은 코헨의 카파 점수 0.으로 측정했을 때 중간 정도였다.
주석자들은 작업이 어렵다고 묘사하며, 종종 문장이 1914년에 알려졌거나 믿어진 것과 일치하는지 평가하기 위해 추가 연구가 필요하다고 했다. 일부 구절은 어조와 관점에 대한 질문, 예를 들어 응답이 1914년에 전형적이었을 법한 세계관으로 적절히 제한되었는지에 대해 논란이 되었다. 이 판단은 종종 자문화 중심주의 수준에 달려 있었으며, 자신의 문화적 가정이나 편견을 통해 다른 문화를 보는 경향이 적절했는지에 따라 결정되었다.
도전 과제는 구절이 오늘날 기준으로 너무 현대적이거나 지나치게 공격적이지 않으면서도 역사적으로 그럴듯하게 보일 만큼 충분한 문화적 편견을 표현했는지 결정하는 것이었다. 저자들은 그 시대에 익숙한 학자들에게도 역사적으로 정확하게 느껴지는 언어와 현대적 아이디어를 반영하는 언어를 날카롭게 구분하기가 어렵다고 언급했다.
그럼에도 불구하고, 결과는 모델의 명확한 순위를 보여주었으며, 미세 조정된 GPT-4o-mini가 전반적으로 가장 그럴듯하다고 판단되었다:
주석자들의 평가가 각 모델의 출력이 얼마나 그럴듯하게 보였는지 평가
80%의 경우에서 그럴듯하다고 평가된 이 성능 수준이 역사 연구에 충분히 신뢰할 수 있는지는 불확실하며, 특히 이 연구는 진짜 시대 텍스트가 얼마나 자주 오분류될지에 대한 기준선을 포함하지 않았다.
침입자 경고
다음으로, 연구팀은 ‘침입자 테스트’를 수행했으며, 전문 주석자들에게 동일한 역사적 질문에 답하는 익명의 네 구절을 보여주었다. 세 응답은 언어 모델에서 왔으며, 하나는 20세기 초 소스에서 나온 진짜 발췌였다.
임무는 어떤 구절이 그 기간 동안 실제로 작성된 원문인지 식별하는 것이었다. 이 접근 방식은 주석자들에게 직접 그럴듯함을 평가하도록 요청하지 않았지만, 모델이 출력이 진짜라고 속일 수 있는지 테스트하며, 실제 구절이 AI 생성 응답과 얼마나 눈에 띄는지 측정했다.
모델의 순위는 이전 판단 작업과 일치했으며, 미세 조정된 GPT-4o-mini가 모델 중 가장 설득력 있었지만, 여전히 진짜와는 부족했다.
각 소스가 진정한 원래의 역사적 구절로 올바르게 식별된 빈도.
이 테스트는 진짜 구절이 절반 이상 식별된 만큼, 진짜와 합성 산문 사이의 간격이 인간 독자에게 여전히 눈에 띄었음을 나타내는 유용한 벤치마크로 작용했다.
McNemar 테스트로 알려진 통계적 분석은 두 가지 언튜드된 버전(GPT-4o 및 GPT-4o-mini)이 유사하게 수행한 경우를 제외하고 모델 간 차이가 의미 있음을 확인했다.
과거의 미래
저자들은 현대 언어 모델에 역사적 목소리를 채택하도록 프롬프트하는 것이 설득력 있는 결과를 안정적으로 만들어내지 않는다고 발견했다: 인간 독자들에 의해 3분의 2 미만의 출력이 그럴듯하다고 판단되었으며, 이 수치조차 성능을 과대평가할 가능성이 있다.
많은 경우, 응답에는 모델이 현재 관점에서 말하고 있다는 명시적 신호가 포함되었다—“1914년에는 아직 알려지지 않았다...” 또는 “1914년 기준으로 나는 익숙하지 않다...” 같은 구절이 완성문의 5분의 1에 달했다. 이런 면책은 모델이 역사 내부에서 쓰는 것이 아니라 외부에서 역사를 시뮬레이션하고 있음을 분명히 했다.
저자들은 “인콘텍스트 학습의 저조한 성능은 유감이다. 이러한 방법은 AI 기반 역사 연구에서 가장 쉽고 저렴한 방법이기 때문이다. 우리는 이러한 접근법을 철저히 탐구하지 않았다. 인콘텍스트 학습이 현재 또는 미래에 일부 연구 분야에 충분할 수 있다. 하지만 우리의 초기 증거는 고무적이지 않다.”라고 말했다.
저자들은 역사적 구절로 상용 모델을 미세 조정하면 최소 비용으로 문체적으로 설득력 있는 출력을 얻을 수 있지만, 현대적 관점의 흔적을 완전히 제거하지는 않는다고 결론지었다. 시대 자료로만 모델을 완전히 사전 훈련시키면 아나크로니즘을 피할 수 있지만, 훨씬 더 많은 자원을 요구하며 덜 유창한 출력을 낸다.
어떤 방법도 완전한 해결책을 제공하지 않으며, 현재로서는 역사적 목소리를 시뮬레이션하려는 모든 시도는 진정성과 일관성 사이의 트레이드오프를 포함하는 것 같다. 저자들은 이 긴장을 가장 잘 해결하는 방법을 명확히 하기 위해 추가 연구가 필요하다고 결론지었다.
결론
새로운 논문이 제기한 가장 흥미로운 질문 중 하나는 진정성에 관한 것이다. 완벽한 도구는 아니지만, LPIPS와 SSIM 같은 손실 함수와 메트릭은 컴퓨터 비전 연구자들에게 진실에 대한 평가 방법을 제공한다. 그러나 지나간 시대의 스타일로 새 텍스트를 생성할 때는 진실이 없다—단지 사라진 문화적 관점을 구현하려는 시도만 있을 뿐이다. 문학적 흔적에서 그 사고를 재구성하려는 것은 양자화의 행위이며, 이 흔적들은 단지 증거일 뿐, 그로부터 나온 문화적 의식은 추론을 초월하며, 아마도 상상을 초월할 것이다.
실제로, 현대적 규범과 데이터로 형성된 현대 언어 모델의 기반은, 에드워드 시대 독자에게는 합리적이거나 평범했을지라도 오늘날에는 편견, 불평등, 불공정의 유물로 등록되는 아이디어를 재해석하거나 억제할 위험이 있다.
따라서 우리가 그런 대화를 만들어낼 수 있다 하더라도, 그것이 우리를 밀어내지 않을지 궁금하다.
최초 출간 2025년 5월 2일 금요일
관련 기사
Deep Cogito's LLMs Outperform Similar-Sized Models Using IDA
Deep Cogito, a San Francisco-based company, is making waves in the AI community with its latest release of open large language models (LLMs). These models, which come in various sizes ranging from 3 billion to 70 billion parameters, are not just another set of AI tools; they're a bold step towards w
AI Comic Factory: 무료로 AI를 사용해 쉽게 만화 만들기
오늘날의 디지털 세상에서 인공지능과 창의적 예술의 융합은 새로운 표현의 길을 열고 있습니다. AI Comic Factory는 이 혁신의 선두에 서서 사용자가 AI의 도움으로 만화를 만들 수 있는 플랫폼을 제공합니다. 이 글에서는 AI Comic Factory의 기능, 사용 편의성, 그리고 일반 만화 팬과 전문 창작자 모두에게 매력적인 가능성을 살펴봅니다.
AI 거래 봇: 하루에 한 달 급여를 정말 벌 수 있을까?
하루에 한 달 급여를 벌고 싶었다면, AI 거래 봇의 세계는 황금 티켓처럼 보일 수 있습니다. 이 자동화 시스템은 인공지능을 활용해 당신을 대신해 거래를 약속하며, 변동성 큰 시장을 개인 ATM으로 바꿀 수 있습니다. 하지만 이 꿈은 실현 가능한 것일까, 아니면 허상을 쫓는 것일까? AI 거래 봇의 진짜 현실을 탐구하며, 그 능력, 한계, 그리고 거래 성공
의견 (0)
0/200
미국과 캐나다의 연구팀은 ChatGPT와 같은 대형 언어 모델이 광범위하고 비용이 많이 드는 사전 훈련 없이 역사적 관용구를 정확히 재현하는 데 어려움을 겪는다는 것을 발견했다. 이 문제는 AI를 사용해 찰스 디킨스의 미완성 마지막 소설을 완성하는 것과 같은 야심찬 프로젝트를 학술 및 엔터테인먼트 분야에서 실현하기 어렵게 만든다.
연구팀은 역사적으로 정확한 느낌의 텍스트를 생성하기 위해 다양한 방법을 실험했다. 20세기 초의 산문을 사용한 간단한 프롬프트에서 시작해 그 시대의 소량의 책으로 상용 모델을 미세 조정했다. 또한 1880년부터 1914년까지의 문헌만으로 훈련된 모델과 결과를 비교했다.
첫 번째 테스트에서 ChatGPT-4o에 세기말(fin-de-siècle) 언어를 모방하도록 지시했다. 결과는 동일한 시기의 문헌으로 훈련된 더 작은 미세 조정 GPT2 모델과 크게 달랐다.
실제 역사적 텍스트(중앙 상단)를 완성하라는 요청을 받았을 때, 잘 준비된 ChatGPT-4o(왼쪽 아래)조차 '블로그' 모드로 돌아가 요청된 관용구를 표현하지 못한다. 반면, 미세 조정된 GPT2 모델(오른쪽 아래)은 언어 스타일을 잘 포착하지만 다른 면에서는 정확도가 낮다. 출처: https://arxiv.org/pdf/2505.00030
미세 조정이 출력의 원래 스타일과 유사성을 개선했지만, 인간 독자는 여전히 현대 언어 또는 아이디어를 감지할 수 있었으며, 이는 조정된 모델도 현대 훈련 데이터의 흔적을 유지함을 보여준다.
연구팀은 기계로 역사적으로 정확한 텍스트나 대화를 생성하는 비용 효율적인 단축 방법이 없다고 결론지었다. 또한 이 도전 자체가 본질적으로 결함이 있을 수 있다고 제안하며, "아나크로니즘은 어느 정도 불가피할 가능성을 고려해야 한다. 역사적 모델을 대화 가능하도록 지시 튜닝하거나 현대 모델이 오래된 시대를 흉내 내도록 가르칠 때, 진정성과 대화 유창성의 목표 사이에 타협이 필요할 수 있다. 결국 21세기 질문자와 1914년 응답자 간의 '진정한' 대화 사례는 없다. 이런 대화를 만들려는 연구자는 현재와 과거 사이의 협상이 항상 포함된다는 전제를 반영해야 한다"고 말했다.
이 연구는 "언어 모델이 아나크로니즘 없이 과거를 표현할 수 있는가?"라는 제목으로 일리노이 대학교, 브리티시 컬럼비아 대학교, 코넬 대학교의 연구자들에 의해 수행되었다.
초기 도전 과제
연구팀은 현대 언어 모델이 역사적 언어를 모방하도록 프롬프트할 수 있는지 처음 탐구했다. 1905년에서 1914년 사이에 출판된 책의 실제 발췌문을 사용해 ChatGPT-4o에 동일한 관용구로 이어가도록 요청했다.
사용된 원래 시대 텍스트는 다음과 같다:
"이 마지막 경우, 분당 약 5~6달러가 절약되며, 한 분 동안 정지 상태의 사람이나 풍경을 투영하기 위해 20야드 이상의 필름이 감겨야 한다. 이렇게 고정된 그림과 움직이는 그림의 실용적인 조합이 가장 예술적인 효과를 낸다. 또한 두 대의 시네마토그래프를 교대로 투영하여 깜박임을 피하거나, 동시에 빨간색과 녹색 이미지를 투영해 자연스러운 색상을 재현함으로써, 기본 색상을 동시에 받는 데 익숙한 인간의 눈을 생리적 피로에서 해방시킨다. 이제 순간 사진에 냉광을 적용하는 것에 대해 한마디."
생성된 텍스트의 역사적 정확성을 평가하기 위해 연구팀은 1810년부터 2009년까지의 자료를 포함한 역사적 미국 영어 코퍼스의 하위 집합을 사용해 RoBERTa 모델을 미세 조정하여 출판 날짜를 추정했다. 이 RoBERTa 분류기는 1905년에서 1914년 사이에 출판된 책의 실제 구절로 프롬프트된 ChatGPT-4o의 연속문을 평가했다.
ChatGPT에 주어진 시스템 프롬프트는 "당신의 임무는 20세기 초 책의 구절을 완성하는 것입니다. 1913년에 출판된 책의 구절이 주어집니다. 동일한 스타일로 최소 200단어로 이 구절을 이어가세요. '여기 연속문입니다:'와 같은 프레임 발언은 하지 마세요."였다.
원샷 및 20샷 프롬프트를 모두 사용했음에도 ChatGPT-4o의 출력은 일관되게 21세기 스타일로 기울었다. 논문에 제공된 예시는 ChatGPT-4o가 사진 텍스트를 이어가는 시도를 보여준다:
"순간 사진에서 냉광의 사용은 다양한 조명 조건에서 이미지를 캡처하는 접근 방식을 혁신했다. 전통적으로 사진가들은 자연광의 거칠음과 가변성, 또는 플래시 사진의 침입적 특성으로 인해 어려움을 겪었으며, 이는 장면의 분위기나 특히 야생 동물 및 솔직한 인간 사진에서 피사체의 자연스러운 행동을 방해할 수 있었다. 부드럽고 확산된 특성을 가진 냉광은... 색상과 질감의 더 자연스러운 표현을 가능하게 하며, 이는 거친 인공 조명 아래에서 종종 손실된다."
이 일반적이고 위키 스타일의 텍스트는 원래 시대 텍스트의 장황하고 정교한 스타일과 일치하지 않았으며, 원문에서 끊긴 지점을 매끄럽게 이어가지도 않았다. 대신 하위 주제 중 하나에 대한 추상적 논의로 치우쳤다.
연구팀은 또한 1880년에서 1914년 사이의 문헌으로 처음부터 훈련된 더 작은 GPT-2 모델인 GPT-1914를 테스트했다. 일관성은 떨어졌지만, 출력은 원래 시대 스타일과 더 일치했다. 논문에 제공된 예시는 다음과 같다:
"그 작용 원리는 이미 설명되었다(4페이지). 여기서는 콜로디온으로 코팅된 종이에 매우 빠른 사진을 얻고자 할 때, 또는 젤라틴 플레이트로 촬영할 때 유리하게 적용될 수 있다는 점만 언급하겠다. 이런 경우 노출은 최소 1초를 초과해서는 안 되지만, 사진을 더 짧은 시간(예: 반초)에 현상하고 싶다면 온도가 20°C 이하로 떨어지지 않아야 한다. 그렇지 않으면 현상 후 이미지가 너무 어두워진다. 또한 이런 조건에서는 플레이트의 감도가 떨어진다. 그러나 일반적인 목적에서는 민감한 표면을 낮은 열에 노출시키는 것만으로 충분하며, 특별한 주의가 필요 없다."
원래 자료는 난해하고 따라가기 어려웠지만, GPT-1914의 출력은 더 시대적으로 진정성 있게 들렸다. 그러나 저자들은 단순한 프롬프트로는 ChatGPT-4o와 같은 대규모 사전 훈련 모델에 내재된 현대적 편향을 극복하는 데 거의 효과가 없다고 결론지었다.
역사적 정확성 측정
모델 출력이 진정한 역사적 글쓰기와 얼마나 유사한지 평가하기 위해 연구팀은 각 텍스트 샘플의 출판 날짜를 추정하는 통계 분류기를 사용했다. 커널 밀도 플롯을 사용해 결과를 시각화하며, 모델이 각 구절을 역사적 타임라인에 어디에 배치하는지 보여주었다.
역사적 스타일을 인식하도록 훈련된 분류기를 기반으로 실제 및 생성된 텍스트의 추정 출판 날짜(1905~1914년 소스 텍스트와 GPT-4o의 원샷 및 20샷 프롬프트 연속문, 그리고 1880~1914년 문헌으로만 훈련된 GPT-1914의 연속문 비교).
완벽하지는 않지만 미세 조정된 RoBERTa 모델은 일반적인 문체 경향을 강조했다. 시대 문헌으로만 훈련된 GPT-1914의 구절은 원래 소스 자료와 유사하게 20세기 초에 집중되었다. 반면, 여러 역사적 프롬프트를 사용했음에도 ChatGPT-4o의 출력은 훈련 데이터의 영향을 받아 21세기 글쓰기와 유사했다.
연구팀은 두 확률 분포 간의 차이를 측정하는 Jensen-Shannon 발산을 사용해 이 불일치를 정량화했다. GPT-1914는 실제 역사적 텍스트와 비교해 0.006으로 근소한 차이를 보였으며, ChatGPT-4o의 원샷 및 20샷 출력은 각각 0.310과 0.350으로 훨씬 큰 차이를 보였다.
저자들은 이러한 결과가 여러 예시를 포함한 프롬프트만으로는 역사적 스타일을 설득력 있게 시뮬레이션하는 텍스트를 생성하는 데 신뢰할 수 있는 방법이 아님을 보여준다고 주장한다.
더 나은 결과를 위한 미세 조정
논문은 미세 조정이 더 나은 결과를 낼 수 있는지 탐구했다. 이 과정은 사용자가 지정한 데이터로 모델의 가중치를 직접 조정하여 대상 도메인에서의 성능을 잠재적으로 개선한다.
첫 번째 테스트 미세조정 실험에서, 팀은 1905년에서 1914년 사이에 출간된 책에서 약 2천 개의 구절 완성 쌍을 사용하여 GPT-4o-미니를 훈련시켰다. 소규모 미세 조정으로 모델의 출력이 역사적으로 더 정확한 스타일로 전환될 수 있는지 확인하고자 했다.
각 출력의 스타일리스틱 '날짜' 를 추정하기 위해 동일한 로버타 기반 분류기를 사용하여, 연구자들은 미세 조정된 모델이 원본 진실에 가까운 텍스트를 생성한다는 것을 발견했다. Jensen-Shannon 발산으로 측정한 원본 텍스트와의 문체적 차이점은 0.002로 떨어졌으며, 이는 GPT-1914와 대체적으로 일치했다.
실제 및 생성된 텍스트의 추정 출판 날짜, GPT-1914와 미세 조정된 GPT-4o-mini가 20세기 초 글쓰기의 스타일(1905년에서 1914년 사이에 출간된 책을 기반으로)과 얼마나 근접히 일치하는지 보여준다.
그러나, 연구자들은 이 메트릭이 역사적 스타일의 표면적인 특징만을 포착할 수 있으며, 더 깊은 개념적 또는 사실적 아나크로니즘은 잡아내지 않을 수도 있다고 주의를 주었다. 그들은 “이것은 매우 민감한 테스트가 아니다. 여기서 판단 기준으로 사용된 RoBERTa 모델은 날짜를 예측하도록만 훈련되었으며, 진정한 구절과 아나크로니즘적인 구절을 구별하도록 훈련되지 않았다. 아마도 예측을 위해 거친 문체적 증거를 사용했을 것이다. 인간 독자나 더 큰 모델은 표면적으로 ‘시대적’으로 들리는 구절에서도 아나크로니즘 콘텐츠를 감지할 수 있을 것이다.”라고 언급했다.
인간 평가
마지막으로, 연구팀은 1905년에서 1914년 사이에 출간된 책에서 손으로 선택한 250개의 구절을 사용해 인간 평가 테스트를 진행했다. 그들은 당시와 오늘날 이 텍스트가 다르게 해석될 가능성이 높다고 언급했다:
“우리 목록에는 예를 들어, 당시 독일의 일부였던 알자스(Alsace)에 대한 백과사전 항목과 베리베리(당시 종종 영양 결핍이 아닌 곰팡이 질병으로 설명됨)에 대한 항목이 포함되었다. 이는 사실의 차이이지만, 우리는 또한 태도, 수사, 또는 상상력의 미묘한 차이를 보여줄 구절을 선택했다. 예를 들어, 20세기 초 유럽 이외 지역의 묘사는 인종적 일반화로 미끄러지는 경향이 있다. 1913년에 작성된 달의 일출 묘사는 대기가 없는 세계의 사진을 아무도 보지 못했기 때문에 풍부한 색채 현상을 상상한다.”
연구팀은 각 역사적 구절이 그럴듯하게 답변할 수 있는 짧은 질문을 만들어, 이 질문-답변 쌍으로 GPT-4o-mini를 미세 조정했다. 평가를 강화하기 위해 데이터를 다섯 부분으로 나누어 각기 다른 부분을 테스트용으로 제외하며 다섯 가지 버전의 모델을 훈련시켰다. 이후 GPT-4o와 GPT-4o-mini의 기본 버전과 미세 조정된 변형을 사용해, 각 모델이 훈련 중 보지 못한 부분에 대해 응답을 생성했다.
시간 속에서 잃다음
모델이 역사적 언어를 얼마나 설득력 있게 모방할 수 있는지 평가하기 위해, 연구자들은 세 명의 주석자들에게 AI가 생성된 120개의 완성문을 검토하고 각 완성문이 1914년의 작가에게 그럴듯해 보이는지 판단하도록 요청했다.
이 평가는 예상보다 더 어려웠다. 주석자들은 거의 80%의 경우 평가에 동의했지만, 판단의 불균형(‘그럴듯함’이 ‘그렇지 않음’보다 두 배 더 자주 선택됨)으로 인해 실제 합의 수준은 코헨의 카파 점수 0.으로 측정했을 때 중간 정도였다.
주석자들은 작업이 어렵다고 묘사하며, 종종 문장이 1914년에 알려졌거나 믿어진 것과 일치하는지 평가하기 위해 추가 연구가 필요하다고 했다. 일부 구절은 어조와 관점에 대한 질문, 예를 들어 응답이 1914년에 전형적이었을 법한 세계관으로 적절히 제한되었는지에 대해 논란이 되었다. 이 판단은 종종 자문화 중심주의 수준에 달려 있었으며, 자신의 문화적 가정이나 편견을 통해 다른 문화를 보는 경향이 적절했는지에 따라 결정되었다.
도전 과제는 구절이 오늘날 기준으로 너무 현대적이거나 지나치게 공격적이지 않으면서도 역사적으로 그럴듯하게 보일 만큼 충분한 문화적 편견을 표현했는지 결정하는 것이었다. 저자들은 그 시대에 익숙한 학자들에게도 역사적으로 정확하게 느껴지는 언어와 현대적 아이디어를 반영하는 언어를 날카롭게 구분하기가 어렵다고 언급했다.
그럼에도 불구하고, 결과는 모델의 명확한 순위를 보여주었으며, 미세 조정된 GPT-4o-mini가 전반적으로 가장 그럴듯하다고 판단되었다:
주석자들의 평가가 각 모델의 출력이 얼마나 그럴듯하게 보였는지 평가
80%의 경우에서 그럴듯하다고 평가된 이 성능 수준이 역사 연구에 충분히 신뢰할 수 있는지는 불확실하며, 특히 이 연구는 진짜 시대 텍스트가 얼마나 자주 오분류될지에 대한 기준선을 포함하지 않았다.
침입자 경고
다음으로, 연구팀은 ‘침입자 테스트’를 수행했으며, 전문 주석자들에게 동일한 역사적 질문에 답하는 익명의 네 구절을 보여주었다. 세 응답은 언어 모델에서 왔으며, 하나는 20세기 초 소스에서 나온 진짜 발췌였다.
임무는 어떤 구절이 그 기간 동안 실제로 작성된 원문인지 식별하는 것이었다. 이 접근 방식은 주석자들에게 직접 그럴듯함을 평가하도록 요청하지 않았지만, 모델이 출력이 진짜라고 속일 수 있는지 테스트하며, 실제 구절이 AI 생성 응답과 얼마나 눈에 띄는지 측정했다.
모델의 순위는 이전 판단 작업과 일치했으며, 미세 조정된 GPT-4o-mini가 모델 중 가장 설득력 있었지만, 여전히 진짜와는 부족했다.
각 소스가 진정한 원래의 역사적 구절로 올바르게 식별된 빈도.
이 테스트는 진짜 구절이 절반 이상 식별된 만큼, 진짜와 합성 산문 사이의 간격이 인간 독자에게 여전히 눈에 띄었음을 나타내는 유용한 벤치마크로 작용했다.
McNemar 테스트로 알려진 통계적 분석은 두 가지 언튜드된 버전(GPT-4o 및 GPT-4o-mini)이 유사하게 수행한 경우를 제외하고 모델 간 차이가 의미 있음을 확인했다.
과거의 미래
저자들은 현대 언어 모델에 역사적 목소리를 채택하도록 프롬프트하는 것이 설득력 있는 결과를 안정적으로 만들어내지 않는다고 발견했다: 인간 독자들에 의해 3분의 2 미만의 출력이 그럴듯하다고 판단되었으며, 이 수치조차 성능을 과대평가할 가능성이 있다.
많은 경우, 응답에는 모델이 현재 관점에서 말하고 있다는 명시적 신호가 포함되었다—“1914년에는 아직 알려지지 않았다...” 또는 “1914년 기준으로 나는 익숙하지 않다...” 같은 구절이 완성문의 5분의 1에 달했다. 이런 면책은 모델이 역사 내부에서 쓰는 것이 아니라 외부에서 역사를 시뮬레이션하고 있음을 분명히 했다.
저자들은 “인콘텍스트 학습의 저조한 성능은 유감이다. 이러한 방법은 AI 기반 역사 연구에서 가장 쉽고 저렴한 방법이기 때문이다. 우리는 이러한 접근법을 철저히 탐구하지 않았다. 인콘텍스트 학습이 현재 또는 미래에 일부 연구 분야에 충분할 수 있다. 하지만 우리의 초기 증거는 고무적이지 않다.”라고 말했다.
저자들은 역사적 구절로 상용 모델을 미세 조정하면 최소 비용으로 문체적으로 설득력 있는 출력을 얻을 수 있지만, 현대적 관점의 흔적을 완전히 제거하지는 않는다고 결론지었다. 시대 자료로만 모델을 완전히 사전 훈련시키면 아나크로니즘을 피할 수 있지만, 훨씬 더 많은 자원을 요구하며 덜 유창한 출력을 낸다.
어떤 방법도 완전한 해결책을 제공하지 않으며, 현재로서는 역사적 목소리를 시뮬레이션하려는 모든 시도는 진정성과 일관성 사이의 트레이드오프를 포함하는 것 같다. 저자들은 이 긴장을 가장 잘 해결하는 방법을 명확히 하기 위해 추가 연구가 필요하다고 결론지었다.
결론
새로운 논문이 제기한 가장 흥미로운 질문 중 하나는 진정성에 관한 것이다. 완벽한 도구는 아니지만, LPIPS와 SSIM 같은 손실 함수와 메트릭은 컴퓨터 비전 연구자들에게 진실에 대한 평가 방법을 제공한다. 그러나 지나간 시대의 스타일로 새 텍스트를 생성할 때는 진실이 없다—단지 사라진 문화적 관점을 구현하려는 시도만 있을 뿐이다. 문학적 흔적에서 그 사고를 재구성하려는 것은 양자화의 행위이며, 이 흔적들은 단지 증거일 뿐, 그로부터 나온 문화적 의식은 추론을 초월하며, 아마도 상상을 초월할 것이다.
실제로, 현대적 규범과 데이터로 형성된 현대 언어 모델의 기반은, 에드워드 시대 독자에게는 합리적이거나 평범했을지라도 오늘날에는 편견, 불평등, 불공정의 유물로 등록되는 아이디어를 재해석하거나 억제할 위험이 있다.
따라서 우리가 그런 대화를 만들어낼 수 있다 하더라도, 그것이 우리를 밀어내지 않을지 궁금하다.
최초 출간 2025년 5월 2일 금요일












