オプション
ニュース
AIが歴史的言語の模倣に苦戦

AIが歴史的言語の模倣に苦戦

2025年6月26日
0

米国とカナダの研究者チームは、ChatGPTのような大規模言語モデルが、広範かつ高コストな事前トレーニングなしに歴史的慣用表現を正確に再現するのに苦労していることを発見しました。この課題により、チャールズ・ディケンズの未完の最後の小説をAIで完成させるような野心的なプロジェクトは、ほとんどの学術的およびエンターテインメントの取り組みにとって実現が難しいように思われます。

研究者たちは、歴史的に正確な響きのテキストを生成するさまざまな方法を試みました。20世紀初頭の散文を使った簡単なプロンプトから始め、その時代の少数の本で商用モデルを微調整する段階に進みました。また、1880年から1914年までの文学のみで訓練されたモデルと比較しました。

最初のテストでは、ChatGPT-4oに世紀末の言語を模倣するよう指示しました。結果は、同じ時代の文学で訓練された、より小さな微調整済みのGPT2モデルが生成したものと大きく異なりました。

実際の歴史的テキストを完成させるよう求められた場合、十分に準備されたChatGPT-4o(左下)でも「ブログ」モードに戻ってしまい、要求された慣用表現を表現できません。一方、微調整済みのGPT2モデルは言語スタイルをよく捉えますが、他の点では正確ではありません。出典: https://arxiv.org/pdf/2505.00030実際の歴史的テキスト(中央上)を完成させるよう求められた場合、十分に準備されたChatGPT-4o(左下)でも「ブログ」モードに戻ってしまい、要求された慣用表現を表現できません。一方、微調整済みのGPT2モデル(右下)は言語スタイルをよく捉えますが、他の点では正確ではありません。出典: https://arxiv.org/pdf/2505.00030

微調整により出力が元のスタイルに近づいたものの、人間の読者は依然として現代の言語やアイデアを検出でき、調整されたモデルでも現代のトレーニングデータの痕跡が残っていることを示しています。

研究者たちは、歴史的に正確なテキストや対話を機械で生成するコスト効果の高い近道はないと結論付けました。また、課題そのものが本質的に欠陥がある可能性も示唆し、「アナクロニズムは避けられないかもしれない。過去を表現するために歴史的モデルを指示調整して会話を可能にするか、現代のモデルに古い時代を模倣させるか、真正性と会話の流暢さの目標の間で妥協が必要かもしれない。結局のところ、21世紀の質問者と1914年の回答者の会話の「本物」の例は存在しない。そのような会話を創造しようとする研究者は、解釈が常に現在と過去の交渉を含むという前提を熟考する必要がある」と述べています。

この研究は「言語モデルはアナクロニズムなしに過去を表現できるか?」というタイトルで、イリノイ大学、ブリティッシュコロンビア大学、コーネル大学の研究者によって実施されました。

初期の課題

研究者たちは、現代の言語モデルがプロンプトによって歴史的言語を模倣できるかどうかを最初に調査しました。1905年から1914年に出版された本の実際の抜粋を使用し、ChatGPT-4oに同じ慣用表現でこれらの文章を続けるよう依頼しました。

使用した元の時代テキストは次の通りです:

「この最後のケースでは、1分あたり5~6ドルが節約され、静止している人物や風景を1分間投影するためには20ヤード以上のフィルムを巻き取る必要があります。これにより、固定画像と動画の実践的な組み合わせが得られ、最も芸術的な効果を生み出します。また、2台の映写機を交互に投影してちらつきを防いだり、赤と緑の画像を同時に投影して自然な色を再現し、人間の目が基本的な色を同時に受け取ることに慣れているため、すべての生理的疲労を軽減することも可能になります。瞬間写真への冷光の応用について一言。」

生成されたテキストの歴史的正確性を評価するために、研究者たちは1810年から2009年までの資料をカバーする「コーパス・オブ・ヒストリカル・アメリカン・イングリッシュ」のサブセットを使用して、出版日を推定するようにRoBERTaモデルを微調整しました。このRoBERTa分類器は、1905年から1914年に出版された本の実際の文章でプロンプトされたChatGPT-4oが生成した続きを評価しました。

ChatGPTに与えられたシステムプロンプトは、「あなたのタスクは、20世紀初頭の本の文章を完成させることです。1913年に出版された本の文章が与えられます。この文章を同じスタイルで、少なくとも200語で続けてください。この続きのみを提供し、『ここに続きがあります:』などの枠組みのコメントはしないでください。」でした。

1ショットおよび20ショットのプロンプトを使用したにもかかわらず、ChatGPT-4oの出力は一貫して21世紀のスタイルに傾いていました。論文に示された例では、ChatGPT-4oが写真テキストを続ける試みが見られました:

「瞬間写真における冷光の使用は、さまざまな光条件での画像キャプチャのアプローチを革命化しました。伝統的に、写真家は自然光の厳しさや変動性、またはフラッシュ写真の侵入的な性質に苦労しており、これがシーンの雰囲気や被写体、特に野生動物やカジュアルな人間の写真の自然な行動を乱す可能性がありました。冷光は、より柔らかく拡散した性質により…色や質感のより自然な表現を可能にし、厳しい人工照明下ではしばしば失われます。」

この一般的なウィキスタイルのテキストは、元の時代テキストの冗長で精巧なスタイルに一致せず、元の文章からシームレスに続くこともありませんでした。代わりに、サブトピックの1つに関する抽象的な議論に逸脱しました。

チームはまた、1880年から1914年の文学のみでゼロから訓練された小型のGPT-2モデルであるGPT-1914をテストしました。一貫性は低いものの、その出力は元の時代のスタイルにより一致していました。論文に示された例は次の通りです:

「その動作の原理はすでに説明されています(4ページ)。ここでは、コロジオンでコーティングされた紙やゼラチンプレートを使用して非常に迅速な写真を得たい場合に有利に適用できることのみを述べます。このような場合、露出時間は少なくとも1秒を超えてはいけません。ただし、画像をより短時間、例えば半秒で現像したい場合は、温度が20℃を下回らないようにする必要があります。そうしないと、現像後に画像が暗くなりすぎます。さらに、これらの条件下ではプレートの感度が失われます。しかし、通常の目的では、感光面を低い熱にさらすだけで、特別な注意を払う必要はありません。」

元の資料は難解で理解しにくいものでしたが、GPT-1914の出力は時代に即した本物の響きを持っていました。しかし、著者たちは、単純なプロンプトでは、大規模な事前訓練モデル如ChatGPT-4oに内在する現代のバイアスを克服する効果がほとんどないと結論付けました。

歴史的正確性の測定

モデルの出力が本物の歴史的文章にどれだけ似ているかを評価するために、研究者たちは統計的分類器を使用して各テキストサンプルの出版日を推定しました。カーネル密度プロットを使用して結果を可視化し、モデルが各文章を歴史的タイムライン上のどこに配置するかを示しました。

実際および生成されたテキストの推定出版日。歴史的スタイルを認識するように訓練された分類器に基づく(1905~1914年のソーステキストと、1ショットおよび20ショットのプロンプトを使用したGPT-4oの続き、1880~1914年の文学のみで訓練されたGPT-1914の続きを比較)。実際および生成されたテキストの推定出版日。歴史的スタイルを認識するように訓練された分類器に基づく(1905~1914年のソーステキストと、1ショットおよび20ショットのプロンプトを使用したGPT-4oの続き、1880~1914年の文学のみで訓練されたGPT-1914の続きを比較)。

微調整されたRoBERTaモデルは完全ではないものの、一般的なスタイルの傾向を強調しました。時代文学のみで訓練されたGPT-1914の文章は、元のソース資料と同様に20世紀初頭に集中していました。一方、ChatGPT-4oの出力は、複数の歴史的プロンプトを使用しても、21世紀の文章に似ており、そのトレーニングデータを反映していました。

研究者たちは、2つの確率分布の差を測定するジェンセン-シャノン発散を使用してこの不一致を定量化しました。GPT-1914は実際の歴史的テキストと比較して0.006という近いスコアを記録しましたが、ChatGPT-4oの1ショットおよび20ショットの出力はそれぞれ0.310と0.350で、はるかに大きなギャップを示しました。

著者たちは、これらの結果は、複数の例を使用したプロンプトだけでは、歴史的スタイルを説得力を持ってシミュレートするテキストを生成する信頼できる方法ではないことを示していると主張しています。

より良い結果のための微調整

論文では、微調整がより良い結果をもたらすかどうかをさらに探求しました。このプロセスは、ユーザーが指定したデータでトレーニングを継続することにより、モデルの重みを直接影響を与え、対象ドメインでのパフォーマンスを向上させる可能性があります。

最初の微調整実験では、チームは1905年から1914年に出版された本から約2000の文章完成ペアでGPT-4o-miniをトレーニングしました。小規模な微調整がモデルの出力をより歴史的に正確なスタイルにシフトできるかどうかを確認することを目指しました。

同じRoBERTaベースの分類器を使用して各出力のスタイル的「日付」を推定したところ、微調整されたモデルは本物のテキストと密接に一致するテキストを生成しました。元のテキストからのスタイル的発散は、ジェンセン-シャノン発散で測定して0.002に低下し、GPT-1914と一般的に一致していました。

実際および生成されたテキストの推定出版日。GPT-1914および微調整されたGPT-4o-miniが20世紀初頭の文章スタイル(1905~1914年に出版された本に基づく)にどれだけ一致するかを示す。実際および生成されたテキストの推定出版日。GPT-1914および微調整されたGPT-4o-miniが20世紀初頭の文章スタイル(1905~1914年に出版された本に基づく)にどれだけ一致するかを示す。

しかし、研究者たちは、この指標は歴史的スタイルの表面的な特徴のみを捉えており、深い概念的または事実的なアナクロニズムを検出しない可能性があると警告しました。「これは非常に敏感なテストではない。ここで判定者として使用されるRoBERTaモデルは、日付を予測するように訓練されているだけで、本物の文章とアナクロニズムのある文章を区別するようには訓練されていません。おそらく、粗いスタイル的証拠を使用してその予測を行っています。人間の読者やより大きなモデルは、表面的には「時代に合った」ように聞こえる文章でも、アナクロニズムの内容を検出できるかもしれません」と述べています。

人間の評価

最後に、研究者たちは1905年から1914年に出版された本から手作業で選んだ250の文章を使用して人間の評価テストを実施しました。これらのテキストの多くは、執筆当時とは異なる解釈がされる可能性が高いと指摘しました:

「私たちのリストには、たとえば、アルザス(当時はドイツの一部だった)に関する百科事典の項目や、脚気(当時は栄養欠乏症ではなく真菌疾患として説明されることが多かった)に関する項目が含まれていました。これらは事実の違いですが、態度、レトリック、想像力の微妙な違いを示す文章も選択しました。たとえば、20世紀初頭の非ヨーロッパの場所の記述は、人種的一般化に陥りがちです。1913年に書かれた月の日の出の記述は、大気のない世界の写真をまだ誰も見ていなかったため、豊かな色彩現象を想像しています。」

研究者たちは、各歴史的文章がもっともらしく答えることができる短い質問を作成し、これらの質問と回答のペアでGPT-4o-miniを微調整しました。評価を強化するために、データを5つの異なる部分に分割し、毎回異なる部分をテスト用に保留して、5つの異なるバージョンのモデルをトレーニングしました。その後、GPT-4oおよびGPT-4o-miniのデフォルトバージョンと、微調整されたバリエーションを使用して、トレーニング中に見ていない部分で評価された応答を生成しました。

時代に取り残されて

モデルが歴史的言語をどの程度説得力を持って模倣できるかを評価するために、研究者たちは3人の専門アノテーターに120のAI生成の完成文をレビューさせ、1914年のライターにとってそれぞれがもっともらしいかどうかを判断させました。

この評価は予想以上に困難でした。アノテーターはほぼ80%のケースで評価に一致しましたが、判断の不均衡(「もっともらしい」が「もっとらしくない」の2倍選ばれた)により、実際の合意度はCohenのκスコア0.554で中程度にとどまりました。

アノテーターは、声明が1914年に知られていたことや信じられていたことに一致するかを評価するために、しばしば追加の調査が必要だと述べました。一部の文章は、トーンや視点に関する質問を呼び起こし、たとえば、応答が1914年に典型的な世界観に適切に限定されているかどうかといった点です。この判断はしばしば、自己の文化の前提やバイアスを通して他の文化を見る傾向であるエスノセントリズムのレベルに依存していました。

課題は、文章が歴史的にもっともらしく感じるのに十分な文化的バイアスを表現しつつ、今日の基準であまりにも現代的または露骨に攻撃的に聞こえないかを決定することでした。著者たちは、時代に精通した学者にとっても、歴史的に正確に感じる言語と現代のアイデアを反映する言語の間に明確な線を引くのは難しいと指摘しました。

それでも、結果はモデル間の明確なランキングを示し、微調整されたGPT-4o-miniが全体で最ももっともらしいと判断されました:

アノテーターによる各モデルの出力のもっともらしさの評価アノテーターによる各モデルの出力のもっともらしさの評価

80%のケースでもっともらしいと評価されたこのパフォーマンスレベルが、歴史的研究に十分信頼できるかどうかは不明で、特に本物の時代テキストがどの程度誤分類されるかのベースライン測定が含まれていないためです。

侵入者警告

次に、研究者たちは「侵入者テスト」を行い、専門アノテーターに同じ歴史的質問に答える4つの匿名文章を見せました。3つの応答は言語モデルから、1つは20世紀初頭のソースからの本物の抜粋でした。

タスクは、どの文章がその時代に実際に書かれた本物かを特定することでした。このアプローチは、アノテーターにもっともらしさを直接評価させるのではなく、本物の文章がAI生成の応答からどれだけ目立つかを測定し、モデルがその出力を本物だと読者を騙せるかを効果的にテストしました。

モデルのランキングは、前の判断タスクの結果と一致し、微調整されたGPT-4o-miniがモデルの中で最も説得力がありましたが、本物には及ばませんでした。

各ソースが本物の歴史的文章として正しく特定された頻度。各ソースが本物の歴史的文章として正しく特定された頻度。

このテストは、本物の文章が半分以上のケースで特定されたため、本物の文章と合成文章のギャップが人間の読者にとって依然として顕著であることを示す有用なベンチマークとしても機能しました。

McNemarのテストとして知られる統計分析は、モデル間の違いが意味のあるものであることを確認しましたが、未調整の2つのバージョン(GPT-4oおよびGPT-4o-mini)は同様にパフォーマンスを示しました。

過去の未来

著者たちは、現代の言語モデルに歴史的声を採用するようプロンプトしても、説得力のある結果を確実に生成しないことを発見しました。人間の読者によってもっともらしいと判断された出力は3分の2未満で、この数字はおそらくパフォーマンスを過大評価しています。

多くの場合、応答にはモデルが現代の視点から話している明確なシグナルが含まれていました。「1914年にはまだ知られていない…」や「1914年時点では私は知らない…」といったフレーズは、完成文の5分の1にも及ぶ頻度で現れました。このような免責事項は、モデルが歴史を内部から書くのではなく、外部からシミュレートしていることを明確にしました。

著者たちは、「コンテキスト内学習の低いパフォーマンスは残念です。これらの方法は、AIベースの歴史研究にとって最も簡単で安価なものです。私たちはこれらのアプローチを徹底的に探求したわけではありません。コンテキスト内学習が現在または将来、研究領域のサブセットに十分である可能性があります。しかし、初期の証拠は励みになるものではありません」と述べています。

著者たちは、歴史的文章で商用モデルを微調整することで、最小限のコストでスタイル的に説得力のある出力を生成できるが、現代の視点の痕跡を完全に排除することはできないと結論付けました。時代資料のみでモデルを完全に事前トレーニングすることはアナクロニズムを回避しますが、はるかに多くのリソースを要求し、流暢さの低い出力をもたらします。

どちらの方法も完全な解決策を提供せず、現時点では、歴史的声をシミュレートする試みは、真正性と一貫性の間のトレードオフを伴うようです。著者たちは、この緊張を最適に乗り越える方法を明確にするためにさらなる研究が必要だと結論付けています。

結論

新しい論文が提起する最も興味深い質問の1つは、真正性の問題です。完全なツールではないものの、LPIPSやSSIMのような損失関数やメトリクスは、コンピュータビジョンの研究者に基準となる真実に対する評価方法を提供します。しかし、過ぎ去った時代のスタイルで新しいテキストを生成する場合、基準となる真実は存在せず、消滅した文化的視点を再現しようとする試みのみがあります。文学的痕跡からそのマインドセットを再構築することは、それ自体が量子化の行為であり、これらの痕跡は単なる証拠に過ぎず、それらが発生した文化的意識は推論を超え、おそらく想像を超えるものです。

実際的に言えば、現代の規範とデータによって形作られた現代の言語モデルの基盤は、エドワード時代の読者には合理的または当たり前に見えたかもしれないが、今では偏見、不平等、または不正の産物として登録されるアイデアを再解釈または抑制するリスクがあります。

したがって、もしそのような対話を作成できたとしても、それが私たちを遠ざけるかもしれないと考えるのは自然なことです。

初公開:2025年5月2日金曜日

関連記事
Deep Cogito's LLMs Outperform Similar-Sized Models Using IDA Deep Cogito's LLMs Outperform Similar-Sized Models Using IDA Deep Cogito, a San Francisco-based company, is making waves in the AI community with its latest release of open large language models (LLMs). These models, which come in various sizes ranging from 3 billion to 70 billion parameters, are not just another set of AI tools; they're a bold step towards w
AI Comic Factory: 無料で簡単にAIを使ってコミックを作成 AI Comic Factory: 無料で簡単にAIを使ってコミックを作成 今日のデジタル世界では、人工知能とクリエイティブアートの融合が、表現のための魅力的な新しい道を開いています。AI Comic Factoryは、この革命の最前線に立ち、ユーザーがAIの助けを借りてコミックを作成できるプラットフォームを提供しています。この記事では、AI Comic Factoryの特徴、使いやすさ、そしてカジュアルなコミックファンからプロのクリエイターまでへの魅力を詳しく見ていきま
AIトレーディングボット:1日で1か月の給料を本当に稼げるのか? AIトレーディングボット:1日で1か月の給料を本当に稼げるのか? 1日で1か月の給料を稼ぐことを夢見たことがあるなら、AIトレーディングボットの世界は黄金のチケットのように見えるかもしれません。これらの自動化システムは、人工知能を活用してあなたに代わって取引を行い、変動の激しい市場をあなた専用のATMに変える可能性を約束します。しかし、この夢は実現可能なのでしょうか、それとも蜃気楼を追いかけているだけなのでしょうか?AIトレーディングボットの実際の姿を掘り下げ、
コメント (0)
0/200
トップに戻ります
OR