选项
首页
新闻
AI难以模仿历史语言

AI难以模仿历史语言

2025-06-26
0

来自美国和加拿大的研究团队发现,像ChatGPT这样的大型语言模型在没有广泛且昂贵的预训练的情况下,难以准确复制历史习语。这一挑战使得使用AI完成查尔斯·狄更斯最后未完成小说等雄心勃勃的项目,对大多数学术和娱乐工作来说似乎遥不可及。

研究人员尝试了多种方法生成听起来历史准确的文本。他们从使用20世纪初的散文进行简单提示开始,逐步对一个商业模型进行微调,使用那个时代的一小部分书籍。他们还将这些结果与仅在1880至1914年文学上训练的模型进行比较。

在第一次测试中,他们指示ChatGPT-4o模仿世纪末时期的语言。结果与在同一时期文学上训练的较小的微调GPT2模型生成的结果差异显著。

被要求完成真实历史文本,即使是经过良好预处理的ChatGPT-4o(左下)也无法避免退回到‘博客’模式,未能呈现请求的习语。相比之下,微调的GPT2模型很好地捕捉了语言风格,但在其他方面不够准确。来源:https://arxiv.org/pdf/2505.00030被要求完成真实历史文本(顶部中央),即使是经过良好预处理的ChatGPT-4o(左下)也无法避免退回到‘博客’模式,未能呈现请求的习语。相比之下,微调的GPT2模型(右下)很好地捕捉了语言风格,但在其他方面不够准确。来源:https://arxiv.org/pdf/2505.00030

尽管微调提高了输出与原始风格的相似度,但人类读者仍能察觉现代语言或观念,表明即使调整后的模型仍保留其当代训练数据的痕迹。

研究人员得出结论,没有成本效益高的捷径来用机器生成历史准确的文本或对话。他们还指出,挑战本身可能存在固有缺陷,称:“我们也应考虑 anakronism 在某种程度上可能是不可避免的。无论我们是通过指令调整历史模型使其能进行对话,还是通过教当代模型模仿旧时代,真实性与对话流畅性的目标之间可能需要某种妥协。毕竟,没有1914年回应者与21世纪提问者之间‘真实’对话的例子。试图创建此类对话的研究人员需要反思,解释总是涉及现在与过去的谈判。”

这项研究名为“语言模型能否无 anakronism 地呈现过去?”,由伊利诺伊大学、不列颠哥伦比亚大学和康奈尔大学的研究人员进行。

初始挑战

研究人员最初探索了现代语言模型是否能被提示模仿历史语言。他们使用了1905至1914年间出版的书籍中的真实摘录,要求ChatGPT-4o以相同习语继续这些段落。

他们使用的原始时期文本是:

“在最后一种情况下,每分钟可节省大约五六美元,因为要投影一个人静止或风景的画面,每分钟需要放映超过二十码的胶片。因此获得固定与移动画面的实用组合,产生最艺术化的效果。它还使我们能够使用两台电影放映机交替投影以避免闪烁,或同时投影红色和绿色图像并重现自然颜色,从而减轻人眼因同时接收基本颜色的习惯而产生的所有生理疲劳。现在谈谈冷光在瞬时摄影中的应用。”

为了评估生成文本的历史准确性,研究人员微调了一个 RoBERTa 模型来估计出版日期,使用1810至2009年的美国历史英语语料库子集。这个 RoBERTa 分类器评估了ChatGPT-4o生成的续文,提示来自1905至1914年间出版的书籍的真实段落。

给ChatGPT的系统提示是:“你的任务是续写20世纪初书籍的段落。你将收到1913年出版的书籍中的一段。以相同风格续写至少200字,仅提供续写内容;不要添加任何框架性评论,如‘这是续写:’。”

尽管使用了一次性和20次提示,ChatGPT-4o的输出始终倾向于21世纪风格。论文中提供的一个例子显示ChatGPT-4o试图续写摄影文本:

“冷光在瞬时摄影中的使用彻底改变了在不同光线条件下捕捉图像的方法。传统上,摄影师们因自然光的苛刻和变化或闪光摄影的侵入性而挣扎,这可能会干扰场景氛围或拍摄对象的自然行为,特别是在野生动物和坦率的人像摄影中。冷光因其更柔和、更分散的特性……允许更自然地呈现颜色和纹理,这些在刺眼的人工照明下常常丢失。”

这种通用的维基风格文本与原始时期的冗长和精致风格不符,也未从原文中断处无缝续写,而是转向了对一个子主题的抽象讨论。

团队还测试了 GPT-1914,一个从1880至1914年文学上从头训练的较小 GPT-2 模型。尽管连贯性较差,但其输出与源时期的风格更一致。论文中提供的一个例子是:

“其作用原理已在(第4页)解释过。我们在此仅提及,当我们希望在涂有火棉胶的纸上或通过明胶板获得非常快速的照片时,可以有利地应用。在这种情况下,曝光时间不得超过一秒;但如果希望在更短时间(比如半秒)内显影,那么温度不得低于20°C,否则显影后图像会变得太暗;此外,在这些条件下,感光板会失去敏感性。然而,对于普通用途,仅需将感光表面暴露在低度热量下,无需特别预防措施。”

虽然原始材料晦涩难懂,但 GPT-1914 的输出听起来更具时期真实性。然而,作者得出结论,简单提示对克服大型预训练模型如ChatGPT-4o的当代偏见作用不大。

测量历史准确性

为了衡量模型输出与真实历史写作的相似程度,研究人员使用统计分类器估计每个文本样本可能的出版日期。他们使用核密度图可视化结果,显示模型将每个段落置于历史时间线上的位置。

基于训练识别历史风格的分类器(1905-1914年源文本与GPT-4o使用一次性和20次提示的续文以及仅在1880-1914年文学上训练的GPT-1914的续文相比)估算的出版日期。基于训练识别历史风格的分类器(1905-1914年源文本与GPT-4o使用一次性和20次提示的续文以及仅在1880-1914年文学上训练的GPT-1914的续文相比)估算的出版日期。

微调的 RoBERTa 模型虽不完美,但突显了总体风格趋势。仅在时期文学上训练的 GPT-1914 的段落聚集在20世纪初,与原始源材料相似。相比之下,即使使用多个历史提示,ChatGPT-4o的输出也类似于21世纪写作,反映了其训练数据。

研究人员使用 Jensen-Shannon 散度量化这种不匹配,测量两个概率分布之间的差异。GPT-1914 与真实历史文本相比得分为0.006,而ChatGPT-4o的一次性和20次输出差距较大,分别为0.310和0.350。

作者认为,这些发现表明,仅靠提示,即使有多个示例,也不是生成令人信服的历史风格文本的可靠方法。

微调以获得更好结果

论文随后探讨了微调是否能产生更好的结果。此过程通过在用户指定数据上继续训练直接影响模型权重,可能改善其在目标领域的表现。

在第一次微调实验中,团队在1905至1914年间出版的书籍的大约两千个段落续写对上训练 GPT-4o-mini。他们旨在查看小规模微调能否使模型输出更接近历史准确的风格。

使用相同的基于 RoBERTa 的分类器估算每个输出的风格“日期”,研究人员发现微调模型生成的文本与真实情况密切对齐。其与原始文本的风格散度,通过 Jensen-Shannon 散度测量,降至0.002,与 GPT-1914 基本一致。

估算的真实与生成文本的出版日期,显示 GPT-1914 和微调版本的 GPT-4o-mini 如何接近20世纪初写作风格(基于1905-1914年间出版的书籍)。估算的真实与生成文本的出版日期,显示 GPT-1914 和微调版本的 GPT-4o-mini 如何接近20世纪初写作风格(基于1905-1914年间出版的书籍)。

然而,研究人员警告,此指标可能仅捕捉历史风格的表面特征,而非更深层次的概念或事实 anakronism。他们指出:“这不是一个非常敏感的测试。用作评判的 RoBERTa 模型仅训练预测日期,而非区分真实段落与 anakronistic 段落。它可能使用粗略的风格证据进行预测。人类读者或更大的模型可能仍能在表面上听起来‘符合时期’的段落中检测到 anakronistic 内容。”

人类评估

最后,研究人员使用1905至1914年间出版的书籍中的250个手工挑选的段落进行人类评估测试。他们注意到,这些文本在今天与写作时可能会有不同解读:

“我们的列表包括,例如,关于阿尔萨斯(当时是德国的一部分)的百科全书条目和关于脚气病(当时常被解释为真菌病而非营养缺乏)的条目。虽然这些是事实差异,我们还选择了展示态度、修辞或想象细微差异的段落。例如,20世纪初对非欧洲地区的描述往往带有种族概括。1913年写的月球日出描述想象了丰富的色彩现象,因为当时还没有人见过没有大气层的世界的照片。”

研究人员为每个历史段落创建了可能回答的简短问题,然后在这些问答对上微调 GPT-4o-mini。为加强评估,他们训练了五个独立版本的模型,每次留出不同部分数据用于测试。然后使用 GPT-4o 和 GPT-4o-mini 的默认版本以及微调变体生成响应,每种变体在未见训练数据的部分上进行评估。

迷失于时间

为了评估模型模仿历史语言的可信度,研究人员请三位专家注释者审查120个AI生成的续写,判断每个续写是否对1914年的作者来说似乎合理。

此评估比预期更具挑战性。虽然注释者在近80%的情况下意见一致,但他们的判断不平衡(“合理”被选中的频率是“不合理”的两倍),意味着实际一致性水平仅为中等,Cohen's kappa 得分为0.554。

评判者描述这项任务很困难,通常需要额外研究以评估语句是否与1914年已知或相信的内容一致。一些段落引发了关于语气和视角的问题,例如,回应是否适当地限制了世界观以反映1914年典型的观点。这种判断往往取决于种族中心主义的程度,即通过自身文化假设或偏见看待其他文化的倾向。

挑战在于判断一个段落是否表达了足够的历史文化偏见以显得合理,同时不显得过于现代或以今日标准过于冒犯。作者指出,即使对熟悉该时期的学者来说,也很难在感觉历史准确的语言与反映当代观念的语言之间划清界限。

尽管如此,结果显示模型有清晰排名,微调版本的 GPT-4o-mini 总体被认为是最合理的:

注释者对每个模型输出合理性的评估注释者对每个模型输出合理性的评估

这种80%情况下被评为合理表现的可靠性是否足以用于历史研究仍不清楚,特别是因为研究未包括真实时期文本被误分类的基线测量。

入侵者警报

接下来,研究人员进行了“入侵者测试”,向专家注释者展示回答同一历史问题的四个匿名段落。三个回应来自语言模型,一个是20世纪初的真实摘录。

任务是识别哪个段落是真正的、当时撰写的原文。这种方法不直接要求注释者评定合理性,而是测量真实段落从AI生成回应中脱颖而出的频率,实际上测试模型能否欺骗读者认为其输出是真实的。

模型排名与早前的判断任务结果一致:微调版本的 GPT-4o-mini 是最令人信服的模型,但仍不及真实原文。

每个来源被正确识别为真实历史段落的频率。每个来源被正确识别为真实历史段落的频率。

此测试还提供了一个有用的基准,因为真实段落在一半以上时间被识别,表明真实与合成散文之间的差距对人类读者仍明显。

一项称为 McNemar 检验的统计分析确认了模型之间的差异是有意义的,除了未调整的两个版本(GPT-4o 和 GPT-4o-mini)表现相似。

过去的未来

作者发现,提示现代语言模型采用历史声音并不可靠地产生令人信服的结果:不到三分之二的输出被人类读者认为合理,即使这个数字可能高估了表现。

在许多情况下,回应包含明确信号,表明模型从当代视角说话——诸如“在1914年,尚不知……”或“截至1914年,我不熟悉……”的短语在多达五分之一的续写中出现。这些免责声明清楚表明模型从外部模拟历史,而非从内部写作。

作者表示:“上下文学习的表现不佳令人遗憾,因为这些方法是AI历史研究中最简单、最便宜的。我们强调,我们并未全面探索这些方法。未来可能发现上下文学习对某些研究领域足够好。但我们的初步证据并不乐观。”

作者得出结论,虽然在历史段落上微调商业模型可以以最低成本产生风格上令人信服的输出,但无法完全消除现代视角的痕迹。在时期材料上完全预训练模型可避免 anakronism,但需要更多资源且输出流畅性较低。

两种方法均未提供完整解决方案,目前,模拟历史声音似乎需要在真实性与连贯性之间权衡。作者得出结论,需要进一步研究以明确如何最好地应对这种紧张关系。

结论

新论文提出的最引人入胜的问题之一是真实性。虽然它们不是完美工具,损失函数和像 LPIPS 和 SSIM 这样的指标为计算机视觉研究人员提供了评估真实情况的方法。然而,生成旧时代风格的新文本时,没有真实情况——只是试图融入消失的文化视角。从文学痕迹重建那种心态本身就是一种量化的行为,因为这些痕迹仅仅是证据,而它们产生的文化意识仍无法推断,可能也超出了想象。

在实际层面,现代语言模型的基础受当代规范和数据塑造,存在重新解释或压制对爱德华时代读者看似合理或平常但如今被视为偏见、不平等或不公的产物的风险。

因此,人们不禁想知道,即使我们能创建这样的对话,是否会让我们感到排斥。

首次发布于2025年5月2日,星期五

相关文章
Deep Cogito's LLMs Outperform Similar-Sized Models Using IDA Deep Cogito's LLMs Outperform Similar-Sized Models Using IDA Deep Cogito, a San Francisco-based company, is making waves in the AI community with its latest release of open large language models (LLMs). These models, which come in various sizes ranging from 3 billion to 70 billion parameters, are not just another set of AI tools; they're a bold step towards w
AI漫画工厂:免费使用AI轻松创建漫画 AI漫画工厂:免费使用AI轻松创建漫画 在当今数字世界中,人工智能与创意艺术的融合为表达开辟了引人入胜的新途径。AI Comic Factory 处于这场革命的前沿,提供一个用户可借助 AI 创建漫画的平台。本文将深入探讨 AI Comic Factory,分析其功能、易用性以及对休闲漫画爱好者和专业创作者的潜在吸引力。我们将研究如何利用 AI 创建引人入胜的视觉故事,并评估该平台是否真正实现了其可访问性和创意自由的承诺。关键点AI C
AI交易机器人:一天能赚一个月的薪水吗? AI交易机器人:一天能赚一个月的薪水吗? 如果你梦想过一天赚一个月的薪水,AI交易机器人可能看似是金光闪闪的机会。这些自动化系统承诺利用人工智能为你交易,将波动市场变成你的私人提款机。但这个梦想能实现吗,还是我们在追逐海市蜃楼?让我们深入探讨AI交易机器人的真实情况,探索其能力、局限性以及影响交易成败的因素。了解AI交易机器人的承诺什么是AI交易机器人?AI交易机器人是一种软件程序,利用人工智能在无需你持续监督的情况下做出交易决策。它筛选
评论 (0)
0/200
返回顶部
OR