AI難以模擬歷史語言
來自美國和加拿大的研究團隊發現,像ChatGPT這樣的大型語言模型在未經廣泛且昂貴的預訓練下,難以精確複製歷史慣用語。這一挑戰使得使用AI完成如查爾斯·狄更斯未完成小說等雄心勃勃的項目,對大多數學術和娛樂工作而言似乎遙不可及。
研究人員嘗試多種方法生成聽起來具有歷史準確性的文本。他們從使用20世紀初散文進行簡單提示開始,進而對商業模型進行微調,使用該時代的少量書籍。他們還比較了這些結果與僅用1880年至1914年文學訓練的模型。
在首次測試中,他們指示ChatGPT-4o模仿世紀末時期的語言。結果與經過微調的較小GPT2模型(使用同一時期文學訓練)生成的結果顯著不同。
被要求完成真實歷史文本(頂部中央),即使是經過良好提示的ChatGPT-4o(左下)也難免退回到‘部落格’模式,無法表現要求的慣用語。相比之下,微調的GPT2模型(右下)很好地捕捉了語言風格,但在其他方面不夠精確。來源:https://arxiv.org/pdf/2505.00030
雖然微調改善了輸出的原始風格相似度,但人類讀者仍能察覺現代語言或觀念,顯示即使調整後的模型仍保留當代訓練數據的痕跡。
研究人員結論,生成歷史準確文本或對話無成本效益的捷徑。他們還建議這一挑戰本身可能存在根本缺陷,指出:「我們也應考慮時代錯誤可能在某種程度上不可避免。無論是通過指導歷史模型進行對話,還是教導當代模型模擬較舊時代,都需要在真實性和對話流暢度之間做出某種妥協。畢竟,21世紀提問者與1914年回應者之間的對話沒有‘真實’範例。試圖創造此類對話的研究人員需反思,詮釋總是涉及當下與過去的協商。」
此研究題為「語言模型能否無時代錯誤地表現過去?」,由伊利諾伊大學、英屬哥倫比亞大學和康乃爾大學的研究人員進行。
初始挑戰
研究人員最初探索現代語言模型是否能被提示模仿歷史語言。他們使用1905年至1914年間出版的書籍真實片段,要求ChatGPT-4o以相同慣用語繼續這些段落。
他們使用的原始時代文本為:
「在最後一種情況下,每分鐘可節省約五至六美元,因為投影一個靜止人物或風景需捲動超過二十碼的膠片。因此獲得固定與動態圖片的實際結合,產生最具藝術性的效果。這也使我們能交替使用兩台電影放映機以避免閃爍,或同時投影紅色與綠色影像並重現自然色彩,從而減輕人類眼睛的生理疲勞,因其習慣同時接收基本色彩。現在談談冷光在瞬時攝影中的應用。」
為評估生成文本的歷史準確性,研究人員微調了RoBERTa模型以估計出版日期,使用1810年至2009年的歷史美國英語語料庫子集。該RoBERTa分類器評估了ChatGPT-4o在1905年至1914年間出版的書籍真實段落提示下生成的續寫。
給ChatGPT的系統提示為:「你的任務是續寫20世紀初書籍的段落。你將收到1913年出版的書籍段落。以相同風格續寫至少200字。僅提供續寫內容,不得包含任何框架性評論,如‘以下是續寫:’。」
儘管使用了單次和20次提示,ChatGPT-4o的輸出持續傾向21世紀風格。論文中提供的例子顯示ChatGPT-4o試圖續寫攝影文本:
「冷光在瞬時攝影中的使用徹底改變了在不同光線條件下捕捉影像的方式。傳統上,攝影師難以應對自然光的嚴苛與變化,或閃光攝影的侵入性,這可能干擾場景氛圍或拍攝對象的自然行為,特別是在野生動物和即興人物攝影中。冷光的柔和與分散特性……允許更自然地表現顏色與紋理,這在強烈人工照明下常會喪失。」
這種通用的百科式文本與原始時代文本的冗長精緻風格不符,也未從原文結束處無縫續寫,反而轉向對子主題的抽象討論。
團隊還測試了GPT-1914,一個從1880年至1914年文學中從頭訓練的較小GPT-2模型。雖然較不連貫,其輸出與來源時代的風格更一致。論文中提供的例子為:
「其作用原理已在前文解釋(第4頁)。我們在此僅提及,當我們希望在塗有火棉膠的紙上或使用明膠板取得極快速照片時,可有利應用此原理。在這種情況下,曝光時間不得超過一秒;但若希望在更短時間內顯影,例如半秒,則溫度不得低於20°C,否則顯影後影像會過暗;此外,在這些條件下,感光板會失去敏感性。然而,對於一般用途,只需將感光表面暴露於低度熱量即可,無需特殊預防措施。」
雖然原始材料晦澀難懂,GPT-1914的輸出聽起來更具時代真實性。然而,作者結論,簡單提示難以克服大型預訓練模型如ChatGPT-4o的當代偏見。
測量歷史準確性
為衡量模型輸出與真實歷史寫作的相似度,研究人員使用統計分類器估計每個文本樣本的可能出版日期。他們使用核密度圖視覺化結果,顯示模型將每個段落置於歷史時間線上的位置。
真實與生成文本的估計出版日期,基於訓練識別歷史風格的分類器(1905-1914年來源文本與GPT-4o使用單次和20次提示的續寫,以及僅用1880-1914年文學訓練的GPT-1914的續寫相比)。
微調的RoBERTa模型雖不完美,但突顯了總體風格趨勢。僅用時代文學訓練的GPT-1914的段落集中在20世紀初,與原始來源材料相似。相比之下,即使使用多個歷史提示,ChatGPT-4o的輸出仍類似21世紀寫作,反映其訓練數據。
研究人員使用Jensen-Shannon散度量化此不匹配,GPT-1914與真實歷史文本的得分為0.006,而ChatGPT-4o的單次和20次提示輸出差距較大,分別為0.310和0.350。
作者認為,這些發現表明僅靠提示,即使有多個範例,也無法可靠生成令人信服的歷史風格文本。
微調以獲得更好結果
論文隨後探討微調是否能產生更好結果。此過程通過在用戶指定數據上繼續訓練直接影響模型權重,可能提升其在目標領域的表現。
在首次微調實驗中,團隊在1905年至1914年間出版的約2000個段落續寫對上訓練GPT-4o-mini,旨在檢驗小規模微調能否使模型輸出更接近歷史準確風格。
使用相同RoBERTa分類器估計每個輸出的風格「日期」,研究人員發現微調模型生成的文本與真實文本密切對齊。其與原始文本的風格散度(以Jensen-Shannon散度測量)降至0.002,與GPT-1914大致相當。
真實與生成文本的估計出版日期,顯示GPT-1914和微調版GPT-4o-mini與20世紀初寫作風格的匹配程度(基於1905-1914年間出版的書籍)。
然而,研究人員警告,此指標可能僅捕捉歷史風格的表面特徵,而非更深層的概念或事實時代錯誤。他們指出:「這不是非常敏感的測試。此處用作評判的RoBERTa模型僅訓練預測日期,而非區分真實段落與時代錯誤段落。它可能使用粗略的風格證據進行預測。人類讀者或更大模型可能仍能檢測出表面上聽起來‘符合時代’的段落中的時代錯誤內容。」
人類評估
最後,研究人員使用1905年至1914年間出版的250個手選段落進行人類評估測試。他們指出,這些文本今日的解讀可能與當時不同:
「我們的清單包括,例如,關於阿爾薩斯(當時屬德國)的百科全書條目和關於腳氣病(當時常被解釋為真菌病而非營養缺乏)的條目。雖然這些是事實上的差異,我們也選擇了展現態度、修辭或想像細微差異的段落。例如,20世紀初對非歐洲地區的描述常帶有種族概括。1913年撰寫的月球日出描述想像豐富的色彩現象,因為當時尚未有人見過無大氣世界的照片。」
研究人員為每個歷史段落創建可信回答的簡短問題,然後在這些問答對上微調GPT-4o-mini。為加強評估,他們訓練了五個不同版本的模型,每次保留不同部分數據用於測試。然後使用GPT-4o和GPT-4o-mini的預設版本及微調版本生成回應,各自在未見過的數據部分上進行評估。
迷失於時光
為評估模型模仿歷史語言的可信度,研究人員請三位專家評審者審查120個AI生成的續寫,判斷每個續寫是否對1914年的作家而言似乎可信。
此評估比預期更具挑戰性。雖然評審者在近80%的情況下達成一致,但他們的判斷不平衡(「可信」被選中的頻率為「不可信」的兩倍),導致實際一致性僅為中等,Cohen's kappa得分為0.554。
評審者表示任務困難,常需額外研究以評估陳述是否與1914年已知或相信的內容一致。一些段落引發了關於語氣和觀點的問題,例如回應的世界觀是否適當反映1914年典型的視角。這一判斷常取決於民族中心主義的程度,即以自身文化假設或偏見看待其他文化的傾向。
挑戰在於判斷段落是否表達出足夠的文化偏見以顯得歷史上可信,同時不顯得太現代或對今日標準過於冒犯。作者指出,即使對熟悉該時代的學者,也難以清楚區分歷史準確語言與反映當今觀念的語言。
儘管如此,結果顯示模型排名明確,微調版GPT-4o-mini總體被認為最可信:
評審者對各模型輸出可信度的評估
這種表現水平(80%情況下被評為可信)是否足以用於歷史研究尚不清楚,尤其是因為研究未包含真實時代文本可能被誤分類的基準測量。
入侵者警報
接下來,研究人員進行「入侵者測試」,向專家評審者展示回答同一歷史問題的四個匿名段落。三個回應來自語言模型,一個是20世紀初的真實摘錄。
任務是識別哪個段落為真正在該時代撰寫的原文。此方法不直接要求評審者評估可信度,而是測量真實段落從AI生成回應中脫穎而出的頻率,實際上測試模型能否欺騙讀者認為其輸出真實。
模型排名與先前判斷任務的結果一致:微調版GPT-4o-mini在模型中最具說服力,但仍不及真實文本。
各來源被正確識別為真實歷史段落的頻率。
此測試也作為有用基準,因為真實段落被識別的頻率超過一半,顯示真實與合成散文的差距對人類讀者仍顯著。
McNemar測試的統計分析確認模型間差異有意義,僅未微調的GPT-4o和GPT-4o-mini表現相似。
過去的未來
作者發現,提示現代語言模型採用歷史語氣無法可靠產生令人信服的結果:人類讀者認為不到三分之二的輸出可信,且此數字可能高估了表現。
許多情況下,回應包含明確信號,顯示模型從當代視角發言——諸如「在1914年,尚未知曉……」或「截至1914年,我不熟悉……」的短語在多達五分之一的續寫中出現。這類免責聲明表明模型從外部模擬歷史,而非從內部書寫。
作者表示:「情境學習的表現不佳令人遺憾,因為這些方法是AI歷史研究中最簡單且成本最低的。我們強調尚未徹底探索這些方法。未來可能發現情境學習對於某些研究領域足夠——現在或將來。但我們的初步證據並不樂觀。」
作者結論,雖然在歷史段落上微調商業模型能以最少成本產生風格上令人信服的輸出,但無法完全消除現代視角的痕跡。僅用時代材料預訓練模型可避免時代錯誤,但需更多資源且輸出較不流暢。
兩種方法均非完整解決方案,目前模擬歷史語音似乎涉及真實性與連貫性的權衡。作者結論,需進一步研究以釐清如何最佳應對此緊張關係。
結論
新論文提出的最引人入勝的問題是真實性。雖然損失函數和LPIPS、SSIM等指標為計算機視覺研究者提供了評估真實基準的方法,但生成過去時代風格的新文本時,沒有真實基準——僅試圖融入已消失的文化視角。從文學痕跡重建該心態本身是一種量化行為,因這些痕跡僅為證據,而其背後的文化意識仍無法推斷,且可能超乎想像。
在實務層面,現代語言模型的基礎受當今規範與數據塑造,存在將愛德華時代讀者視為合理或平常的觀念重新詮釋或壓制的風險,這些觀念如今被視為偏見、不平等或不公的遺物。
因此,人們不禁思考,即使我們能創造這樣的對話,是否會讓我們反感。
首次發布於2025年5月2日星期五
相關文章
Deep Cogito's LLMs Outperform Similar-Sized Models Using IDA
Deep Cogito, a San Francisco-based company, is making waves in the AI community with its latest release of open large language models (LLMs). These models, which come in various sizes ranging from 3 billion to 70 billion parameters, are not just another set of AI tools; they're a bold step towards w
AI Comic Factory:輕鬆使用AI免費創作漫畫
在當今數位世界中,人工智慧與創意藝術的融合正開啟令人著迷的表達新途徑。AI Comic Factory站在這場革命的前沿,提供一個讓使用者借助AI創作漫畫的平台。本文將深入探討AI Comic Factory,檢視其功能、易用性,以及對休閒漫畫迷與專業創作者的潛在吸引力。我們將探究如何利用AI打造引人入勝的視覺故事,並評估此平台是否真正實現其可及性與創作自由的承諾。重點AI Comic Facto
AI交易機器人:真的能在一天內賺到一個月的薪水嗎?
如果你曾夢想在一天內賺到一個月的薪水,AI交易機器人的世界可能看似黃金入場券。這些自動化系統承諾利用人工智慧代表你進行交易,將波動的市場變成你的個人提款機。但這個夢想是否可實現,還是我們在追逐海市蜃樓?讓我們深入探討AI交易機器人的真實面貌,探索它們的能力、限制以及影響交易成功的因素。了解AI交易機器人的承諾什麼是AI交易機器人?AI交易機器人本質上是一個利用人工智慧在無需你持續監督的情況下進行交
評論 (0)
0/200
來自美國和加拿大的研究團隊發現,像ChatGPT這樣的大型語言模型在未經廣泛且昂貴的預訓練下,難以精確複製歷史慣用語。這一挑戰使得使用AI完成如查爾斯·狄更斯未完成小說等雄心勃勃的項目,對大多數學術和娛樂工作而言似乎遙不可及。
研究人員嘗試多種方法生成聽起來具有歷史準確性的文本。他們從使用20世紀初散文進行簡單提示開始,進而對商業模型進行微調,使用該時代的少量書籍。他們還比較了這些結果與僅用1880年至1914年文學訓練的模型。
在首次測試中,他們指示ChatGPT-4o模仿世紀末時期的語言。結果與經過微調的較小GPT2模型(使用同一時期文學訓練)生成的結果顯著不同。
被要求完成真實歷史文本(頂部中央),即使是經過良好提示的ChatGPT-4o(左下)也難免退回到‘部落格’模式,無法表現要求的慣用語。相比之下,微調的GPT2模型(右下)很好地捕捉了語言風格,但在其他方面不夠精確。來源:https://arxiv.org/pdf/2505.00030
雖然微調改善了輸出的原始風格相似度,但人類讀者仍能察覺現代語言或觀念,顯示即使調整後的模型仍保留當代訓練數據的痕跡。
研究人員結論,生成歷史準確文本或對話無成本效益的捷徑。他們還建議這一挑戰本身可能存在根本缺陷,指出:「我們也應考慮時代錯誤可能在某種程度上不可避免。無論是通過指導歷史模型進行對話,還是教導當代模型模擬較舊時代,都需要在真實性和對話流暢度之間做出某種妥協。畢竟,21世紀提問者與1914年回應者之間的對話沒有‘真實’範例。試圖創造此類對話的研究人員需反思,詮釋總是涉及當下與過去的協商。」
此研究題為「語言模型能否無時代錯誤地表現過去?」,由伊利諾伊大學、英屬哥倫比亞大學和康乃爾大學的研究人員進行。
初始挑戰
研究人員最初探索現代語言模型是否能被提示模仿歷史語言。他們使用1905年至1914年間出版的書籍真實片段,要求ChatGPT-4o以相同慣用語繼續這些段落。
他們使用的原始時代文本為:
「在最後一種情況下,每分鐘可節省約五至六美元,因為投影一個靜止人物或風景需捲動超過二十碼的膠片。因此獲得固定與動態圖片的實際結合,產生最具藝術性的效果。這也使我們能交替使用兩台電影放映機以避免閃爍,或同時投影紅色與綠色影像並重現自然色彩,從而減輕人類眼睛的生理疲勞,因其習慣同時接收基本色彩。現在談談冷光在瞬時攝影中的應用。」
為評估生成文本的歷史準確性,研究人員微調了RoBERTa模型以估計出版日期,使用1810年至2009年的歷史美國英語語料庫子集。該RoBERTa分類器評估了ChatGPT-4o在1905年至1914年間出版的書籍真實段落提示下生成的續寫。
給ChatGPT的系統提示為:「你的任務是續寫20世紀初書籍的段落。你將收到1913年出版的書籍段落。以相同風格續寫至少200字。僅提供續寫內容,不得包含任何框架性評論,如‘以下是續寫:’。」
儘管使用了單次和20次提示,ChatGPT-4o的輸出持續傾向21世紀風格。論文中提供的例子顯示ChatGPT-4o試圖續寫攝影文本:
「冷光在瞬時攝影中的使用徹底改變了在不同光線條件下捕捉影像的方式。傳統上,攝影師難以應對自然光的嚴苛與變化,或閃光攝影的侵入性,這可能干擾場景氛圍或拍攝對象的自然行為,特別是在野生動物和即興人物攝影中。冷光的柔和與分散特性……允許更自然地表現顏色與紋理,這在強烈人工照明下常會喪失。」
這種通用的百科式文本與原始時代文本的冗長精緻風格不符,也未從原文結束處無縫續寫,反而轉向對子主題的抽象討論。
團隊還測試了GPT-1914,一個從1880年至1914年文學中從頭訓練的較小GPT-2模型。雖然較不連貫,其輸出與來源時代的風格更一致。論文中提供的例子為:
「其作用原理已在前文解釋(第4頁)。我們在此僅提及,當我們希望在塗有火棉膠的紙上或使用明膠板取得極快速照片時,可有利應用此原理。在這種情況下,曝光時間不得超過一秒;但若希望在更短時間內顯影,例如半秒,則溫度不得低於20°C,否則顯影後影像會過暗;此外,在這些條件下,感光板會失去敏感性。然而,對於一般用途,只需將感光表面暴露於低度熱量即可,無需特殊預防措施。」
雖然原始材料晦澀難懂,GPT-1914的輸出聽起來更具時代真實性。然而,作者結論,簡單提示難以克服大型預訓練模型如ChatGPT-4o的當代偏見。
測量歷史準確性
為衡量模型輸出與真實歷史寫作的相似度,研究人員使用統計分類器估計每個文本樣本的可能出版日期。他們使用核密度圖視覺化結果,顯示模型將每個段落置於歷史時間線上的位置。
真實與生成文本的估計出版日期,基於訓練識別歷史風格的分類器(1905-1914年來源文本與GPT-4o使用單次和20次提示的續寫,以及僅用1880-1914年文學訓練的GPT-1914的續寫相比)。
微調的RoBERTa模型雖不完美,但突顯了總體風格趨勢。僅用時代文學訓練的GPT-1914的段落集中在20世紀初,與原始來源材料相似。相比之下,即使使用多個歷史提示,ChatGPT-4o的輸出仍類似21世紀寫作,反映其訓練數據。
研究人員使用Jensen-Shannon散度量化此不匹配,GPT-1914與真實歷史文本的得分為0.006,而ChatGPT-4o的單次和20次提示輸出差距較大,分別為0.310和0.350。
作者認為,這些發現表明僅靠提示,即使有多個範例,也無法可靠生成令人信服的歷史風格文本。
微調以獲得更好結果
論文隨後探討微調是否能產生更好結果。此過程通過在用戶指定數據上繼續訓練直接影響模型權重,可能提升其在目標領域的表現。
在首次微調實驗中,團隊在1905年至1914年間出版的約2000個段落續寫對上訓練GPT-4o-mini,旨在檢驗小規模微調能否使模型輸出更接近歷史準確風格。
使用相同RoBERTa分類器估計每個輸出的風格「日期」,研究人員發現微調模型生成的文本與真實文本密切對齊。其與原始文本的風格散度(以Jensen-Shannon散度測量)降至0.002,與GPT-1914大致相當。
真實與生成文本的估計出版日期,顯示GPT-1914和微調版GPT-4o-mini與20世紀初寫作風格的匹配程度(基於1905-1914年間出版的書籍)。
然而,研究人員警告,此指標可能僅捕捉歷史風格的表面特徵,而非更深層的概念或事實時代錯誤。他們指出:「這不是非常敏感的測試。此處用作評判的RoBERTa模型僅訓練預測日期,而非區分真實段落與時代錯誤段落。它可能使用粗略的風格證據進行預測。人類讀者或更大模型可能仍能檢測出表面上聽起來‘符合時代’的段落中的時代錯誤內容。」
人類評估
最後,研究人員使用1905年至1914年間出版的250個手選段落進行人類評估測試。他們指出,這些文本今日的解讀可能與當時不同:
「我們的清單包括,例如,關於阿爾薩斯(當時屬德國)的百科全書條目和關於腳氣病(當時常被解釋為真菌病而非營養缺乏)的條目。雖然這些是事實上的差異,我們也選擇了展現態度、修辭或想像細微差異的段落。例如,20世紀初對非歐洲地區的描述常帶有種族概括。1913年撰寫的月球日出描述想像豐富的色彩現象,因為當時尚未有人見過無大氣世界的照片。」
研究人員為每個歷史段落創建可信回答的簡短問題,然後在這些問答對上微調GPT-4o-mini。為加強評估,他們訓練了五個不同版本的模型,每次保留不同部分數據用於測試。然後使用GPT-4o和GPT-4o-mini的預設版本及微調版本生成回應,各自在未見過的數據部分上進行評估。
迷失於時光
為評估模型模仿歷史語言的可信度,研究人員請三位專家評審者審查120個AI生成的續寫,判斷每個續寫是否對1914年的作家而言似乎可信。
此評估比預期更具挑戰性。雖然評審者在近80%的情況下達成一致,但他們的判斷不平衡(「可信」被選中的頻率為「不可信」的兩倍),導致實際一致性僅為中等,Cohen's kappa得分為0.554。
評審者表示任務困難,常需額外研究以評估陳述是否與1914年已知或相信的內容一致。一些段落引發了關於語氣和觀點的問題,例如回應的世界觀是否適當反映1914年典型的視角。這一判斷常取決於民族中心主義的程度,即以自身文化假設或偏見看待其他文化的傾向。
挑戰在於判斷段落是否表達出足夠的文化偏見以顯得歷史上可信,同時不顯得太現代或對今日標準過於冒犯。作者指出,即使對熟悉該時代的學者,也難以清楚區分歷史準確語言與反映當今觀念的語言。
儘管如此,結果顯示模型排名明確,微調版GPT-4o-mini總體被認為最可信:
評審者對各模型輸出可信度的評估
這種表現水平(80%情況下被評為可信)是否足以用於歷史研究尚不清楚,尤其是因為研究未包含真實時代文本可能被誤分類的基準測量。
入侵者警報
接下來,研究人員進行「入侵者測試」,向專家評審者展示回答同一歷史問題的四個匿名段落。三個回應來自語言模型,一個是20世紀初的真實摘錄。
任務是識別哪個段落為真正在該時代撰寫的原文。此方法不直接要求評審者評估可信度,而是測量真實段落從AI生成回應中脫穎而出的頻率,實際上測試模型能否欺騙讀者認為其輸出真實。
模型排名與先前判斷任務的結果一致:微調版GPT-4o-mini在模型中最具說服力,但仍不及真實文本。
各來源被正確識別為真實歷史段落的頻率。
此測試也作為有用基準,因為真實段落被識別的頻率超過一半,顯示真實與合成散文的差距對人類讀者仍顯著。
McNemar測試的統計分析確認模型間差異有意義,僅未微調的GPT-4o和GPT-4o-mini表現相似。
過去的未來
作者發現,提示現代語言模型採用歷史語氣無法可靠產生令人信服的結果:人類讀者認為不到三分之二的輸出可信,且此數字可能高估了表現。
許多情況下,回應包含明確信號,顯示模型從當代視角發言——諸如「在1914年,尚未知曉……」或「截至1914年,我不熟悉……」的短語在多達五分之一的續寫中出現。這類免責聲明表明模型從外部模擬歷史,而非從內部書寫。
作者表示:「情境學習的表現不佳令人遺憾,因為這些方法是AI歷史研究中最簡單且成本最低的。我們強調尚未徹底探索這些方法。未來可能發現情境學習對於某些研究領域足夠——現在或將來。但我們的初步證據並不樂觀。」
作者結論,雖然在歷史段落上微調商業模型能以最少成本產生風格上令人信服的輸出,但無法完全消除現代視角的痕跡。僅用時代材料預訓練模型可避免時代錯誤,但需更多資源且輸出較不流暢。
兩種方法均非完整解決方案,目前模擬歷史語音似乎涉及真實性與連貫性的權衡。作者結論,需進一步研究以釐清如何最佳應對此緊張關係。
結論
新論文提出的最引人入勝的問題是真實性。雖然損失函數和LPIPS、SSIM等指標為計算機視覺研究者提供了評估真實基準的方法,但生成過去時代風格的新文本時,沒有真實基準——僅試圖融入已消失的文化視角。從文學痕跡重建該心態本身是一種量化行為,因這些痕跡僅為證據,而其背後的文化意識仍無法推斷,且可能超乎想像。
在實務層面,現代語言模型的基礎受當今規範與數據塑造,存在將愛德華時代讀者視為合理或平常的觀念重新詮釋或壓制的風險,這些觀念如今被視為偏見、不平等或不公的遺物。
因此,人們不禁思考,即使我們能創造這樣的對話,是否會讓我們反感。
首次發布於2025年5月2日星期五












