AI затрудняется с эмуляцией исторического языка
Команда исследователей из США и Канады обнаружила, что большие языковые модели, такие как ChatGPT, испытывают трудности с точным воспроизведением исторических идиом без обширной и дорогостоящей предварительной подготовки. Эта проблема делает амбициозные проекты, такие как использование AI для завершения последнего незавершенного романа Чарльза Диккенса, недостижимыми для большинства академических и развлекательных инициатив.
Исследователи экспериментировали с различными методами для генерации текста, звучащего исторически достоверно. Они начали с простых подсказок, используя прозу начала 20-го века, и перешли к тонкой настройке коммерческой модели на небольшом наборе книг того времени. Также они сравнили эти результаты с моделью, обученной исключительно на литературе с 1880 по 1914 год.
В первом тесте они поручили ChatGPT-4o имитировать язык периода fin-de-siècle. Результаты значительно отличались от тех, что были получены с меньшей, тонко настроенной моделью GPT2, обученной на литературе того же времени.
При попытке завершить реальный исторический текст (вверху по центру), даже хорошо подготовленный ChatGPT-4o (внизу слева) не может избежать возвращения к 'блоговому' режиму, не представляя запрошенную идиому. В отличие от этого, тонко настроенная модель GPT2 (внизу справа) хорошо улавливает стиль языка, но менее точна в других аспектах. Источник: https://arxiv.org/pdf/2505.00030
Хотя тонкая настройка улучшила сходство вывода с оригинальным стилем, человеческие читатели все еще могли обнаружить современный язык или идеи, что указывает на то, что даже адаптированные модели сохраняют следы своих современных обучающих данных.
Исследователи пришли к выводу, что нет экономически эффективных способов генерации исторически точного текста или диалога с помощью машин. Они также предположили, что сама задача может быть изначально ошибочной, заявив: «Мы также должны учитывать возможность того, что анахронизм в каком-то смысле неизбежен. Представляем ли мы прошлое, настраивая исторические модели для ведения диалогов, или обучая современные модели имитировать старый период, может потребоваться компромисс между целями аутентичности и разговорной беглости. Ведь нет 'аутентичных' примеров разговора между задающим вопросы из двадцать первого века и респондентом из 1914 года. Исследователям, пытающимся создать такой диалог, придется задуматься о том, что интерпретация всегда предполагает переговоры между настоящим и прошлым».
Исследование под названием «Могут ли языковые модели представлять прошлое без анахронизма?» было проведено исследователями из Университета Иллинойса, Университета Британской Колумбии и Корнеллского университета.
Начальные трудности
Исследователи изначально изучали, могут ли современные языковые модели быть настроены на имитацию исторического языка. Они использовали реальные отрывки из книг, опубликованных между 1905 и 1914 годами, прося ChatGPT-4o продолжить эти отрывки в той же идиоме.
Оригинальный текст периода был следующим:
«В последнем случае экономится около пяти или шести долларов в минуту, поскольку более двадцати ярдов пленки должны быть прокручены, чтобы спроецировать за одну минуту объект человека в покое или пейзаж. Таким образом достигается практичное сочетание фиксированных и движущихся изображений, что создает наиболее художественные эффекты. Это также позволяет нам работать с двумя кинематографами, проецирующими поочередно, чтобы избежать мерцания, или одновременно проецирующими красные и зеленые изображения и воспроизводящими естественные цвета, тем самым избавляя человеческий глаз, привыкший принимать основные цвета одновременно, от всякой физиологической усталости. Теперь слово о применении холодного света к мгновенной фотографии».
Для оценки исторической точности сгенерированного текста исследователи тонко настроили модель RoBERTa для оценки дат публикации, используя подмножество Корпуса исторического американского английского, охватывающего материалы с 1810 по 2009 год. Этот классификатор RoBERTa оценивал продолжения, созданные ChatGPT-4o, с использованием реальных отрывков из книг, опубликованных между 1905 и 1914 годами.
Системная подсказка для ChatGPT была следующей: «Ваша задача — завершить отрывки из книг начала двадцатого века. Вам будет дан отрывок из книги, опубликованной в 1913 году. Продолжите этот отрывок в том же стиле, не менее чем на 200 слов. Предоставьте только это продолжение; не делайте никаких вводных замечаний, таких как 'вот продолжение:'».
Несмотря на использование одноразовых и 20-разовых подсказок, выводы ChatGPT-4o постоянно склонялись к стилю 21-го века. Пример, приведенный в статье, показал попытку ChatGPT-4o продолжить текст о фотографии:
«Использование холодного света в мгновенной фотографии произвело революцию в подходе к съемке изображений при различных условиях освещения. Традиционно фотографы боролись с жесткостью и изменчивостью естественного света или с навязчивой природой вспышки, которая могла нарушить атмосферу сцены или естественное поведение объектов, особенно в дикой природе и откровенной человеческой фотографии. Холодный свет, с его более мягкой и рассеянной природой... позволяет более естественно представлять цвета и текстуры, которые часто теряются при жестком искусственном освещении».
Этот общий, вики-стилевой текст не соответствовал многословному и изысканному стилю оригинального текста периода и не продолжался плавно с того места, где оригинал остановился. Вместо этого он ушел в абстрактное обсуждение одной из подтем.
Команда также протестировала GPT-1914, меньшую модель GPT-2, обученную с нуля на литературе с 1880 по 1914 год. Хотя она была менее связной, ее вывод был более согласован со стилем исходного периода. Пример, приведенный в статье, был следующим:
«Принцип его действия уже был объяснен (стр. 4). Здесь мы только упомянем, что он может быть применен с преимуществом, когда мы хотим получить очень быстрые фотографии на бумаге, покрытой коллодием, а также на тех, что сделаны с помощью желатиновых пластин. В таких случаях экспозиция не должна превышать одной секунды; но если требуется, чтобы изображение проявилось за меньшее время – скажем, за полсекунды – тогда температура не должна опускаться ниже 20° C., иначе изображение станет слишком темным после проявления; кроме того, пластина потеряет свою чувствительность в этих условиях. Для обычных целей, однако, достаточно просто подвергнуть чувствительную поверхность низкой степени нагрева без каких-либо специальных мер предосторожности».
Хотя оригинальный материал был сложным и трудным для понимания, вывод GPT-1914 звучал более аутентично для периода. Однако авторы заключили, что простые подсказки мало помогают преодолеть современные предубеждения, присущие большим предварительно обученным моделям, таким как ChatGPT-4o.
Измерение исторической точности
Чтобы оценить, насколько близко выводы моделей соответствуют аутентичному историческому письму, исследователи использовали статистический классификатор для оценки вероятной даты публикации каждого текстового образца. Они визуализировали результаты с помощью графика плотности ядра, показывающего, где модель размещает каждый отрывок на исторической временной шкале.
Оценочные даты публикации для реального и сгенерированного текста, основанные на классификаторе, обучении распознавать исторический стиль (тексты 1905–1914 годов в сравнении с продолжениями от GPT-4o с одноразовыми и 20-разовыми подсказками и от GPT-1914, обученного только на литературе с 1880 по 1914).
Тонко настроенная модель RoBERTa, хотя и несовершенная, выделила общие стилистические тенденции. Отрывки от GPT-1914, обученные исключительно на литературе периода, группировались вокруг начала XX века, подобно оригинальному исходному материалу. В отличие от этого, выводы ChatGPT-4o, даже с несколькими историческими подсказками, напоминали письмо XXI века, отражая его обучающие данные.
Исследователи количественно определили это несоответствие, используя дивергенцию Дженсена-Шеннона, измеряющую разницу между двумя распределениями вероятностей. GPT-1914 получил близкий результат 0.006 по сравнению с реальным историческим текстом, тогда как одноразовые и 20-разовые выводы ChatGPT-4o показали значительно большие разрывы в 0.310 и 0.350 соответственно.
Авторы утверждают, что эти результаты показывают, что только подсказки, даже с несколькими примерами, не являются надежным методом для создания текста, который убедительно имитирует исторический стиль.
Тонкая настройка для лучших результатов
Статья затем исследовала, может ли тонкая настройка дать лучшие результаты. Этот процесс напрямую влияет на веса модели, продолжая ее обучение на указанных пользователем данных, потенциально улучшая производительность в целевой области.
В первом эксперименте по тонкой настройке команда обучила GPT-4o-mini на примерно двух тысячах пар завершения отрывков из книг, опубликованных между 1905 и 1914 годами. Они стремились выяснить, может ли мелкомасштабная тонкая настройка сдвинуть выводы модели в сторону более исторически точного стиля.
Используя тот же классификатор на основе RoBERTa для оценки стилистической 'даты' каждого вывода, исследователи обнаружили, что тонко настроенная модель создавала текст, близко соответствующий истине. Ее стилистическая дивергенция от оригинальных текстов, измеренная дивергенцией Дженсена-Шеннона, снизилась до 0.002, в целом соответствуя GPT-1914.
Оценочные даты публикации для реального и сгенерированного текста, показывающие, насколько близко GPT-1914 и тонко настроенная версия GPT-4o-mini соответствуют стилю письма начала двадцатого века (на основе книг, опубликованных между 1905 и 1914 годами).
Однако исследователи предостерегли, что эта метрика может улавливать только поверхностные особенности исторического стиля, а не более глубокие концептуальные или фактические анахронизмы. Они отметили: «Это не очень чувствительный тест. Модель RoBERTa, используемая здесь в качестве судьи, обучена только предсказывать дату, а не различать аутентичные отрывки от анахронистичных. Вероятно, она использует грубые стилистические доказательства для этого предсказания. Человеческие читатели или более крупные модели все еще могут обнаружить анахронистическое содержание в отрывках, которые на первый взгляд звучат 'в духе периода'».
Оценка человеком
Наконец, исследователи провели тесты оценки человеком, используя 250 тщательно отобранных отрывков из книг, опубликованных между 1905 и 1914 годами. Они отметили, что многие из этих текстов, вероятно, сегодня интерпретировались бы иначе, чем во время написания:
«Наш список включал, например, энциклопедическую статью об Эльзасе (который тогда был частью Германии) и одну о бери-бери (которую тогда часто объясняли грибковой болезнью, а не дефицитом питания). Хотя это различия в фактах, мы также выбирали отрывки, которые показывали бы более тонкие различия в отношении, риторике или воображении. Например, описания неевропейских мест в начале двадцатого века часто скатывались к расовым обобщениям. Описание восхода солнца на Луне, написанное в 1913 году, представляет богатые хроматические феномены, потому что никто еще не видел фотографий мира без атмосферы».
Исследователи создали короткие вопросы, на которые каждый исторический отрывок мог бы правдоподобно ответить, затем тонко настроили GPT-4o-mini на этих парах вопросов и ответов. Для усиления оценки они обучили пять отдельных версий модели, каждый раз удерживая разные части данных для тестирования. Затем они создали ответы, используя как стандартные версии GPT-4o и GPT-4o-mini, так и тонко настроенные варианты, каждый из которых оценивался на части, которую он не видел во время обучения.
Потерянные во времени
Чтобы оценить, насколько убедительно модели могут имитировать исторический язык, исследователи попросили трех экспертных аннотаторов просмотреть 120 сгенерированных AI завершений и определить, кажется ли каждое из них правдоподобным для писателя 1914 года.
Эта оценка оказалась сложнее, чем ожидалось. Хотя аннотаторы соглашались в своих оценках почти в восьмидесяти процентах случаев, дисбаланс в их суждениях (с 'правдоподобным', выбранным в два раза чаще, чем 'неправдоподобным') означал, что их фактический уровень согласия был лишь умеренным, измеренный коэффициентом Каппа Коэна 0.554.
Оценщики описали задачу как сложную, часто требующую дополнительных исследований, чтобы оценить, соответствует ли утверждение тому, что было известно или считалось в 1914 году. Некоторые отрывки вызывали вопросы о тоне и перспективе, например, была ли реакция достаточно ограниченной в мировоззрении, чтобы отражать то, что было бы типичным в 1914 году. Это суждение часто зависело от уровня этноцентризма, тенденции рассматривать другие культуры через предположения или предубеждения своей собственной.
Задача заключалась в том, чтобы решить, выражает ли отрывок достаточно культурных предубеждений, чтобы казаться исторически правдоподобным, не звучав слишком современно или слишком откровенно оскорбительно по сегодняшним стандартам. Авторы отметили, что даже для ученых, знакомых с периодом, было трудно провести четкую грань между языком, который казался исторически точным, и языком, который отражал современные идеи.
Тем не менее, результаты показали четкое ранжирование моделей, причем тонко настроенная версия GPT-4o-mini была признана наиболее правдоподобной в целом:
Оценки аннотаторов того, насколько правдоподобным кажется вывод каждой модели
Является ли этот уровень производительности, оцененный как правдоподобный в восьмидесяти процентах случаев, достаточно надежным для исторических исследований, остается неясным, особенно поскольку исследование не включало базовую меру того, как часто подлинные тексты периода могли бы быть ошибочно классифицированы.
Сигнал тревоги о вторжении
Далее исследователи провели тест 'вторжения', где экспертным аннотаторам показывали четыре анонимных отрывка, отвечающих на один и тот же исторический вопрос. Три ответа были от языковых моделей, в то время как один был настоящим отрывком из источника начала XX века.
Задача состояла в том, чтобы определить, какой отрывок был оригинальным, действительно написанным в тот период. Этот подход не требовал от аннотаторов напрямую оценивать правдоподобность, а измерял, насколько часто настоящий текст выделялялся среди ответов, созданных AI, эффективно тестируя, могут ли модели обмануть читателей, заставляя их думать, что их вывод аутентичен.
Ранжирование моделей соответствовало результатам предыдущей задачи суждения: тонко настроенная версия GPT-4o-mini была самой убедительной среди моделей, но все же уступала настоящему.
Частота, с которой каждый источник был правильно определен как аутентичный исторический текст.
Этот тест также послужил полезным эталоном, поскольку настоящий отрывок был идентифицирован более чем в половине случаев, что указывает на то, что разрыв между аутентичной и синтетической прозой оставался заметным для читателей.
Статистический анализ, известный как тест МакНемара, подтвердил, что различия между моделями были значительными, за исключением случая двух ненастроенных версий (GPT-4o и GPT-4o-mini), которые показали схожие результаты.
Будущее прошлого
Авторы установили, что побуждение современных языковых моделей принять исторический голос не дает надежно убедительных результатов: менее двух третьих выводов были признаны правдоподобными читателями, и даже эта цифра, вероятно, завышает производительность.
Во многих случаях ответы включали явные сигналы, что модель говорит с современной перспективы — фразы вроде «в 1914 году еще неизвестно, что...» или «на 1914 года я не знаком с...» были достаточно распространены, чтобы появляться в каждой пятой пятой части завершений. Оговорки такого рода ясно показывали, что модель симулирует историю извне, а не пишет изнутри.
Авторы заявили: «Низкая производительность обучения в контексте прискорбна, поскольку эти методы являются наиболее простыми и дешевыми для исторических исследований на основе AI. Мы подчеркиваем, что мы не исследовали эти подходы исчерпывающе. Может оказаться, что обучение в контексте достаточно — сейчас или в будущем — для подмножества исследовательских областей. Но наши первые доказательства не внушают оптимизма».
Авторы заключили, что, хотя тонкая настройка коммерческой модели на исторических отрывках может создать стилистически убедительный вывод при минимальных ценах, это не полностью устраняет следы современной перспективы. Предварительная обучение модели полностью на материале периода позволяет избежать анахронизмов, но требует значительно больших ресурсов и приводит к менее беглому выводу.
Ни один из методов не предлагает полного решения, и на данный момент любая попытка имитации исторических голосов, кажется, предполагает компромисс между аутентичностью и связностью. Авторы заключают, что для дальнейших исследований потребуется уточнить, как лучше справляться с этим напряжением.
Заключение
Одним из самых интригующих вопросов, поднятых новой статьей, является вопрос аутентичности. Хотя они не являются идеальными инструментами, функции потерь и метрики, такие как LPIPS и SSIM, дают исследователям компьютерного зрения методологию для оценки по сравнению с истинной основой. Однако при создании нового текста в стиле ушедшей эпохи истинной основы не существует — есть только попытка воплотить исчезнувшую культурную перспективу. Пытаться восстановить этот менталитет из литературных следов — это само по себе действие квантификации, поскольку эти следы — лишь доказательства, тогда как культурное сознание, из которого они возникли, остается недоступным для вывода и, вероятно, за пределами воображения.
На практическом уровне основы современных языковых моделей, сформированных современными нормами и данными, рискуют переосмыслить или подавить идеи, которые казались бы разумными или незначительными читателю эпохи Эдвардов, но теперь воспринимаются как артефакты предубеждений, неравенства или несправедливости.
Возникает вопрос, даже если бы мы могли создать такой диалог, не оттолкнет ли он нас.
Впервые опубликовано в пятницу, 2 мая 2025 года
Связанная статья
Deep Cogito's LLMs Outperform Similar-Sized Models Using IDA
Deep Cogito, a San Francisco-based company, is making waves in the AI community with its latest release of open large language models (LLMs). These models, which come in various sizes ranging from 3 billion to 70 billion parameters, are not just another set of AI tools; they're a bold step towards w
AI Comic Factory: Легкое создание комиксов бесплатно с помощью ИИ
В современном цифровом мире сочетание искусственного интеллекта и творческих искусств открывает новые увлекательные возможности для самовыражения. AI Comic Factory находится на передовой этой революци
AI Trading Bots: Можно ли действительно заработать месячную зарплату за день?
Если вы когда-либо мечтали заработать месячную зарплату за один день, мир AI trading bots может показаться золотым билетом. Эти автоматизированные системы обещают использовать искусственный интеллект
Комментарии (0)
Команда исследователей из США и Канады обнаружила, что большие языковые модели, такие как ChatGPT, испытывают трудности с точным воспроизведением исторических идиом без обширной и дорогостоящей предварительной подготовки. Эта проблема делает амбициозные проекты, такие как использование AI для завершения последнего незавершенного романа Чарльза Диккенса, недостижимыми для большинства академических и развлекательных инициатив.
Исследователи экспериментировали с различными методами для генерации текста, звучащего исторически достоверно. Они начали с простых подсказок, используя прозу начала 20-го века, и перешли к тонкой настройке коммерческой модели на небольшом наборе книг того времени. Также они сравнили эти результаты с моделью, обученной исключительно на литературе с 1880 по 1914 год.
В первом тесте они поручили ChatGPT-4o имитировать язык периода fin-de-siècle. Результаты значительно отличались от тех, что были получены с меньшей, тонко настроенной моделью GPT2, обученной на литературе того же времени.
При попытке завершить реальный исторический текст (вверху по центру), даже хорошо подготовленный ChatGPT-4o (внизу слева) не может избежать возвращения к 'блоговому' режиму, не представляя запрошенную идиому. В отличие от этого, тонко настроенная модель GPT2 (внизу справа) хорошо улавливает стиль языка, но менее точна в других аспектах. Источник: https://arxiv.org/pdf/2505.00030
Хотя тонкая настройка улучшила сходство вывода с оригинальным стилем, человеческие читатели все еще могли обнаружить современный язык или идеи, что указывает на то, что даже адаптированные модели сохраняют следы своих современных обучающих данных.
Исследователи пришли к выводу, что нет экономически эффективных способов генерации исторически точного текста или диалога с помощью машин. Они также предположили, что сама задача может быть изначально ошибочной, заявив: «Мы также должны учитывать возможность того, что анахронизм в каком-то смысле неизбежен. Представляем ли мы прошлое, настраивая исторические модели для ведения диалогов, или обучая современные модели имитировать старый период, может потребоваться компромисс между целями аутентичности и разговорной беглости. Ведь нет 'аутентичных' примеров разговора между задающим вопросы из двадцать первого века и респондентом из 1914 года. Исследователям, пытающимся создать такой диалог, придется задуматься о том, что интерпретация всегда предполагает переговоры между настоящим и прошлым».
Исследование под названием «Могут ли языковые модели представлять прошлое без анахронизма?» было проведено исследователями из Университета Иллинойса, Университета Британской Колумбии и Корнеллского университета.
Начальные трудности
Исследователи изначально изучали, могут ли современные языковые модели быть настроены на имитацию исторического языка. Они использовали реальные отрывки из книг, опубликованных между 1905 и 1914 годами, прося ChatGPT-4o продолжить эти отрывки в той же идиоме.
Оригинальный текст периода был следующим:
«В последнем случае экономится около пяти или шести долларов в минуту, поскольку более двадцати ярдов пленки должны быть прокручены, чтобы спроецировать за одну минуту объект человека в покое или пейзаж. Таким образом достигается практичное сочетание фиксированных и движущихся изображений, что создает наиболее художественные эффекты. Это также позволяет нам работать с двумя кинематографами, проецирующими поочередно, чтобы избежать мерцания, или одновременно проецирующими красные и зеленые изображения и воспроизводящими естественные цвета, тем самым избавляя человеческий глаз, привыкший принимать основные цвета одновременно, от всякой физиологической усталости. Теперь слово о применении холодного света к мгновенной фотографии».
Для оценки исторической точности сгенерированного текста исследователи тонко настроили модель RoBERTa для оценки дат публикации, используя подмножество Корпуса исторического американского английского, охватывающего материалы с 1810 по 2009 год. Этот классификатор RoBERTa оценивал продолжения, созданные ChatGPT-4o, с использованием реальных отрывков из книг, опубликованных между 1905 и 1914 годами.
Системная подсказка для ChatGPT была следующей: «Ваша задача — завершить отрывки из книг начала двадцатого века. Вам будет дан отрывок из книги, опубликованной в 1913 году. Продолжите этот отрывок в том же стиле, не менее чем на 200 слов. Предоставьте только это продолжение; не делайте никаких вводных замечаний, таких как 'вот продолжение:'».
Несмотря на использование одноразовых и 20-разовых подсказок, выводы ChatGPT-4o постоянно склонялись к стилю 21-го века. Пример, приведенный в статье, показал попытку ChatGPT-4o продолжить текст о фотографии:
«Использование холодного света в мгновенной фотографии произвело революцию в подходе к съемке изображений при различных условиях освещения. Традиционно фотографы боролись с жесткостью и изменчивостью естественного света или с навязчивой природой вспышки, которая могла нарушить атмосферу сцены или естественное поведение объектов, особенно в дикой природе и откровенной человеческой фотографии. Холодный свет, с его более мягкой и рассеянной природой... позволяет более естественно представлять цвета и текстуры, которые часто теряются при жестком искусственном освещении».
Этот общий, вики-стилевой текст не соответствовал многословному и изысканному стилю оригинального текста периода и не продолжался плавно с того места, где оригинал остановился. Вместо этого он ушел в абстрактное обсуждение одной из подтем.
Команда также протестировала GPT-1914, меньшую модель GPT-2, обученную с нуля на литературе с 1880 по 1914 год. Хотя она была менее связной, ее вывод был более согласован со стилем исходного периода. Пример, приведенный в статье, был следующим:
«Принцип его действия уже был объяснен (стр. 4). Здесь мы только упомянем, что он может быть применен с преимуществом, когда мы хотим получить очень быстрые фотографии на бумаге, покрытой коллодием, а также на тех, что сделаны с помощью желатиновых пластин. В таких случаях экспозиция не должна превышать одной секунды; но если требуется, чтобы изображение проявилось за меньшее время – скажем, за полсекунды – тогда температура не должна опускаться ниже 20° C., иначе изображение станет слишком темным после проявления; кроме того, пластина потеряет свою чувствительность в этих условиях. Для обычных целей, однако, достаточно просто подвергнуть чувствительную поверхность низкой степени нагрева без каких-либо специальных мер предосторожности».
Хотя оригинальный материал был сложным и трудным для понимания, вывод GPT-1914 звучал более аутентично для периода. Однако авторы заключили, что простые подсказки мало помогают преодолеть современные предубеждения, присущие большим предварительно обученным моделям, таким как ChatGPT-4o.
Измерение исторической точности
Чтобы оценить, насколько близко выводы моделей соответствуют аутентичному историческому письму, исследователи использовали статистический классификатор для оценки вероятной даты публикации каждого текстового образца. Они визуализировали результаты с помощью графика плотности ядра, показывающего, где модель размещает каждый отрывок на исторической временной шкале.
Оценочные даты публикации для реального и сгенерированного текста, основанные на классификаторе, обучении распознавать исторический стиль (тексты 1905–1914 годов в сравнении с продолжениями от GPT-4o с одноразовыми и 20-разовыми подсказками и от GPT-1914, обученного только на литературе с 1880 по 1914).
Тонко настроенная модель RoBERTa, хотя и несовершенная, выделила общие стилистические тенденции. Отрывки от GPT-1914, обученные исключительно на литературе периода, группировались вокруг начала XX века, подобно оригинальному исходному материалу. В отличие от этого, выводы ChatGPT-4o, даже с несколькими историческими подсказками, напоминали письмо XXI века, отражая его обучающие данные.
Исследователи количественно определили это несоответствие, используя дивергенцию Дженсена-Шеннона, измеряющую разницу между двумя распределениями вероятностей. GPT-1914 получил близкий результат 0.006 по сравнению с реальным историческим текстом, тогда как одноразовые и 20-разовые выводы ChatGPT-4o показали значительно большие разрывы в 0.310 и 0.350 соответственно.
Авторы утверждают, что эти результаты показывают, что только подсказки, даже с несколькими примерами, не являются надежным методом для создания текста, который убедительно имитирует исторический стиль.
Тонкая настройка для лучших результатов
Статья затем исследовала, может ли тонкая настройка дать лучшие результаты. Этот процесс напрямую влияет на веса модели, продолжая ее обучение на указанных пользователем данных, потенциально улучшая производительность в целевой области.
В первом эксперименте по тонкой настройке команда обучила GPT-4o-mini на примерно двух тысячах пар завершения отрывков из книг, опубликованных между 1905 и 1914 годами. Они стремились выяснить, может ли мелкомасштабная тонкая настройка сдвинуть выводы модели в сторону более исторически точного стиля.
Используя тот же классификатор на основе RoBERTa для оценки стилистической 'даты' каждого вывода, исследователи обнаружили, что тонко настроенная модель создавала текст, близко соответствующий истине. Ее стилистическая дивергенция от оригинальных текстов, измеренная дивергенцией Дженсена-Шеннона, снизилась до 0.002, в целом соответствуя GPT-1914.
Оценочные даты публикации для реального и сгенерированного текста, показывающие, насколько близко GPT-1914 и тонко настроенная версия GPT-4o-mini соответствуют стилю письма начала двадцатого века (на основе книг, опубликованных между 1905 и 1914 годами).
Однако исследователи предостерегли, что эта метрика может улавливать только поверхностные особенности исторического стиля, а не более глубокие концептуальные или фактические анахронизмы. Они отметили: «Это не очень чувствительный тест. Модель RoBERTa, используемая здесь в качестве судьи, обучена только предсказывать дату, а не различать аутентичные отрывки от анахронистичных. Вероятно, она использует грубые стилистические доказательства для этого предсказания. Человеческие читатели или более крупные модели все еще могут обнаружить анахронистическое содержание в отрывках, которые на первый взгляд звучат 'в духе периода'».
Оценка человеком
Наконец, исследователи провели тесты оценки человеком, используя 250 тщательно отобранных отрывков из книг, опубликованных между 1905 и 1914 годами. Они отметили, что многие из этих текстов, вероятно, сегодня интерпретировались бы иначе, чем во время написания:
«Наш список включал, например, энциклопедическую статью об Эльзасе (который тогда был частью Германии) и одну о бери-бери (которую тогда часто объясняли грибковой болезнью, а не дефицитом питания). Хотя это различия в фактах, мы также выбирали отрывки, которые показывали бы более тонкие различия в отношении, риторике или воображении. Например, описания неевропейских мест в начале двадцатого века часто скатывались к расовым обобщениям. Описание восхода солнца на Луне, написанное в 1913 году, представляет богатые хроматические феномены, потому что никто еще не видел фотографий мира без атмосферы».
Исследователи создали короткие вопросы, на которые каждый исторический отрывок мог бы правдоподобно ответить, затем тонко настроили GPT-4o-mini на этих парах вопросов и ответов. Для усиления оценки они обучили пять отдельных версий модели, каждый раз удерживая разные части данных для тестирования. Затем они создали ответы, используя как стандартные версии GPT-4o и GPT-4o-mini, так и тонко настроенные варианты, каждый из которых оценивался на части, которую он не видел во время обучения.
Потерянные во времени
Чтобы оценить, насколько убедительно модели могут имитировать исторический язык, исследователи попросили трех экспертных аннотаторов просмотреть 120 сгенерированных AI завершений и определить, кажется ли каждое из них правдоподобным для писателя 1914 года.
Эта оценка оказалась сложнее, чем ожидалось. Хотя аннотаторы соглашались в своих оценках почти в восьмидесяти процентах случаев, дисбаланс в их суждениях (с 'правдоподобным', выбранным в два раза чаще, чем 'неправдоподобным') означал, что их фактический уровень согласия был лишь умеренным, измеренный коэффициентом Каппа Коэна 0.554.
Оценщики описали задачу как сложную, часто требующую дополнительных исследований, чтобы оценить, соответствует ли утверждение тому, что было известно или считалось в 1914 году. Некоторые отрывки вызывали вопросы о тоне и перспективе, например, была ли реакция достаточно ограниченной в мировоззрении, чтобы отражать то, что было бы типичным в 1914 году. Это суждение часто зависело от уровня этноцентризма, тенденции рассматривать другие культуры через предположения или предубеждения своей собственной.
Задача заключалась в том, чтобы решить, выражает ли отрывок достаточно культурных предубеждений, чтобы казаться исторически правдоподобным, не звучав слишком современно или слишком откровенно оскорбительно по сегодняшним стандартам. Авторы отметили, что даже для ученых, знакомых с периодом, было трудно провести четкую грань между языком, который казался исторически точным, и языком, который отражал современные идеи.
Тем не менее, результаты показали четкое ранжирование моделей, причем тонко настроенная версия GPT-4o-mini была признана наиболее правдоподобной в целом:
Оценки аннотаторов того, насколько правдоподобным кажется вывод каждой модели
Является ли этот уровень производительности, оцененный как правдоподобный в восьмидесяти процентах случаев, достаточно надежным для исторических исследований, остается неясным, особенно поскольку исследование не включало базовую меру того, как часто подлинные тексты периода могли бы быть ошибочно классифицированы.
Сигнал тревоги о вторжении
Далее исследователи провели тест 'вторжения', где экспертным аннотаторам показывали четыре анонимных отрывка, отвечающих на один и тот же исторический вопрос. Три ответа были от языковых моделей, в то время как один был настоящим отрывком из источника начала XX века.
Задача состояла в том, чтобы определить, какой отрывок был оригинальным, действительно написанным в тот период. Этот подход не требовал от аннотаторов напрямую оценивать правдоподобность, а измерял, насколько часто настоящий текст выделялялся среди ответов, созданных AI, эффективно тестируя, могут ли модели обмануть читателей, заставляя их думать, что их вывод аутентичен.
Ранжирование моделей соответствовало результатам предыдущей задачи суждения: тонко настроенная версия GPT-4o-mini была самой убедительной среди моделей, но все же уступала настоящему.
Частота, с которой каждый источник был правильно определен как аутентичный исторический текст.
Этот тест также послужил полезным эталоном, поскольку настоящий отрывок был идентифицирован более чем в половине случаев, что указывает на то, что разрыв между аутентичной и синтетической прозой оставался заметным для читателей.
Статистический анализ, известный как тест МакНемара, подтвердил, что различия между моделями были значительными, за исключением случая двух ненастроенных версий (GPT-4o и GPT-4o-mini), которые показали схожие результаты.
Будущее прошлого
Авторы установили, что побуждение современных языковых моделей принять исторический голос не дает надежно убедительных результатов: менее двух третьих выводов были признаны правдоподобными читателями, и даже эта цифра, вероятно, завышает производительность.
Во многих случаях ответы включали явные сигналы, что модель говорит с современной перспективы — фразы вроде «в 1914 году еще неизвестно, что...» или «на 1914 года я не знаком с...» были достаточно распространены, чтобы появляться в каждой пятой пятой части завершений. Оговорки такого рода ясно показывали, что модель симулирует историю извне, а не пишет изнутри.
Авторы заявили: «Низкая производительность обучения в контексте прискорбна, поскольку эти методы являются наиболее простыми и дешевыми для исторических исследований на основе AI. Мы подчеркиваем, что мы не исследовали эти подходы исчерпывающе. Может оказаться, что обучение в контексте достаточно — сейчас или в будущем — для подмножества исследовательских областей. Но наши первые доказательства не внушают оптимизма».
Авторы заключили, что, хотя тонкая настройка коммерческой модели на исторических отрывках может создать стилистически убедительный вывод при минимальных ценах, это не полностью устраняет следы современной перспективы. Предварительная обучение модели полностью на материале периода позволяет избежать анахронизмов, но требует значительно больших ресурсов и приводит к менее беглому выводу.
Ни один из методов не предлагает полного решения, и на данный момент любая попытка имитации исторических голосов, кажется, предполагает компромисс между аутентичностью и связностью. Авторы заключают, что для дальнейших исследований потребуется уточнить, как лучше справляться с этим напряжением.
Заключение
Одним из самых интригующих вопросов, поднятых новой статьей, является вопрос аутентичности. Хотя они не являются идеальными инструментами, функции потерь и метрики, такие как LPIPS и SSIM, дают исследователям компьютерного зрения методологию для оценки по сравнению с истинной основой. Однако при создании нового текста в стиле ушедшей эпохи истинной основы не существует — есть только попытка воплотить исчезнувшую культурную перспективу. Пытаться восстановить этот менталитет из литературных следов — это само по себе действие квантификации, поскольку эти следы — лишь доказательства, тогда как культурное сознание, из которого они возникли, остается недоступным для вывода и, вероятно, за пределами воображения.
На практическом уровне основы современных языковых моделей, сформированных современными нормами и данными, рискуют переосмыслить или подавить идеи, которые казались бы разумными или незначительными читателю эпохи Эдвардов, но теперь воспринимаются как артефакты предубеждений, неравенства или несправедливости.
Возникает вопрос, даже если бы мы могли создать такой диалог, не оттолкнет ли он нас.
Впервые опубликовано в пятницу, 2 мая 2025 года












