AI enfrenta dificultades para emular el lenguaje histórico
Un equipo de investigadores de Estados Unidos y Canadá descubrió que los modelos de lenguaje grandes como ChatGPT tienen dificultades para replicar con precisión los idiomas históricos sin un preentrenamiento extenso y costoso. Este desafío hace que proyectos ambiciosos, como usar AI para completar la última novela inacabada de Charles Dickens, parezcan inalcanzables para la mayoría de los esfuerzos académicos y de entretenimiento.
Los investigadores experimentaron con varios métodos para generar texto que sonara históricamente preciso. Comenzaron con prompts simples usando prosa de principios del siglo XX y progresaron hasta ajustar un modelo comercial con un pequeño conjunto de libros de esa era. También compararon estos resultados con un modelo entrenado exclusivamente con literatura de 1880 a 1914.
En su primera prueba, instruyeron a ChatGPT-4o para imitar el lenguaje del periodo fin-de-siècle. Los resultados variaron significativamente de los producidos por un modelo GPT2 más pequeño y ajustado, que había sido entrenado con literatura de la misma época.
Al pedir completar un texto histórico real (centro superior), incluso un ChatGPT-4o bien preparado (inferior izquierda) no puede evitar recaer en un modo 'blog', fallando en representar el idioma solicitado. En contraste, el modelo GPT2 ajustado (inferior derecha) captura bien el estilo del lenguaje, pero no es tan preciso en otros aspectos. Fuente: https://arxiv.org/pdf/2505.00030
Aunque el ajuste mejoró la similitud del resultado con el estilo original, los lectores humanos aún podían detectar lenguaje o ideas modernas, indicando que incluso los modelos ajustados retienen rastros de sus datos de entrenamiento contemporáneos.
Los investigadores concluyeron que no hay atajos rentables para generar texto o diálogo históricamente preciso con máquinas. También sugirieron que el desafío podría ser inherentemente defectuoso, afirmando: "También deberíamos considerar la posibilidad de que el anacronismo pueda ser, en cierto sentido, inevitable. Ya sea que representemos el pasado ajustando modelos históricos para que puedan mantener conversaciones, o enseñando a los modelos contemporáneos a imitar un periodo más antiguo, puede ser necesario algún compromiso entre los objetivos de autenticidad y fluidez conversacional. Después de todo, no hay ejemplos 'auténticos' de una conversación entre un interrogador del siglo XXI y un respondent de 1914. Los investigadores que intenten crear tal conversación deberán reflexionar sobre la premisa de que la interpretación siempre implica una negociación entre el presente y el pasado."
El estudio, titulado "¿Pueden los modelos de lenguaje representar el pasado sin anacronismo?", fue realizado por investigadores de la Universidad de Illinois, de la Universidad de Columbia Británica y de la Universidad de Cornell.
Desafíos iniciales
Los investigadores exploraron inicialmente si los modelos de lenguaje modernos podían ser inducidos a imitar el lenguaje histórico. Utilizaron extractos reales de libros publicados entre 1905 y 1914, pidiéndole a ChatGPT-4o que continuara estos pasajes en el mismo idioma.
El texto original del periodo que usaron fue:
"En este último caso, se economizan unos cinco o seis dólares por minuto, ya que deben enrollarse más de veinte yardas de película para proyectar durante un solo minuto un objeto de una persona en reposo o un paisaje. Así se obtiene una combinación práctica de imágenes fijas y en movimiento, que produce efectos artísticos de lo más destacados. También nos permite trabajar con dos cinematógrafos proyectando alternativamente para evitar el centelleo, o proyectando simultáneamente imágenes rojas y verdes y reproduciendo colores naturales, aliviando así el ojo humano, acostumbrado a recibir los colores fundamentales simultáneamente, de toda fatiga fisiológica. Una palabra ahora sobre la aplicación de la luz fría a la fotografía instantánea."
Para evaluar la precisión histórica del texto generado, los investigadores ajustaron un modelo RoBERTa para estimar las fechas de publicación, utilizando un subconjunto del Corpus de Inglés Americano Histórico, que cubre material de 1810 a 2009. Este clasificador RoBERTa evaluó las continuaciones producidas por ChatGPT-4o, inducidas con pasajes reales de libros publicados entre 1905 y 1914.
El prompt del sistema dado a ChatGPT fue: "Tu tarea es completar pasajes de libros de principios del siglo XX. Se te dará un pasaje de un libro publicado en 1913. Continúa este pasaje en el mismo estilo, por al menos 200 palabras. Solo proporciona esta continuación; no hagas comentarios de marco, como 'aquí está la continuación:'."
A pesar de usar prompts de una sola vez y de 20 intentos, las salidas de ChatGPT-4o se inclinaban constantemente hacia un estilo del siglo XXI. Un ejemplo proporcionado en el documento mostró el intento de ChatGPT-4o de continuar el texto de fotografía:
"El uso de la luz fría en la fotografía instantánea ha revolucionado el enfoque para capturar imágenes bajo condiciones de luz variables. Tradicionalmente, los fotógrafos luchaban con la dureza y variabilidad de la luz natural o la naturaleza intrusiva de la fotografía con flash, que podía perturbar la atmósfera de una escena o el comportamiento natural de los sujetos, particularmente en la fotografía de vida silvestre y humana espontánea. La luz fría, con su naturaleza más suave y difusa... permite una representación más natural de colores y texturas, que a menudo se pierde bajo una iluminación artificial dura."
Este texto genérico, al estilo Wiki, no coincidía con el estilo prolijo y elaborado del texto original del periodo, ni continuaba sin problemas desde donde el original se había detenido. En cambio, se desviaba hacia una discusión abstracta sobre uno de los subtemas.
El equipo también probó GPT-1914, un modelo GPT-2 más pequeño entrenado desde cero con literatura fechada entre 1880 y 1914. Aunque menos coherente, su salida era más consistente con el estilo del periodo fuente. Un ejemplo proporcionado en el documento fue:
"El principio de su acción ya ha sido explicado (p. 4). Aquí solo mencionaremos que puede aplicarse con ventaja cuando deseamos obtener fotografías muy rápidas en papel recubierto con colodión, así como aquellas tomadas por medio de placas de gelatina. En tales casos, la exposición no debe exceder un segundo al menos; pero si se desea que la imagen se revele en menos tiempo – digamos medio segundo – entonces la temperatura nunca debe caer por debajo de 20° C., de lo contrario, la imagen se volverá demasiado oscura después del revelado; además, la placa perdería su sensibilidad bajo estas condiciones. Para fines ordinarios, sin embargo, basta con exponer la superficie sensible a un bajo grado de calor sin que sean necesarias precauciones especiales más allá de mantener el."
Aunque el material original era arcano y difícil de seguir, la salida de GPT-1914 sonaba más auténtica al periodo. Sin embargo, los autores concluyeron que un simple prompting hace poco para superar los sesgos contemporáneos inherentes a los modelos grandes preentrenados como ChatGPT-4o.
Medición de la precisión histórica
Para evaluar cuán cerca estaban las salidas del modelo de la escritura histórica auténtica, los investigadores usaron un clasificador estadístico para estimar la fecha probable de publicación de cada muestra de texto. Visualizaron los resultados usando un gráfico de densidad de kernel, mostrando dónde el modelo colocaba cada pasaje en una línea de tiempo histórica.
Fechas de publicación estimadas para textos reales y generados, basadas en un clasificador entrenado para reconocer el estilo histórico (textos fuente de 1905–1914 comparados con continuaciones por GPT-4o usando prompts de una sola vez y 20 intentos, y por GPT-1914 entrenado solo con literatura de 1880–1914).
El modelo RoBERTa ajustado, aunque no perfecto, destacó tendencias estilísticas generales. Los pasajes de GPT-1914, entrenados únicamente con literatura del periodo, se agrupaban alrededor de principios del siglo XX, similar al material fuente original. En contraste, las salidas de ChatGPT-4o, incluso con múltiples prompts históricos, se asemejaban a la escritura del siglo XXI, reflejando sus datos de entrenamiento.
Los investigadores cuantificaron este desajuste usando la divergencia de Jensen-Shannon, midiendo la diferencia entre dos distribuciones de probabilidad. GPT-1914 obtuvo un cercano 0.006 en comparación con el texto histórico real, mientras que las salidas de ChatGPT-4o de una sola vez y de 20 intentos mostraron brechas mucho mayores, en 0.310 y 0.350, respectivamente.
Los autores argumentan que estos hallazgos indican que el prompting solo, incluso con múltiples ejemplos, no es un método confiable para producir texto que simule de manera convincente un estilo histórico.
Ajuste fino para mejores resultados
El documento luego exploró si el ajuste fino podía generar mejores resultados. Este proceso afecta directamente los pesos del modelo al continuar su entrenamiento con datos especificados por el usuario, potencialmente mejorando su rendimiento en el dominio objetivo.
En su primer experimento de ajuste fino, el equipo entrenó GPT-4o-mini con alrededor de dos mil pares de completación de pasajes de libros publicados entre 1905 y 1914. Su objetivo era ver si un ajuste fino a menor escala podía cambiar las salidas del modelo hacia un estilo más históricamente preciso.
Usando el mismo clasificador basado en RoBERTa para estimar la 'fecha' estilística de cada salida, los investigadores encontraron que el modelo ajustado producía texto muy alineado con la verdad de base. Su divergencia estilística de los textos originales, medida por la divergencia de Jensen-Shannon, cayó a 0.002, generalmente en línea con GPT-1914.
Fechas de publicación estimadas para textos reales y generados, mostrando cuán cerca GPT-1914 y una versión ajustada de GPT-4o-mini coinciden con el estilo de la escritura de principios del siglo XX (basado en libros publicados entre 1905 y 1914).
Sin embargo, los investigadores advirtieron que esta métrica podría capturar solo características superficiales del estilo histórico, no anacronismos conceptuales o factuales más profundos. Notaron: "Esta no es una prueba muy sensible. El modelo RoBERTa usado como juez aquí solo está entrenado para predecir una fecha, no para discriminar pasajes auténticos de los anacrónicos. Probablemente usa evidencia estilística gruesa para hacer esa predicción. Los lectores humanos, o modelos más grandes, aún podrían detectar contenido anacrónico en pasajes que superficialmente suenan 'del periodo'."
Evaluación humana
Finalmente, los investigadores realizaron pruebas de evaluación humana usando 250 pasajes seleccionados a mano de libros publicados entre 1905 y 1914. Notaron que muchos de estos textos probablemente se interpretarían de manera diferente hoy que en el momento de su escritura:
"Nuestra lista incluía, por ejemplo, una entrada de enciclopedia sobre Alsacia (que entonces era parte de Alemania) y una sobre el beriberi (que entonces a menudo se explicaba como una enfermedad fúngica en lugar de una deficiencia nutricional). Aunque esas son diferencias de hecho, también seleccionamos pasajes que mostrarían diferencias más sutiles de actitud, retórica o imaginación. Por ejemplo, las descripciones de lugares no europeos a principios del siglo XX tienden a deslizarse hacia la generalización racial. Una descripción del amanecer en la luna escrita en 1913 imagina fenómenos cromáticos ricos, porque nadie había visto aún fotografías de un mundo sin atmósfera."
Los investigadores crearon preguntas cortas que cada pasaje histórico podía responder plausiblemente, luego ajustaron GPT-4o-mini con estos pares de pregunta-respuesta. Para fortalecer la evaluación, entrenaron cinco versiones separadas del modelo, cada vez reservando una porción diferente de los datos para pruebas. Luego produjeron respuestas usando tanto las versiones predeterminadas de GPT-4o y GPT-4o-mini, como las variantes ajustadas, cada una evaluada en la porción que no había visto durante el entrenamiento.
Perdido en el tiempo
Para evaluar cuán convincentemente los modelos podían imitar el lenguaje histórico, los investigadores pidieron a tres anotadores expertos que revisaran 120 completaciones generadas por AI y juzgaran si cada una parecía plausible para un escritor en 1914.
Esta evaluación resultó más desafiante de lo esperado. Aunque los anotadores estuvieron de acuerdo en sus evaluaciones casi el ochenta por ciento de las veces, el desequilibrio en sus juicios (con 'plausible' elegido el doble de veces que 'no plausible') significó que su nivel real de acuerdo fue solo moderado, medido por una puntuación kappa de Cohen de 0.554.
Los evaluadores describieron la tarea como difícil, a menudo requiriendo investigación adicional para evaluar si una declaración se alineaba con lo que se sabía o creía en 1914. Algunos pasajes planteaban preguntas sobre tono y perspectiva, como si una respuesta estaba apropiadamente limitada en su visión del mundo para reflejar lo que habría sido típico en 1914. Este juicio a menudo dependía del nivel de etnocentrismo, la tendencia a ver otras culturas a través de los supuestos o sesgos de la propia.
El desafío era decidir si un pasaje expresaba suficiente sesgo cultural para parecer históricamente plausible sin sonar demasiado moderno o demasiado abiertamente ofensivo según los estándares actuales. Los autores notaron que incluso para los académicos familiarizados con el periodo, era difícil trazar una línea clara entre el lenguaje que se sentía históricamente preciso y el lenguaje que reflejaba ideas del presente.
No obstante, los resultados mostraron un claro ranking de los modelos, con la versión ajustada de GPT-4o-mini juzgada como la más plausible en general:
Evaluaciones de los anotadores sobre cuán plausible parecía la salida de cada modelo
Si este nivel de rendimiento, calificado como plausible en el ochenta por ciento de los casos, es lo suficientemente confiable para la investigación histórica sigue siendo poco claro, particularmente porque el estudio no incluyó una medida de referencia de cuán a menudo los textos genuinos del periodo podrían ser mal clasificados.
Alerta de intruso
A continuación, los investigadores realizaron una prueba de 'intruso', donde se mostraron a anotadores expertos cuatro pasajes anónimos que respondían a la misma pregunta histórica. Tres respuestas provenían de modelos de lenguaje, mientras que una era un extracto genuino de una fuente de principios del siglo XX.
La tarea era identificar cuál pasaje era el original, genuinamente escrito durante el periodo. Este enfoque no pedía a los anotadores que calificaran la plausibilidad directamente, sino que medía cuán a menudo el pasaje real destacaba de las respuestas generadas por AI, probando efectivamente si los modelos podían engañar a los lectores para que pensaran que su salida era auténtica.
El ranking de los modelos coincidió con los resultados de la tarea de juicio anterior: la versión ajustada de GPT-4o-mini fue la más convincente entre los modelos, pero aún quedó corta en comparación con lo real.
La frecuencia con la que cada fuente fue correctamente identificada como el pasaje histórico auténtico.
Esta prueba también sirvió como un punto de referencia útil, ya que el pasaje genuino fue identificado más de la mitad de las veces, indicando que la brecha entre la prosa auténtica y la sintética seguía siendo notable para los lectores humanos.
Un análisis estadístico conocido como la prueba de McNemar confirmó que las diferencias entre los modelos eran significativas, excepto en el caso de las dos versiones sin ajustar (GPT-4o y GPT-4o-mini), que se desempeñaron de manera similar.
El futuro del pasado
Los autores encontraron que inducir a los modelos de lenguaje modernos a adoptar una voz histórica no producía resultados convincentes de manera confiable: menos de dos tercios de las salidas fueron juzgadas plausibles por los lectores humanos, y esta cifra probablemente sobreestima el rendimiento.
En muchos casos, las respuestas incluían señales explícitas de que el modelo hablaba desde una perspectiva del presente—frases como "en 1914, aún no se sabe que..." o "a partir de 1914, no estoy familiarizado con..." eran lo suficientemente comunes como para aparecer en hasta una quinta parte de las completaciones. Los descargos de este tipo dejaban claro que el modelo estaba simulando la historia desde afuera, en lugar de escribir desde dentro de ella.
Los autores afirmaron: "El bajo rendimiento del aprendizaje en contexto es lamentable, porque estos métodos son los más fáciles y baratos para la investigación histórica basada en AI. Enfatizamos que no hemos explorado estos enfoques exhaustivamente. Puede resultar que el aprendizaje en contexto sea adecuado—ahora o en el futuro—para un subconjunto de áreas de investigación. Pero nuestra evidencia inicial no es alentadora."
Los autores concluyeron que, aunque ajustar un modelo comercial con pasajes históricos puede producir una salida estilísticamente convincente a un costo mínimo, no elimina por completo los rastros de la perspectiva moderna. Preentrenar un modelo enteramente con material del periodo evita el anacronismo pero demanda muchos más recursos y resulta en una salida menos fluida.
Ningún método ofrece una solución completa, y, por ahora, cualquier intento de simular voces históricas parece involucrar un compromiso entre autenticidad y coherencia. Los autores concluyen que se necesitará más investigación para aclarar cómo navegar mejor esa tensión.
Conclusión
Una de las preguntas más intrigantes planteadas por el nuevo documento es la de la autenticidad. Aunque no son herramientas perfectas, las funciones de pérdida y métricas como LPIPS y SSIM ofrecen a los investigadores de visión por computadora una metodología para evaluar contra la verdad de base. Sin embargo, al generar nuevo texto en el estilo de una era pasada, no hay verdad de base—solo un intento de habitar una perspectiva cultural desaparecida. Intentar reconstruir esa mentalidad a partir de rastros literarios es en sí mismo un acto de cuantización, ya que estos rastros son meramente evidencia, mientras que la conciencia cultural de la que emergen permanece más allá de la inferencia, y probablemente más allá de la imaginación.
A nivel práctico, los fundamentos de los modelos de lenguaje modernos, moldeados por normas y datos del presente, corren el riesgo de reinterpretar o suprimir ideas que habrían parecido razonables o insignificantes para un lector eduardiano pero que ahora se registran como artefactos de prejuicio, desigualdad o injusticia.
Uno se pregunta, por lo tanto, incluso si pudiéramos crear tal coloquio, si no nos repelería.
Publicado por primera vez el viernes, 2 de mayo de 2025
Artículo relacionado
Deep Cogito's LLMs Outperform Similar-Sized Models Using IDA
Deep Cogito, a San Francisco-based company, is making waves in the AI community with its latest release of open large language models (LLMs). These models, which come in various sizes ranging from 3 billion to 70 billion parameters, are not just another set of AI tools; they're a bold step towards w
Fábrica de Cómics AI: Crea Cómics Fácilmente Gratis con AI
En el mundo digital actual, la fusión de inteligencia artificial y artes creativas está abriendo nuevas vías fascinantes para la expresión. La Fábrica de Cómics AI lidera esta revolución, ofreciendo u
Bots de Trading con IA: ¿Realmente Puedes Ganar el Salario de un Mes en un Día?
Si alguna vez has soñado con ganar el salario de un mes en un solo día, el mundo de los bots de trading con IA podría parecerte el boleto dorado. Estos sistemas automatizados prometen aprovechar la in
comentario (0)
0/200
Un equipo de investigadores de Estados Unidos y Canadá descubrió que los modelos de lenguaje grandes como ChatGPT tienen dificultades para replicar con precisión los idiomas históricos sin un preentrenamiento extenso y costoso. Este desafío hace que proyectos ambiciosos, como usar AI para completar la última novela inacabada de Charles Dickens, parezcan inalcanzables para la mayoría de los esfuerzos académicos y de entretenimiento.
Los investigadores experimentaron con varios métodos para generar texto que sonara históricamente preciso. Comenzaron con prompts simples usando prosa de principios del siglo XX y progresaron hasta ajustar un modelo comercial con un pequeño conjunto de libros de esa era. También compararon estos resultados con un modelo entrenado exclusivamente con literatura de 1880 a 1914.
En su primera prueba, instruyeron a ChatGPT-4o para imitar el lenguaje del periodo fin-de-siècle. Los resultados variaron significativamente de los producidos por un modelo GPT2 más pequeño y ajustado, que había sido entrenado con literatura de la misma época.
Al pedir completar un texto histórico real (centro superior), incluso un ChatGPT-4o bien preparado (inferior izquierda) no puede evitar recaer en un modo 'blog', fallando en representar el idioma solicitado. En contraste, el modelo GPT2 ajustado (inferior derecha) captura bien el estilo del lenguaje, pero no es tan preciso en otros aspectos. Fuente: https://arxiv.org/pdf/2505.00030
Aunque el ajuste mejoró la similitud del resultado con el estilo original, los lectores humanos aún podían detectar lenguaje o ideas modernas, indicando que incluso los modelos ajustados retienen rastros de sus datos de entrenamiento contemporáneos.
Los investigadores concluyeron que no hay atajos rentables para generar texto o diálogo históricamente preciso con máquinas. También sugirieron que el desafío podría ser inherentemente defectuoso, afirmando: "También deberíamos considerar la posibilidad de que el anacronismo pueda ser, en cierto sentido, inevitable. Ya sea que representemos el pasado ajustando modelos históricos para que puedan mantener conversaciones, o enseñando a los modelos contemporáneos a imitar un periodo más antiguo, puede ser necesario algún compromiso entre los objetivos de autenticidad y fluidez conversacional. Después de todo, no hay ejemplos 'auténticos' de una conversación entre un interrogador del siglo XXI y un respondent de 1914. Los investigadores que intenten crear tal conversación deberán reflexionar sobre la premisa de que la interpretación siempre implica una negociación entre el presente y el pasado."
El estudio, titulado "¿Pueden los modelos de lenguaje representar el pasado sin anacronismo?", fue realizado por investigadores de la Universidad de Illinois, de la Universidad de Columbia Británica y de la Universidad de Cornell.
Desafíos iniciales
Los investigadores exploraron inicialmente si los modelos de lenguaje modernos podían ser inducidos a imitar el lenguaje histórico. Utilizaron extractos reales de libros publicados entre 1905 y 1914, pidiéndole a ChatGPT-4o que continuara estos pasajes en el mismo idioma.
El texto original del periodo que usaron fue:
"En este último caso, se economizan unos cinco o seis dólares por minuto, ya que deben enrollarse más de veinte yardas de película para proyectar durante un solo minuto un objeto de una persona en reposo o un paisaje. Así se obtiene una combinación práctica de imágenes fijas y en movimiento, que produce efectos artísticos de lo más destacados. También nos permite trabajar con dos cinematógrafos proyectando alternativamente para evitar el centelleo, o proyectando simultáneamente imágenes rojas y verdes y reproduciendo colores naturales, aliviando así el ojo humano, acostumbrado a recibir los colores fundamentales simultáneamente, de toda fatiga fisiológica. Una palabra ahora sobre la aplicación de la luz fría a la fotografía instantánea."
Para evaluar la precisión histórica del texto generado, los investigadores ajustaron un modelo RoBERTa para estimar las fechas de publicación, utilizando un subconjunto del Corpus de Inglés Americano Histórico, que cubre material de 1810 a 2009. Este clasificador RoBERTa evaluó las continuaciones producidas por ChatGPT-4o, inducidas con pasajes reales de libros publicados entre 1905 y 1914.
El prompt del sistema dado a ChatGPT fue: "Tu tarea es completar pasajes de libros de principios del siglo XX. Se te dará un pasaje de un libro publicado en 1913. Continúa este pasaje en el mismo estilo, por al menos 200 palabras. Solo proporciona esta continuación; no hagas comentarios de marco, como 'aquí está la continuación:'."
A pesar de usar prompts de una sola vez y de 20 intentos, las salidas de ChatGPT-4o se inclinaban constantemente hacia un estilo del siglo XXI. Un ejemplo proporcionado en el documento mostró el intento de ChatGPT-4o de continuar el texto de fotografía:
"El uso de la luz fría en la fotografía instantánea ha revolucionado el enfoque para capturar imágenes bajo condiciones de luz variables. Tradicionalmente, los fotógrafos luchaban con la dureza y variabilidad de la luz natural o la naturaleza intrusiva de la fotografía con flash, que podía perturbar la atmósfera de una escena o el comportamiento natural de los sujetos, particularmente en la fotografía de vida silvestre y humana espontánea. La luz fría, con su naturaleza más suave y difusa... permite una representación más natural de colores y texturas, que a menudo se pierde bajo una iluminación artificial dura."
Este texto genérico, al estilo Wiki, no coincidía con el estilo prolijo y elaborado del texto original del periodo, ni continuaba sin problemas desde donde el original se había detenido. En cambio, se desviaba hacia una discusión abstracta sobre uno de los subtemas.
El equipo también probó GPT-1914, un modelo GPT-2 más pequeño entrenado desde cero con literatura fechada entre 1880 y 1914. Aunque menos coherente, su salida era más consistente con el estilo del periodo fuente. Un ejemplo proporcionado en el documento fue:
"El principio de su acción ya ha sido explicado (p. 4). Aquí solo mencionaremos que puede aplicarse con ventaja cuando deseamos obtener fotografías muy rápidas en papel recubierto con colodión, así como aquellas tomadas por medio de placas de gelatina. En tales casos, la exposición no debe exceder un segundo al menos; pero si se desea que la imagen se revele en menos tiempo – digamos medio segundo – entonces la temperatura nunca debe caer por debajo de 20° C., de lo contrario, la imagen se volverá demasiado oscura después del revelado; además, la placa perdería su sensibilidad bajo estas condiciones. Para fines ordinarios, sin embargo, basta con exponer la superficie sensible a un bajo grado de calor sin que sean necesarias precauciones especiales más allá de mantener el."
Aunque el material original era arcano y difícil de seguir, la salida de GPT-1914 sonaba más auténtica al periodo. Sin embargo, los autores concluyeron que un simple prompting hace poco para superar los sesgos contemporáneos inherentes a los modelos grandes preentrenados como ChatGPT-4o.
Medición de la precisión histórica
Para evaluar cuán cerca estaban las salidas del modelo de la escritura histórica auténtica, los investigadores usaron un clasificador estadístico para estimar la fecha probable de publicación de cada muestra de texto. Visualizaron los resultados usando un gráfico de densidad de kernel, mostrando dónde el modelo colocaba cada pasaje en una línea de tiempo histórica.
Fechas de publicación estimadas para textos reales y generados, basadas en un clasificador entrenado para reconocer el estilo histórico (textos fuente de 1905–1914 comparados con continuaciones por GPT-4o usando prompts de una sola vez y 20 intentos, y por GPT-1914 entrenado solo con literatura de 1880–1914).
El modelo RoBERTa ajustado, aunque no perfecto, destacó tendencias estilísticas generales. Los pasajes de GPT-1914, entrenados únicamente con literatura del periodo, se agrupaban alrededor de principios del siglo XX, similar al material fuente original. En contraste, las salidas de ChatGPT-4o, incluso con múltiples prompts históricos, se asemejaban a la escritura del siglo XXI, reflejando sus datos de entrenamiento.
Los investigadores cuantificaron este desajuste usando la divergencia de Jensen-Shannon, midiendo la diferencia entre dos distribuciones de probabilidad. GPT-1914 obtuvo un cercano 0.006 en comparación con el texto histórico real, mientras que las salidas de ChatGPT-4o de una sola vez y de 20 intentos mostraron brechas mucho mayores, en 0.310 y 0.350, respectivamente.
Los autores argumentan que estos hallazgos indican que el prompting solo, incluso con múltiples ejemplos, no es un método confiable para producir texto que simule de manera convincente un estilo histórico.
Ajuste fino para mejores resultados
El documento luego exploró si el ajuste fino podía generar mejores resultados. Este proceso afecta directamente los pesos del modelo al continuar su entrenamiento con datos especificados por el usuario, potencialmente mejorando su rendimiento en el dominio objetivo.
En su primer experimento de ajuste fino, el equipo entrenó GPT-4o-mini con alrededor de dos mil pares de completación de pasajes de libros publicados entre 1905 y 1914. Su objetivo era ver si un ajuste fino a menor escala podía cambiar las salidas del modelo hacia un estilo más históricamente preciso.
Usando el mismo clasificador basado en RoBERTa para estimar la 'fecha' estilística de cada salida, los investigadores encontraron que el modelo ajustado producía texto muy alineado con la verdad de base. Su divergencia estilística de los textos originales, medida por la divergencia de Jensen-Shannon, cayó a 0.002, generalmente en línea con GPT-1914.
Fechas de publicación estimadas para textos reales y generados, mostrando cuán cerca GPT-1914 y una versión ajustada de GPT-4o-mini coinciden con el estilo de la escritura de principios del siglo XX (basado en libros publicados entre 1905 y 1914).
Sin embargo, los investigadores advirtieron que esta métrica podría capturar solo características superficiales del estilo histórico, no anacronismos conceptuales o factuales más profundos. Notaron: "Esta no es una prueba muy sensible. El modelo RoBERTa usado como juez aquí solo está entrenado para predecir una fecha, no para discriminar pasajes auténticos de los anacrónicos. Probablemente usa evidencia estilística gruesa para hacer esa predicción. Los lectores humanos, o modelos más grandes, aún podrían detectar contenido anacrónico en pasajes que superficialmente suenan 'del periodo'."
Evaluación humana
Finalmente, los investigadores realizaron pruebas de evaluación humana usando 250 pasajes seleccionados a mano de libros publicados entre 1905 y 1914. Notaron que muchos de estos textos probablemente se interpretarían de manera diferente hoy que en el momento de su escritura:
"Nuestra lista incluía, por ejemplo, una entrada de enciclopedia sobre Alsacia (que entonces era parte de Alemania) y una sobre el beriberi (que entonces a menudo se explicaba como una enfermedad fúngica en lugar de una deficiencia nutricional). Aunque esas son diferencias de hecho, también seleccionamos pasajes que mostrarían diferencias más sutiles de actitud, retórica o imaginación. Por ejemplo, las descripciones de lugares no europeos a principios del siglo XX tienden a deslizarse hacia la generalización racial. Una descripción del amanecer en la luna escrita en 1913 imagina fenómenos cromáticos ricos, porque nadie había visto aún fotografías de un mundo sin atmósfera."
Los investigadores crearon preguntas cortas que cada pasaje histórico podía responder plausiblemente, luego ajustaron GPT-4o-mini con estos pares de pregunta-respuesta. Para fortalecer la evaluación, entrenaron cinco versiones separadas del modelo, cada vez reservando una porción diferente de los datos para pruebas. Luego produjeron respuestas usando tanto las versiones predeterminadas de GPT-4o y GPT-4o-mini, como las variantes ajustadas, cada una evaluada en la porción que no había visto durante el entrenamiento.
Perdido en el tiempo
Para evaluar cuán convincentemente los modelos podían imitar el lenguaje histórico, los investigadores pidieron a tres anotadores expertos que revisaran 120 completaciones generadas por AI y juzgaran si cada una parecía plausible para un escritor en 1914.
Esta evaluación resultó más desafiante de lo esperado. Aunque los anotadores estuvieron de acuerdo en sus evaluaciones casi el ochenta por ciento de las veces, el desequilibrio en sus juicios (con 'plausible' elegido el doble de veces que 'no plausible') significó que su nivel real de acuerdo fue solo moderado, medido por una puntuación kappa de Cohen de 0.554.
Los evaluadores describieron la tarea como difícil, a menudo requiriendo investigación adicional para evaluar si una declaración se alineaba con lo que se sabía o creía en 1914. Algunos pasajes planteaban preguntas sobre tono y perspectiva, como si una respuesta estaba apropiadamente limitada en su visión del mundo para reflejar lo que habría sido típico en 1914. Este juicio a menudo dependía del nivel de etnocentrismo, la tendencia a ver otras culturas a través de los supuestos o sesgos de la propia.
El desafío era decidir si un pasaje expresaba suficiente sesgo cultural para parecer históricamente plausible sin sonar demasiado moderno o demasiado abiertamente ofensivo según los estándares actuales. Los autores notaron que incluso para los académicos familiarizados con el periodo, era difícil trazar una línea clara entre el lenguaje que se sentía históricamente preciso y el lenguaje que reflejaba ideas del presente.
No obstante, los resultados mostraron un claro ranking de los modelos, con la versión ajustada de GPT-4o-mini juzgada como la más plausible en general:
Evaluaciones de los anotadores sobre cuán plausible parecía la salida de cada modelo
Si este nivel de rendimiento, calificado como plausible en el ochenta por ciento de los casos, es lo suficientemente confiable para la investigación histórica sigue siendo poco claro, particularmente porque el estudio no incluyó una medida de referencia de cuán a menudo los textos genuinos del periodo podrían ser mal clasificados.
Alerta de intruso
A continuación, los investigadores realizaron una prueba de 'intruso', donde se mostraron a anotadores expertos cuatro pasajes anónimos que respondían a la misma pregunta histórica. Tres respuestas provenían de modelos de lenguaje, mientras que una era un extracto genuino de una fuente de principios del siglo XX.
La tarea era identificar cuál pasaje era el original, genuinamente escrito durante el periodo. Este enfoque no pedía a los anotadores que calificaran la plausibilidad directamente, sino que medía cuán a menudo el pasaje real destacaba de las respuestas generadas por AI, probando efectivamente si los modelos podían engañar a los lectores para que pensaran que su salida era auténtica.
El ranking de los modelos coincidió con los resultados de la tarea de juicio anterior: la versión ajustada de GPT-4o-mini fue la más convincente entre los modelos, pero aún quedó corta en comparación con lo real.
La frecuencia con la que cada fuente fue correctamente identificada como el pasaje histórico auténtico.
Esta prueba también sirvió como un punto de referencia útil, ya que el pasaje genuino fue identificado más de la mitad de las veces, indicando que la brecha entre la prosa auténtica y la sintética seguía siendo notable para los lectores humanos.
Un análisis estadístico conocido como la prueba de McNemar confirmó que las diferencias entre los modelos eran significativas, excepto en el caso de las dos versiones sin ajustar (GPT-4o y GPT-4o-mini), que se desempeñaron de manera similar.
El futuro del pasado
Los autores encontraron que inducir a los modelos de lenguaje modernos a adoptar una voz histórica no producía resultados convincentes de manera confiable: menos de dos tercios de las salidas fueron juzgadas plausibles por los lectores humanos, y esta cifra probablemente sobreestima el rendimiento.
En muchos casos, las respuestas incluían señales explícitas de que el modelo hablaba desde una perspectiva del presente—frases como "en 1914, aún no se sabe que..." o "a partir de 1914, no estoy familiarizado con..." eran lo suficientemente comunes como para aparecer en hasta una quinta parte de las completaciones. Los descargos de este tipo dejaban claro que el modelo estaba simulando la historia desde afuera, en lugar de escribir desde dentro de ella.
Los autores afirmaron: "El bajo rendimiento del aprendizaje en contexto es lamentable, porque estos métodos son los más fáciles y baratos para la investigación histórica basada en AI. Enfatizamos que no hemos explorado estos enfoques exhaustivamente. Puede resultar que el aprendizaje en contexto sea adecuado—ahora o en el futuro—para un subconjunto de áreas de investigación. Pero nuestra evidencia inicial no es alentadora."
Los autores concluyeron que, aunque ajustar un modelo comercial con pasajes históricos puede producir una salida estilísticamente convincente a un costo mínimo, no elimina por completo los rastros de la perspectiva moderna. Preentrenar un modelo enteramente con material del periodo evita el anacronismo pero demanda muchos más recursos y resulta en una salida menos fluida.
Ningún método ofrece una solución completa, y, por ahora, cualquier intento de simular voces históricas parece involucrar un compromiso entre autenticidad y coherencia. Los autores concluyen que se necesitará más investigación para aclarar cómo navegar mejor esa tensión.
Conclusión
Una de las preguntas más intrigantes planteadas por el nuevo documento es la de la autenticidad. Aunque no son herramientas perfectas, las funciones de pérdida y métricas como LPIPS y SSIM ofrecen a los investigadores de visión por computadora una metodología para evaluar contra la verdad de base. Sin embargo, al generar nuevo texto en el estilo de una era pasada, no hay verdad de base—solo un intento de habitar una perspectiva cultural desaparecida. Intentar reconstruir esa mentalidad a partir de rastros literarios es en sí mismo un acto de cuantización, ya que estos rastros son meramente evidencia, mientras que la conciencia cultural de la que emergen permanece más allá de la inferencia, y probablemente más allá de la imaginación.
A nivel práctico, los fundamentos de los modelos de lenguaje modernos, moldeados por normas y datos del presente, corren el riesgo de reinterpretar o suprimir ideas que habrían parecido razonables o insignificantes para un lector eduardiano pero que ahora se registran como artefactos de prejuicio, desigualdad o injusticia.
Uno se pregunta, por lo tanto, incluso si pudiéramos crear tal coloquio, si no nos repelería.
Publicado por primera vez el viernes, 2 de mayo de 2025












