option
Maison
Nouvelles
AI a du mal à imiter le langage historique

AI a du mal à imiter le langage historique

26 juin 2025
0

Une équipe de chercheurs des États-Unis et du Canada a découvert que les grands modèles de langage comme ChatGPT peinent à reproduire précisément les idiomes historiques sans un pré-entraînement extensif et coûteux. Ce défi rend ambitieux projets, comme utiliser l'IA pour compléter le dernier roman inachevé de Charles Dickens, hors de portée pour la plupart des efforts académiques et de divertissement.

Les chercheurs ont expérimenté diverses méthodes pour générer un texte historiquement précis. Ils ont commencé par des invites simples utilisant la prose du début du 20e siècle et ont progressé vers l'ajustement fin d'un modèle commercial sur un petit ensemble de livres de cette époque. Ils ont également comparé ces résultats avec un modèle entraîné exclusivement sur la littérature de 1880 à 1914.

Dans leur premier test, ils ont demandé à ChatGPT-4o d'imiter le langage de la période fin-de-siècle. Les résultats variaient significativement de ceux produits par un modèle GPT2 plus petit, ajusté finement, entraîné sur la littérature de la même période.

Lorsqu'on lui demande de compléter un texte historique réel, même un ChatGPT-4o bien préparé (en bas à gauche) ne peut s'empêcher de retomber dans un mode 'blog', échouant à représenter l'idiome requis. En revanche, le modèle GPT2 ajusté finement capture bien le style linguistique, mais n'est pas aussi précis à d'autres égards. Source : https://arxiv.org/pdf/2505.00030Lorsqu'on lui demande de compléter un texte historique réel (en haut au centre), même un ChatGPT-4o bien préparé (en bas à gauche) ne peut s'empêcher de retomber dans un mode 'blog', échouant à représenter l'idiome requis. En revanche, le modèle GPT2 ajusté finement (en bas à droite) capture bien le style linguistique, mais n'est pas aussi précis à d'autres égards. Source : https://arxiv.org/pdf/2505.00030

Bien que l'ajustement fin ait amélioré la similitude de la sortie avec le style original, les lecteurs humains pouvaient encore détecter un langage ou des idées modernes, indiquant que même les modèles ajustés conservent des traces de leurs données d'entraînement contemporaines.

Les chercheurs ont conclu qu'il n'existe pas de raccourcis économiques pour générer un texte ou un dialogue historiquement précis avec des machines. Ils ont également suggéré que le défi lui-même pourrait être intrinsèquement imparfait, déclarant : « Nous devrions également considérer la possibilité que l'anachronisme soit en quelque sorte inévitable. Que nous représentions le passé en ajustant des modèles historiques pour qu'ils puissent tenir des conversations, ou en enseignant à des modèles contemporains à imiter une période plus ancienne, un compromis peut être nécessaire entre les objectifs d'authenticité et de fluidité conversationnelle. Il n'existe, après tout, aucun exemple 'authentique' d'une conversation entre un questionneur du XXIe siècle et un répondant de 1914. Les chercheurs tentant de créer une telle conversation devront réfléchir à la prémisse que l'interprétation implique toujours une négociation entre le présent et le passé. »

L'étude, intitulée « Les modèles de langage peuvent-ils représenter le passé sans anachronisme ? », a été menée par des chercheurs de l'Université de l'Illinois, de l'Université de la Colombie-Britannique et de l'Université Cornell.

Défis initiaux

Les chercheurs ont initialement exploré si les modèles de langage modernes pouvaient être incités à imiter le langage historique. Ils ont utilisé de vrais extraits de livres publiés entre 1905 et 1914, demandant à ChatGPT-4o de continuer ces passages dans le même idiome.

Le texte original de la période utilisé était :

« Dans ce dernier cas, environ cinq ou six dollars sont économisés par minute, car plus de vingt yards de film doivent être déroulés pour projeter pendant une minute un objet d'une personne au repos ou un paysage. Ainsi, on obtient une combinaison pratique d'images fixes et animées, qui produit des effets des plus artistiques. Cela nous permet également de travailler avec deux cinématographes projetant alternativement pour éviter le scintillement, ou projetant simultanément des images rouges et vertes et reproduisant des couleurs naturelles, soulageant ainsi l'œil humain, habitué à recevoir les couleurs fondamentales simultanément, de toute fatigue physiologique. Un mot maintenant sur l'application de la lumière froide à la photographie instantanée. »

Pour évaluer la précision historique du texte généré, les chercheurs ont ajusté finement un modèle RoBERTa pour estimer les dates de publication, utilisant un sous-ensemble du Corpus of Historical American English, couvrant des matériaux de 1810 à 2009. Ce classificateur RoBERTa a évalué les continuations produites par ChatGPT-4o, incité avec de vrais passages de livres publiés entre 1905 et 1914.

L'invite système donnée à ChatGPT était : « Votre tâche est de compléter des passages de livres du début du XXe siècle. Vous recevrez un passage d'un livre publié en 1913. Continuez ce passage dans le même style, pour au moins 200 mots. Fournissez uniquement cette continuation ; ne faites aucune remarque d'encadrement, comme 'voici la continuation :'. »

Malgré l'utilisation d'invites à un coup et à 20 coups, les sorties de ChatGPT-4o penchaient constamment vers un style du XXIe siècle. Un exemple fourni dans l'article montrait la tentative de ChatGPT-4o de continuer le texte sur la photographie :

« L'utilisation de la lumière froide dans la photographie instantanée a révolutionné l'approche de la capture d'images sous diverses conditions d'éclairage. Traditionnellement, les photographes luttaient contre la dureté et la variabilité de la lumière naturelle ou la nature intrusive de la photographie au flash, qui pouvait perturber l'ambiance d'une scène ou le comportement naturel des sujets, en particulier dans la photographie de la faune et des humains en candid. La lumière froide, avec sa nature plus douce et plus diffuse... permet une représentation plus naturelle des couleurs et des textures, souvent perdue sous un éclairage artificiel dur. »

Ce texte générique, de style Wiki, ne correspondait pas au style prolixe et élaboré du texte original de la période, ni ne continuait de manière fluide là où l'original s'était arrêté. Au lieu de cela, il s'est orienté vers une discussion abstraite sur l'un des sous-thèmes.

L'équipe a également testé GPT-1914, un modèle GPT-2 plus petit entraîné de zéro sur la littérature datée de 1880 à 1914. Bien que moins cohérent, sa sortie était plus cohérente avec le style de la période source. Un exemple fourni dans l'article était :

« Le principe de son action a déjà été expliqué (p. 4). Nous mentionnerons ici seulement qu'il peut être appliqué avec avantage lorsque nous souhaitons obtenir des photographies très rapides sur du papier enduit de collodion, ainsi que celles prises au moyen de plaques de gélatine. Dans de tels cas, l'exposition ne doit pas dépasser une seconde au moins ; mais si l'image est souhaitée être développée en moins de temps – disons une demi-seconde – alors la température ne doit jamais descendre en dessous de 20° C., sinon l'image deviendra trop sombre après le développement ; de plus, la plaque perdrait sa sensibilité dans ces conditions. Pour des usages ordinaires, cependant, il suffit simplement d'exposer la surface sensible à un faible degré de chaleur sans qu'aucune précaution spéciale ne soit nécessaire au-delà de maintenir le. »

Bien que le matériau original soit obscur et difficile à suivre, la sortie de GPT-1914 semblait plus authentique à la période. Cependant, les auteurs ont conclu que l'incitation simple fait peu pour surmonter les biais contemporains inhérents aux grands modèles pré-entraînés comme ChatGPT-4o.

Mesurer la précision historique

Pour évaluer à quel point les sorties des modèles ressemblaient à une écriture historique authentique, les chercheurs ont utilisé un classificateur statistique pour estimer la date de publication probable de chaque échantillon de texte. Ils ont visualisé les résultats à l'aide d'un graphique de densité de noyau, montrant où le modèle plaçait chaque passage sur une chronologie historique.

Dates de publication estimées pour les textes réels et générés, basées sur un classificateur entraîné à reconnaître le style historique (textes sources de 1905–1914 comparés aux continuations par GPT‑4o utilisant des invites à un coup et à 20 coups, et par GPT‑1914 entraîné uniquement sur la littérature de 1880–1914).Dates de publication estimées pour les textes réels et générés, basées sur un classificateur entraîné à reconnaître le style historique (textes sources de 1905–1914 comparés aux continuations par GPT‑4o utilisant des invites à un coup et à 20 coups, et par GPT‑1914 entraîné uniquement sur la littérature de 1880–1914).

Le modèle RoBERTa ajusté finement, bien qu'imparfait, a mis en évidence les tendances stylistiques générales. Les passages de GPT-1914, entraînés uniquement sur la littérature de la période, se regroupaient autour du début du 20e siècle, similaires au matériau source original. En revanche, les sorties de ChatGPT-4o, même avec plusieurs invites historiques, ressemblaient à une écriture du 21e siècle, reflétant ses données d'entraînement.

Les chercheurs ont quantifié cet écart en utilisant la divergence de Jensen-Shannon, mesurant la différence entre deux distributions de probabilité. GPT-1914 a obtenu un score proche de 0,006 par rapport au texte historique réel, tandis que les sorties de ChatGPT-4o à un coup et à 20 coups montraient des écarts beaucoup plus grands, à 0,310 et 0,350, respectivement.

Les auteurs soutiennent que ces résultats indiquent que l'incitation seule, même avec plusieurs exemples, n'est pas une méthode fiable pour produire un texte qui simule de manière convaincante un style historique.

Ajustement fin pour de meilleurs résultats

L'article a ensuite exploré si l'ajustement fin pouvait donner de meilleurs résultats. Ce processus affecte directement les poids du modèle en continuant son entraînement sur des données spécifiées par l'utilisateur, améliorant potentiellement ses performances dans le domaine ciblé.

Dans leur première expérience d'ajustement fin, l'équipe a entraîné GPT-4o-mini sur environ deux mille paires de complétion de passages de livres publiés entre 1905 et 1914. Ils visaient à voir si un ajustement fin à petite échelle pouvait orienter les sorties du modèle vers un style plus historiquement précis.

En utilisant le même classificateur basé sur RoBERTa pour estimer la 'date' stylistique de chaque sortie, les chercheurs ont constaté que le modèle ajusté finement produisait un texte étroitement aligné sur la vérité terrain. Sa divergence stylistique par rapport aux textes originaux, mesurée par la divergence de Jensen-Shannon, est tombée à 0,002, généralement en ligne avec GPT-1914.

Dates de publication estimées pour les textes réels et générés, montrant à quel point GPT‑1914 et une version ajustée finement de GPT‑4o‑mini correspondent au style de l'écriture du début du XXe siècle (basé sur des livres publiés entre 1905 et 1914).Dates de publication estimées pour les textes réels et générés, montrant à quel point GPT‑1914 et une version ajustée finement de GPT‑4o‑mini correspondent au style de l'écriture du début du XXe siècle (basé sur des livres publiés entre 1905 et 1914).

Cependant, les chercheurs ont averti que cette métrique pourrait ne capturer que des caractéristiques superficielles du style historique, et non des anachronismes conceptuels ou factuels plus profonds. Ils ont noté : « Ce n'est pas un test très sensible. Le modèle RoBERTa utilisé comme juge ici est uniquement entraîné pour prédire une date, pas pour discriminer les passages authentiques des anachroniques. Il utilise probablement des preuves stylistiques grossières pour faire cette prédiction. Les lecteurs humains, ou des modèles plus grands, pourraient encore détecter un contenu anachronique dans des passages qui semblent superficiellement 'de la période'. »

Évaluation humaine

Enfin, les chercheurs ont effectué des tests d'évaluation humaine en utilisant 250 passages soigneusement sélectionnés de livres publiés entre 1905 et 1914. Ils ont noté que beaucoup de ces textes seraient probablement interprétés différemment aujourd'hui qu'à l'époque de leur rédaction :

« Notre liste comprenait, par exemple, une entrée d'encyclopédie sur l'Alsace (qui faisait alors partie de l'Allemagne) et une sur le béribéri (qui était alors souvent expliqué comme une maladie fongique plutôt qu'une carence nutritionnelle). Bien que ce soient des différences de fait, nous avons également sélectionné des passages qui afficheraient des différences plus subtiles d'attitude, de rhétorique ou d'imagination. Par exemple, les descriptions de lieux non européens au début du XXe siècle tendent à glisser vers des généralisations raciales. Une description du lever de soleil sur la lune écrite en 1913 imagine des phénomènes chromatiques riches, car personne n'avait encore vu de photographies d'un monde sans atmosphère. »

Les chercheurs ont créé de courtes questions auxquelles chaque passage historique pouvait plausiblement répondre, puis ont ajusté finement GPT-4o-mini sur ces paires de questions-réponses. Pour renforcer l'évaluation, ils ont entraîné cinq versions distinctes du modèle, à chaque fois en retenant une portion différente des données pour les tests. Ils ont ensuite produit des réponses en utilisant à la fois les versions par défaut de GPT-4o et GPT-4o-mini, ainsi que les variantes ajustées finement, chacune évaluée sur la portion qu'elle n'avait pas vue pendant l'entraînement.

Perdu dans le temps

Pour évaluer à quel point les modèles pouvaient imiter de manière convaincante le langage historique, les chercheurs ont demandé à trois annotateurs experts d'examiner 120 complétions générées par IA et de juger si chacune semblait plausible pour un écrivain en 1914.

Cette évaluation s'est révélée plus difficile que prévu. Bien que les annotateurs soient d'accord sur leurs évaluations près de quatre-vingts pour cent du temps, le déséquilibre dans leurs jugements (avec 'plausible' choisi deux fois plus souvent que 'non plausible') signifiait que leur niveau d'accord réel était seulement modéré, mesuré par un score de kappa de Cohen de 0,554.

Les évaluateurs ont décrit la tâche comme difficile, nécessitant souvent des recherches supplémentaires pour évaluer si une affirmation était alignée avec ce qui était connu ou cru en 1914. Certains passages soulevaient des questions sur le ton et la perspective, comme si une réponse était appropriée dans sa vision du monde limitée pour refléter ce qui aurait été typique en 1914. Ce jugement dépendait souvent du niveau d'ethnocentrisme, la tendance à voir les autres cultures à travers les hypothèses ou les biais de sa propre culture.

Le défi était de décider si un passage exprimait juste assez de biais culturel pour sembler historiquement plausible sans paraître trop moderne ou trop ouvertement offensant selon les normes actuelles. Les auteurs ont noté que même pour les érudits familiers de la période, il était difficile de tracer une ligne nette entre un langage qui semblait historiquement précis et un langage qui reflétait les idées actuelles.

Néanmoins, les résultats ont montré un classement clair des modèles, avec la version ajustée finement de GPT-4o-mini jugée la plus plausible dans l'ensemble :

Évaluations des annotateurs sur la plausibilité de la sortie de chaque modèleÉvaluations des annotateurs sur la plausibilité de la sortie de chaque modèle

Il reste incertain si ce niveau de performance, jugé plausible dans quatre-vingts pour cent des cas, est suffisamment fiable pour la recherche historique, en particulier puisque l'étude n'incluait pas une mesure de base de la fréquence à laquelle de véritables textes de la période pourraient être mal classés.

Alerte intrus

Ensuite, les chercheurs ont effectué un 'test d'intrus', où des annotateurs experts ont vu quatre passages anonymes répondant à la même question historique. Trois réponses provenaient de modèles de langage, tandis qu'une était un extrait authentique d'une source du début du 20e siècle.

La tâche était d'identifier quel passage était l'original, véritablement écrit pendant la période. Cette approche ne demandait pas aux annotateurs d'évaluer directement la plausibilité, mais mesurait à quelle fréquence le vrai passage se distinguait des réponses générées par IA, testant efficacement si les modèles pouvaient tromper les lecteurs en pensant que leur sortie était authentique.

Le classement des modèles correspondait aux résultats de la tâche de jugement précédente : la version ajustée finement de GPT-4o-mini était la plus convaincante parmi les modèles, mais restait en deçà de la réalité.

La fréquence à laquelle chaque source a été correctement identifiée comme le passage historique authentique.La fréquence à laquelle chaque source a été correctement identifiée comme le passage historique authentique.

Ce test a également servi de référence utile, puisque le passage authentique a été identifié plus de la moitié du temps, indiquant que l'écart entre la prose authentique et synthétique restait perceptible pour les lecteurs humains.

Une analyse statistique connue sous le nom de test de McNemar a confirmé que les différences entre les modèles étaient significatives, sauf dans le cas des deux versions non ajustées (GPT-4o et GPT-4o-mini), qui ont performé de manière similaire.

L'avenir du passé

Les auteurs ont constaté que l'incitation des modèles de langage modernes à adopter une voix historique ne produisait pas de manière fiable des résultats convaincants : moins des deux tiers des sorties ont été jugées plausibles par les lecteurs humains, et ce chiffre surestime probablement les performances.

Dans de nombreux cas, les réponses incluaient des signaux explicites que le modèle parlait d'une perspective actuelle – des phrases telles que « en 1914, il n'est pas encore connu que... » ou « en 1914, je ne suis pas familier avec... » étaient assez courantes pour apparaître dans jusqu'à un cinquième des complétions. Ce type de clauses de non-responsabilité rendait clair que le modèle simulait l'histoire de l'extérieur, plutôt que d'écrire de l'intérieur.

Les auteurs ont déclaré : « Les mauvaises performances de l'apprentissage en contexte sont regrettables, car ces méthodes sont les plus faciles et les moins coûteuses pour la recherche historique basée sur l'IA. Nous soulignons que nous n'avons pas exploré ces approches de manière exhaustive. Il se peut que l'apprentissage en contexte soit adéquat – maintenant ou à l'avenir – pour un sous-ensemble de domaines de recherche. Mais nos premières preuves ne sont pas encourageantes. »

Les auteurs ont conclu que bien que l'ajustement fin d'un modèle commercial sur des passages historiques puisse produire une sortie stylistiquement convaincante à un coût minimal, il n'élimine pas complètement les traces de perspective moderne. Pré-entraîner un modèle entièrement sur du matériel de la période évite l'anachronisme, mais demande beaucoup plus de ressources et donne une sortie moins fluide.

Aucune méthode n'offre une solution complète, et, pour l'instant, toute tentative de simuler des voix historiques semble impliquer un compromis entre authenticité et cohérence. Les auteurs concluent que des recherches supplémentaires seront nécessaires pour clarifier comment naviguer au mieux cette tension.

Conclusion

L'une des questions les plus intrigantes soulevées par le nouvel article est celle de l'authenticité. Bien qu'ils ne soient pas des outils parfaits, les fonctions de perte et les métriques comme LPIPS et SSIM donnent aux chercheurs en vision par ordinateur une méthodologie pour évaluer par rapport à la vérité terrain. Cependant, lors de la génération de nouveau texte dans le style d'une époque révolue, il n'y a pas de vérité terrain – seulement une tentative d'habiter une perspective culturelle disparue. Tenter de reconstruire cet état d'esprit à partir de traces littéraires est en soi un acte de quantification, car ces traces ne sont que des preuves, tandis que la conscience culturelle dont elles émergent reste hors d'inférence, et probablement hors d'imagination.

Sur un plan pratique, les fondations des modèles de langage modernes, façonnées par les normes et les données actuelles, risquent de réinterpréter ou de supprimer des idées qui auraient semblé raisonnables ou banales à un lecteur édouardien, mais qui sont maintenant enregistrées comme des artefacts de préjugés, d'inégalités ou d'injustices.

On se demande donc, même si nous pouvions créer un tel colloque, s'il ne nous repousserait pas.

Première publication vendredi 2 mai 2025

Article connexe
Deep Cogito's LLMs Outperform Similar-Sized Models Using IDA Deep Cogito's LLMs Outperform Similar-Sized Models Using IDA Deep Cogito, a San Francisco-based company, is making waves in the AI community with its latest release of open large language models (LLMs). These models, which come in various sizes ranging from 3 billion to 70 billion parameters, are not just another set of AI tools; they're a bold step towards w
Usine de BD IA : Créez facilement des BD gratuitement avec l'IA Usine de BD IA : Créez facilement des BD gratuitement avec l'IA Dans le monde numérique d'aujourd'hui, la fusion de l'intelligence artificielle et des arts créatifs ouvre de nouvelles voies fascinantes pour l'expression. AI Comic Factory est à la pointe de cette r
Robots de trading IA : Peut-on vraiment gagner un mois de salaire en un jour ? Robots de trading IA : Peut-on vraiment gagner un mois de salaire en un jour ? Si vous avez déjà rêvé de gagner un mois de salaire en une seule journée, le monde des robots de trading IA pourrait sembler être le ticket d'or. Ces systèmes automatisés promettent d'exploiter l'inte
commentaires (0)
0/200
Retour en haut
OR