AI Enfrenta Dificuldades para Emular Linguagem Histórica
Uma equipe de pesquisadores dos Estados Unidos e Canadá descobriu que grandes modelos de linguagem, como o ChatGPT, têm dificuldade em replicar com precisão expressões idiomáticas históricas sem um pré-treinamento extenso e custoso. Esse desafio torna projetos ambiciosos, como usar IA para completar o último romance inacabado de Charles Dickens, fora do alcance da maioria dos esforços acadêmicos e de entretenimento.
Os pesquisadores experimentaram vários métodos para gerar texto que soasse historicamente preciso. Começaram com prompts simples usando prosa do início do século 20 e avançaram para ajustar um modelo comercial em um pequeno conjunto de livros dessa era. Também compararam esses resultados com um modelo treinado exclusivamente em literatura de 1880 a 1914.
No primeiro teste, instruíram o ChatGPT-4o a imitar a linguagem do período fin-de-siècle. Os resultados variaram significativamente daqueles produzidos por um modelo GPT2 menor e ajustado, treinado na literatura do mesmo período.
Solicitado a completar um texto histórico real (centro-superior), mesmo um ChatGPT-4o bem preparado (inferior à esquerda) não consegue evitar voltar ao modo 'blog', falhando em representar o idioma solicitado. Em contraste, o modelo GPT2 ajustado (inferior à direita) captura bem o estilo linguístico, mas não é tão preciso em outros aspectos. Fonte: https://arxiv.org/pdf/2505.00030
Embora o ajuste fino tenha melhorado a semelhança do resultado com o estilo original, os leitores humanos ainda detectavam linguagem ou ideias modernas, indicando que até mesmo modelos ajustados retêm traços de seus dados de treinamento contemporâneos.
Os pesquisadores concluíram que não há atalhos econômicos para gerar texto ou diálogo historicamente precisos com máquinas. Também sugeriram que o desafio em si pode ser inerentemente falho, afirmando: "Também devemos considerar a possibilidade de que o anacronismo seja, de certa forma, inevitável. Seja representando o passado ao ajustar modelos históricos para que possam manter conversas, ou ensinando modelos contemporâneos a imitar um período mais antigo, algum compromisso pode ser necessário entre os objetivos de autenticidade e fluência conversacional. Afinal, não há exemplos 'autênticos' de uma conversa entre um questionador do século XXI e um respondente de 1914. Pesquisadores que tentam criar tal conversa precisarão refletir sobre a premissa de que a interpretação sempre envolve uma negociação entre presente e passado."
O estudo, intitulado "Podem os Modelos de Linguagem Representar o Passado sem Anacronismo?", foi conduzido por pesquisadores da Universidade de Illinois, da Universidade da Colúmbia Britânica e da Universidade de Cornell.
Desafios Iniciais
Os pesquisadores inicialmente exploraram se modelos de linguagem modernos poderiam ser induzidos a imitar a linguagem histórica. Eles usaram trechos reais de livros publicados entre 1905 e 1914, pedindo ao ChatGPT-4o para continuar essas passagens no mesmo idioma.
O texto original do período usado foi:
"Neste último caso, cerca de cinco ou seis dólares são economizados por minuto, pois mais de vinte jardas de filme precisam ser desenroladas para projetar, durante um único minuto, um objeto de uma pessoa em repouso ou uma paisagem. Assim, obtém-se uma combinação prática de imagens fixas e em movimento, que produz efeitos muito artísticos. Também nos permite operar dois cinematógrafos projetando alternadamente para evitar cintilação, ou projetando simultaneamente imagens vermelhas e verdes e reproduzindo cores naturais, aliviando assim o olho humano, acostumado a receber as cores fundamentais simultaneamente, de toda fadiga fisiológica. Uma palavra agora sobre a aplicação da luz fria à fotografia instantânea."
Para avaliar a precisão histórica do texto gerado, os pesquisadores ajustaram um modelo RoBERTa para estimar datas de publicação, usando um subconjunto do Corpus de Inglês Americano Histórico, cobrindo material de 1810 a 2009. Este classificador RoBERTa avaliou continuações produzidas pelo ChatGPT-4o, induzido com passagens reais de livros publicados entre 1905 e 1914.
O prompt do sistema dado ao ChatGPT foi: "Sua tarefa é completar passagens de livros do início do século XX. Você receberá uma passagem de um livro publicado em 1913. Continue esta passagem no mesmo estilo, por pelo menos 200 palavras. Forneça apenas esta continuação; não faça comentários de enquadramento, como 'aqui está a continuação:'."
Apesar de usar prompts de um e 20 exemplos, as saídas do ChatGPT-4o consistentemente tenderam a um estilo do século XXI. Um exemplo fornecido no artigo mostrou a tentativa do ChatGPT-4o de continuar o texto sobre fotografia:
"O uso da luz fria na fotografia instantânea revolucionou a abordagem para capturar imagens sob condições de luz variadas. Tradicionalmente, os fotógrafos enfrentavam dificuldades com a dureza e variabilidade da luz natural ou a natureza intrusiva da fotografia com flash, que podia perturbar a atmosfera de uma cena ou o comportamento natural dos sujeitos, particularmente na fotografia de vida selvagem e humana espontânea. A luz fria, com sua natureza mais suave e difusa... permite uma representação mais natural de cores e texturas, que muitas vezes se perde sob iluminação artificial dura."
Este texto genérico, no estilo Wiki, não correspondia ao estilo prolixo e elaborado do texto original do período, nem continuava de forma fluida de onde o original parou. Em vez disso, desviou-se para uma discussão abstrata sobre um dos subtemas.
A equipe também testou o GPT-1914, um modelo GPT-2 menor treinado do zero em literatura datada entre 1880 e 1914. Embora menos coerente, sua saída era mais consistente com o estilo do período de origem. Um exemplo fornecido no artigo foi:
"O princípio de sua ação já foi explicado (p. 4). Aqui mencionaremos apenas que ele pode ser aplicado com vantagem quando desejamos obter fotografias muito rápidas em papel revestido com colódio, bem como aquelas tiradas por meio de placas de gelatina. Nesses casos, a exposição não deve exceder um segundo, pelo menos; mas se a imagem for desejada para ser revelada em menos tempo – digamos meio segundo – então a temperatura nunca deve cair abaixo de 20° C., caso contrário, a imagem ficará muito escura após a revelação; além disso, a placa perderia sua sensibilidade nessas condições. Para propósitos comuns, no entanto, basta apenas expor a superfície sensível a um baixo grau de calor sem que sejam necessárias precauções especiais além de manter o."
Embora o material original fosse arcano e desafiador de seguir, a saída do GPT-1914 soava mais autêntica ao período. No entanto, os autores concluíram que prompts simples fazem pouco para superar os vieses contemporâneos inerentes a grandes modelos pré-treinados como o ChatGPT-4o.
Mensurando a Precisão Histórica
Para avaliar o quão próximo as saídas dos modelos se assemelhavam à escrita histórica autêntica, os pesquisadores usaram um classificador estatístico para estimar a provável data de publicação de cada amostra de texto. Eles visualizaram os resultados usando um gráfico de densidade de kernel, mostrando onde o modelo posicionava cada passagem em uma linha do tempo histórica.
Datas de publicação estimadas para textos reais e gerados, com base em um classificador treinado para reconhecer estilo histórico (textos-fonte de 1905–1914 comparados com continuações por GPT-4o usando prompts de um e 20 exemplos, e por GPT-1914 treinado apenas em literatura de 1880–1914).
O modelo RoBERTa ajustado, embora não perfeito, destacou tendências estilísticas gerais. Passagens do GPT-1914, treinado apenas em literatura do período, agruparam-se em torno do início do século XX, semelhantes ao material de origem original. Em contraste, as saídas do ChatGPT-4o, mesmo com múltiplos prompts históricos, assemelhavam-se à escrita do século XXI, refletindo seus dados de treinamento.
Os pesquisadores quantificaram essa discrepância usando a divergência de Jensen-Shannon, medindo a diferença entre duas distribuições de probabilidade. O GPT-1914 obteve um valor próximo de 0,006 em comparação com o texto histórico real, enquanto as saídas do ChatGPT-4o com prompts de um e 20 exemplos mostraram discrepâncias muito maiores, em 0,310 e 0,350, respectivamente.
Os autores argumentam que essas descobertas indicam que apenas prompts, mesmo com múltiplos exemplos, não são um método confiável para produzir texto que simule de forma convincente um estilo histórico.
Ajuste Fino para Melhores Resultados
O artigo então explorou se o ajuste fino poderia produzir melhores resultados. Esse processo afeta diretamente os pesos do modelo ao continuar seu treinamento em dados especificados pelo usuário, potencialmente melhorando seu desempenho no domínio-alvo.
No primeiro experimento de ajuste fino, a equipe treinou o GPT-4o-mini em cerca de dois mil pares de completamento de passagens de livros publicados entre 1905 e 1914. Eles buscavam verificar se o ajuste fino em pequena escala poderia deslocar as saídas do modelo para um estilo mais historicamente preciso.
Usando o mesmo classificador baseado em RoBERTa para estimar a 'data' estilística de cada saída, os pesquisadores descobriram que o modelo ajustado produzia texto muito alinhado com a verdade de base. Sua divergência estilística dos textos originais, medida pela divergência de Jensen-Shannon, caiu para 0,002, geralmente em linha com o GPT-1914.
Datas de publicação estimadas para textos reais e gerados, mostrando o quão próximo o GPT-1914 e uma versão ajustada do GPT-4o-mini correspondem ao estilo da escrita do início do século XX (baseado em livros publicados entre 1905 e 1914).
No entanto, os pesquisadores alertaram que essa métrica pode capturar apenas características superficiais do estilo histórico, não anacronismos conceituais ou factuais mais profundos. Eles observaram: "Este não é um teste muito sensível. O modelo RoBERTa usado como juiz aqui é treinado apenas para prever uma data, não para discriminar passagens autênticas de anacrônicas. Provavelmente usa evidências estilísticas grosseiras para fazer essa previsão. Leitores humanos, ou modelos maiores, ainda podem detectar conteúdo anacrônico em passagens que superficialmente soam 'do período'."
Avaliação Humana
Por fim, os pesquisadores conduziram testes de avaliação humana usando 250 passagens selecionadas manualmente de livros publicados entre 1905 e 1914. Eles notaram que muitos desses textos provavelmente seriam interpretados de forma diferente hoje do que na época em que foram escritos:
"Nossa lista incluía, por exemplo, uma entrada de enciclopédia sobre Alsácia (que então fazia parte da Alemanha) e uma sobre beribéri (que então era frequentemente explicado como uma doença fúngica em vez de uma deficiência nutricional). Embora essas sejam diferenças de fato, também selecionamos passagens que exibiriam diferenças mais sutis de atitude, retórica ou imaginação. Por exemplo, descrições de lugares não europeus no início do século XX tendem a deslizar para generalizações raciais. Uma descrição do nascer do sol na lua escrita em 1913 imagina fenômenos cromáticos ricos, porque ninguém ainda havia visto fotografias de um mundo sem atmosfera."
Os pesquisadores criaram perguntas curtas que cada passagem histórica poderia plausivelmente responder, então ajustaram o GPT-4o-mini nesses pares de pergunta-resposta. Para fortalecer a avaliação, eles treinaram cinco versões separadas do modelo, cada vez reservando uma porção diferente dos dados para testes. Em seguida, produziram respostas usando tanto as versões padrão do GPT-4o e GPT-4o-mini quanto as variantes ajustadas, cada uma avaliada na porção que não havia visto durante o treinamento.
Perdido no Tempo
Para avaliar o quão convincentemente os modelos poderiam imitar a linguagem histórica, os pesquisadores pediram a três anotadores especialistas para revisar 120 completamentos gerados por IA e julgar se cada um parecia plausível para um escritor em 1914.
Essa avaliação provou ser mais desafiadora do que o esperado. Embora os anotadores concordassem em suas avaliações quase oitenta por cento do tempo, o desequilíbrio em seus julgamentos (com 'plausível' escolhido duas vezes mais que 'não plausível') significava que seu nível real de concordância era apenas moderado, medido por um escore kappa de Cohen de 0,554.
Os avaliadores descreveram a tarefa como difícil, muitas vezes exigindo pesquisa adicional para avaliar se uma afirmação estava alinhada com o que era conhecido ou acreditado em 1914. Algumas passagens levantaram questões sobre tom e perspectiva, como se uma resposta era apropriadamente limitada em sua visão de mundo para refletir o que seria típico em 1914. Esse julgamento frequentemente dependia do nível de etnocentrismo, a tendência de ver outras culturas através das suposições ou vieses da própria cultura.
O desafio era decidir se uma passagem expressava viés cultural suficiente para parecer historicamente plausível sem soar muito moderna ou excessivamente ofensiva pelos padrões de hoje. Os autores notaram que, mesmo para estudiosos familiarizados com o período, era difícil traçar uma linha clara entre linguagem que parecia historicamente precisa e linguagem que refletia ideias atuais.
Apesar disso, os resultados mostraram uma classificação clara dos modelos, com a versão ajustada do GPT-4o-mini julgada como a mais plausível no geral:
Avaliação de dos anotadores sobre o quão plausível parecia a saída de cada modelo um dos modelos
Se esse nível de desempenho, avaliado como plausível em oitenta por cento dos casos, é confiável o suficiente para a pesquisa histórica permanece não está claro, particularmente já que o estudo não incluiu uma medida de linha de base de quão frequentemente textos genuínos do período podem ser mal classificados.
Alerta de Intruso
Em seguida, os pesquisadores conduziram um teste de 'intruso', onde anotadores especialistas receberam quatro passagens anônimas respondendo à mesma questão histórica. Três respostas vieram de modelos de linguagem, enquanto uma era um trecho genuíno de uma fonte do início do século XX.
A tarefa era identificar qual passagem era a original, genuinamente escrita durante o período. Essa abordagem não pedia aos anotadores que avaliassem a plausibilidade diretamente, mas media com que frequência a passagem real se destacava das respostas geradas por IA, testando efetivamente se os modelos poderiam enganar leitores fazendo-os pensar que sua saída era autêntica.
A classificação dos modelos correspondeu aos resultados da tarefa de julgamento anterior: a versão ajustada do GPT-4o-mini foi a mais convincente entre os modelos, mas ainda ficou aquém do real.
A frequência com que cada fonte foi corretamente identificada como a passagem histórica autêntica.
Esse teste também serviu como um marco útil, uma vez que a passagem genuína foi identificada mais de metade do tempo, indicando que a lacuna entre prosa autêntica e sintética ainda era perceptível para leitores humanos.
Uma análise estatística conhecida como teste de McNemar confirmou que as diferenças entre os modelos eram significativas, exceto no caso das duas versões não ajustadas (GPT-4o e GPT-4o-mini), que tiveram desempenho semelhante.
O Futuro do Passado
Os autores descobriram que induzir modelos de linguagem modernos a adotar uma voz histórica não produziu resultados convincentes de forma confiável: menos de dois terços das saídas foram julgadas plausíveis por leitores humanos, e mesmo essa cifra provavelmente superestima o desempenho.
Em muitos casos, as respostas incluíam sinais explícitos de que o modelo estava falando de uma perspectiva atual—frases como "em 1914, ainda não se sabe que..." ou "em 1914, não estou familiarizado com..." eram comuns o suficiente para aparecer em até um quinto das conclusões. Isenções desse tipo deixavam claro que o modelo estava simulando a história de fora, em vez de escrever de dentro dela.
Os autores afirmaram: "O baixo desempenho da aprendizagem no contexto é lamentável, porque esses métodos são os mais fáceis e baratos para a pesquisa histórica baseada em IA. Enfatizamos que não exploramos essas abordagens de forma exaustiva. Pode ser que a aprendizagem no contexto seja adequada — agora ou no futuro — para um subconjunto de áreas de pesquisa. Mas nossas evidências iniciais não são encorajadoras."
Os autores concluíram que, embora o ajuste fino de um modelo comercial em passagens históricas possa produzir resultados estilisticamente convincentes a custo mínimo, ele não elimina completamente traços de perspectiva moderna. Pré-treinar um modelo inteiramente em material do período evita o anacronismo, mas exige recursos muito maiores e resulta em uma saída menos fluida.
Nenhum método oferece uma solução completa, e, por enquanto agora, qualquer tentativa de simular vozes históricas parece envolver um compromisso entre autenticidade e coerência. Os autores concluem que mais pesquisas serão necessárias para esclarecer como navegar melhor essa tensão.
Conclusão
Uma das perguntas mais intrigantes levantadas pelo novo artigo é a de autenticidade. Embora não sejam ferramentas perfeitas, funções de perda e métricas como LPIPS e SSIM oferecem aos pesquisadores de visão computacional uma metodologia para avaliar contra a verdade de base. No entanto, ao gerar um novo texto no estilo de uma era passada, não há uma verdade de base — apenas uma tentativa de habitar uma perspectiva cultural desaparecida. Tentar reconstruir essa mentalidade a partir de traços literários é, em si, um ato de quantização, pois esses traços são apenas evidências, enquanto a consciência cultural da qual eles emergem permanece fora da inferência, e provavelmente além da imaginação.
Em um nível prático, as fundações dos modelos de linguagem modernos, moldados por normas e dados atuais, correm o risco de reinterpretar ou suprimir ideias que teriam parecido razoáveis ou comuns para um leitor eduardiano, mas que agora se registram como artefatos de preconceito, desigualdade ou injustiça.
Assim, pergunta-se, portanto, mesmo que pudéssemos criar tal colóquio, se ele não poderia nos repelir.
Publicado pela primeira vez em sexta-feira, 2 de maio de 2025
Artigo relacionado
Deep Cogito's LLMs Outperform Similar-Sized Models Using IDA
Deep Cogito, a San Francisco-based company, is making waves in the AI community with its latest release of open large language models (LLMs). These models, which come in various sizes ranging from 3 billion to 70 billion parameters, are not just another set of AI tools; they're a bold step towards w
Fábrica de Quadrinhos com IA: Crie Quadrinhos Facilmente de Graça Usando IA
No mundo digital de hoje, a fusão de inteligência artificial e artes criativas está gerando novas e fascinantes formas de expressão. A Fábrica de Quadrinhos com IA lidera essa revolução, oferecendo um
Bots de Negociação de IA: Você Realmente Pode Ganhar o Salário de um Mês em um Dia?
Se você já sonhou em ganhar o salário de um mês em um único dia, o mundo dos bots de negociação de IA pode parecer o bilhete dourado. Esses sistemas automatizados prometem usar inteligência artificial
Comentários (0)
0/200
Uma equipe de pesquisadores dos Estados Unidos e Canadá descobriu que grandes modelos de linguagem, como o ChatGPT, têm dificuldade em replicar com precisão expressões idiomáticas históricas sem um pré-treinamento extenso e custoso. Esse desafio torna projetos ambiciosos, como usar IA para completar o último romance inacabado de Charles Dickens, fora do alcance da maioria dos esforços acadêmicos e de entretenimento.
Os pesquisadores experimentaram vários métodos para gerar texto que soasse historicamente preciso. Começaram com prompts simples usando prosa do início do século 20 e avançaram para ajustar um modelo comercial em um pequeno conjunto de livros dessa era. Também compararam esses resultados com um modelo treinado exclusivamente em literatura de 1880 a 1914.
No primeiro teste, instruíram o ChatGPT-4o a imitar a linguagem do período fin-de-siècle. Os resultados variaram significativamente daqueles produzidos por um modelo GPT2 menor e ajustado, treinado na literatura do mesmo período.
Solicitado a completar um texto histórico real (centro-superior), mesmo um ChatGPT-4o bem preparado (inferior à esquerda) não consegue evitar voltar ao modo 'blog', falhando em representar o idioma solicitado. Em contraste, o modelo GPT2 ajustado (inferior à direita) captura bem o estilo linguístico, mas não é tão preciso em outros aspectos. Fonte: https://arxiv.org/pdf/2505.00030
Embora o ajuste fino tenha melhorado a semelhança do resultado com o estilo original, os leitores humanos ainda detectavam linguagem ou ideias modernas, indicando que até mesmo modelos ajustados retêm traços de seus dados de treinamento contemporâneos.
Os pesquisadores concluíram que não há atalhos econômicos para gerar texto ou diálogo historicamente precisos com máquinas. Também sugeriram que o desafio em si pode ser inerentemente falho, afirmando: "Também devemos considerar a possibilidade de que o anacronismo seja, de certa forma, inevitável. Seja representando o passado ao ajustar modelos históricos para que possam manter conversas, ou ensinando modelos contemporâneos a imitar um período mais antigo, algum compromisso pode ser necessário entre os objetivos de autenticidade e fluência conversacional. Afinal, não há exemplos 'autênticos' de uma conversa entre um questionador do século XXI e um respondente de 1914. Pesquisadores que tentam criar tal conversa precisarão refletir sobre a premissa de que a interpretação sempre envolve uma negociação entre presente e passado."
O estudo, intitulado "Podem os Modelos de Linguagem Representar o Passado sem Anacronismo?", foi conduzido por pesquisadores da Universidade de Illinois, da Universidade da Colúmbia Britânica e da Universidade de Cornell.
Desafios Iniciais
Os pesquisadores inicialmente exploraram se modelos de linguagem modernos poderiam ser induzidos a imitar a linguagem histórica. Eles usaram trechos reais de livros publicados entre 1905 e 1914, pedindo ao ChatGPT-4o para continuar essas passagens no mesmo idioma.
O texto original do período usado foi:
"Neste último caso, cerca de cinco ou seis dólares são economizados por minuto, pois mais de vinte jardas de filme precisam ser desenroladas para projetar, durante um único minuto, um objeto de uma pessoa em repouso ou uma paisagem. Assim, obtém-se uma combinação prática de imagens fixas e em movimento, que produz efeitos muito artísticos. Também nos permite operar dois cinematógrafos projetando alternadamente para evitar cintilação, ou projetando simultaneamente imagens vermelhas e verdes e reproduzindo cores naturais, aliviando assim o olho humano, acostumado a receber as cores fundamentais simultaneamente, de toda fadiga fisiológica. Uma palavra agora sobre a aplicação da luz fria à fotografia instantânea."
Para avaliar a precisão histórica do texto gerado, os pesquisadores ajustaram um modelo RoBERTa para estimar datas de publicação, usando um subconjunto do Corpus de Inglês Americano Histórico, cobrindo material de 1810 a 2009. Este classificador RoBERTa avaliou continuações produzidas pelo ChatGPT-4o, induzido com passagens reais de livros publicados entre 1905 e 1914.
O prompt do sistema dado ao ChatGPT foi: "Sua tarefa é completar passagens de livros do início do século XX. Você receberá uma passagem de um livro publicado em 1913. Continue esta passagem no mesmo estilo, por pelo menos 200 palavras. Forneça apenas esta continuação; não faça comentários de enquadramento, como 'aqui está a continuação:'."
Apesar de usar prompts de um e 20 exemplos, as saídas do ChatGPT-4o consistentemente tenderam a um estilo do século XXI. Um exemplo fornecido no artigo mostrou a tentativa do ChatGPT-4o de continuar o texto sobre fotografia:
"O uso da luz fria na fotografia instantânea revolucionou a abordagem para capturar imagens sob condições de luz variadas. Tradicionalmente, os fotógrafos enfrentavam dificuldades com a dureza e variabilidade da luz natural ou a natureza intrusiva da fotografia com flash, que podia perturbar a atmosfera de uma cena ou o comportamento natural dos sujeitos, particularmente na fotografia de vida selvagem e humana espontânea. A luz fria, com sua natureza mais suave e difusa... permite uma representação mais natural de cores e texturas, que muitas vezes se perde sob iluminação artificial dura."
Este texto genérico, no estilo Wiki, não correspondia ao estilo prolixo e elaborado do texto original do período, nem continuava de forma fluida de onde o original parou. Em vez disso, desviou-se para uma discussão abstrata sobre um dos subtemas.
A equipe também testou o GPT-1914, um modelo GPT-2 menor treinado do zero em literatura datada entre 1880 e 1914. Embora menos coerente, sua saída era mais consistente com o estilo do período de origem. Um exemplo fornecido no artigo foi:
"O princípio de sua ação já foi explicado (p. 4). Aqui mencionaremos apenas que ele pode ser aplicado com vantagem quando desejamos obter fotografias muito rápidas em papel revestido com colódio, bem como aquelas tiradas por meio de placas de gelatina. Nesses casos, a exposição não deve exceder um segundo, pelo menos; mas se a imagem for desejada para ser revelada em menos tempo – digamos meio segundo – então a temperatura nunca deve cair abaixo de 20° C., caso contrário, a imagem ficará muito escura após a revelação; além disso, a placa perderia sua sensibilidade nessas condições. Para propósitos comuns, no entanto, basta apenas expor a superfície sensível a um baixo grau de calor sem que sejam necessárias precauções especiais além de manter o."
Embora o material original fosse arcano e desafiador de seguir, a saída do GPT-1914 soava mais autêntica ao período. No entanto, os autores concluíram que prompts simples fazem pouco para superar os vieses contemporâneos inerentes a grandes modelos pré-treinados como o ChatGPT-4o.
Mensurando a Precisão Histórica
Para avaliar o quão próximo as saídas dos modelos se assemelhavam à escrita histórica autêntica, os pesquisadores usaram um classificador estatístico para estimar a provável data de publicação de cada amostra de texto. Eles visualizaram os resultados usando um gráfico de densidade de kernel, mostrando onde o modelo posicionava cada passagem em uma linha do tempo histórica.
Datas de publicação estimadas para textos reais e gerados, com base em um classificador treinado para reconhecer estilo histórico (textos-fonte de 1905–1914 comparados com continuações por GPT-4o usando prompts de um e 20 exemplos, e por GPT-1914 treinado apenas em literatura de 1880–1914).
O modelo RoBERTa ajustado, embora não perfeito, destacou tendências estilísticas gerais. Passagens do GPT-1914, treinado apenas em literatura do período, agruparam-se em torno do início do século XX, semelhantes ao material de origem original. Em contraste, as saídas do ChatGPT-4o, mesmo com múltiplos prompts históricos, assemelhavam-se à escrita do século XXI, refletindo seus dados de treinamento.
Os pesquisadores quantificaram essa discrepância usando a divergência de Jensen-Shannon, medindo a diferença entre duas distribuições de probabilidade. O GPT-1914 obteve um valor próximo de 0,006 em comparação com o texto histórico real, enquanto as saídas do ChatGPT-4o com prompts de um e 20 exemplos mostraram discrepâncias muito maiores, em 0,310 e 0,350, respectivamente.
Os autores argumentam que essas descobertas indicam que apenas prompts, mesmo com múltiplos exemplos, não são um método confiável para produzir texto que simule de forma convincente um estilo histórico.
Ajuste Fino para Melhores Resultados
O artigo então explorou se o ajuste fino poderia produzir melhores resultados. Esse processo afeta diretamente os pesos do modelo ao continuar seu treinamento em dados especificados pelo usuário, potencialmente melhorando seu desempenho no domínio-alvo.
No primeiro experimento de ajuste fino, a equipe treinou o GPT-4o-mini em cerca de dois mil pares de completamento de passagens de livros publicados entre 1905 e 1914. Eles buscavam verificar se o ajuste fino em pequena escala poderia deslocar as saídas do modelo para um estilo mais historicamente preciso.
Usando o mesmo classificador baseado em RoBERTa para estimar a 'data' estilística de cada saída, os pesquisadores descobriram que o modelo ajustado produzia texto muito alinhado com a verdade de base. Sua divergência estilística dos textos originais, medida pela divergência de Jensen-Shannon, caiu para 0,002, geralmente em linha com o GPT-1914.
Datas de publicação estimadas para textos reais e gerados, mostrando o quão próximo o GPT-1914 e uma versão ajustada do GPT-4o-mini correspondem ao estilo da escrita do início do século XX (baseado em livros publicados entre 1905 e 1914).
No entanto, os pesquisadores alertaram que essa métrica pode capturar apenas características superficiais do estilo histórico, não anacronismos conceituais ou factuais mais profundos. Eles observaram: "Este não é um teste muito sensível. O modelo RoBERTa usado como juiz aqui é treinado apenas para prever uma data, não para discriminar passagens autênticas de anacrônicas. Provavelmente usa evidências estilísticas grosseiras para fazer essa previsão. Leitores humanos, ou modelos maiores, ainda podem detectar conteúdo anacrônico em passagens que superficialmente soam 'do período'."
Avaliação Humana
Por fim, os pesquisadores conduziram testes de avaliação humana usando 250 passagens selecionadas manualmente de livros publicados entre 1905 e 1914. Eles notaram que muitos desses textos provavelmente seriam interpretados de forma diferente hoje do que na época em que foram escritos:
"Nossa lista incluía, por exemplo, uma entrada de enciclopédia sobre Alsácia (que então fazia parte da Alemanha) e uma sobre beribéri (que então era frequentemente explicado como uma doença fúngica em vez de uma deficiência nutricional). Embora essas sejam diferenças de fato, também selecionamos passagens que exibiriam diferenças mais sutis de atitude, retórica ou imaginação. Por exemplo, descrições de lugares não europeus no início do século XX tendem a deslizar para generalizações raciais. Uma descrição do nascer do sol na lua escrita em 1913 imagina fenômenos cromáticos ricos, porque ninguém ainda havia visto fotografias de um mundo sem atmosfera."
Os pesquisadores criaram perguntas curtas que cada passagem histórica poderia plausivelmente responder, então ajustaram o GPT-4o-mini nesses pares de pergunta-resposta. Para fortalecer a avaliação, eles treinaram cinco versões separadas do modelo, cada vez reservando uma porção diferente dos dados para testes. Em seguida, produziram respostas usando tanto as versões padrão do GPT-4o e GPT-4o-mini quanto as variantes ajustadas, cada uma avaliada na porção que não havia visto durante o treinamento.
Perdido no Tempo
Para avaliar o quão convincentemente os modelos poderiam imitar a linguagem histórica, os pesquisadores pediram a três anotadores especialistas para revisar 120 completamentos gerados por IA e julgar se cada um parecia plausível para um escritor em 1914.
Essa avaliação provou ser mais desafiadora do que o esperado. Embora os anotadores concordassem em suas avaliações quase oitenta por cento do tempo, o desequilíbrio em seus julgamentos (com 'plausível' escolhido duas vezes mais que 'não plausível') significava que seu nível real de concordância era apenas moderado, medido por um escore kappa de Cohen de 0,554.
Os avaliadores descreveram a tarefa como difícil, muitas vezes exigindo pesquisa adicional para avaliar se uma afirmação estava alinhada com o que era conhecido ou acreditado em 1914. Algumas passagens levantaram questões sobre tom e perspectiva, como se uma resposta era apropriadamente limitada em sua visão de mundo para refletir o que seria típico em 1914. Esse julgamento frequentemente dependia do nível de etnocentrismo, a tendência de ver outras culturas através das suposições ou vieses da própria cultura.
O desafio era decidir se uma passagem expressava viés cultural suficiente para parecer historicamente plausível sem soar muito moderna ou excessivamente ofensiva pelos padrões de hoje. Os autores notaram que, mesmo para estudiosos familiarizados com o período, era difícil traçar uma linha clara entre linguagem que parecia historicamente precisa e linguagem que refletia ideias atuais.
Apesar disso, os resultados mostraram uma classificação clara dos modelos, com a versão ajustada do GPT-4o-mini julgada como a mais plausível no geral:
Avaliação de dos anotadores sobre o quão plausível parecia a saída de cada modelo um dos modelos
Se esse nível de desempenho, avaliado como plausível em oitenta por cento dos casos, é confiável o suficiente para a pesquisa histórica permanece não está claro, particularmente já que o estudo não incluiu uma medida de linha de base de quão frequentemente textos genuínos do período podem ser mal classificados.
Alerta de Intruso
Em seguida, os pesquisadores conduziram um teste de 'intruso', onde anotadores especialistas receberam quatro passagens anônimas respondendo à mesma questão histórica. Três respostas vieram de modelos de linguagem, enquanto uma era um trecho genuíno de uma fonte do início do século XX.
A tarefa era identificar qual passagem era a original, genuinamente escrita durante o período. Essa abordagem não pedia aos anotadores que avaliassem a plausibilidade diretamente, mas media com que frequência a passagem real se destacava das respostas geradas por IA, testando efetivamente se os modelos poderiam enganar leitores fazendo-os pensar que sua saída era autêntica.
A classificação dos modelos correspondeu aos resultados da tarefa de julgamento anterior: a versão ajustada do GPT-4o-mini foi a mais convincente entre os modelos, mas ainda ficou aquém do real.
A frequência com que cada fonte foi corretamente identificada como a passagem histórica autêntica.
Esse teste também serviu como um marco útil, uma vez que a passagem genuína foi identificada mais de metade do tempo, indicando que a lacuna entre prosa autêntica e sintética ainda era perceptível para leitores humanos.
Uma análise estatística conhecida como teste de McNemar confirmou que as diferenças entre os modelos eram significativas, exceto no caso das duas versões não ajustadas (GPT-4o e GPT-4o-mini), que tiveram desempenho semelhante.
O Futuro do Passado
Os autores descobriram que induzir modelos de linguagem modernos a adotar uma voz histórica não produziu resultados convincentes de forma confiável: menos de dois terços das saídas foram julgadas plausíveis por leitores humanos, e mesmo essa cifra provavelmente superestima o desempenho.
Em muitos casos, as respostas incluíam sinais explícitos de que o modelo estava falando de uma perspectiva atual—frases como "em 1914, ainda não se sabe que..." ou "em 1914, não estou familiarizado com..." eram comuns o suficiente para aparecer em até um quinto das conclusões. Isenções desse tipo deixavam claro que o modelo estava simulando a história de fora, em vez de escrever de dentro dela.
Os autores afirmaram: "O baixo desempenho da aprendizagem no contexto é lamentável, porque esses métodos são os mais fáceis e baratos para a pesquisa histórica baseada em IA. Enfatizamos que não exploramos essas abordagens de forma exaustiva. Pode ser que a aprendizagem no contexto seja adequada — agora ou no futuro — para um subconjunto de áreas de pesquisa. Mas nossas evidências iniciais não são encorajadoras."
Os autores concluíram que, embora o ajuste fino de um modelo comercial em passagens históricas possa produzir resultados estilisticamente convincentes a custo mínimo, ele não elimina completamente traços de perspectiva moderna. Pré-treinar um modelo inteiramente em material do período evita o anacronismo, mas exige recursos muito maiores e resulta em uma saída menos fluida.
Nenhum método oferece uma solução completa, e, por enquanto agora, qualquer tentativa de simular vozes históricas parece envolver um compromisso entre autenticidade e coerência. Os autores concluem que mais pesquisas serão necessárias para esclarecer como navegar melhor essa tensão.
Conclusão
Uma das perguntas mais intrigantes levantadas pelo novo artigo é a de autenticidade. Embora não sejam ferramentas perfeitas, funções de perda e métricas como LPIPS e SSIM oferecem aos pesquisadores de visão computacional uma metodologia para avaliar contra a verdade de base. No entanto, ao gerar um novo texto no estilo de uma era passada, não há uma verdade de base — apenas uma tentativa de habitar uma perspectiva cultural desaparecida. Tentar reconstruir essa mentalidade a partir de traços literários é, em si, um ato de quantização, pois esses traços são apenas evidências, enquanto a consciência cultural da qual eles emergem permanece fora da inferência, e provavelmente além da imaginação.
Em um nível prático, as fundações dos modelos de linguagem modernos, moldados por normas e dados atuais, correm o risco de reinterpretar ou suprimir ideias que teriam parecido razoáveis ou comuns para um leitor eduardiano, mas que agora se registram como artefatos de preconceito, desigualdade ou injustiça.
Assim, pergunta-se, portanto, mesmo que pudéssemos criar tal colóquio, se ele não poderia nos repelir.
Publicado pela primeira vez em sexta-feira, 2 de maio de 2025












