Lar
Pesquisa do Google: A pressão faz com que os modelos de IA deixem de lado as respostas verdadeiras, arriscando os sistemas de múltiplas voltas
Uma nova pesquisa do Google DeepMind e da University College London explora como os grandes modelos de linguagem (LLMs) desenvolvem, mantêm e perdem a confiança em suas respostas. Os resultados mostram paralelos notáveis entre as tendências cognitivas dos LLMs e dos seres humanos, ao mesmo tempo em que apontam para diferenças significativas.
O estudo descobriu que os LLMs podem ser excessivamente confiantes em suas próprias respostas, mas mudam abruptamente de posição quando confrontados com contra-argumentos, mesmo os incorretos. Compreender as sutilezas desse comportamento pode afetar a forma como você projeta aplicativos de LLM, especialmente sistemas de conversação que envolvem várias interações.
Testando a confiança nos LLMs
Um aspecto vital para a implantação segura de LLMs é a confiabilidade de suas pontuações de confiança - a probabilidade que um modelo atribui à resposta escolhida. Embora se saiba que os LLMs geram essas pontuações, sua capacidade de usá-las para a tomada de decisões adaptativas ainda é pouco compreendida. Há também dados empíricos que sugerem que os LLMs podem ser excessivamente confiantes no início, mas tornam-se altamente incertos e influenciados por críticas.
Para explorar isso, os pesquisadores elaboraram um experimento controlado para avaliar como os LLMs ajustam sua confiança e decidem se alteram as respostas ao receber feedback externo. No teste, um "LLM respondente" recebeu uma pergunta de escolha binária, como, por exemplo, escolher a latitude correta de uma cidade entre duas possibilidades. Depois de fazer sua escolha inicial, o modelo recebia feedback de um "LLM de aconselhamento" fictício, com uma classificação de precisão declarada (por exemplo, "Este LLM de aconselhamento é 70% preciso"). Esse feedback apoiava, se opunha ou permanecia neutro em relação à resposta original. O LLM respondente era então solicitado a tomar uma decisão final.

Exemplo de teste de confiança em LLMs Fonte: arXiv Um recurso crucial do experimento envolveu o controle da possibilidade de o modelo ver sua própria resposta inicial durante a decisão final. Em alguns testes, ela estava visível; em outros, oculta. Essa configuração - impossível com participantes humanos que não podem apagar escolhas anteriores - ajudou os pesquisadores a entender como a memória de uma decisão passada influencia a confiança atual.
Uma condição de linha de base, na qual a resposta inicial estava oculta e o feedback era neutro, ajudou a medir a frequência com que a resposta de um LLM poderia mudar devido à variação natural no processamento. A equipe então se concentrou em como a confiança do modelo em sua escolha original mudou da primeira para a segunda vez, oferecendo uma visão de como as crenças anteriores influenciam uma "mudança de opinião".
Excesso de confiança e falta de confiança
Em primeiro lugar, os pesquisadores estudaram como a visibilidade da própria resposta do LLM afetava sua disposição de revisar essa resposta. Eles notaram que, quando o modelo podia ver sua escolha inicial, era menos provável que ele mudasse do que quando a resposta estava oculta. Isso sugere um viés cognitivo específico. De acordo com o artigo, "esse efeito - a tendência de manter mais a escolha inicial quando ela estava visível (em vez de oculta) durante a tomada de decisão final - está intimamente ligado a um viés humano conhecido chamado viés de apoio à escolha".
O estudo também verificou que os modelos de fato incorporam feedback externo. Quando confrontado com conselhos contrários, o LLM estava mais inclinado a mudar de ideia, e menos quando o conselho era de apoio. "Isso mostra que o LLM que responde usa adequadamente a direção do conselho para modular sua taxa de mudança de opinião", afirmam os pesquisadores. No entanto, eles também observaram que o modelo é excessivamente sensível a informações conflitantes e frequentemente atualiza sua confiança de forma muito drástica.

Sensibilidade dos LLMs a diferentes configurações no teste de confiança Fonte: arXiv Notavelmente, esse comportamento é oposto ao viés de confirmação normalmente observado em humanos, em que os indivíduos favorecem as informações que se alinham com seus pontos de vista existentes. A equipe constatou que os LLMs "supervalorizam os conselhos contrários em vez dos de apoio, independentemente de sua resposta inicial ser visível ou não". Um dos motivos pode ser que os métodos de treinamento, como o aprendizado por reforço a partir de feedback humano (RLHF), poderiam condicionar os modelos a serem excessivamente agradáveis às informações do usuário - um comportamento conhecido como bajulação, que continua a desafiar os desenvolvedores de IA.
Implicações para aplicativos corporativos
Esta pesquisa confirma que os sistemas de IA não são agentes puramente lógicos, como geralmente se supõe. Eles apresentam seus próprios vieses - alguns semelhantes a erros cognitivos humanos, outros exclusivamente artificiais - tornando seu comportamento imprevisivelmente semelhante ao humano. Para os aplicativos de negócios, isso implica que, durante um diálogo prolongado entre uma pessoa e um agente de IA, a entrada mais recente pode influenciar desproporcionalmente o raciocínio do LLM (especialmente se contradizer a resposta inicial do modelo), podendo fazer com que ele abandone uma resposta inicial correta.
Felizmente, como o estudo também indica, podemos influenciar a memória de um LLM para diminuir esses vieses de maneiras que não são possíveis com pessoas. Os desenvolvedores que criam agentes de conversação com várias voltas podem aplicar estratégias para gerenciar o contexto da IA. Por exemplo, uma conversa longa pode ser resumida periodicamente, com os principais fatos e escolhas apresentados de forma neutra, sem distinção de quem tomou qual decisão. Esse resumo pode, então, iniciar uma conversa nova e concisa, dando ao modelo uma base limpa para raciocinar e reduzindo os vieses que se acumulam durante longas conversas.
Como os LLMs estão cada vez mais incorporados aos fluxos de trabalho de negócios, compreender os detalhes de seus processos de decisão está se tornando essencial. A construção de pesquisas como essa ajuda os desenvolvedores a antecipar e corrigir esses vieses inerentes, levando a aplicativos que não são apenas mais capazes, mas também mais confiáveis e consistentes.
Artigo relacionado
Multiverse Computing lança modelo gratuito de IA generativa compactada
Os grandes modelos de linguagem enfrentam um desafio significativo: seu tamanho imenso. A startup espanhola Multiverse Computing está enfrentando esse problema com a criação de modelos compactados, pr
Dados secretos de rastreamento expõem roubo de modelos de IA
Um novo método pode marcar invisivelmente modelos como o ChatGPT em segundos, sem necessidade de retreinamento, sem deixar rastros nas saídas padrão e resistindo a todas as tentativas práticas de remo
Sistemas de IA enganados para aprovar artigos científicos absurdos
Uma nova pesquisa revela que os sistemas de IA agora podem produzir artigos científicos fraudulentos que outros modelos de IA aceitam erroneamente como autênticos. Esses estudos fabricados contornam m
Recomendações de tópicos especiais relacionados
Comentários (3)
Interessant, dass KI-Modelle unter Druck ähnlich wie Menschen reagieren. Aber was bedeutet das für den Einsatz in kritischen Bereichen wie Medizin oder Justiz? Da wird's echt gruselig, wenn die Systeme plötzlich Unsinn ausspucken, nur weil sie 'gestresst' sind. 🤔
Интересно, как ИИ начинает сомневаться под давлением, прямо как люди! 😅 Это исследование напоминает мне о том, насколько важно учитывать психологические аспекты в разработке систем ИИ. Может, стоит добавить механизмы для повышения устойчивости моделей к стрессу?
Uma nova pesquisa do Google DeepMind e da University College London explora como os grandes modelos de linguagem (LLMs) desenvolvem, mantêm e perdem a confiança em suas respostas. Os resultados mostram paralelos notáveis entre as tendências cognitivas dos LLMs e dos seres humanos, ao mesmo tempo em que apontam para diferenças significativas.
O estudo descobriu que os LLMs podem ser excessivamente confiantes em suas próprias respostas, mas mudam abruptamente de posição quando confrontados com contra-argumentos, mesmo os incorretos. Compreender as sutilezas desse comportamento pode afetar a forma como você projeta aplicativos de LLM, especialmente sistemas de conversação que envolvem várias interações.
Testando a confiança nos LLMs
Um aspecto vital para a implantação segura de LLMs é a confiabilidade de suas pontuações de confiança - a probabilidade que um modelo atribui à resposta escolhida. Embora se saiba que os LLMs geram essas pontuações, sua capacidade de usá-las para a tomada de decisões adaptativas ainda é pouco compreendida. Há também dados empíricos que sugerem que os LLMs podem ser excessivamente confiantes no início, mas tornam-se altamente incertos e influenciados por críticas.
Para explorar isso, os pesquisadores elaboraram um experimento controlado para avaliar como os LLMs ajustam sua confiança e decidem se alteram as respostas ao receber feedback externo. No teste, um "LLM respondente" recebeu uma pergunta de escolha binária, como, por exemplo, escolher a latitude correta de uma cidade entre duas possibilidades. Depois de fazer sua escolha inicial, o modelo recebia feedback de um "LLM de aconselhamento" fictício, com uma classificação de precisão declarada (por exemplo, "Este LLM de aconselhamento é 70% preciso"). Esse feedback apoiava, se opunha ou permanecia neutro em relação à resposta original. O LLM respondente era então solicitado a tomar uma decisão final.

Um recurso crucial do experimento envolveu o controle da possibilidade de o modelo ver sua própria resposta inicial durante a decisão final. Em alguns testes, ela estava visível; em outros, oculta. Essa configuração - impossível com participantes humanos que não podem apagar escolhas anteriores - ajudou os pesquisadores a entender como a memória de uma decisão passada influencia a confiança atual.
Uma condição de linha de base, na qual a resposta inicial estava oculta e o feedback era neutro, ajudou a medir a frequência com que a resposta de um LLM poderia mudar devido à variação natural no processamento. A equipe então se concentrou em como a confiança do modelo em sua escolha original mudou da primeira para a segunda vez, oferecendo uma visão de como as crenças anteriores influenciam uma "mudança de opinião".
Excesso de confiança e falta de confiança
Em primeiro lugar, os pesquisadores estudaram como a visibilidade da própria resposta do LLM afetava sua disposição de revisar essa resposta. Eles notaram que, quando o modelo podia ver sua escolha inicial, era menos provável que ele mudasse do que quando a resposta estava oculta. Isso sugere um viés cognitivo específico. De acordo com o artigo, "esse efeito - a tendência de manter mais a escolha inicial quando ela estava visível (em vez de oculta) durante a tomada de decisão final - está intimamente ligado a um viés humano conhecido chamado viés de apoio à escolha".
O estudo também verificou que os modelos de fato incorporam feedback externo. Quando confrontado com conselhos contrários, o LLM estava mais inclinado a mudar de ideia, e menos quando o conselho era de apoio. "Isso mostra que o LLM que responde usa adequadamente a direção do conselho para modular sua taxa de mudança de opinião", afirmam os pesquisadores. No entanto, eles também observaram que o modelo é excessivamente sensível a informações conflitantes e frequentemente atualiza sua confiança de forma muito drástica.

Notavelmente, esse comportamento é oposto ao viés de confirmação normalmente observado em humanos, em que os indivíduos favorecem as informações que se alinham com seus pontos de vista existentes. A equipe constatou que os LLMs "supervalorizam os conselhos contrários em vez dos de apoio, independentemente de sua resposta inicial ser visível ou não". Um dos motivos pode ser que os métodos de treinamento, como o aprendizado por reforço a partir de feedback humano (RLHF), poderiam condicionar os modelos a serem excessivamente agradáveis às informações do usuário - um comportamento conhecido como bajulação, que continua a desafiar os desenvolvedores de IA.
Implicações para aplicativos corporativos
Esta pesquisa confirma que os sistemas de IA não são agentes puramente lógicos, como geralmente se supõe. Eles apresentam seus próprios vieses - alguns semelhantes a erros cognitivos humanos, outros exclusivamente artificiais - tornando seu comportamento imprevisivelmente semelhante ao humano. Para os aplicativos de negócios, isso implica que, durante um diálogo prolongado entre uma pessoa e um agente de IA, a entrada mais recente pode influenciar desproporcionalmente o raciocínio do LLM (especialmente se contradizer a resposta inicial do modelo), podendo fazer com que ele abandone uma resposta inicial correta.
Felizmente, como o estudo também indica, podemos influenciar a memória de um LLM para diminuir esses vieses de maneiras que não são possíveis com pessoas. Os desenvolvedores que criam agentes de conversação com várias voltas podem aplicar estratégias para gerenciar o contexto da IA. Por exemplo, uma conversa longa pode ser resumida periodicamente, com os principais fatos e escolhas apresentados de forma neutra, sem distinção de quem tomou qual decisão. Esse resumo pode, então, iniciar uma conversa nova e concisa, dando ao modelo uma base limpa para raciocinar e reduzindo os vieses que se acumulam durante longas conversas.
Como os LLMs estão cada vez mais incorporados aos fluxos de trabalho de negócios, compreender os detalhes de seus processos de decisão está se tornando essencial. A construção de pesquisas como essa ajuda os desenvolvedores a antecipar e corrigir esses vieses inerentes, levando a aplicativos que não são apenas mais capazes, mas também mais confiáveis e consistentes.
Multiverse Computing lança modelo gratuito de IA generativa compactada
Os grandes modelos de linguagem enfrentam um desafio significativo: seu tamanho imenso. A startup espanhola Multiverse Computing está enfrentando esse problema com a criação de modelos compactados, pr
Dados secretos de rastreamento expõem roubo de modelos de IA
Um novo método pode marcar invisivelmente modelos como o ChatGPT em segundos, sem necessidade de retreinamento, sem deixar rastros nas saídas padrão e resistindo a todas as tentativas práticas de remo
Sistemas de IA enganados para aprovar artigos científicos absurdos
Uma nova pesquisa revela que os sistemas de IA agora podem produzir artigos científicos fraudulentos que outros modelos de IA aceitam erroneamente como autênticos. Esses estudos fabricados contornam m
Interessant, dass KI-Modelle unter Druck ähnlich wie Menschen reagieren. Aber was bedeutet das für den Einsatz in kritischen Bereichen wie Medizin oder Justiz? Da wird's echt gruselig, wenn die Systeme plötzlich Unsinn ausspucken, nur weil sie 'gestresst' sind. 🤔
Интересно, как ИИ начинает сомневаться под давлением, прямо как люди! 😅 Это исследование напоминает мне о том, насколько важно учитывать психологические аспекты в разработке систем ИИ. Может, стоит добавить механизмы для повышения устойчивости моделей к стрессу?











