Emojis podem driblar os filtros de segurança em chatbots de IA

Lar

Notícias

27 de Novembro de 2025

CharlesWhite

# LLMs

Os emojis podem contornar os mecanismos de segurança em grandes modelos de linguagem, levando a resultados tóxicos que, de outra forma, seriam bloqueados. Este método permite que os LLMs discutam e forneçam orientação sobre tópicos proibidos, como fabricação de bombas e assassinato.

Uma recente colaboração China-Singapura apresenta fortes evidências de que os emojis não só podem evadir os filtros de conteúdo em grandes modelos de linguagem (LLMs), mas também amplificar a toxicidade durante as interações:

From the new paper, a broad demonstration of the ways that encoding a banned concept with emojis can help a user to

Do novo artigo, uma ampla demonstração de como codificar conceitos proibidos com emojis pode ajudar os utilizadores a 'violar' (jailbreak) LLMs populares. Fonte: https://arxiv.org/pdf/2509.11141

No exemplo acima, converter uma intenção baseada em texto que viola regras numa alternativa carregada de emojis pode provocar uma resposta mais cooperativa de modelos avançados como o ChatGPT-4o, que normalmente saneia os inputs e bloqueia conteúdos que violam as regras.

De acordo com os autores, os emojis podem efetivamente servir como uma técnica de violação (jailbreaking) em casos extremos.

Uma questão persistente é por que razão os LLMs permitem que os emojis contornem as regras e eliciem conteúdo tóxico, mesmo quando os modelos reconhecem as associações nocivas de certos emojis.

Os investigadores propõem que os LLMs, treinados para replicar padrões dos seus dados, tratam os emojis como pistas estatísticas em vez de conteúdo a filtrar. Como os emojis são comuns nos dados de treino, os modelos aprendem a associá-los a discursos específicos, reforçando significados tóxicos em vez de os sinalizar. Medidas de segurança, aplicadas a posteriori e muitas vezes de forma restrita, podem perder completamente estes prompts carregados de emojis.

Assim, o modelo torna-se tolerante não apesar da associação tóxica, mas por causa dela.

Passe Livre

Os autores reconhecem que esta não é uma explicação definitiva para o contorno da filtragem por emojis. Eles afirmam:

'Os modelos podem reconhecer a intenção maliciosa expressa por emojis, mas a forma como isso contorna os mecanismos de segurança permanece pouco clara.'

A vulnerabilidade pode ter origem no design dos filtros centrados em texto, que dependem de tokens explícitos ou incorporações (embeddings) correspondentes a regras de segurança. Ao contrário das palavras, os emojis existem numa área cinzenta — nem puramente texto nem imagem — permitindo-lhes evadir a deteção. É necessária mais investigação sobre esta falha.

O artigo, intitulado When Smiley Turns Hostile: Interpreting How Emojis Trigger LLMs’ Toxicity (Quando o Sorriso Fica Hostil: Interpretando Como os Emojis Desencadeiam a Toxicidade dos LLMs), envolve nove investigadores da Universidade de Tsinghua e da Universidade Nacional de Singapura.

(O artigo referencia exemplos num apêndice ainda não disponível; apesar de pedidos, não foi fornecido no momento da escrita. Ainda assim, as principais descobertas merecem atenção.)

Três Interpretações Principais dos Emojis

Os emojis contornam os filtros através de três características linguísticas. Primeiro, os seus significados são dependentes do contexto. Por exemplo, o emoji 'Dinheiro com Asas' denota oficialmente gastos, mas pode implicar atividade ilícita dependendo do contexto:

In a partial illustration from the new paper, we see that a popular emoji can have its meaning hijacked altered or subverted in popular usage This effectively gives the emoji an official passport into the semantic space, and a hidden payload of negative or toxic meaning that can be exploited once it is past the filters.

Numa ilustração parcial, o significado de um emoji popular pode ser usurpado no uso, concedendo-lhe um passaporte semântico com uma carga tóxica oculta explorável após a filtragem.

Segundo, os emojis alteram o tom, acrescentando ludicidade ou ironia que suaviza o impacto emocional. Em consultas nocivas, isso pode disfarçar a intenção como humor, encorajando a complacência do modelo:

The leavening effect of emojis can detoxify tone without detoxifying intent.

Os emojis podem desintoxicar o tom sem neutralizar a intenção nociva.

Terceiro, os emojis são agnósticos em relação à língua, transmitindo sentimentos consistentes em línguas como inglês, chinês e francês. Isto torna-os ideais para prompts multilingues, preservando o significado apesar da tradução:

The broken heart emoji conveys a universal message, perhaps not least because it represents a baseline case in the human condition, relatively immune to national or cultural variations.

O emoji 'coração partido' comunica universalmente, refletindo uma experiência humana fundamental menos afetada por diferenças culturais.

Abordagem, Dados e Testes*

Os investigadores modificaram o conjunto de dados AdvBench, adicionando emojis como substitutos de termos sensíveis ou elementos decorativos. O AdvBench inclui 32 tópicos de alto risco, como bombas e hacking:

Original examples from AdvBench, illustrating how a single adversarial prompt can bypass safeguards in multiple major chatbots, eliciting harmful instructions despite alignment training. Source: https://arxiv.org/pdf/2307.15043

Exemplos originais do AdvBench mostram como os prompts adversariais contornam salvaguardas em chatbots principais, eliciando respostas nocivas apesar do alinhamento (alignment). Fonte: https://arxiv.org/pdf/2307.15043

Todas as 520 instâncias do AdvBench foram modificadas com emojis, sendo os 50 prompts tóxicos principais utilizados em todas as experiências. Os prompts foram traduzidos para vários idiomas e testados em sete modelos proprietários (closed-source) e de código aberto (open-source), combinados com técnicas de violação como PAIR, TAP e DeepInception.

Os modelos proprietários incluíram Gemini-2.0-flash, GPT-4o, GPT-4-0613 e Gemini-1.5-pro. Os modelos de código aberto foram Llama-3-8B-Instruct, Qwen2.5-7B-Instruct e Qwen2.5-72B-Instruct, com os testes repetidos três vezes para fiabilidade.

O estudo avaliou se os prompts reescritos com emojis aumentaram a produção de conteúdo tóxico, inclusive em traduções. Também aplicou edições de emojis a estratégias de violação conhecidas para avaliar a eficácia aumentada.

As estruturas dos prompts foram preservadas, com apenas os termos sensíveis substituídos por emojis ou elementos decorativos adicionados.

Para avaliação, os autores introduziram o GPT-Judge, onde o GPT-4o classificou as respostas de outros modelos numa escala de Pontuação de Nocividade (Harmful Score - HS) de 1 a 5. Respostas com pontuação 5 constituíram a Taxa de Nocividade (Harmfulness Ratio - HR).

Para evitar explicações de emojis, os prompts incluíam instruções para brevidade:

Resultados de prompts baseados em emojis na 'Configuração-1', comparados com variantes onde os emojis foram substituídos por palavras ou removidos. Os nomes dos modelos estão abreviados.

Os resultados iniciais mostram que os prompts com substituição por emojis alcançaram pontuações HS e HR mais altas do que as versões baseadas em texto. A abordagem com emojis superou métodos de violação anteriores, como visto na tabela adicional:

Harmfulness Ratio results for emoji-augmented jailbreak prompts in

Resultados da Taxa de Nocividade (HR) para prompts de violação aumentados com emojis na 'Configuração-2', com nomes de modelos abreviados.

A primeira tabela também indica o efeito transversal dos emojis em diferentes línguas. Quando os prompts foram traduzidos para chinês, francês, espanhol e russo, as saídas nocivas permaneceram elevadas, sugerindo que os riscos se estendem para além do inglês para grupos principais de utilizadores.

Em conclusão, os investigadores notam que o impacto dos emojis deriva da forma como os modelos os processam — reconhecendo o dano, mas suprimindo a rejeição quando os emojis estão presentes. Estudos de tokenização mostram que os emojis fragmentam-se em tokens raros, criando um canal semântico alternativo.

A análise dos dados de pré-treino revela o uso frequente de emojis em contextos tóxicos (por exemplo, burlas, jogos de azar), normalizando associações nocivas. Juntas, as idiossincrasias do modelo e os dados tendenciosos explicam a eficácia dos emojis em contornar a segurança.

Conclusão

Métodos de input alternativos, como a codificação hexadecimal, têm sido usados para violar LLMs. O problema reside na qualificação centrada em texto dos inputs e outputs.

Os emojis introduzem significado que viola regras sem serem detetados, pois a sua transmissão não ortodoxa evade os filtros. Embora a transliteração baseada em CLIP deva sinalizar conteúdo ofensivo em imagem, isso não é aplicado de forma consistente nos principais LLMs, cujas barreiras linguísticas permanecem frágeis. Uma interpretação de conteúdo mais ampla (por exemplo, via mapas de calor - heatmaps) pode ser dispendiosa ou impraticável.

* A estrutura do artigo é menos rígida do que a de estudos típicos; procurámos transmitir as suas principais perceções de forma clara.

^†A apresentação dos resultados é notoriamente desafiadora de interpretar.

Publicado pela primeira vez na quarta-feira, 17 de setembro de 2025

Artigo relacionado

Multiverse Computing lança modelo gratuito de IA generativa compactada Os grandes modelos de linguagem enfrentam um desafio significativo: seu tamanho imenso. A startup espanhola Multiverse Computing está enfrentando esse problema com a criação de modelos compactados, pr

Dados secretos de rastreamento expõem roubo de modelos de IA Um novo método pode marcar invisivelmente modelos como o ChatGPT em segundos, sem necessidade de retreinamento, sem deixar rastros nas saídas padrão e resistindo a todas as tentativas práticas de remo

Sistemas de IA enganados para aprovar artigos científicos absurdos Uma nova pesquisa revela que os sistemas de IA agora podem produzir artigos científicos fraudulentos que outros modelos de IA aceitam erroneamente como autênticos. Esses estudos fabricados contornam m

Recomendações de tópicos especiais relacionados

Negócios

Os melhores aplicativos de controle de despesas com IA: digitalize recibos e categorize automaticamente as despesas corporativas

Os melhores gerenciadores de despesas com IA de 2026: as ferramentas mais bem avaliadas para digitalizar recibos e categorizar despesas corporativas automaticamente. Descubra soluções poderosas e revolucionárias para uma gestão de despesas sem esforço, um acompanhamento financeiro preciso e uma conformidade simplificada. Nossa comparação, cuidadosamente selecionada e atualizada semanalmente, entre opções gratuitas e pagas ajuda você a encontrar a solução ideal. Aproveite ao máximo as vantagens da IA com as recomendações dos especialistas da XIX.AI.

10 ferramentas

xix.ai

Negócios

As melhores ferramentas de recrutamento com IA: analise currículos e automatize o agendamento de entrevistas com candidatos

Descubra as melhores ferramentas de recrutamento com IA de 2026 no XIX.AI. Nossa lista selecionada apresenta soluções poderosas e revolucionárias para a triagem de currículos e a automação do agendamento de entrevistas com candidatos. Compare opções gratuitas e pagas com testes práticos e rankings atualizados semanalmente. Encontre o seu assistente de contratação ideal e otimize seu processo de recrutamento hoje mesmo!

10 ferramentas

xix.ai

Produtividade

Treinadores de bem-estar e concentração com IA: controle o esgotamento e aumente os níveis de energia mental

Descubra os melhores coaches de bem-estar pessoal e concentração com IA de 2026 no XIX.AI. Nossos rankings selecionados apresentam ferramentas de ponta e revolucionárias para lidar com o esgotamento e aumentar a energia mental. Compare opções gratuitas e pagas com informações reais. Descubra hoje mesmo o caminho para atingir o máximo de produtividade e bem-estar.

10 ferramentas

xix.ai

chatbot

Os melhores chatbots românticos com IA: construa relacionamentos duradouros com personalidades consistentes

Descubra os melhores chatbots românticos com IA de 2026 para construir relacionamentos genuínos e duradouros. Nossa lista selecionada apresenta personalidades marcantes e consistentes, comparações entre versões gratuitas e pagas, além de testes práticos. Encontre seu companheiro ideal e comece a construir seu relacionamento hoje mesmo no XIX.AI.

10 ferramentas

xix.ai

Educação e Aprendizagem

Os melhores mentores em ciência de dados e inteligência artificial: domínio avançado em SQL, Pandas e fluxos de trabalho de aprendizado de máquina

Descubra os melhores mentores em ciência de dados com IA para 2026, que o ajudarão a dominar SQL, Pandas e fluxos de trabalho de aprendizado de máquina. Conheça nossa seleção cuidadosamente elaborada e altamente avaliada no XIX.AI para obter orientações poderosas e revolucionárias. Compare opções gratuitas e pagas com informações valiosas da prática real. Domine a ciência de dados hoje mesmo.

10 ferramentas

xix.ai

chatbot

Os melhores treinadores de paquera e conversação com IA: melhore seu carisma social e sua autoconfiança em tempo real

Descubra os melhores treinadores de conversação e paquera com IA de 2026 no XIX.AI. Nossa seleção cuidadosamente escolhida e com as melhores avaliações ajuda você a desenvolver carisma social e confiança em tempo real. Explore ferramentas imperdíveis e revolucionárias, com comparações entre versões gratuitas e pagas e rankings atualizados semanalmente. Descubra hoje mesmo o seu diferencial social.

10 ferramentas

xix.ai