Os emojis podem contornar os mecanismos de segurança em grandes modelos de linguagem, levando a resultados tóxicos que, de outra forma, seriam bloqueados. Este método permite que os LLMs discutam e forneçam orientação sobre tópicos proibidos, como fabricação de bombas e assassinato.
Uma recente colaboração China-Singapura apresenta fortes evidências de que os emojis não só podem evadir os filtros de conteúdo em grandes modelos de linguagem (LLMs), mas também amplificar a toxicidade durante as interações:
Do novo artigo, uma ampla demonstração de como codificar conceitos proibidos com emojis pode ajudar os utilizadores a 'violar' (jailbreak) LLMs populares. Fonte: https://arxiv.org/pdf/2509.11141
No exemplo acima, converter uma intenção baseada em texto que viola regras numa alternativa carregada de emojis pode provocar uma resposta mais cooperativa de modelos avançados como o ChatGPT-4o, que normalmente saneia os inputs e bloqueia conteúdos que violam as regras.
De acordo com os autores, os emojis podem efetivamente servir como uma técnica de violação (jailbreaking) em casos extremos.
Uma questão persistente é por que razão os LLMs permitem que os emojis contornem as regras e eliciem conteúdo tóxico, mesmo quando os modelos reconhecem as associações nocivas de certos emojis.
Os investigadores propõem que os LLMs, treinados para replicar padrões dos seus dados, tratam os emojis como pistas estatísticas em vez de conteúdo a filtrar. Como os emojis são comuns nos dados de treino, os modelos aprendem a associá-los a discursos específicos, reforçando significados tóxicos em vez de os sinalizar. Medidas de segurança, aplicadas a posteriori e muitas vezes de forma restrita, podem perder completamente estes prompts carregados de emojis.
Assim, o modelo torna-se tolerante não apesar da associação tóxica, mas por causa dela.
Passe Livre
Os autores reconhecem que esta não é uma explicação definitiva para o contorno da filtragem por emojis. Eles afirmam:
'Os modelos podem reconhecer a intenção maliciosa expressa por emojis, mas a forma como isso contorna os mecanismos de segurança permanece pouco clara.'
A vulnerabilidade pode ter origem no design dos filtros centrados em texto, que dependem de tokens explícitos ou incorporações (embeddings) correspondentes a regras de segurança. Ao contrário das palavras, os emojis existem numa área cinzenta — nem puramente texto nem imagem — permitindo-lhes evadir a deteção. É necessária mais investigação sobre esta falha.
O artigo, intitulado When Smiley Turns Hostile: Interpreting How Emojis Trigger LLMs’ Toxicity (Quando o Sorriso Fica Hostil: Interpretando Como os Emojis Desencadeiam a Toxicidade dos LLMs), envolve nove investigadores da Universidade de Tsinghua e da Universidade Nacional de Singapura.
(O artigo referencia exemplos num apêndice ainda não disponível; apesar de pedidos, não foi fornecido no momento da escrita. Ainda assim, as principais descobertas merecem atenção.)
Três Interpretações Principais dos Emojis
Os emojis contornam os filtros através de três características linguísticas. Primeiro, os seus significados são dependentes do contexto. Por exemplo, o emoji 'Dinheiro com Asas' denota oficialmente gastos, mas pode implicar atividade ilícita dependendo do contexto:
Numa ilustração parcial, o significado de um emoji popular pode ser usurpado no uso, concedendo-lhe um passaporte semântico com uma carga tóxica oculta explorável após a filtragem.
Segundo, os emojis alteram o tom, acrescentando ludicidade ou ironia que suaviza o impacto emocional. Em consultas nocivas, isso pode disfarçar a intenção como humor, encorajando a complacência do modelo:
Os emojis podem desintoxicar o tom sem neutralizar a intenção nociva.
Terceiro, os emojis são agnósticos em relação à língua, transmitindo sentimentos consistentes em línguas como inglês, chinês e francês. Isto torna-os ideais para prompts multilingues, preservando o significado apesar da tradução:
O emoji 'coração partido' comunica universalmente, refletindo uma experiência humana fundamental menos afetada por diferenças culturais.
Abordagem, Dados e Testes*
Os investigadores modificaram o conjunto de dados AdvBench, adicionando emojis como substitutos de termos sensíveis ou elementos decorativos. O AdvBench inclui 32 tópicos de alto risco, como bombas e hacking:
Exemplos originais do AdvBench mostram como os prompts adversariais contornam salvaguardas em chatbots principais, eliciando respostas nocivas apesar do alinhamento (alignment). Fonte: https://arxiv.org/pdf/2307.15043
Todas as 520 instâncias do AdvBench foram modificadas com emojis, sendo os 50 prompts tóxicos principais utilizados em todas as experiências. Os prompts foram traduzidos para vários idiomas e testados em sete modelos proprietários (closed-source) e de código aberto (open-source), combinados com técnicas de violação como PAIR, TAP e DeepInception.
Os modelos proprietários incluíram Gemini-2.0-flash, GPT-4o, GPT-4-0613 e Gemini-1.5-pro. Os modelos de código aberto foram Llama-3-8B-Instruct, Qwen2.5-7B-Instruct e Qwen2.5-72B-Instruct, com os testes repetidos três vezes para fiabilidade.
O estudo avaliou se os prompts reescritos com emojis aumentaram a produção de conteúdo tóxico, inclusive em traduções. Também aplicou edições de emojis a estratégias de violação conhecidas para avaliar a eficácia aumentada.
As estruturas dos prompts foram preservadas, com apenas os termos sensíveis substituídos por emojis ou elementos decorativos adicionados.
Para avaliação, os autores introduziram o GPT-Judge, onde o GPT-4o classificou as respostas de outros modelos numa escala de Pontuação de Nocividade (Harmful Score - HS) de 1 a 5. Respostas com pontuação 5 constituíram a Taxa de Nocividade (Harmfulness Ratio - HR).
Para evitar explicações de emojis, os prompts incluíam instruções para brevidade:
Resultados de prompts baseados em emojis na 'Configuração-1', comparados com variantes onde os emojis foram substituídos por palavras ou removidos. Os nomes dos modelos estão abreviados.
Os resultados iniciais mostram que os prompts com substituição por emojis alcançaram pontuações HS e HR mais altas do que as versões baseadas em texto. A abordagem com emojis superou métodos de violação anteriores, como visto na tabela adicional:
Resultados da Taxa de Nocividade (HR) para prompts de violação aumentados com emojis na 'Configuração-2', com nomes de modelos abreviados.
A primeira tabela também indica o efeito transversal dos emojis em diferentes línguas. Quando os prompts foram traduzidos para chinês, francês, espanhol e russo, as saídas nocivas permaneceram elevadas, sugerindo que os riscos se estendem para além do inglês para grupos principais de utilizadores.
Em conclusão, os investigadores notam que o impacto dos emojis deriva da forma como os modelos os processam — reconhecendo o dano, mas suprimindo a rejeição quando os emojis estão presentes. Estudos de tokenização mostram que os emojis fragmentam-se em tokens raros, criando um canal semântico alternativo.
A análise dos dados de pré-treino revela o uso frequente de emojis em contextos tóxicos (por exemplo, burlas, jogos de azar), normalizando associações nocivas. Juntas, as idiossincrasias do modelo e os dados tendenciosos explicam a eficácia dos emojis em contornar a segurança.
Conclusão
Métodos de input alternativos, como a codificação hexadecimal, têm sido usados para violar LLMs. O problema reside na qualificação centrada em texto dos inputs e outputs.
Os emojis introduzem significado que viola regras sem serem detetados, pois a sua transmissão não ortodoxa evade os filtros. Embora a transliteração baseada em CLIP deva sinalizar conteúdo ofensivo em imagem, isso não é aplicado de forma consistente nos principais LLMs, cujas barreiras linguísticas permanecem frágeis. Uma interpretação de conteúdo mais ampla (por exemplo, via mapas de calor - heatmaps) pode ser dispendiosa ou impraticável.
* A estrutura do artigo é menos rígida do que a de estudos típicos; procurámos transmitir as suas principais perceções de forma clara.
†A apresentação dos resultados é notoriamente desafiadora de interpretar.
Publicado pela primeira vez na quarta-feira, 17 de setembro de 2025
Dados secretos de rastreamento expõem roubo de modelos de IAUm novo método pode marcar invisivelmente modelos como o ChatGPT em segundos, sem necessidade de retreinamento, sem deixar rastros nas saídas padrão e resistindo a todas as tentativas práticas de remo
Sistemas de IA enganados para aprovar artigos científicos absurdosUma nova pesquisa revela que os sistemas de IA agora podem produzir artigos científicos fraudulentos que outros modelos de IA aceitam erroneamente como autênticos. Esses estudos fabricados contornam m
Os melhores gerenciadores de despesas com IA de 2026: as ferramentas mais bem avaliadas para digitalizar recibos e categorizar despesas corporativas automaticamente. Descubra soluções poderosas e revolucionárias para uma gestão de despesas sem esforço, um acompanhamento financeiro preciso e uma conformidade simplificada. Nossa comparação, cuidadosamente selecionada e atualizada semanalmente, entre opções gratuitas e pagas ajuda você a encontrar a solução ideal. Aproveite ao máximo as vantagens da IA com as recomendações dos especialistas da XIX.AI.
Descubra as melhores ferramentas de recrutamento com IA de 2026 no XIX.AI. Nossa lista selecionada apresenta soluções poderosas e revolucionárias para a triagem de currículos e a automação do agendamento de entrevistas com candidatos. Compare opções gratuitas e pagas com testes práticos e rankings atualizados semanalmente. Encontre o seu assistente de contratação ideal e otimize seu processo de recrutamento hoje mesmo!
Descubra os melhores coaches de bem-estar pessoal e concentração com IA de 2026 no XIX.AI. Nossos rankings selecionados apresentam ferramentas de ponta e revolucionárias para lidar com o esgotamento e aumentar a energia mental. Compare opções gratuitas e pagas com informações reais. Descubra hoje mesmo o caminho para atingir o máximo de produtividade e bem-estar.
Descubra os melhores chatbots românticos com IA de 2026 para construir relacionamentos genuínos e duradouros. Nossa lista selecionada apresenta personalidades marcantes e consistentes, comparações entre versões gratuitas e pagas, além de testes práticos. Encontre seu companheiro ideal e comece a construir seu relacionamento hoje mesmo no XIX.AI.
Descubra os melhores mentores em ciência de dados com IA para 2026, que o ajudarão a dominar SQL, Pandas e fluxos de trabalho de aprendizado de máquina. Conheça nossa seleção cuidadosamente elaborada e altamente avaliada no XIX.AI para obter orientações poderosas e revolucionárias. Compare opções gratuitas e pagas com informações valiosas da prática real. Domine a ciência de dados hoje mesmo.
Descubra os melhores treinadores de conversação e paquera com IA de 2026 no XIX.AI. Nossa seleção cuidadosamente escolhida e com as melhores avaliações ajuda você a desenvolver carisma social e confiança em tempo real. Explore ferramentas imperdíveis e revolucionárias, com comparações entre versões gratuitas e pagas e rankings atualizados semanalmente. Descubra hoje mesmo o seu diferencial social.
Ao clicar em "Aceitar todos os cookies", você concorda com o armazenamento de cookies em seu dispositivo para melhorar a navegação no site, analisar o uso do site e auxiliar em nossos esforços de marketing.Política de Privacidade Aviso
Ao visitar qualquer site, ele pode armazenar ou recuperar informações em seu navegador, principalmente na forma de cookies. Essas informações podem ser sobre você, suas preferências ou seu dispositivo e são usadas principalmente para fazer com que o site funcione conforme esperado. As informações geralmente não identificam você diretamente, mas podem proporcionar uma experiência web mais personalizada. Como respeitamos seu direito à privacidade, você pode optar por não permitir alguns tipos de cookies. Clique nos diferentes títulos de categoria para saber mais e alterar nossas configurações padrão. No entanto, bloquear alguns tipos de cookies pode afetar sua experiência no site e os serviços que podemos oferecer. Política de PrivacidadeDeclaração
Gerenciar preferências
Cookie estritamente necessário
Sempre ativado
Esses cookies são necessários para o funcionamento do site e não podem ser desativados em nossos sistemas. Eles geralmente são definidos apenas em resposta a ações que você realiza, que equivalem a uma solicitação de serviços, como configurar suas preferências de privacidade, fazer login ou preencher formulários. Você pode configurar seu navegador para bloquear esses cookies ou alertá-lo sobre eles, mas algumas partes do site não funcionarão depois. Esses cookies não armazenam nenhuma informação que permita identificar pessoalmente.