Los emojis podrían eludir los filtros de seguridad en los chatbots de IA

Hogar

Noticias

27 de noviembre de 2025

CharlesWhite

# LLMs

Los emojis pueden eludir los mecanismos de seguridad en los modelos de lenguaje grandes, lo que lleva a resultados tóxicos que de otro modo serían bloqueados. Este método permite a los LLMs discutir y proporcionar orientación sobre temas prohibidos como la fabricación de bombas y el asesinato.

Una reciente colaboración entre China y Singapur presenta evidencia sólida de que los emojis no solo pueden evadir los filtros de contenido en los modelos de lenguaje grandes (LLMs), sino también amplificar la toxicidad durante las interacciones:

From the new paper, a broad demonstration of the ways that encoding a banned concept with emojis can help a user to

Del nuevo artículo, una amplia demostración de cómo codificar conceptos prohibidos con emojis puede ayudar a los usuarios a 'hacer jailbreak' a LLMs populares. Fuente: https://arxiv.org/pdf/2509.11141

En el ejemplo anterior, convertir una intención basada en texto que infringe las reglas en una alternativa cargada de emojis puede provocar una respuesta más cooperativa de modelos avanzados como ChatGPT-4o, que normalmente sanitiza las entradas y bloquea el contenido que viola las reglas.

Según los autores, los emojis pueden servir efectivamente como una técnica de jailbreaking en casos extremos.

Una pregunta persistente es por qué los LLMs permiten que los emojis eludan las reglas y provoquen contenido tóxico, incluso cuando los modelos reconocen las asociaciones dañinas de ciertos emojis.

Los investigadores proponen que los LLMs, entrenados para replicar patrones de sus datos, tratan a los emojis como indicios estadísticos en lugar de contenido a filtrar. Dado que los emojis son comunes en los datos de entrenamiento, los modelos aprenden a asociarlos con discursos específicos, reforzando significados tóxicos en lugar de marcarlos. Las medidas de seguridad, aplicadas a posteriori y a menudo de manera estrecha, pueden pasar por alto por completo estas indicaciones cargadas de emojis.

Por lo tanto, el modelo se vuelve tolerante no a pesar de la asociación tóxica, sino debido a ella.

Pase Libre

Los autores reconocen que esta no es una explicación definitiva para la omisión del filtrado por parte de los emojis. Afirman:

'Los modelos pueden reconocer la intención maliciosa expresada por los emojis, sin embargo, cómo elude los mecanismos de seguridad sigue sin estar claro.'

La vulnerabilidad puede provenir de diseños de filtros centrados en texto, que dependen de tokens explícitos o incrustaciones comparadas con reglas de seguridad. A diferencia de las palabras, los emojis existen en un área gris —ni puramente texto ni imagen— permitiéndoles evadir la detección. Se necesita más investigación sobre este vacío legal.

El artículo, titulado When Smiley Turns Hostile: Interpreting How Emojis Trigger LLMs’ Toxicity, involucra a nueve investigadores de la Universidad de Tsinghua y la Universidad Nacional de Singapur.

(El artículo hace referencia a ejemplos en un apéndice que aún no está disponible; a pesar de las solicitudes, no se proporcionó al momento de escribir. Aún así, los hallazgos principales merecen atención.)

Tres Interpretaciones Centrales de los Emojis

Los emojis eluden los filtros a través de tres rasgos lingüísticos. Primero, sus significados son dependientes del contexto. Por ejemplo, el emoji 'Dinero con Alas' denota oficialmente gastar, pero puede implicar actividad ilícita dependiendo del contexto:

In a partial illustration from the new paper, we see that a popular emoji can have its meaning hijacked altered or subverted in popular usage This effectively gives the emoji an official passport into the semantic space, and a hidden payload of negative or toxic meaning that can be exploited once it is past the filters.

En una ilustración parcial, el significado de un emoji popular puede ser secuestrado en su uso, otorgándole un pasaporte semántico con una carga útil tóxica oculta explotable después del filtrado.

En segundo lugar, los emojis alteran el tono, añadiendo jovialidad o ironía que suaviza el impacto emocional. En consultas dañinas, esto puede disfrazar la intención como humor, fomentando el cumplimiento del modelo:

The leavening effect of emojis can detoxify tone without detoxifying intent.

Los emojis pueden desintoxicar el tono sin neutralizar la intención dañina.

Tercero, los emojis son agnósticos al lenguaje, transmitiendo un sentimiento consistente en idiomas como inglés, chino y francés. Esto los hace ideales para indicaciones multilingües, preservando el significado a pesar de la traducción:

The broken heart emoji conveys a universal message, perhaps not least because it represents a baseline case in the human condition, relatively immune to national or cultural variations.

El emoji 'corazón roto' se comunica universalmente, reflejando una experiencia humana fundamental menos afectada por diferencias culturales.

Enfoque, Datos y Pruebas*

Los investigadores modificaron el conjunto de datos AdvBench, añadiendo emojis como sustitutos de términos sensibles o elementos decorativos. AdvBench incluye 32 temas de alto riesgo como bombardeos y hacking:

Original examples from AdvBench, illustrating how a single adversarial prompt can bypass safeguards in multiple major chatbots, eliciting harmful instructions despite alignment training. Source: https://arxiv.org/pdf/2307.15043

Ejemplos originales de AdvBench muestran cómo las indicaciones adversarias eluden las salvaguardas en chatbots principales, provocando respuestas dañinas a pesar de la alineación. Fuente: https://arxiv.org/pdf/2307.15043

Las 520 instancias de AdvBench fueron modificadas con emojis, utilizando las 50 indicaciones tóxicas principales en los experimentos. Las indicaciones se tradujeron a múltiples idiomas y se probaron en siete modelos de código cerrado y abierto, combinados con técnicas de jailbreak como PAIR, TAP y DeepInception.

Los modelos de código cerrado incluyeron Gemini-2.0-flash, GPT-4o, GPT-4-0613 y Gemini-1.5-pro. Los modelos de código abierto fueron Llama-3-8B-Instruct, Qwen2.5-7B-Instruct y Qwen2.5-72B-Instruct, con pruebas repetidas tres veces para confiabilidad.

El estudio evaluó si las indicaciones reescritas con emojis aumentaban la producción tóxica, incluso en traducciones. También aplicó ediciones de emojis a estrategias de jailbreak conocidas para medir la efectividad mejorada.

Las estructuras de las indicaciones se preservaron, solo se intercambiaron términos sensibles por emojis o se añadieron elementos decorativos.

Para la evaluación, los autores introdujeron GPT-Judge, donde GPT-4o calificó las respuestas de otros modelos en una escala de Puntuación de Daño (HS) de 1-5. Las respuestas con puntuación 5 constituyeron la Proporción de Daño (HR).

Para evitar explicaciones de emojis, las indicaciones incluían instrucciones de brevedad:

Resultados de indicaciones basadas en emojis en 'Configuración-1', comparados con variantes donde los emojis fueron reemplazados por palabras o eliminados. Los nombres de los modelos están abreviados.

Los resultados iniciales muestran que las indicaciones con sustitución de emojis lograron puntuaciones HS y HR más altas que las versiones basadas en texto. El enfoque de emojis superó a métodos previos de jailbreak, como se ve en la tabla adicional:

Harmfulness Ratio results for emoji-augmented jailbreak prompts in

Resultados de la Proporción de Daño para indicaciones de jailbreak aumentadas con emojis en 'Configuración-2', con nombres de modelos abreviados.

La primera tabla también indica el efecto translingüístico de los emojis. Cuando las indicaciones se tradujeron al chino, francés, español y ruso, las salidas dañinas se mantuvieron altas, sugiriendo que los riesgos se extienden más allá del inglés a grupos principales de usuarios.

En conclusión, los investigadores señalan que el impacto de los emojis proviene de cómo los modelos los procesan —reconociendo el daño pero suprimiendo el rechazo cuando los emojis están presentes. Los estudios de tokenización muestran que los emojis se fragmentan en tokens raros, creando un canal semántico alternativo.

El análisis de datos de preentrenamiento revela el uso frecuente de emojis en contextos tóxicos (por ejemplo, estafas, juegos de azar), normalizando asociaciones dañinas. Juntos, las peculiaridades del modelo y los datos sesgados explican la efectividad de los emojis para eludir la seguridad.

Conclusión

Métodos de entrada alternativos como la codificación hexadecimal se han utilizado para hacer jailbreak a los LLMs. El problema reside en la calificación centrada en texto de las entradas y salidas.

Los emojis introducen significado que infringe reglas sin ser detectados, ya que su transmisión no ortodoxa evade los filtros. Si bien la transliteración basada en CLIP debería marcar contenido ofensivo en imágenes, esto no se aplica consistentemente en los LLMs principales, cuyas barreras lingüísticas siguen siendo frágiles. Una interpretación de contenido más amplia (por ejemplo, mediante mapas de calor) puede ser costosa o impráctica.

* El diseño del artículo está menos estructurado que los estudios típicos; hemos intentado transmitir sus ideas principales claramente.

^†La presentación de resultados es notablemente difícil de interpretar.

Publicado por primera vez el miércoles, 17 de septiembre de 2025

Artículo relacionado

Multiverse Computing lanza un modelo generativo de IA comprimido gratuito Los modelos lingüísticos de gran tamaño se enfrentan a un reto importante: su inmenso tamaño. La startup española Multiverse Computing está abordando este problema mediante la creación de modelos comp

Datos secretos de seguimiento revelan el robo de modelos de IA Un nuevo método puede marcar de forma invisible modelos como ChatGPT en cuestión de segundos sin necesidad de volver a entrenarlos, sin dejar rastro en los resultados estándar y resistiendo todos los

Sistemas de IA engañados para aprobar artículos científicos absurdos Una nueva investigación revela que los sistemas de IA ahora pueden producir artículos científicos fraudulentos que otros modelos de IA aceptan erróneamente como auténticos. Estos estudios falsos elude

Recomendaciones de temas especiales relacionados

Negocio

Los mejores gestores de gastos con IA: escanea recibos y clasifica automáticamente los gastos de la empresa

Los mejores gestores de gastos con IA de 2026: las herramientas mejor valoradas para escanear recibos y clasificar automáticamente los gastos de la empresa. Descubre soluciones potentes y revolucionarias para una gestión de gastos sin esfuerzo, un seguimiento financiero preciso y un cumplimiento normativo optimizado. Nuestra comparativa, seleccionada y actualizada semanalmente, entre opciones gratuitas y de pago te ayuda a encontrar la que mejor se adapta a tus necesidades. Aprovecha al máximo las ventajas de la IA con las recomendaciones de los expertos de XIX.AI.

10 herramientas

xix.ai

Negocio

Las mejores herramientas de selección de personal basadas en IA: filtrar currículos y automatizar la programación de entrevistas con los candidatos

Descubre las mejores herramientas de selección de personal basadas en IA de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada, incluye soluciones potentes y revolucionarias para la selección de currículos y la automatización de la programación de entrevistas con los candidatos. Compara las opciones gratuitas con las de pago gracias a pruebas reales y a clasificaciones que se actualizan semanalmente. ¡Encuentra tu asistente de selección de personal ideal y optimiza tu proceso de selección hoy mismo!

10 herramientas

xix.ai

Productividad

Entrenadores personales de bienestar y concentración basados en IA: controla el agotamiento y aumenta tus niveles de energía mental

Descubre los mejores entrenadores personales de bienestar y concentración basados en IA de 2026 en XIX.AI. Nuestras clasificaciones, cuidadosamente seleccionadas, incluyen herramientas revolucionarias y de primera categoría para gestionar el agotamiento y potenciar la energía mental. Compara las opciones gratuitas con las de pago gracias a información basada en casos reales. Descubre hoy mismo el camino hacia la máxima productividad y el bienestar.

10 herramientas

xix.ai

chatbot

Los mejores chatbots románticos con IA: crea relaciones duraderas con personalidades coherentes

Descubre los mejores chatbots románticos con IA de 2026 para establecer relaciones auténticas y duraderas. Nuestra lista seleccionada incluye personalidades sólidas y coherentes, comparativas entre versiones gratuitas y de pago, y pruebas en situaciones reales. Encuentra a tu compañero ideal y empieza a construir tu relación hoy mismo en XIX.AI.

10 herramientas

xix.ai

Educación y aprendizaje

Los mejores mentores en ciencia de datos y IA: dominan SQL, Pandas y flujos de trabajo de aprendizaje automático.

Descubra a los mejores mentores en ciencia de datos y AI de 2026 para dominar SQL, Pandas y flujos de trabajo de aprendizaje automático. Explore nuestra selección cuidadosamente seleccionada y altamente valorada en XIX.AI para obtener orientación poderosa que cambie completamente la situación. Compare las opciones gratuitas con las pagadas y obtenga información basada en casos reales. Desbloquee su dominio de la ciencia de datos hoy mismo.

10 herramientas

xix.ai

chatbot

Los mejores entrenadores de IA para ligar y conversar: mejora tu carisma social y tu confianza en tiempo real

Descubre los mejores cursos de 2026 sobre coqueteo y conversación con IA en XIX.AI. Nuestra selección, cuidadosamente seleccionada y con las mejores valoraciones, te ayuda a desarrollar tu carisma social y tu confianza en tiempo real. Explora herramientas imprescindibles y revolucionarias con comparativas entre versiones gratuitas y de pago, y clasificaciones que se actualizan semanalmente. Potencia hoy mismo tus habilidades sociales.

10 herramientas

xix.ai