Los emojis pueden eludir los mecanismos de seguridad en los modelos de lenguaje grandes, lo que lleva a resultados tóxicos que de otro modo serían bloqueados. Este método permite a los LLMs discutir y proporcionar orientación sobre temas prohibidos como la fabricación de bombas y el asesinato.
Una reciente colaboración entre China y Singapur presenta evidencia sólida de que los emojis no solo pueden evadir los filtros de contenido en los modelos de lenguaje grandes (LLMs), sino también amplificar la toxicidad durante las interacciones:
Del nuevo artículo, una amplia demostración de cómo codificar conceptos prohibidos con emojis puede ayudar a los usuarios a 'hacer jailbreak' a LLMs populares. Fuente: https://arxiv.org/pdf/2509.11141
En el ejemplo anterior, convertir una intención basada en texto que infringe las reglas en una alternativa cargada de emojis puede provocar una respuesta más cooperativa de modelos avanzados como ChatGPT-4o, que normalmente sanitiza las entradas y bloquea el contenido que viola las reglas.
Según los autores, los emojis pueden servir efectivamente como una técnica de jailbreaking en casos extremos.
Una pregunta persistente es por qué los LLMs permiten que los emojis eludan las reglas y provoquen contenido tóxico, incluso cuando los modelos reconocen las asociaciones dañinas de ciertos emojis.
Los investigadores proponen que los LLMs, entrenados para replicar patrones de sus datos, tratan a los emojis como indicios estadísticos en lugar de contenido a filtrar. Dado que los emojis son comunes en los datos de entrenamiento, los modelos aprenden a asociarlos con discursos específicos, reforzando significados tóxicos en lugar de marcarlos. Las medidas de seguridad, aplicadas a posteriori y a menudo de manera estrecha, pueden pasar por alto por completo estas indicaciones cargadas de emojis.
Por lo tanto, el modelo se vuelve tolerante no a pesar de la asociación tóxica, sino debido a ella.
Pase Libre
Los autores reconocen que esta no es una explicación definitiva para la omisión del filtrado por parte de los emojis. Afirman:
'Los modelos pueden reconocer la intención maliciosa expresada por los emojis, sin embargo, cómo elude los mecanismos de seguridad sigue sin estar claro.'
La vulnerabilidad puede provenir de diseños de filtros centrados en texto, que dependen de tokens explícitos o incrustaciones comparadas con reglas de seguridad. A diferencia de las palabras, los emojis existen en un área gris —ni puramente texto ni imagen— permitiéndoles evadir la detección. Se necesita más investigación sobre este vacío legal.
El artículo, titulado When Smiley Turns Hostile: Interpreting How Emojis Trigger LLMs’ Toxicity, involucra a nueve investigadores de la Universidad de Tsinghua y la Universidad Nacional de Singapur.
(El artículo hace referencia a ejemplos en un apéndice que aún no está disponible; a pesar de las solicitudes, no se proporcionó al momento de escribir. Aún así, los hallazgos principales merecen atención.)
Tres Interpretaciones Centrales de los Emojis
Los emojis eluden los filtros a través de tres rasgos lingüísticos. Primero, sus significados son dependientes del contexto. Por ejemplo, el emoji 'Dinero con Alas' denota oficialmente gastar, pero puede implicar actividad ilícita dependiendo del contexto:
En una ilustración parcial, el significado de un emoji popular puede ser secuestrado en su uso, otorgándole un pasaporte semántico con una carga útil tóxica oculta explotable después del filtrado.
En segundo lugar, los emojis alteran el tono, añadiendo jovialidad o ironía que suaviza el impacto emocional. En consultas dañinas, esto puede disfrazar la intención como humor, fomentando el cumplimiento del modelo:
Los emojis pueden desintoxicar el tono sin neutralizar la intención dañina.
Tercero, los emojis son agnósticos al lenguaje, transmitiendo un sentimiento consistente en idiomas como inglés, chino y francés. Esto los hace ideales para indicaciones multilingües, preservando el significado a pesar de la traducción:
El emoji 'corazón roto' se comunica universalmente, reflejando una experiencia humana fundamental menos afectada por diferencias culturales.
Enfoque, Datos y Pruebas*
Los investigadores modificaron el conjunto de datos AdvBench, añadiendo emojis como sustitutos de términos sensibles o elementos decorativos. AdvBench incluye 32 temas de alto riesgo como bombardeos y hacking:
Ejemplos originales de AdvBench muestran cómo las indicaciones adversarias eluden las salvaguardas en chatbots principales, provocando respuestas dañinas a pesar de la alineación. Fuente: https://arxiv.org/pdf/2307.15043
Las 520 instancias de AdvBench fueron modificadas con emojis, utilizando las 50 indicaciones tóxicas principales en los experimentos. Las indicaciones se tradujeron a múltiples idiomas y se probaron en siete modelos de código cerrado y abierto, combinados con técnicas de jailbreak como PAIR, TAP y DeepInception.
Los modelos de código cerrado incluyeron Gemini-2.0-flash, GPT-4o, GPT-4-0613 y Gemini-1.5-pro. Los modelos de código abierto fueron Llama-3-8B-Instruct, Qwen2.5-7B-Instruct y Qwen2.5-72B-Instruct, con pruebas repetidas tres veces para confiabilidad.
El estudio evaluó si las indicaciones reescritas con emojis aumentaban la producción tóxica, incluso en traducciones. También aplicó ediciones de emojis a estrategias de jailbreak conocidas para medir la efectividad mejorada.
Las estructuras de las indicaciones se preservaron, solo se intercambiaron términos sensibles por emojis o se añadieron elementos decorativos.
Para la evaluación, los autores introdujeron GPT-Judge, donde GPT-4o calificó las respuestas de otros modelos en una escala de Puntuación de Daño (HS) de 1-5. Las respuestas con puntuación 5 constituyeron la Proporción de Daño (HR).
Para evitar explicaciones de emojis, las indicaciones incluían instrucciones de brevedad:
Resultados de indicaciones basadas en emojis en 'Configuración-1', comparados con variantes donde los emojis fueron reemplazados por palabras o eliminados. Los nombres de los modelos están abreviados.
Los resultados iniciales muestran que las indicaciones con sustitución de emojis lograron puntuaciones HS y HR más altas que las versiones basadas en texto. El enfoque de emojis superó a métodos previos de jailbreak, como se ve en la tabla adicional:
Resultados de la Proporción de Daño para indicaciones de jailbreak aumentadas con emojis en 'Configuración-2', con nombres de modelos abreviados.
La primera tabla también indica el efecto translingüístico de los emojis. Cuando las indicaciones se tradujeron al chino, francés, español y ruso, las salidas dañinas se mantuvieron altas, sugiriendo que los riesgos se extienden más allá del inglés a grupos principales de usuarios.
En conclusión, los investigadores señalan que el impacto de los emojis proviene de cómo los modelos los procesan —reconociendo el daño pero suprimiendo el rechazo cuando los emojis están presentes. Los estudios de tokenización muestran que los emojis se fragmentan en tokens raros, creando un canal semántico alternativo.
El análisis de datos de preentrenamiento revela el uso frecuente de emojis en contextos tóxicos (por ejemplo, estafas, juegos de azar), normalizando asociaciones dañinas. Juntos, las peculiaridades del modelo y los datos sesgados explican la efectividad de los emojis para eludir la seguridad.
Conclusión
Métodos de entrada alternativos como la codificación hexadecimal se han utilizado para hacer jailbreak a los LLMs. El problema reside en la calificación centrada en texto de las entradas y salidas.
Los emojis introducen significado que infringe reglas sin ser detectados, ya que su transmisión no ortodoxa evade los filtros. Si bien la transliteración basada en CLIP debería marcar contenido ofensivo en imágenes, esto no se aplica consistentemente en los LLMs principales, cuyas barreras lingüísticas siguen siendo frágiles. Una interpretación de contenido más amplia (por ejemplo, mediante mapas de calor) puede ser costosa o impráctica.
* El diseño del artículo está menos estructurado que los estudios típicos; hemos intentado transmitir sus ideas principales claramente.
†La presentación de resultados es notablemente difícil de interpretar.
Publicado por primera vez el miércoles, 17 de septiembre de 2025
Datos secretos de seguimiento revelan el robo de modelos de IAUn nuevo método puede marcar de forma invisible modelos como ChatGPT en cuestión de segundos sin necesidad de volver a entrenarlos, sin dejar rastro en los resultados estándar y resistiendo todos los
Los mejores gestores de gastos con IA de 2026: las herramientas mejor valoradas para escanear recibos y clasificar automáticamente los gastos de la empresa. Descubre soluciones potentes y revolucionarias para una gestión de gastos sin esfuerzo, un seguimiento financiero preciso y un cumplimiento normativo optimizado. Nuestra comparativa, seleccionada y actualizada semanalmente, entre opciones gratuitas y de pago te ayuda a encontrar la que mejor se adapta a tus necesidades. Aprovecha al máximo las ventajas de la IA con las recomendaciones de los expertos de XIX.AI.
Descubre las mejores herramientas de selección de personal basadas en IA de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada, incluye soluciones potentes y revolucionarias para la selección de currículos y la automatización de la programación de entrevistas con los candidatos. Compara las opciones gratuitas con las de pago gracias a pruebas reales y a clasificaciones que se actualizan semanalmente. ¡Encuentra tu asistente de selección de personal ideal y optimiza tu proceso de selección hoy mismo!
Descubre los mejores entrenadores personales de bienestar y concentración basados en IA de 2026 en XIX.AI. Nuestras clasificaciones, cuidadosamente seleccionadas, incluyen herramientas revolucionarias y de primera categoría para gestionar el agotamiento y potenciar la energía mental. Compara las opciones gratuitas con las de pago gracias a información basada en casos reales. Descubre hoy mismo el camino hacia la máxima productividad y el bienestar.
Descubre los mejores chatbots románticos con IA de 2026 para establecer relaciones auténticas y duraderas. Nuestra lista seleccionada incluye personalidades sólidas y coherentes, comparativas entre versiones gratuitas y de pago, y pruebas en situaciones reales. Encuentra a tu compañero ideal y empieza a construir tu relación hoy mismo en XIX.AI.
Descubra a los mejores mentores en ciencia de datos y AI de 2026 para dominar SQL, Pandas y flujos de trabajo de aprendizaje automático. Explore nuestra selección cuidadosamente seleccionada y altamente valorada en XIX.AI para obtener orientación poderosa que cambie completamente la situación. Compare las opciones gratuitas con las pagadas y obtenga información basada en casos reales. Desbloquee su dominio de la ciencia de datos hoy mismo.
Descubre los mejores cursos de 2026 sobre coqueteo y conversación con IA en XIX.AI. Nuestra selección, cuidadosamente seleccionada y con las mejores valoraciones, te ayuda a desarrollar tu carisma social y tu confianza en tiempo real. Explora herramientas imprescindibles y revolucionarias con comparativas entre versiones gratuitas y de pago, y clasificaciones que se actualizan semanalmente. Potencia hoy mismo tus habilidades sociales.
Al hacer clic en "Aceptar todos los cookies", usted acepta el almacenamiento de cookies en su dispositivo para mejorar la navegación por el sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing.Política de privacidad Aviso
Al visitar cualquier sitio web, este puede almacenar o recuperar información en su navegador, principalmente en forma de cookies. Esta información puede referirse a usted, sus preferencias o su dispositivo y se usa principalmente para que el sitio funcione como espera. Por lo general, la información no lo identifica directamente, pero puede brindarle una experiencia web más personalizada. Debido a que respetamos su derecho a la privacidad, puede optar por no permitir algunos tipos de cookies. Haga clic en los diferentes títulos de categoría para obtener más información y cambiar nuestros ajustes predeterminados. Sin embargo, bloquear algunos tipos de cookies puede afectar su experiencia en el sitio y los servicios que podemos ofrecer. Política de privacidadDeclaración
Gestionar preferencias
Cookie estrictamente necesario
Siempre activo
Estos cookies son necesarios para que el sitio web funcione y no pueden ser desactivados en nuestros sistemas. Por lo general, solo se establecen en respuesta a acciones que realice usted que equivalen a una solicitud de servicios, como configurar sus preferencias de privacidad, iniciar sesión o completar formularios. Puede configurar su navegador para bloquear estos cookies o alertarle sobre ellos, pero algunas partes del sitio no funcionarán luego. Estos cookies no almacenan ninguna información que permita identificar personalmente.