opción
Hogar Noticias Problema del Test de Turing Expuesto por el GPT-4.5 de OpenAI

Problema del Test de Turing Expuesto por el GPT-4.5 de OpenAI

Fecha de lanzamiento Fecha de lanzamiento 22 de mayo de 2025
Autor Autor EricJohnson
vistas vistas 0

La Prueba de Turing, una creación del legendario Alan Turing, ha sido durante mucho tiempo un referente en el mundo de la inteligencia artificial. Pero aclaremos un malentendido común desde el principio: pasar la Prueba de Turing no significa necesariamente que una máquina esté "pensando" como un humano. Se trata más bien de convencer a los humanos de que lo hace.

Una investigación reciente de la Universidad de California en San Diego ha puesto el foco en el último modelo de OpenAI, GPT-4.5. Este IA ahora puede engañar a los humanos haciéndoles creer que están chateando con otra persona, incluso más efectivamente de lo que los humanos pueden convencerse mutuamente de su humanidad. Esto es un gran logro en el mundo de la IA, es como ver un truco de magia donde conoces el secreto, pero aún así te deja boquiabierto.

Universidad de California en San Diego

¿Prueba de AGI?

Pero aquí viene lo interesante: ni siquiera los investigadores de UC San Diego están listos para declarar que hemos alcanzado la "inteligencia artificial general" (AGI) solo porque un modelo de IA puede pasar la Prueba de Turing. AGI sería el santo grial de la IA, máquinas que pueden pensar y procesar información como lo hacen los humanos.

Melanie Mitchell, una académica de IA del Instituto Santa Fe, argumenta en la revista Science que la Prueba de Turing tiene más que ver con probar las suposiciones humanas que con la inteligencia real. Claro, una IA puede sonar fluida y convincente, pero eso no es lo mismo que ser generalmente inteligente. Es como ser bueno en ajedrez, es impresionante, pero no es todo el panorama.

El último revuelo en torno a esto proviene de un artículo de Cameron Jones y Benjamin Bergen de UC San Diego, titulado "Los modelos de lenguaje grandes pasan la Prueba de Turing", publicado en el servidor de preimpresión arXiv. Han estado realizando este experimento durante años, con la ayuda de estudiantes universitarios de UC San Diego, y es parte de una larga línea de investigación, con más de 800 afirmaciones y contraargumentos sobre computadoras que pasan la Prueba de Turing.

¿Cómo funciona la Prueba de Turing?

Entonces, ¿cómo funciona esta prueba? Originalmente, Turing la imaginó como un juego de mensajes de texto entre un "juez" humano y dos "testigos", uno humano y otro computadora. El desafío para los testigos es convencer al juez de que son humanos. El juez sabe que uno es humano, pero no cuál, y debe hacer una suposición. Es una configuración de tres vías que se trata tanto de percepción y creencia como de las capacidades de la computadora.

Jones y Bergen han añadido su propio giro a esta configuración clásica, y puedes incluso probarla en línea, jugando como juez o testigo. En su versión, los estudiantes de UC San Diego usaron una aplicación de chat de texto. Algunos jugaron el papel de juez, otros el de testigo humano, mientras que GPT-4.5 asumió el papel de testigo computadora. Cada juez chateó simultáneamente con un humano y una computadora, manteniendo fiel el formato original de Turing.

Para interpretar al testigo computadora, utilizaron diferentes modelos de lenguaje grandes, alimentándolos con indicaciones basadas en los desafíos del juez. GPT-4.5 fue probado con dos indicaciones diferentes: una con información mínima, y otra llamada PERSONA, que incluía instrucciones detalladas para actuar como una persona joven, introvertida y conocedora de internet que usa jerga.

Universidad de California en San Diego

Los resultados

También probaron tres otros programas de IA: el modelo anterior de OpenAI, GPT-4o; Llama 3.1 405b de Meta Platforms; y el antiguo chatbot de los años 60, ELIZA. Incluyeron a ELIZA para ver si los modelos de lenguaje grandes simplemente engañaban a los humanos por casualidad o si eran genuinamente mejores.

Según Jones y Bergen, GPT-4.5 engañó a los jueces humanos haciéndoles creer que era humano el 73% del tiempo, una "tasa de victoria" como la llaman. Esto es mucho mejor que los otros modelos, que obtuvieron entre el 21% y el 56%, incluso con indicaciones detalladas similares. Y es un gran salto desde la prueba del año pasado de GPT-4, que tenía una tasa de victoria de solo el 54%, apenas por encima de la casualidad.

Jones y Bergen descubrieron que los jueces no solo eran engañados por la IA, sino que en realidad eran más propensos a creer que era humana que los participantes humanos reales.

¿Es la prueba realmente una medida de inteligencia?

Entonces, ¿qué significa que los humanos no puedan distinguir una computadora de una persona en un chat? La gran pregunta que se ha debatido durante décadas es si la Prueba de Turing realmente mide la inteligencia. Jones y Bergen sugieren que tal vez las máquinas simplemente se han vuelto tan buenas adaptándose a diferentes escenarios que pueden pasar convincentemente como humanas. La indicación PERSONA, creada por humanos, es algo a lo que GPT-4.5 se adaptó y utilizó en su beneficio.

Pero hay un truco: tal vez los humanos simplemente son malos reconociendo la inteligencia. Los autores señalan que ELIZA, el antiguo chatbot, engañó a los jueces el 23% del tiempo, no porque fuera más inteligente, sino porque no cumplía con sus expectativas de cómo debería ser una IA. Algunos jueces pensaron que era humana porque era "sarcástica" o "grosera", algo que no esperaban de una IA.

Esto sugiere que los jueces se ven influenciados por sus suposiciones sobre cómo deberían comportarse los humanos y las IAs, en lugar de simplemente elegir al agente que parece más inteligente. Curiosamente, los jueces no se centraron mucho en el conocimiento, que Turing pensaba que sería clave. En cambio, eran más propensos a pensar que un testigo era humano si parecía carecer de conocimiento.

Sociabilidad, no inteligencia

Todo esto apunta a la idea de que los humanos estaban captando la sociabilidad en lugar de la inteligencia. Jones y Bergen concluyen que la Prueba de Turing no es realmente una prueba de inteligencia, es una prueba de similitud humana.

Turing podría haber pensado que la inteligencia era el mayor obstáculo para parecer humano, pero a medida que las máquinas se acercan más a nosotros, otras diferencias se vuelven más evidentes. La inteligencia sola ya no es suficiente para parecer convincentemente humano.

Lo que no se dice directamente en el artículo es que los humanos están tan acostumbrados a escribir en computadoras, ya sea a una persona o a una máquina, que la Prueba de Turing ya no es la novedosa prueba de interacción humano-computadora que una vez fue. Ahora es más bien una prueba de los hábitos humanos en línea.

Los autores sugieren que la prueba podría necesitar ser expandida porque la inteligencia es tan compleja y multifacética que ninguna prueba individual puede ser decisiva. Proponen diferentes diseños, como usar expertos en IA como jueces o añadir incentivos financieros para que los jueces escruten más de cerca. Estos cambios podrían mostrar cuánto influyen la actitud y las expectativas en los resultados.

Concluyen que, aunque la Prueba de Turing podría ser parte del panorama, debería considerarse junto con otros tipos de evidencia. Esto se alinea con una tendencia creciente en la investigación de IA de involucrar a los humanos "en el bucle", evaluando lo que hacen las máquinas.

¿Es suficiente el juicio humano?

Pero aún queda la pregunta de si el juicio humano será suficiente a largo plazo. En la película Blade Runner, los humanos usan una máquina, el "Voight-Kampff", para distinguir a los humanos de los robots replicantes. A medida que perseguimos la AGI, y luchamos por definir qué es exactamente, podríamos terminar confiando en las máquinas para evaluar la inteligencia de las máquinas.

O, al menos, podríamos necesitar preguntarle a las máquinas qué "piensan" sobre los humanos intentando engañar a otros humanos con indicaciones. Es un mundo salvaje ahí fuera en la investigación de IA, y solo se está volviendo más interesante.

Artículo relacionado
Apple Lanzará iPhone de Vidrio Curvo en 2027 Apple Lanzará iPhone de Vidrio Curvo en 2027 Esta mañana, Mark Gurman de Bloomberg generó entusiasmo con su boletín Power On, prediciendo un "aluvión de productos" de Apple para 2027. Destacó un "iPhone de vidrio curvado en s
Las cartas de demanda con IA ayudan a desbloquear fondos congelados Las cartas de demanda con IA ayudan a desbloquear fondos congelados Tratar con fondos congelados de compañías como Amazon, PayPal o Stripe puede ser un verdadero dolor de cabeza. Una forma efectiva de abordar este problema es enviando una carta de demanda convincente. Con la ayuda de la IA, específicamente chatgpt, puede elaborar una carta poderosa que podría recuperar su dinero sin Brea
Llama 3.1: Paso de Meta hacia la IA de código abierto Llama 3.1: Paso de Meta hacia la IA de código abierto Meta presenta Llama 3.1: Un nuevo salto en la tecnología de IAMeta, la fuerza detrás de Facebook, acaba de desplegar la alfombra roja para Llama 3.1 405B, su último modelo de IA de
comentario (0)
0/200
Volver arriba
OR