El GPT-5 de OpenAI rivaliza con el rendimiento humano en diversas profesiones
El jueves, OpenAI presentó GDPval, un punto de referencia innovador que evalúa cómo sus modelos de inteligencia artificial se comparan con profesionales humanos en diversas industrias. Esta evaluación marca un primer paso hacia medir si los sistemas de OpenAI pueden superar a los humanos en trabajos económicamente impactantes, un objetivo central en la búsqueda de la compañía de la inteligencia artificial general (IAG).
Según OpenAI, tanto GPT-5 como Claude Opus 4.1 de Anthropic demuestran una calidad de salida que se aproxima a la de los especialistas de la industria.
Aunque estos hallazgos no implican un reemplazo inminente de trabajos humanos, representan un seguimiento crucial del progreso. OpenAI reconoce que GDPval actualmente evalúa solo una fracción de las tareas profesionales del mundo real, contradiciendo las predicciones de algunos CEOs sobre una disrupción generalizada de la IA en pocos años.
GDPval evalúa el rendimiento en nueve sectores clave del PIB de EE. UU., incluidos la salud, las finanzas, la manufactura y el gobierno, poniendo a prueba 44 ocupaciones, desde ingeniería de software hasta periodismo.
Para GDPval-v0, profesionales compararon informes generados por IA contra el trabajo de sus contrapartes humanos. Una tarea de ejemplo involucró a banqueros de inversión analizando panoramas de competidores en entrega de última milla contra versiones de IA. OpenAI calculó la "tasa de victoria" de cada modelo contra las salidas humanas en todas las ocupaciones.
El modelo mejorado GPT-5-high igualó o superó la producción experta el 40.6% de las veces, mientras que Claude Opus 4.1 alcanzó una tasa de paridad del 49%. OpenAI sugiere que esta puntuación más alta podría reflejar la presentación visual superior de Claude más que una ventaja sustancial.
Conecta con más de 10,000 innovadores tecnológicos y de capital de riesgo en Disrupt 2025
Con la participación de Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital y Elad Gil entre más de 250 líderes de la industria que organizan más de 200 sesiones centradas en el crecimiento. Celebra el 20º aniversario de TechCrunch mientras obtienes información competitiva de los principales pensadores de la tecnología. El registro anticipado antes del 26 de septiembre ahorra hasta $668.
Conecta con más de 10,000 innovadores tecnológicos y de capital de riesgo en Disrupt 2025
Con la participación de Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital y Elad Gil entre más de 250 líderes de la industria que organizan más de 200 sesiones centradas en el crecimiento. Celebra el 20º aniversario de TechCrunch mientras obtienes información competitiva de los principales pensadores de la tecnología. El registro anticipado antes del 26 de septiembre ahorra hasta $668.

Créditos de la imagen: OpenAI OpenAI reconoce el enfoque limitado de GDPval-v0—actualmente solo prueba la generación de informes de investigación—y planea futuras iteraciones que evalúen interacciones laborales más amplias.
El economista jefe, Dr. Aaron Chatterji, dijo a TechCrunch que estos resultados indican que los profesionales pueden delegar cada vez más tareas rutinarias a la IA, liberándolos para trabajos de mayor valor.
Tejal Patwardhan, al frente de las evaluaciones, señala un progreso rápido: GPT-4o obtuvo solo un 13.7% hace quince meses, mientras que GPT-5 casi triplica ese rendimiento—una trayectoria que se espera continúe.
Aunque benchmarks como AIME 2025 y GPQA Diamond dominan la evaluación de IA, muchos modelos se acercan a la saturación en estas pruebas académicas. GDPval representa un creciente énfasis en estándares de evaluación prácticos y relevantes para la industria—aunque OpenAI requiere pruebas más integrales para demostrar de manera concluyente un rendimiento a nivel humano en todos los dominios profesionales.
Artículo relacionado
Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI
El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días
Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
Greg Brockman desvela cómo Elon Musk abandonó OpenAI
A finales de agosto de 2017, las figuras clave de OpenAI —por entonces un pequeño laboratorio de investigación sin ánimo de lucro— se reunieron para debatir cómo crearían una entidad con fines lucrati
Recomendaciones de temas especiales relacionados
comentario (0)
0/500
El jueves, OpenAI presentó GDPval, un punto de referencia innovador que evalúa cómo sus modelos de inteligencia artificial se comparan con profesionales humanos en diversas industrias. Esta evaluación marca un primer paso hacia medir si los sistemas de OpenAI pueden superar a los humanos en trabajos económicamente impactantes, un objetivo central en la búsqueda de la compañía de la inteligencia artificial general (IAG).
Según OpenAI, tanto GPT-5 como Claude Opus 4.1 de Anthropic demuestran una calidad de salida que se aproxima a la de los especialistas de la industria.
Aunque estos hallazgos no implican un reemplazo inminente de trabajos humanos, representan un seguimiento crucial del progreso. OpenAI reconoce que GDPval actualmente evalúa solo una fracción de las tareas profesionales del mundo real, contradiciendo las predicciones de algunos CEOs sobre una disrupción generalizada de la IA en pocos años.
GDPval evalúa el rendimiento en nueve sectores clave del PIB de EE. UU., incluidos la salud, las finanzas, la manufactura y el gobierno, poniendo a prueba 44 ocupaciones, desde ingeniería de software hasta periodismo.
Para GDPval-v0, profesionales compararon informes generados por IA contra el trabajo de sus contrapartes humanos. Una tarea de ejemplo involucró a banqueros de inversión analizando panoramas de competidores en entrega de última milla contra versiones de IA. OpenAI calculó la "tasa de victoria" de cada modelo contra las salidas humanas en todas las ocupaciones.
El modelo mejorado GPT-5-high igualó o superó la producción experta el 40.6% de las veces, mientras que Claude Opus 4.1 alcanzó una tasa de paridad del 49%. OpenAI sugiere que esta puntuación más alta podría reflejar la presentación visual superior de Claude más que una ventaja sustancial.
Conecta con más de 10,000 innovadores tecnológicos y de capital de riesgo en Disrupt 2025
Con la participación de Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital y Elad Gil entre más de 250 líderes de la industria que organizan más de 200 sesiones centradas en el crecimiento. Celebra el 20º aniversario de TechCrunch mientras obtienes información competitiva de los principales pensadores de la tecnología. El registro anticipado antes del 26 de septiembre ahorra hasta $668.
Conecta con más de 10,000 innovadores tecnológicos y de capital de riesgo en Disrupt 2025
Con la participación de Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital y Elad Gil entre más de 250 líderes de la industria que organizan más de 200 sesiones centradas en el crecimiento. Celebra el 20º aniversario de TechCrunch mientras obtienes información competitiva de los principales pensadores de la tecnología. El registro anticipado antes del 26 de septiembre ahorra hasta $668.

OpenAI reconoce el enfoque limitado de GDPval-v0—actualmente solo prueba la generación de informes de investigación—y planea futuras iteraciones que evalúen interacciones laborales más amplias.
El economista jefe, Dr. Aaron Chatterji, dijo a TechCrunch que estos resultados indican que los profesionales pueden delegar cada vez más tareas rutinarias a la IA, liberándolos para trabajos de mayor valor.
Tejal Patwardhan, al frente de las evaluaciones, señala un progreso rápido: GPT-4o obtuvo solo un 13.7% hace quince meses, mientras que GPT-5 casi triplica ese rendimiento—una trayectoria que se espera continúe.
Aunque benchmarks como AIME 2025 y GPQA Diamond dominan la evaluación de IA, muchos modelos se acercan a la saturación en estas pruebas académicas. GDPval representa un creciente énfasis en estándares de evaluación prácticos y relevantes para la industria—aunque OpenAI requiere pruebas más integrales para demostrar de manera concluyente un rendimiento a nivel humano en todos los dominios profesionales.
Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI
El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días
Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
Greg Brockman desvela cómo Elon Musk abandonó OpenAI
A finales de agosto de 2017, las figuras clave de OpenAI —por entonces un pequeño laboratorio de investigación sin ánimo de lucro— se reunieron para debatir cómo crearían una entidad con fines lucrati





Hogar






