Hogar
Puse GPT -4O a través de mis pruebas de codificación y las acogió, excepto por un resultado extraño

Si has estado siguiendo el mundo de la tecnología, probablemente sepas que OpenAI acaba de lanzar su último modelo de lenguaje grande, GPT-4o, donde la "o" significa "omni". Este nuevo modelo promete versatilidad en texto, gráficos y voz, y no podía esperar para ponerlo a prueba con mi conjunto estándar de pruebas de codificación. Estas pruebas se han realizado contra una amplia gama de modelos de IA, obteniendo resultados bastante fascinantes. Quédate conmigo hasta el final porque hay un giro que no querrás perderte.
Si estás interesado en realizar tus propios experimentos, consulta esta guía: Cómo pruebo la capacidad de codificación de un chatbot de IA - y tú también puedes. Detalla todas las pruebas que utilizo, junto con explicaciones detalladas de cómo funcionan y qué buscar en los resultados.
Ahora, vamos a sumergirnos en los resultados de cada prueba y ver cómo se compara GPT-4o con contendientes anteriores como Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced y las versiones anteriores de ChatGPT.
1. Escribir un Plugin de WordPress
Aquí tienes un vistazo de la interfaz de usuario de GPT-4o:
Curiosamente, GPT-4o tomó la libertad de incluir un archivo JavaScript, que actualiza dinámicamente el conteo de líneas en ambos campos. Aunque el prompt no excluía explícitamente JavaScript, este enfoque creativo fue inesperado y efectivo. El JavaScript también mejora la funcionalidad del botón Randomize, permitiendo múltiples conjuntos de resultados sin una recarga completa de la página.
Las líneas se organizaron correctamente, y los duplicados se separaron adecuadamente según las especificaciones. Es un código sólido, con solo una pequeña queja: el botón Randomize no se colocó en su propia línea, aunque no lo especifiqué en el prompt, así que no hay puntos en contra por eso.
Aquí están los resultados agregados para esta y las pruebas anteriores:
- ChatGPT GPT-4o: Interfaz: buena, funcionalidad: buena
- Microsoft Copilot: Interfaz: adecuada, funcionalidad: fallida
- Meta AI: Interfaz: adecuada, funcionalidad: fallida
- Meta Code Llama: Fallo completo
- Google Gemini Advanced: Interfaz: buena, funcionalidad: fallida
- ChatGPT 4: Interfaz: buena, funcionalidad: buena
- ChatGPT 3.5: Interfaz: buena, funcionalidad: buena
2. Reescribir una Función de Cadena
Esta prueba evalúa la capacidad del modelo para manejar conversiones de dólares y centavos. GPT-4o reescribió con éxito el código para rechazar entradas que podrían causar problemas con las líneas posteriores, asegurando que solo se procesen valores válidos de dólares y centavos.
Me decepcionó un poco que no agregara automáticamente un cero inicial a valores como .75, convirtiéndolos en 0.75. Sin embargo, como no solicité explícitamente esta función, no es un fallo de la IA. Es un recordatorio de que incluso cuando una IA entrega un código funcional, es posible que necesites refinar el prompt para obtener exactamente lo que necesitas.
Aquí están los resultados agregados para esta y las pruebas anteriores:
- ChatGPT GPT-4o: Éxito
- Microsoft Copilot: Fallido
- Meta AI: Fallido
- Meta Code Llama: Éxito
- Google Gemini Advanced: Fallido
- ChatGPT 4: Éxito
- ChatGPT 3.5: Éxito
3. Encontrar un Error Molesto
Esta prueba es intrigante porque la solución no es inmediatamente evidente. Inicialmente me quedé perplejo por este error durante mi propia codificación, así que recurrí al primer modelo de ChatGPT para obtener ayuda. Encontró el error de inmediato, lo que fue alucinante en ese momento.
En contraste, tres de los otros LLMs que probé no detectaron la distracción en este problema. El mensaje de error apunta a una parte del código, pero el problema real está en otro lugar, requiriendo un conocimiento profundo del marco de WordPress para identificarlo.
Afortunadamente, GPT-4o identificó correctamente el problema y describió la solución con precisión.
Aquí están los resultados agregados para esta y las pruebas anteriores:
- ChatGPT GPT-4o: Éxito
- Microsoft Copilot: Fallido. Espectacularmente. Entusiastamente. Con emojis.
- Meta AI: Éxito
- Meta Code Llama: Fallido
- Google Gemini Advanced: Fallido
- ChatGPT 4: Éxito
- ChatGPT 3.5: Éxito
Hasta ahora, GPT-4o tiene tres de tres. Veamos cómo le va con la prueba final.
4. Escribir un Script
En respuesta a esta prueba, GPT-4o proporcionó más de lo que pedí. La prueba implica usar la herramienta de scripting de Mac poco conocida, Keyboard Maestro, AppleScript de Apple y el comportamiento de scripting de Chrome. Por cierto, Keyboard Maestro es un cambio de juego para mí, haciendo que las Macs sean mi opción preferida para la productividad debido a su capacidad para reprogramar el sistema operativo y las aplicaciones.
Para pasar, la IA necesita esbozar correctamente una solución usando una combinación de código de Keyboard Maestro, AppleScript y funcionalidad de la API de Chrome.
Sorprendentemente, GPT-4o me dio dos versiones diferentes:
Ambas versiones interactuaron correctamente con Keyboard Maestro, pero diferían en el manejo de la sensibilidad a mayúsculas. La versión de la izquierda era incorrecta porque AppleScript no soporta "as lowercase". La versión de la derecha, que usaba "contains" y era insensible a mayúsculas, funcionó bien.
Le doy un aprobado a GPT-4o, aunque con reservas, porque sí entregó un código funcional. Sin embargo, devolver dos opciones, una de las cuales era incorrecta, me hizo trabajar extra para evaluar y elegir la correcta. Eso podría haber sido tan lento como escribir el código yo mismo.
Aquí están los resultados agregados para esta y las pruebas anteriores:
- ChatGPT GPT-4o: Éxito, pero con reservas
- Microsoft Copilot: Fallido
- Meta AI: Fallido
- Meta Code Llama: Fallido
- Google Gemini Advanced: Éxito
- ChatGPT 4: Éxito
- ChatGPT 3.5: Fallido
Resultados Generales
Aquí está cómo se desempeñaron todos los modelos en las cuatro pruebas:
- ChatGPT GPT-4o: 4 de 4 con éxito, pero con esa extraña respuesta de doble opción
- Microsoft Copilot: 0 de 4 con éxito
- Meta AI: 1 de 4 con éxito
- Meta Code Llama: 1 de 4 con éxito
- Google Gemini Advanced: 1 de 4 con éxito
- ChatGPT 4: 4 de 4 con éxito
- ChatGPT 3.5: 3 de 4 con éxito
Hasta ahora, ChatGPT ha sido mi opción preferida para asistencia en codificación. Siempre ha cumplido (excepto cuando no lo ha hecho). Las otras IAs en su mayoría no estuvieron a la altura en mis pruebas. Pero GPT-4o me sorprendió con esa última respuesta de doble opción. Me hizo cuestionar qué está pasando dentro de este modelo que podría causar tal tropiezo.
A pesar de esto, GPT-4o sigue siendo el mejor en mis pruebas de codificación, así que probablemente seguiré usándolo y me familiarizaré más con sus peculiaridades. Alternativamente, podría volver a GPT-3.5 o GPT-4 en ChatGPT Plus. Mantente atento; la próxima vez que ChatGPT actualice su modelo, definitivamente repetiré estas pruebas para ver si puede elegir consistentemente la respuesta correcta en las cuatro pruebas.
¿Has probado codificar con alguno de estos modelos de IA? ¿Cuál ha sido tu experiencia? Cuéntanos en los comentarios a continuación.
Artículo relacionado
Grok, de Musk: 1,5 billones de parámetros y absorción de código de cursor: ¿un punto de inflexión o un farol?
Elon Musk por fin está dando un paso adelante.En la carrera por la programación de IA, OpenAI y Anthropic están acelerando, mientras que xAI parece quedarse atrás. Musk ha manifestado en numerosas oca
OpenAI modifica en secreto sus estatutos para dificultar la destitución de Altman
Tras el incidente similar a un golpe de Estado ocurrido en 2023, OpenAI ha reforzado aún más las garantías de protección para su director ejecutivo, Sam Altman, mediante la actualización de sus estatu
Meta AI ya responde a los mensajes de los compradores en Facebook Marketplace
Facebook Marketplace presenta nuevas funciones de Meta AI, entre las que se incluyen respuestas automáticas a las consultas de los compradores, según anunció la empresa el jueves. La plataforma tambié
Recomendaciones de temas especiales relacionados
comentario (22)
0/500
GPT-4o klingt beeindruckend, aber diese 'eine seltsame Ausnahme' macht mich neugierig. Was war das für ein seltsames Ergebnis? Vielleicht ein Hinweis darauf, dass KI bei bestimmten Logikaufgaben immer noch überraschend 'menschlich' scheitern kann? 🤔 Die Omni-Fähigkeiten sind cool, aber ich frage mich, wie stabil die Performance in allen Modi wirklich ist.
Bon article ! Les tests de programmation sont toujours révélateurs. Je me demande s’il y a des biais selon les langages utilisés pour l'entraînement… Ou peut-être que c’est lié à la façon dont la requête est formulée ? 🤔
GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔
GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔
GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔

Si has estado siguiendo el mundo de la tecnología, probablemente sepas que OpenAI acaba de lanzar su último modelo de lenguaje grande, GPT-4o, donde la "o" significa "omni". Este nuevo modelo promete versatilidad en texto, gráficos y voz, y no podía esperar para ponerlo a prueba con mi conjunto estándar de pruebas de codificación. Estas pruebas se han realizado contra una amplia gama de modelos de IA, obteniendo resultados bastante fascinantes. Quédate conmigo hasta el final porque hay un giro que no querrás perderte.
Si estás interesado en realizar tus propios experimentos, consulta esta guía: Cómo pruebo la capacidad de codificación de un chatbot de IA - y tú también puedes. Detalla todas las pruebas que utilizo, junto con explicaciones detalladas de cómo funcionan y qué buscar en los resultados.
Ahora, vamos a sumergirnos en los resultados de cada prueba y ver cómo se compara GPT-4o con contendientes anteriores como Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced y las versiones anteriores de ChatGPT.
1. Escribir un Plugin de WordPress
Aquí tienes un vistazo de la interfaz de usuario de GPT-4o:
Curiosamente, GPT-4o tomó la libertad de incluir un archivo JavaScript, que actualiza dinámicamente el conteo de líneas en ambos campos. Aunque el prompt no excluía explícitamente JavaScript, este enfoque creativo fue inesperado y efectivo. El JavaScript también mejora la funcionalidad del botón Randomize, permitiendo múltiples conjuntos de resultados sin una recarga completa de la página.
Las líneas se organizaron correctamente, y los duplicados se separaron adecuadamente según las especificaciones. Es un código sólido, con solo una pequeña queja: el botón Randomize no se colocó en su propia línea, aunque no lo especifiqué en el prompt, así que no hay puntos en contra por eso.
Aquí están los resultados agregados para esta y las pruebas anteriores:
- ChatGPT GPT-4o: Interfaz: buena, funcionalidad: buena
- Microsoft Copilot: Interfaz: adecuada, funcionalidad: fallida
- Meta AI: Interfaz: adecuada, funcionalidad: fallida
- Meta Code Llama: Fallo completo
- Google Gemini Advanced: Interfaz: buena, funcionalidad: fallida
- ChatGPT 4: Interfaz: buena, funcionalidad: buena
- ChatGPT 3.5: Interfaz: buena, funcionalidad: buena
2. Reescribir una Función de Cadena
Esta prueba evalúa la capacidad del modelo para manejar conversiones de dólares y centavos. GPT-4o reescribió con éxito el código para rechazar entradas que podrían causar problemas con las líneas posteriores, asegurando que solo se procesen valores válidos de dólares y centavos.
Me decepcionó un poco que no agregara automáticamente un cero inicial a valores como .75, convirtiéndolos en 0.75. Sin embargo, como no solicité explícitamente esta función, no es un fallo de la IA. Es un recordatorio de que incluso cuando una IA entrega un código funcional, es posible que necesites refinar el prompt para obtener exactamente lo que necesitas.
Aquí están los resultados agregados para esta y las pruebas anteriores:
- ChatGPT GPT-4o: Éxito
- Microsoft Copilot: Fallido
- Meta AI: Fallido
- Meta Code Llama: Éxito
- Google Gemini Advanced: Fallido
- ChatGPT 4: Éxito
- ChatGPT 3.5: Éxito
3. Encontrar un Error Molesto
Esta prueba es intrigante porque la solución no es inmediatamente evidente. Inicialmente me quedé perplejo por este error durante mi propia codificación, así que recurrí al primer modelo de ChatGPT para obtener ayuda. Encontró el error de inmediato, lo que fue alucinante en ese momento.
En contraste, tres de los otros LLMs que probé no detectaron la distracción en este problema. El mensaje de error apunta a una parte del código, pero el problema real está en otro lugar, requiriendo un conocimiento profundo del marco de WordPress para identificarlo.
Afortunadamente, GPT-4o identificó correctamente el problema y describió la solución con precisión.
Aquí están los resultados agregados para esta y las pruebas anteriores:
- ChatGPT GPT-4o: Éxito
- Microsoft Copilot: Fallido. Espectacularmente. Entusiastamente. Con emojis.
- Meta AI: Éxito
- Meta Code Llama: Fallido
- Google Gemini Advanced: Fallido
- ChatGPT 4: Éxito
- ChatGPT 3.5: Éxito
Hasta ahora, GPT-4o tiene tres de tres. Veamos cómo le va con la prueba final.
4. Escribir un Script
En respuesta a esta prueba, GPT-4o proporcionó más de lo que pedí. La prueba implica usar la herramienta de scripting de Mac poco conocida, Keyboard Maestro, AppleScript de Apple y el comportamiento de scripting de Chrome. Por cierto, Keyboard Maestro es un cambio de juego para mí, haciendo que las Macs sean mi opción preferida para la productividad debido a su capacidad para reprogramar el sistema operativo y las aplicaciones.
Para pasar, la IA necesita esbozar correctamente una solución usando una combinación de código de Keyboard Maestro, AppleScript y funcionalidad de la API de Chrome.
Sorprendentemente, GPT-4o me dio dos versiones diferentes:
Ambas versiones interactuaron correctamente con Keyboard Maestro, pero diferían en el manejo de la sensibilidad a mayúsculas. La versión de la izquierda era incorrecta porque AppleScript no soporta "as lowercase". La versión de la derecha, que usaba "contains" y era insensible a mayúsculas, funcionó bien.
Le doy un aprobado a GPT-4o, aunque con reservas, porque sí entregó un código funcional. Sin embargo, devolver dos opciones, una de las cuales era incorrecta, me hizo trabajar extra para evaluar y elegir la correcta. Eso podría haber sido tan lento como escribir el código yo mismo.
Aquí están los resultados agregados para esta y las pruebas anteriores:
- ChatGPT GPT-4o: Éxito, pero con reservas
- Microsoft Copilot: Fallido
- Meta AI: Fallido
- Meta Code Llama: Fallido
- Google Gemini Advanced: Éxito
- ChatGPT 4: Éxito
- ChatGPT 3.5: Fallido
Resultados Generales
Aquí está cómo se desempeñaron todos los modelos en las cuatro pruebas:
- ChatGPT GPT-4o: 4 de 4 con éxito, pero con esa extraña respuesta de doble opción
- Microsoft Copilot: 0 de 4 con éxito
- Meta AI: 1 de 4 con éxito
- Meta Code Llama: 1 de 4 con éxito
- Google Gemini Advanced: 1 de 4 con éxito
- ChatGPT 4: 4 de 4 con éxito
- ChatGPT 3.5: 3 de 4 con éxito
Hasta ahora, ChatGPT ha sido mi opción preferida para asistencia en codificación. Siempre ha cumplido (excepto cuando no lo ha hecho). Las otras IAs en su mayoría no estuvieron a la altura en mis pruebas. Pero GPT-4o me sorprendió con esa última respuesta de doble opción. Me hizo cuestionar qué está pasando dentro de este modelo que podría causar tal tropiezo.
A pesar de esto, GPT-4o sigue siendo el mejor en mis pruebas de codificación, así que probablemente seguiré usándolo y me familiarizaré más con sus peculiaridades. Alternativamente, podría volver a GPT-3.5 o GPT-4 en ChatGPT Plus. Mantente atento; la próxima vez que ChatGPT actualice su modelo, definitivamente repetiré estas pruebas para ver si puede elegir consistentemente la respuesta correcta en las cuatro pruebas.
¿Has probado codificar con alguno de estos modelos de IA? ¿Cuál ha sido tu experiencia? Cuéntanos en los comentarios a continuación.
Grok, de Musk: 1,5 billones de parámetros y absorción de código de cursor: ¿un punto de inflexión o un farol?
Elon Musk por fin está dando un paso adelante.En la carrera por la programación de IA, OpenAI y Anthropic están acelerando, mientras que xAI parece quedarse atrás. Musk ha manifestado en numerosas oca
OpenAI modifica en secreto sus estatutos para dificultar la destitución de Altman
Tras el incidente similar a un golpe de Estado ocurrido en 2023, OpenAI ha reforzado aún más las garantías de protección para su director ejecutivo, Sam Altman, mediante la actualización de sus estatu
Meta AI ya responde a los mensajes de los compradores en Facebook Marketplace
Facebook Marketplace presenta nuevas funciones de Meta AI, entre las que se incluyen respuestas automáticas a las consultas de los compradores, según anunció la empresa el jueves. La plataforma tambié
GPT-4o klingt beeindruckend, aber diese 'eine seltsame Ausnahme' macht mich neugierig. Was war das für ein seltsames Ergebnis? Vielleicht ein Hinweis darauf, dass KI bei bestimmten Logikaufgaben immer noch überraschend 'menschlich' scheitern kann? 🤔 Die Omni-Fähigkeiten sind cool, aber ich frage mich, wie stabil die Performance in allen Modi wirklich ist.
Bon article ! Les tests de programmation sont toujours révélateurs. Je me demande s’il y a des biais selon les langages utilisés pour l'entraînement… Ou peut-être que c’est lié à la façon dont la requête est formulée ? 🤔
GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔
GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔
GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔











