opción
Hogar
Noticias
Puse GPT -4O a través de mis pruebas de codificación y las acogió, excepto por un resultado extraño

Puse GPT -4O a través de mis pruebas de codificación y las acogió, excepto por un resultado extraño

17 de abril de 2025
63

Puse GPT -4O a través de mis pruebas de codificación y las acogió, excepto por un resultado extraño

Si has estado siguiendo el mundo de la tecnología, probablemente sepas que OpenAI acaba de lanzar su último modelo de lenguaje grande, GPT-4o, donde la "o" significa "omni". Este nuevo modelo promete versatilidad en texto, gráficos y voz, y no podía esperar para ponerlo a prueba con mi conjunto estándar de pruebas de codificación. Estas pruebas se han realizado contra una amplia gama de modelos de IA, obteniendo resultados bastante fascinantes. Quédate conmigo hasta el final porque hay un giro que no querrás perderte.

Si estás interesado en realizar tus propios experimentos, consulta esta guía: Cómo pruebo la capacidad de codificación de un chatbot de IA - y tú también puedes. Detalla todas las pruebas que utilizo, junto con explicaciones detalladas de cómo funcionan y qué buscar en los resultados.

Ahora, vamos a sumergirnos en los resultados de cada prueba y ver cómo se compara GPT-4o con contendientes anteriores como Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced y las versiones anteriores de ChatGPT.

1. Escribir un Plugin de WordPress

Aquí tienes un vistazo de la interfaz de usuario de GPT-4o:

Curiosamente, GPT-4o tomó la libertad de incluir un archivo JavaScript, que actualiza dinámicamente el conteo de líneas en ambos campos. Aunque el prompt no excluía explícitamente JavaScript, este enfoque creativo fue inesperado y efectivo. El JavaScript también mejora la funcionalidad del botón Randomize, permitiendo múltiples conjuntos de resultados sin una recarga completa de la página.

Las líneas se organizaron correctamente, y los duplicados se separaron adecuadamente según las especificaciones. Es un código sólido, con solo una pequeña queja: el botón Randomize no se colocó en su propia línea, aunque no lo especifiqué en el prompt, así que no hay puntos en contra por eso.

Aquí están los resultados agregados para esta y las pruebas anteriores:

  • ChatGPT GPT-4o: Interfaz: buena, funcionalidad: buena
  • Microsoft Copilot: Interfaz: adecuada, funcionalidad: fallida
  • Meta AI: Interfaz: adecuada, funcionalidad: fallida
  • Meta Code Llama: Fallo completo
  • Google Gemini Advanced: Interfaz: buena, funcionalidad: fallida
  • ChatGPT 4: Interfaz: buena, funcionalidad: buena
  • ChatGPT 3.5: Interfaz: buena, funcionalidad: buena

2. Reescribir una Función de Cadena

Esta prueba evalúa la capacidad del modelo para manejar conversiones de dólares y centavos. GPT-4o reescribió con éxito el código para rechazar entradas que podrían causar problemas con las líneas posteriores, asegurando que solo se procesen valores válidos de dólares y centavos.

Me decepcionó un poco que no agregara automáticamente un cero inicial a valores como .75, convirtiéndolos en 0.75. Sin embargo, como no solicité explícitamente esta función, no es un fallo de la IA. Es un recordatorio de que incluso cuando una IA entrega un código funcional, es posible que necesites refinar el prompt para obtener exactamente lo que necesitas.

Aquí están los resultados agregados para esta y las pruebas anteriores:

  • ChatGPT GPT-4o: Éxito
  • Microsoft Copilot: Fallido
  • Meta AI: Fallido
  • Meta Code Llama: Éxito
  • Google Gemini Advanced: Fallido
  • ChatGPT 4: Éxito
  • ChatGPT 3.5: Éxito

3. Encontrar un Error Molesto

Esta prueba es intrigante porque la solución no es inmediatamente evidente. Inicialmente me quedé perplejo por este error durante mi propia codificación, así que recurrí al primer modelo de ChatGPT para obtener ayuda. Encontró el error de inmediato, lo que fue alucinante en ese momento.

En contraste, tres de los otros LLMs que probé no detectaron la distracción en este problema. El mensaje de error apunta a una parte del código, pero el problema real está en otro lugar, requiriendo un conocimiento profundo del marco de WordPress para identificarlo.

Afortunadamente, GPT-4o identificó correctamente el problema y describió la solución con precisión.

Aquí están los resultados agregados para esta y las pruebas anteriores:

  • ChatGPT GPT-4o: Éxito
  • Microsoft Copilot: Fallido. Espectacularmente. Entusiastamente. Con emojis.
  • Meta AI: Éxito
  • Meta Code Llama: Fallido
  • Google Gemini Advanced: Fallido
  • ChatGPT 4: Éxito
  • ChatGPT 3.5: Éxito

Hasta ahora, GPT-4o tiene tres de tres. Veamos cómo le va con la prueba final.

4. Escribir un Script

En respuesta a esta prueba, GPT-4o proporcionó más de lo que pedí. La prueba implica usar la herramienta de scripting de Mac poco conocida, Keyboard Maestro, AppleScript de Apple y el comportamiento de scripting de Chrome. Por cierto, Keyboard Maestro es un cambio de juego para mí, haciendo que las Macs sean mi opción preferida para la productividad debido a su capacidad para reprogramar el sistema operativo y las aplicaciones.

Para pasar, la IA necesita esbozar correctamente una solución usando una combinación de código de Keyboard Maestro, AppleScript y funcionalidad de la API de Chrome.

Sorprendentemente, GPT-4o me dio dos versiones diferentes:

Ambas versiones interactuaron correctamente con Keyboard Maestro, pero diferían en el manejo de la sensibilidad a mayúsculas. La versión de la izquierda era incorrecta porque AppleScript no soporta "as lowercase". La versión de la derecha, que usaba "contains" y era insensible a mayúsculas, funcionó bien.

Le doy un aprobado a GPT-4o, aunque con reservas, porque sí entregó un código funcional. Sin embargo, devolver dos opciones, una de las cuales era incorrecta, me hizo trabajar extra para evaluar y elegir la correcta. Eso podría haber sido tan lento como escribir el código yo mismo.

Aquí están los resultados agregados para esta y las pruebas anteriores:

  • ChatGPT GPT-4o: Éxito, pero con reservas
  • Microsoft Copilot: Fallido
  • Meta AI: Fallido
  • Meta Code Llama: Fallido
  • Google Gemini Advanced: Éxito
  • ChatGPT 4: Éxito
  • ChatGPT 3.5: Fallido

Resultados Generales

Aquí está cómo se desempeñaron todos los modelos en las cuatro pruebas:

  • ChatGPT GPT-4o: 4 de 4 con éxito, pero con esa extraña respuesta de doble opción
  • Microsoft Copilot: 0 de 4 con éxito
  • Meta AI: 1 de 4 con éxito
  • Meta Code Llama: 1 de 4 con éxito
  • Google Gemini Advanced: 1 de 4 con éxito
  • ChatGPT 4: 4 de 4 con éxito
  • ChatGPT 3.5: 3 de 4 con éxito

Hasta ahora, ChatGPT ha sido mi opción preferida para asistencia en codificación. Siempre ha cumplido (excepto cuando no lo ha hecho). Las otras IAs en su mayoría no estuvieron a la altura en mis pruebas. Pero GPT-4o me sorprendió con esa última respuesta de doble opción. Me hizo cuestionar qué está pasando dentro de este modelo que podría causar tal tropiezo.

A pesar de esto, GPT-4o sigue siendo el mejor en mis pruebas de codificación, así que probablemente seguiré usándolo y me familiarizaré más con sus peculiaridades. Alternativamente, podría volver a GPT-3.5 o GPT-4 en ChatGPT Plus. Mantente atento; la próxima vez que ChatGPT actualice su modelo, definitivamente repetiré estas pruebas para ver si puede elegir consistentemente la respuesta correcta en las cuatro pruebas.

¿Has probado codificar con alguno de estos modelos de IA? ¿Cuál ha sido tu experiencia? Cuéntanos en los comentarios a continuación.

Artículo relacionado
Wispr Flow Lanza Aplicación para iOS que Revoluciona la Dictación por Voz Wispr Flow Lanza Aplicación para iOS que Revoluciona la Dictación por Voz Las empresas de AI están incentivando cada vez más a los usuarios a interactuar vocalmente con sus productos. Gigantes como Meta, Google, OpenAI y Anthropic han mejorado sus bots de IA con capacidades
Elgato presenta soluciones de integración versátiles para Stream Deck Elgato presenta soluciones de integración versátiles para Stream Deck Elgato reveló su innovadora iniciativa “Stream Deck Everywhere” en Computex, presentando un software virtual Stream Deck para PCs, un accesorio de base Ethernet, módulos Stream Deck sin marca para int
Proyecto Stargate de Trump de $500 mil millones para liderar la innovación global en IA Proyecto Stargate de Trump de $500 mil millones para liderar la innovación global en IA En una era de rápido progreso tecnológico, la carrera por dominar la inteligencia artificial (IA) ha surgido como un desafío geopolítico y económico crítico. Estados Unidos, bajo el liderazgo de Donal
comentario (20)
0/200
JonathanAllen
JonathanAllen 26 de abril de 2025 13:46:22 GMT+02:00

GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔

WillHarris
WillHarris 25 de abril de 2025 20:21:39 GMT+02:00

GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔

DonaldGonzález
DonaldGonzález 24 de abril de 2025 13:41:59 GMT+02:00

GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔

JustinAnderson
JustinAnderson 23 de abril de 2025 07:12:28 GMT+02:00

¡El GPT-4o me impresionó con sus habilidades de codificación! Pasó todos mis tests excepto por un resultado extraño que me dejó pensando. Su versatilidad en texto, gráficos y voz es genial! Pero ese fallo, hay que arreglarlo, OpenAI! 😎

NicholasClark
NicholasClark 23 de abril de 2025 04:12:49 GMT+02:00

GPT-4oのコードスキルには感心しました!私のテストをほぼ全てクリアしましたが、一つの奇妙な結果が気になります。テキスト、グラフィック、ボイスでの多才さは素晴らしい!でも、その一つのバグ、修正してほしいですね、OpenAI!😅

DavidThomas
DavidThomas 22 de abril de 2025 19:04:24 GMT+02:00

GPT-4o is impressive, acing most of my coding tests! But that one weird result threw me off. Still, it's versatile across text, graphics, and voice. If only it could explain that odd outcome, it'd be perfect! 🤔

Volver arriba
OR