Puse GPT -4O a través de mis pruebas de codificación y las acogió, excepto por un resultado extraño

Hogar

Noticias

17 de abril de 2025

TimothyGonzález

Puse GPT -4O a través de mis pruebas de codificación y las acogió, excepto por un resultado extraño

Si has estado siguiendo el mundo de la tecnología, probablemente sepas que OpenAI acaba de lanzar su último modelo de lenguaje grande, GPT-4o, donde la "o" significa "omni". Este nuevo modelo promete versatilidad en texto, gráficos y voz, y no podía esperar para ponerlo a prueba con mi conjunto estándar de pruebas de codificación. Estas pruebas se han realizado contra una amplia gama de modelos de IA, obteniendo resultados bastante fascinantes. Quédate conmigo hasta el final porque hay un giro que no querrás perderte.

Si estás interesado en realizar tus propios experimentos, consulta esta guía: Cómo pruebo la capacidad de codificación de un chatbot de IA - y tú también puedes. Detalla todas las pruebas que utilizo, junto con explicaciones detalladas de cómo funcionan y qué buscar en los resultados.

Ahora, vamos a sumergirnos en los resultados de cada prueba y ver cómo se compara GPT-4o con contendientes anteriores como Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced y las versiones anteriores de ChatGPT.

1. Escribir un Plugin de WordPress

Aquí tienes un vistazo de la interfaz de usuario de GPT-4o:

Curiosamente, GPT-4o tomó la libertad de incluir un archivo JavaScript, que actualiza dinámicamente el conteo de líneas en ambos campos. Aunque el prompt no excluía explícitamente JavaScript, este enfoque creativo fue inesperado y efectivo. El JavaScript también mejora la funcionalidad del botón Randomize, permitiendo múltiples conjuntos de resultados sin una recarga completa de la página.

Las líneas se organizaron correctamente, y los duplicados se separaron adecuadamente según las especificaciones. Es un código sólido, con solo una pequeña queja: el botón Randomize no se colocó en su propia línea, aunque no lo especifiqué en el prompt, así que no hay puntos en contra por eso.

Aquí están los resultados agregados para esta y las pruebas anteriores:

ChatGPT GPT-4o: Interfaz: buena, funcionalidad: buena
Microsoft Copilot: Interfaz: adecuada, funcionalidad: fallida
Meta AI: Interfaz: adecuada, funcionalidad: fallida
Meta Code Llama: Fallo completo
Google Gemini Advanced: Interfaz: buena, funcionalidad: fallida
ChatGPT 4: Interfaz: buena, funcionalidad: buena
ChatGPT 3.5: Interfaz: buena, funcionalidad: buena

2. Reescribir una Función de Cadena

Esta prueba evalúa la capacidad del modelo para manejar conversiones de dólares y centavos. GPT-4o reescribió con éxito el código para rechazar entradas que podrían causar problemas con las líneas posteriores, asegurando que solo se procesen valores válidos de dólares y centavos.

Me decepcionó un poco que no agregara automáticamente un cero inicial a valores como .75, convirtiéndolos en 0.75. Sin embargo, como no solicité explícitamente esta función, no es un fallo de la IA. Es un recordatorio de que incluso cuando una IA entrega un código funcional, es posible que necesites refinar el prompt para obtener exactamente lo que necesitas.

Aquí están los resultados agregados para esta y las pruebas anteriores:

ChatGPT GPT-4o: Éxito
Microsoft Copilot: Fallido
Meta AI: Fallido
Meta Code Llama: Éxito
Google Gemini Advanced: Fallido
ChatGPT 4: Éxito
ChatGPT 3.5: Éxito

3. Encontrar un Error Molesto

Esta prueba es intrigante porque la solución no es inmediatamente evidente. Inicialmente me quedé perplejo por este error durante mi propia codificación, así que recurrí al primer modelo de ChatGPT para obtener ayuda. Encontró el error de inmediato, lo que fue alucinante en ese momento.

En contraste, tres de los otros LLMs que probé no detectaron la distracción en este problema. El mensaje de error apunta a una parte del código, pero el problema real está en otro lugar, requiriendo un conocimiento profundo del marco de WordPress para identificarlo.

Afortunadamente, GPT-4o identificó correctamente el problema y describió la solución con precisión.

Aquí están los resultados agregados para esta y las pruebas anteriores:

ChatGPT GPT-4o: Éxito
Microsoft Copilot: Fallido. Espectacularmente. Entusiastamente. Con emojis.
Meta AI: Éxito
Meta Code Llama: Fallido
Google Gemini Advanced: Fallido
ChatGPT 4: Éxito
ChatGPT 3.5: Éxito

Hasta ahora, GPT-4o tiene tres de tres. Veamos cómo le va con la prueba final.

4. Escribir un Script

En respuesta a esta prueba, GPT-4o proporcionó más de lo que pedí. La prueba implica usar la herramienta de scripting de Mac poco conocida, Keyboard Maestro, AppleScript de Apple y el comportamiento de scripting de Chrome. Por cierto, Keyboard Maestro es un cambio de juego para mí, haciendo que las Macs sean mi opción preferida para la productividad debido a su capacidad para reprogramar el sistema operativo y las aplicaciones.

Para pasar, la IA necesita esbozar correctamente una solución usando una combinación de código de Keyboard Maestro, AppleScript y funcionalidad de la API de Chrome.

Sorprendentemente, GPT-4o me dio dos versiones diferentes:

Ambas versiones interactuaron correctamente con Keyboard Maestro, pero diferían en el manejo de la sensibilidad a mayúsculas. La versión de la izquierda era incorrecta porque AppleScript no soporta "as lowercase". La versión de la derecha, que usaba "contains" y era insensible a mayúsculas, funcionó bien.

Le doy un aprobado a GPT-4o, aunque con reservas, porque sí entregó un código funcional. Sin embargo, devolver dos opciones, una de las cuales era incorrecta, me hizo trabajar extra para evaluar y elegir la correcta. Eso podría haber sido tan lento como escribir el código yo mismo.

Aquí están los resultados agregados para esta y las pruebas anteriores:

ChatGPT GPT-4o: Éxito, pero con reservas
Microsoft Copilot: Fallido
Meta AI: Fallido
Meta Code Llama: Fallido
Google Gemini Advanced: Éxito
ChatGPT 4: Éxito
ChatGPT 3.5: Fallido

Resultados Generales

Aquí está cómo se desempeñaron todos los modelos en las cuatro pruebas:

ChatGPT GPT-4o: 4 de 4 con éxito, pero con esa extraña respuesta de doble opción
Microsoft Copilot: 0 de 4 con éxito
Meta AI: 1 de 4 con éxito
Meta Code Llama: 1 de 4 con éxito
Google Gemini Advanced: 1 de 4 con éxito
ChatGPT 4: 4 de 4 con éxito
ChatGPT 3.5: 3 de 4 con éxito

Hasta ahora, ChatGPT ha sido mi opción preferida para asistencia en codificación. Siempre ha cumplido (excepto cuando no lo ha hecho). Las otras IAs en su mayoría no estuvieron a la altura en mis pruebas. Pero GPT-4o me sorprendió con esa última respuesta de doble opción. Me hizo cuestionar qué está pasando dentro de este modelo que podría causar tal tropiezo.

A pesar de esto, GPT-4o sigue siendo el mejor en mis pruebas de codificación, así que probablemente seguiré usándolo y me familiarizaré más con sus peculiaridades. Alternativamente, podría volver a GPT-3.5 o GPT-4 en ChatGPT Plus. Mantente atento; la próxima vez que ChatGPT actualice su modelo, definitivamente repetiré estas pruebas para ver si puede elegir consistentemente la respuesta correcta en las cuatro pruebas.

¿Has probado codificar con alguno de estos modelos de IA? ¿Cuál ha sido tu experiencia? Cuéntanos en los comentarios a continuación.

Artículo relacionado

Rec Room AI Sandbox potencia la creatividad y la estrategia de combate en una nueva actualización Rec Room's AI Sandbox presenta un electrizante patio de recreo virtual donde la creatividad y el combate táctico entran en colisión. Este entorno inmersivo permite a los jugadores crear escenarios de

Eight Sleep obtiene 100 millones de dólares para desarrollar su tecnología de sueño inteligente basada en inteligencia artificial Aproximadamente un tercio de los adultos estadounidenses sufren privación crónica del sueño, por lo que hay una gran demanda de tecnologías innovadoras que controlen y mejoren la calidad del sueño. Ei

Stitch AI de Google simplifica el proceso de diseño de aplicaciones Google presenta Stitch, su herramienta de diseño de IA, en I/O 2025Google ha presentado Stitch, su revolucionaria herramienta de diseño de interfaces basada en inteligencia artificial, durante la keyn

comentario (20)

0/200

Entregar

JonathanAllen

26 de abril de 2025 13:46:22 GMT+02:00

GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔

WillHarris

25 de abril de 2025 20:21:39 GMT+02:00

GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔

DonaldGonzález

24 de abril de 2025 13:41:59 GMT+02:00

GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました！しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに！🤔

JustinAnderson

23 de abril de 2025 07:12:28 GMT+02:00

¡El GPT-4o me impresionó con sus habilidades de codificación! Pasó todos mis tests excepto por un resultado extraño que me dejó pensando. Su versatilidad en texto, gráficos y voz es genial! Pero ese fallo, hay que arreglarlo, OpenAI! 😎

NicholasClark

23 de abril de 2025 04:12:49 GMT+02:00

GPT-4oのコードスキルには感心しました！私のテストをほぼ全てクリアしましたが、一つの奇妙な結果が気になります。テキスト、グラフィック、ボイスでの多才さは素晴らしい！でも、その一つのバグ、修正してほしいですね、OpenAI！😅

DavidThomas

22 de abril de 2025 19:04:24 GMT+02:00

GPT-4o is impressive, acing most of my coding tests! But that one weird result threw me off. Still, it's versatile across text, graphics, and voice. If only it could explain that odd outcome, it'd be perfect! 🤔

Noticias principales

Gemini 2.5 Pro ahora ilimitado y más barato que Claude, GPT-4O Generadores de Video AI Top de 2025: Pika Labs vs Alternativas Doblaje AI: Guía Definitiva para la Creación de Voz Realista La IA de Cambium transforma la madera de los desechos en madera Operai mejora el asistente de voz de IA para mejores chats Cómo garantizar que sus datos sean confiables para la integración de IA Notebooklm se expande a nivel mundial, agrega diapositivas y verificación de hechos mejorada Los ajustes a los centros de datos de EE. UU. Podrían desbloquear 76 GW de nueva capacidad de potencia Google utiliza IA para suspender más de 39 millones de cuentas publicitarias por sospecha de fraude AI Computing para consumir la potencia de múltiples NYC para 2026, dice el fundador

Más

Presentado