Claude 3.5 El soneto lucha creativamente en pruebas de codificación de IA dominadas por ChatGPT
Probando las Capacidades del Nuevo Claude 3.5 Sonnet de Anthropic
La semana pasada, recibí un correo de Anthropic anunciando el lanzamiento de Claude 3.5 Sonnet. Presumieron que "eleva el estándar de la industria en inteligencia, superando a modelos competidores y a Claude 3 Opus en una amplia gama de evaluaciones." También afirmaron que era perfecto para tareas complejas como la generación de código. Naturalmente, tuve que poner a prueba estas afirmaciones.
He realizado una serie de pruebas de codificación en varios AIs, y tú también puedes hacerlo. Solo dirígete a Cómo pruebo la capacidad de codificación de un chatbot AI - y tú también puedes para encontrar todos los detalles. Vamos a sumergirnos en cómo se desempeñó Claude 3.5 Sonnet en mis pruebas estándar, y ver cómo se compara con otros AIs como Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced y ChatGPT.
1. Escribiendo un Plugin de WordPress
Inicialmente, Claude 3.5 Sonnet mostró mucho potencial. La interfaz de usuario que generó fue impresionante, con un diseño limpio que colocó los campos de datos uno al lado del otro por primera vez entre los AIs que he probado.
Captura de pantalla por David Gewirtz/ZDNET
Lo que llamó mi atención fue cómo Claude abordó la generación de código. En lugar de los archivos separados habituales para PHP, JavaScript y CSS, proporcionó un solo archivo PHP que generaba automáticamente los archivos JavaScript y CSS en el directorio del plugin. Aunque este fue un enfoque innovador, es arriesgado porque depende de las configuraciones del sistema operativo que permitan a un plugin escribir en su propia carpeta, una falla de seguridad importante en un entorno de producción.
Desafortunadamente, a pesar de la solución creativa, el plugin no funcionó. El botón "Randomize" no hacía nada, lo cual fue decepcionante dado su potencial inicial.
Aquí están los resultados agregados comparados con pruebas anteriores:
- Claude 3.5 Sonnet: Interfaz: buena, funcionalidad: fallida
- ChatGPT GPT-4o: Interfaz: buena, funcionalidad: buena
- Microsoft Copilot: Interfaz: adecuada, funcionalidad: fallida
- Meta AI: Interfaz: adecuada, funcionalidad: fallida
- Meta Code Llama: Fracaso completo
- Google Gemini Advanced: Interfaz: buena, funcionalidad: fallida
- ChatGPT 4: Interfaz: buena, funcionalidad: buena
- ChatGPT 3.5: Interfaz: buena, funcionalidad: buena
2. Reescribiendo una Función de Cadena
Esta prueba evalúa qué tan bien un AI puede reescribir código para cumplir con necesidades específicas, en este caso, para conversiones de dólares y centavos. Claude 3.5 Sonnet hizo un buen trabajo eliminando ceros iniciales, manejando correctamente enteros y decimales, y previniendo valores negativos. También devolvió inteligentemente "0" para entradas inesperadas, lo que ayuda a evitar errores.
Sin embargo, no permitió entradas como ".50" para 50 centavos, que era un requisito. Esto significa que el código revisado no funcionaría en un escenario del mundo real, por lo que debo marcarlo como fallido.
Aquí están los resultados agregados:
- Claude 3.5 Sonnet: Fallido
- ChatGPT GPT-4o: Exitoso
- Microsoft Copilot: Fallido
- Meta AI: Fallido
- Meta Code Llama: Exitoso
- Google Gemini Advanced: Fallido
- ChatGPT 4: Exitoso
- ChatGPT 3.5: Exitoso
3. Encontrando un Error Molesto
Esta prueba es complicada porque requiere que el AI encuentre un error sutil que necesita conocimiento específico de WordPress. Es un error que yo mismo pasé por alto y tuve que recurrir a ChatGPT para resolver inicialmente.
Claude 3.5 Sonnet no solo encontró y corrigió el error, sino que también notó un error introducido durante el proceso de publicación, que luego corregí. Esto fue una primicia entre los AIs que he probado desde que publiqué el conjunto completo de pruebas.
Aquí están los resultados agregados:
- Claude 3.5 Sonnet: Exitoso
- ChatGPT GPT-4o: Exitoso
- Microsoft Copilot: Fallido. Espectacularmente. Entusiastamente. Con emojis.
- Meta AI: Exitoso
- Meta Code Llama: Fallido
- Google Gemini Advanced: Fallido
- ChatGPT 4: Exitoso
- ChatGPT 3.5: Exitoso
Hasta ahora, Claude 3.5 Sonnet ha fallado en dos de tres pruebas. Veamos cómo le va con la última.
4. Escribiendo un Script
Esta prueba verifica el conocimiento del AI sobre herramientas de programación especializadas como AppleScript y Keyboard Maestro. Mientras que ChatGPT mostró competencia en ambas, Claude 3.5 Sonnet no tuvo tan buen desempeño. Escribió un AppleScript que intentó interactuar con Chrome pero ignoró completamente el componente de Keyboard Maestro.
Además, el AppleScript contenía un error de sintaxis. Al intentar hacer que la coincidencia no distinguiera entre mayúsculas y minúsculas, Claude generó una línea que causaría un error en tiempo de ejecución:
if theTab's title contains input ignoring case then
La declaración "contains" ya no distingue entre mayúsculas y minúsculas, y la frase "ignoring case" estaba mal ubicada, resultando en un error.
Aquí están los resultados agregados:
- Claude 3.5 Sonnet: Fallido
- ChatGPT GPT-4o: Exitoso pero con reservas
- Microsoft Copilot: Fallido
- Meta AI: Fallido
- Meta Code Llama: Fallido
- Google Gemini Advanced: Exitoso
- ChatGPT 4: Exitoso
- ChatGPT 3.5: Fallido
Resultados Generales
Aquí está cómo se desempeñó Claude 3.5 Sonnet en general comparado con otros AIs:
- Claude 3.5 Sonnet: 1 de 4 exitoso
- ChatGPT GPT-4o: 4 de 4 exitosos, pero con una respuesta extraña de doble elección
- Microsoft Copilot: 0 de 4 exitosos
- Meta AI: 1 de 4 exitoso
- Meta Code Llama: 1 de 4 exitoso
- Google Gemini Advanced: 1 de 4 exitoso
- ChatGPT 4: 4 de 4 exitosos
- ChatGPT 3.5: 3 de 4 exitosos
Estaba bastante decepcionado con Claude 3.5 Sonnet. Anthropic prometió que era adecuado para programar, pero no cumplió con esas expectativas. No es que no pueda programar; simplemente no puede programar correctamente. Sigo esperando encontrar un AI que supere a ChatGPT, especialmente a medida que estos modelos se integran en entornos de programación. Pero por ahora, me quedo con ChatGPT para ayuda en programación, y te recomiendo que hagas lo mismo.
¿Has usado un AI para programar? ¿Cuál, y cómo te fue? Comparte tus experiencias en los comentarios abajo.
Sigue las actualizaciones de mi proyecto en redes sociales, suscríbete a mi boletín semanal, y conéctate conmigo en Twitter/X en @DavidGewirtz, en Facebook en Facebook.com/DavidGewirtz, en Instagram en Instagram.com/DavidGewirtz, y en YouTube en YouTube.com/DavidGewirtzTV.
Artículo relacionado
OpenAI se Compromete a Realizar Correcciones Tras las Respuestas Excesivamente Complacientes de ChatGPT
OpenAI planea revisar su proceso de actualización del modelo de IA para ChatGPT después de que una actualización provocara respuestas excesivamente sycophantic, generando amplios comentarios de los us
OpenAI Presenta Modelos Avanzados de Razonamiento de IA, o3 y o4-mini
OpenAI presentó o3 y o4-mini el miércoles, nuevos modelos de IA diseñados para pausar y analizar preguntas antes de responder.OpenAI destaca o3 como su modelo de razonamiento más sofisticado hasta aho
Renueva tu hogar: Decoración impulsada por IA con Pinterest y ChatGPT
¿Te cuesta rediseñar tu hogar con tantas opciones? Combina la inteligencia artificial con la inspiración visual de Pinterest para crear tu espacio ideal. Esta guía revela cómo mezclar las imágenes de
comentario (10)
0/200
ScottMitchell
5 de mayo de 2025 15:17:31 GMT+02:00
Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!
0
JamesMiller
5 de mayo de 2025 10:59:50 GMT+02:00
Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!
0
StevenNelson
5 de mayo de 2025 09:23:24 GMT+02:00
クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?
0
JoseDavis
5 de mayo de 2025 08:46:04 GMT+02:00
Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !
0
HaroldLopez
5 de mayo de 2025 06:06:54 GMT+02:00
클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!
0
AveryThomas
5 de mayo de 2025 00:30:08 GMT+02:00
Claude 3.5 Sonnet居然在编程测试中表现一般?有点失望,感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈,Anthropic得加把劲了!
0
Probando las Capacidades del Nuevo Claude 3.5 Sonnet de Anthropic
La semana pasada, recibí un correo de Anthropic anunciando el lanzamiento de Claude 3.5 Sonnet. Presumieron que "eleva el estándar de la industria en inteligencia, superando a modelos competidores y a Claude 3 Opus en una amplia gama de evaluaciones." También afirmaron que era perfecto para tareas complejas como la generación de código. Naturalmente, tuve que poner a prueba estas afirmaciones.
He realizado una serie de pruebas de codificación en varios AIs, y tú también puedes hacerlo. Solo dirígete a Cómo pruebo la capacidad de codificación de un chatbot AI - y tú también puedes para encontrar todos los detalles. Vamos a sumergirnos en cómo se desempeñó Claude 3.5 Sonnet en mis pruebas estándar, y ver cómo se compara con otros AIs como Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced y ChatGPT.
1. Escribiendo un Plugin de WordPress
Inicialmente, Claude 3.5 Sonnet mostró mucho potencial. La interfaz de usuario que generó fue impresionante, con un diseño limpio que colocó los campos de datos uno al lado del otro por primera vez entre los AIs que he probado.
Captura de pantalla por David Gewirtz/ZDNET
Lo que llamó mi atención fue cómo Claude abordó la generación de código. En lugar de los archivos separados habituales para PHP, JavaScript y CSS, proporcionó un solo archivo PHP que generaba automáticamente los archivos JavaScript y CSS en el directorio del plugin. Aunque este fue un enfoque innovador, es arriesgado porque depende de las configuraciones del sistema operativo que permitan a un plugin escribir en su propia carpeta, una falla de seguridad importante en un entorno de producción.
Desafortunadamente, a pesar de la solución creativa, el plugin no funcionó. El botón "Randomize" no hacía nada, lo cual fue decepcionante dado su potencial inicial.
Aquí están los resultados agregados comparados con pruebas anteriores:
- Claude 3.5 Sonnet: Interfaz: buena, funcionalidad: fallida
- ChatGPT GPT-4o: Interfaz: buena, funcionalidad: buena
- Microsoft Copilot: Interfaz: adecuada, funcionalidad: fallida
- Meta AI: Interfaz: adecuada, funcionalidad: fallida
- Meta Code Llama: Fracaso completo
- Google Gemini Advanced: Interfaz: buena, funcionalidad: fallida
- ChatGPT 4: Interfaz: buena, funcionalidad: buena
- ChatGPT 3.5: Interfaz: buena, funcionalidad: buena
2. Reescribiendo una Función de Cadena
Esta prueba evalúa qué tan bien un AI puede reescribir código para cumplir con necesidades específicas, en este caso, para conversiones de dólares y centavos. Claude 3.5 Sonnet hizo un buen trabajo eliminando ceros iniciales, manejando correctamente enteros y decimales, y previniendo valores negativos. También devolvió inteligentemente "0" para entradas inesperadas, lo que ayuda a evitar errores.
Sin embargo, no permitió entradas como ".50" para 50 centavos, que era un requisito. Esto significa que el código revisado no funcionaría en un escenario del mundo real, por lo que debo marcarlo como fallido.
Aquí están los resultados agregados:
- Claude 3.5 Sonnet: Fallido
- ChatGPT GPT-4o: Exitoso
- Microsoft Copilot: Fallido
- Meta AI: Fallido
- Meta Code Llama: Exitoso
- Google Gemini Advanced: Fallido
- ChatGPT 4: Exitoso
- ChatGPT 3.5: Exitoso
3. Encontrando un Error Molesto
Esta prueba es complicada porque requiere que el AI encuentre un error sutil que necesita conocimiento específico de WordPress. Es un error que yo mismo pasé por alto y tuve que recurrir a ChatGPT para resolver inicialmente.
Claude 3.5 Sonnet no solo encontró y corrigió el error, sino que también notó un error introducido durante el proceso de publicación, que luego corregí. Esto fue una primicia entre los AIs que he probado desde que publiqué el conjunto completo de pruebas.
Aquí están los resultados agregados:
- Claude 3.5 Sonnet: Exitoso
- ChatGPT GPT-4o: Exitoso
- Microsoft Copilot: Fallido. Espectacularmente. Entusiastamente. Con emojis.
- Meta AI: Exitoso
- Meta Code Llama: Fallido
- Google Gemini Advanced: Fallido
- ChatGPT 4: Exitoso
- ChatGPT 3.5: Exitoso
Hasta ahora, Claude 3.5 Sonnet ha fallado en dos de tres pruebas. Veamos cómo le va con la última.
4. Escribiendo un Script
Esta prueba verifica el conocimiento del AI sobre herramientas de programación especializadas como AppleScript y Keyboard Maestro. Mientras que ChatGPT mostró competencia en ambas, Claude 3.5 Sonnet no tuvo tan buen desempeño. Escribió un AppleScript que intentó interactuar con Chrome pero ignoró completamente el componente de Keyboard Maestro.
Además, el AppleScript contenía un error de sintaxis. Al intentar hacer que la coincidencia no distinguiera entre mayúsculas y minúsculas, Claude generó una línea que causaría un error en tiempo de ejecución:
La declaración "contains" ya no distingue entre mayúsculas y minúsculas, y la frase "ignoring case" estaba mal ubicada, resultando en un error.
Aquí están los resultados agregados:
- Claude 3.5 Sonnet: Fallido
- ChatGPT GPT-4o: Exitoso pero con reservas
- Microsoft Copilot: Fallido
- Meta AI: Fallido
- Meta Code Llama: Fallido
- Google Gemini Advanced: Exitoso
- ChatGPT 4: Exitoso
- ChatGPT 3.5: Fallido
Resultados Generales
Aquí está cómo se desempeñó Claude 3.5 Sonnet en general comparado con otros AIs:
- Claude 3.5 Sonnet: 1 de 4 exitoso
- ChatGPT GPT-4o: 4 de 4 exitosos, pero con una respuesta extraña de doble elección
- Microsoft Copilot: 0 de 4 exitosos
- Meta AI: 1 de 4 exitoso
- Meta Code Llama: 1 de 4 exitoso
- Google Gemini Advanced: 1 de 4 exitoso
- ChatGPT 4: 4 de 4 exitosos
- ChatGPT 3.5: 3 de 4 exitosos
Estaba bastante decepcionado con Claude 3.5 Sonnet. Anthropic prometió que era adecuado para programar, pero no cumplió con esas expectativas. No es que no pueda programar; simplemente no puede programar correctamente. Sigo esperando encontrar un AI que supere a ChatGPT, especialmente a medida que estos modelos se integran en entornos de programación. Pero por ahora, me quedo con ChatGPT para ayuda en programación, y te recomiendo que hagas lo mismo.
¿Has usado un AI para programar? ¿Cuál, y cómo te fue? Comparte tus experiencias en los comentarios abajo.
Sigue las actualizaciones de mi proyecto en redes sociales, suscríbete a mi boletín semanal, y conéctate conmigo en Twitter/X en @DavidGewirtz, en Facebook en Facebook.com/DavidGewirtz, en Instagram en Instagram.com/DavidGewirtz, y en YouTube en YouTube.com/DavidGewirtzTV.




Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!




Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!




クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?




Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !




클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!




Claude 3.5 Sonnet居然在编程测试中表现一般?有点失望,感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈,Anthropic得加把劲了!












