Claude 3.5 El soneto lucha creativamente en pruebas de codificación de IA dominadas por ChatGPT

Hogar

Noticias

4 de mayo de 2025

FrankWilliams

# ChatGPT

Probando las Capacidades del Nuevo Claude 3.5 Sonnet de Anthropic

La semana pasada, recibí un correo de Anthropic anunciando el lanzamiento de Claude 3.5 Sonnet. Presumieron que "eleva el estándar de la industria en inteligencia, superando a modelos competidores y a Claude 3 Opus en una amplia gama de evaluaciones." También afirmaron que era perfecto para tareas complejas como la generación de código. Naturalmente, tuve que poner a prueba estas afirmaciones.

He realizado una serie de pruebas de codificación en varios AIs, y tú también puedes hacerlo. Solo dirígete a Cómo pruebo la capacidad de codificación de un chatbot AI - y tú también puedes para encontrar todos los detalles. Vamos a sumergirnos en cómo se desempeñó Claude 3.5 Sonnet en mis pruebas estándar, y ver cómo se compara con otros AIs como Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced y ChatGPT.

1. Escribiendo un Plugin de WordPress

Inicialmente, Claude 3.5 Sonnet mostró mucho potencial. La interfaz de usuario que generó fue impresionante, con un diseño limpio que colocó los campos de datos uno al lado del otro por primera vez entre los AIs que he probado.

Captura de pantalla de la interfaz del plugin de WordPress creada por Claude 3.5 Sonnet Captura de pantalla por David Gewirtz/ZDNET

Lo que llamó mi atención fue cómo Claude abordó la generación de código. En lugar de los archivos separados habituales para PHP, JavaScript y CSS, proporcionó un solo archivo PHP que generaba automáticamente los archivos JavaScript y CSS en el directorio del plugin. Aunque este fue un enfoque innovador, es arriesgado porque depende de las configuraciones del sistema operativo que permitan a un plugin escribir en su propia carpeta, una falla de seguridad importante en un entorno de producción.

Desafortunadamente, a pesar de la solución creativa, el plugin no funcionó. El botón "Randomize" no hacía nada, lo cual fue decepcionante dado su potencial inicial.

Aquí están los resultados agregados comparados con pruebas anteriores:

Claude 3.5 Sonnet: Interfaz: buena, funcionalidad: fallida
ChatGPT GPT-4o: Interfaz: buena, funcionalidad: buena
Microsoft Copilot: Interfaz: adecuada, funcionalidad: fallida
Meta AI: Interfaz: adecuada, funcionalidad: fallida
Meta Code Llama: Fracaso completo
Google Gemini Advanced: Interfaz: buena, funcionalidad: fallida
ChatGPT 4: Interfaz: buena, funcionalidad: buena
ChatGPT 3.5: Interfaz: buena, funcionalidad: buena

2. Reescribiendo una Función de Cadena

Esta prueba evalúa qué tan bien un AI puede reescribir código para cumplir con necesidades específicas, en este caso, para conversiones de dólares y centavos. Claude 3.5 Sonnet hizo un buen trabajo eliminando ceros iniciales, manejando correctamente enteros y decimales, y previniendo valores negativos. También devolvió inteligentemente "0" para entradas inesperadas, lo que ayuda a evitar errores.

Sin embargo, no permitió entradas como ".50" para 50 centavos, que era un requisito. Esto significa que el código revisado no funcionaría en un escenario del mundo real, por lo que debo marcarlo como fallido.

Aquí están los resultados agregados:

Claude 3.5 Sonnet: Fallido
ChatGPT GPT-4o: Exitoso
Microsoft Copilot: Fallido
Meta AI: Fallido
Meta Code Llama: Exitoso
Google Gemini Advanced: Fallido
ChatGPT 4: Exitoso
ChatGPT 3.5: Exitoso

3. Encontrando un Error Molesto

Esta prueba es complicada porque requiere que el AI encuentre un error sutil que necesita conocimiento específico de WordPress. Es un error que yo mismo pasé por alto y tuve que recurrir a ChatGPT para resolver inicialmente.

Claude 3.5 Sonnet no solo encontró y corrigió el error, sino que también notó un error introducido durante el proceso de publicación, que luego corregí. Esto fue una primicia entre los AIs que he probado desde que publiqué el conjunto completo de pruebas.

Aquí están los resultados agregados:

Claude 3.5 Sonnet: Exitoso
ChatGPT GPT-4o: Exitoso
Microsoft Copilot: Fallido. Espectacularmente. Entusiastamente. Con emojis.
Meta AI: Exitoso
Meta Code Llama: Fallido
Google Gemini Advanced: Fallido
ChatGPT 4: Exitoso
ChatGPT 3.5: Exitoso

Hasta ahora, Claude 3.5 Sonnet ha fallado en dos de tres pruebas. Veamos cómo le va con la última.

4. Escribiendo un Script

Esta prueba verifica el conocimiento del AI sobre herramientas de programación especializadas como AppleScript y Keyboard Maestro. Mientras que ChatGPT mostró competencia en ambas, Claude 3.5 Sonnet no tuvo tan buen desempeño. Escribió un AppleScript que intentó interactuar con Chrome pero ignoró completamente el componente de Keyboard Maestro.

Además, el AppleScript contenía un error de sintaxis. Al intentar hacer que la coincidencia no distinguiera entre mayúsculas y minúsculas, Claude generó una línea que causaría un error en tiempo de ejecución:

if theTab's title contains input ignoring case then

La declaración "contains" ya no distingue entre mayúsculas y minúsculas, y la frase "ignoring case" estaba mal ubicada, resultando en un error.

Aquí están los resultados agregados:

Claude 3.5 Sonnet: Fallido
ChatGPT GPT-4o: Exitoso pero con reservas
Microsoft Copilot: Fallido
Meta AI: Fallido
Meta Code Llama: Fallido
Google Gemini Advanced: Exitoso
ChatGPT 4: Exitoso
ChatGPT 3.5: Fallido

Resultados Generales

Aquí está cómo se desempeñó Claude 3.5 Sonnet en general comparado con otros AIs:

Claude 3.5 Sonnet: 1 de 4 exitoso
ChatGPT GPT-4o: 4 de 4 exitosos, pero con una respuesta extraña de doble elección
Microsoft Copilot: 0 de 4 exitosos
Meta AI: 1 de 4 exitoso
Meta Code Llama: 1 de 4 exitoso
Google Gemini Advanced: 1 de 4 exitoso
ChatGPT 4: 4 de 4 exitosos
ChatGPT 3.5: 3 de 4 exitosos

Estaba bastante decepcionado con Claude 3.5 Sonnet. Anthropic prometió que era adecuado para programar, pero no cumplió con esas expectativas. No es que no pueda programar; simplemente no puede programar correctamente. Sigo esperando encontrar un AI que supere a ChatGPT, especialmente a medida que estos modelos se integran en entornos de programación. Pero por ahora, me quedo con ChatGPT para ayuda en programación, y te recomiendo que hagas lo mismo.

¿Has usado un AI para programar? ¿Cuál, y cómo te fue? Comparte tus experiencias en los comentarios abajo.

Sigue las actualizaciones de mi proyecto en redes sociales, suscríbete a mi boletín semanal, y conéctate conmigo en Twitter/X en @DavidGewirtz, en Facebook en Facebook.com/DavidGewirtz, en Instagram en Instagram.com/DavidGewirtz, y en YouTube en YouTube.com/DavidGewirtzTV.

Artículo relacionado

Programa Agent Pay de Mastercard mejora la búsqueda con IA mediante transacciones fluidas Las plataformas de búsqueda tradicionales y los agentes de IA suelen requerir que los usuarios cambien de ventana para completar compras tras encontrar productos o servicios.Mastercard está revolucion

OpenAI se Compromete a Realizar Correcciones Tras las Respuestas Excesivamente Complacientes de ChatGPT OpenAI planea revisar su proceso de actualización del modelo de IA para ChatGPT después de que una actualización provocara respuestas excesivamente sycophantic, generando amplios comentarios de los us

OpenAI Presenta Modelos Avanzados de Razonamiento de IA, o3 y o4-mini OpenAI presentó o3 y o4-mini el miércoles, nuevos modelos de IA diseñados para pausar y analizar preguntas antes de responder.OpenAI destaca o3 como su modelo de razonamiento más sofisticado hasta aho

comentario (10)

0/200

Entregar

ScottMitchell

5 de mayo de 2025 15:17:31 GMT+02:00

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

JamesMiller

5 de mayo de 2025 10:59:50 GMT+02:00

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

StevenNelson

5 de mayo de 2025 09:23:24 GMT+02:00

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです！😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも？

JoseDavis

5 de mayo de 2025 08:46:04 GMT+02:00

Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !

HaroldLopez

5 de mayo de 2025 06:06:54 GMT+02:00

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

AveryThomas

5 de mayo de 2025 00:30:08 GMT+02:00

Claude 3.5 Sonnet居然在编程测试中表现一般？有点失望，感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈，Anthropic得加把劲了！

Noticias principales

Gemini 2.5 Pro ahora ilimitado y más barato que Claude, GPT-4O Generadores de Video AI Top de 2025: Pika Labs vs Alternativas Doblaje AI: Guía Definitiva para la Creación de Voz Realista La IA de Cambium transforma la madera de los desechos en madera Operai mejora el asistente de voz de IA para mejores chats Cómo garantizar que sus datos sean confiables para la integración de IA Notebooklm se expande a nivel mundial, agrega diapositivas y verificación de hechos mejorada Los ajustes a los centros de datos de EE. UU. Podrían desbloquear 76 GW de nueva capacidad de potencia Google utiliza IA para suspender más de 39 millones de cuentas publicitarias por sospecha de fraude Clonación de Voz IA: La guía definitiva para dominar la conversión de voz

Más

Presentado