Claude 3.5 El soneto lucha creativamente en pruebas de codificación de IA dominadas por ChatGPT
Prueba de las capacidades del nuevo soneto Claude 3.5 de Anthrope
La semana pasada, recibí un correo electrónico de Anthrope anunciando el lanzamiento del soneto Claude 3.5. Se jactaron de que "eleva la barra de la industria para la inteligencia, superando a los modelos de la competencia y a Claude 3 Opus en una amplia gama de evaluaciones". También afirmaron que era perfecto para tareas complejas como la generación de código. Naturalmente, tuve que poner estas afirmaciones a la prueba.
He ejecutado una serie de pruebas de codificación en varios AIS, y tú también puedes. Simplemente diríjase a cómo pruebo la capacidad de codificación de un chatbot Ai, y usted también puede encontrar todos los detalles. Veamos cómo se desempeñó el soneto Claude 3.5 con mis pruebas estándar, y veamos cómo se compara con otras AIS como Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced y ChatGPT.
1. Escribir un complemento de WordPress
Inicialmente, el soneto Claude 3.5 mostró muchas promesas. La interfaz de usuario que generó fue impresionante, con un diseño limpio que colocó los campos de datos de lado a lado por primera vez entre los AIS que he probado.
Captura de pantalla de David Gewirtz/Zdnet
Lo que me llamó la atención fue cómo Claude se acercó a la generación de código. En lugar de los archivos separados habituales para PHP, JavaScript y CSS, proporcionó un solo archivo PHP que generó automáticamente los archivos JavaScript y CSS en el directorio del complemento. Si bien este fue un enfoque innovador, es arriesgado porque depende de la configuración del sistema operativo que permite que un complemento escriba en su propia carpeta, un defecto de seguridad importante en un entorno de producción.
Desafortunadamente, a pesar de la solución creativa, el complemento no funcionó. El botón de "aleatorizar" no hizo nada, lo cual fue decepcionante dada su promesa inicial.
Aquí están los resultados agregados en comparación con las pruebas anteriores:
- Claude 3.5 soneto: interfaz: bueno, funcionalidad: falla
- Chatgpt gpt-4o: interfaz: bueno, funcionalidad: buena
- Copiloto de Microsoft: Interfaz: Adecuado, Funcionalidad: Fail
- Meta ai: interfaz: adecuada, funcionalidad: falla
- Meta Code Llama: falla completa
- Google Gemini Avanzado: Interfaz: bueno, Funcionalidad: Fail
- Chatgpt 4: Interfaz: bueno, funcionalidad: buena
- Chatgpt 3.5: Interfaz: bueno, funcionalidad: buena
2. Reescribir una función de cadena
Esta prueba evalúa qué tan bien una IA puede reescribir el código para satisfacer las necesidades específicas, en este caso, para conversiones en dólares y centros. El soneto de Claude 3.5 hizo un buen trabajo eliminando ceros principales, manejando enteros y decimales correctamente, y evitando valores negativos. También devolvió de manera inteligente "0" para entradas inesperadas, lo que ayuda a evitar errores.
Sin embargo, no pudo permitir entradas como ".50" por 50 centavos, lo cual era un requisito. Esto significa que el código revisado no funcionaría en un escenario del mundo real, por lo que tengo que marcarlo como un fracaso.
Aquí están los resultados agregados:
- Claude 3.5 soneto: fallido
- Chatgpt GPT-4O: tuvo éxito
- Copiloto de Microsoft: fallido
- Meta ai: fallido
- Meta Code Llama: tuvo éxito
- Google Géminis avanzado: fallido
- Chatgpt 4: lo logró
- Chatgpt 3.5: tuvo éxito
3. Encontrar un error molesto
Esta prueba es complicada porque requiere que la IA encuentre un error sutil que necesite un conocimiento específico de WordPress. Es un error que me extrañé y tuve que recurrir a Chatgpt para resolver inicialmente.
El soneto de Claude 3.5 no solo encontró y solucionó el error, sino que también notó un error introducido durante el proceso de publicación, que luego corrigí. Esta fue la primera vez entre los AIS que he probado desde que publiqué el conjunto completo de pruebas.
Aquí están los resultados agregados:
- Soneto de Claude 3.5: tuvo éxito
- Chatgpt GPT-4O: tuvo éxito
- Copilot de Microsoft: Falló. Espectacularmente. Con entusiasmo. Emojicamente.
- Meta ai: tuvo éxito
- Meta Code Llama: fallido
- Google Géminis avanzado: fallido
- Chatgpt 4: lo logró
- Chatgpt 3.5: tuvo éxito
Hasta ahora, el soneto Claude 3.5 ha fallado dos de cada tres pruebas. Veamos cómo le va con el último.
4. Escribir un guión
Esta prueba verifica el conocimiento de la IA de herramientas de programación especializadas como Applecript y Keyboard Maestro. Mientras que ChatGPT había mostrado competencia en ambos, Claude 3.5 Sonnet no le fue bien. Escribió un AppleScript que intentó interactuar con Chrome pero ignoró por completo el componente de Maestro del teclado.
Además, el Applecript contenía un error de sintaxis. Al tratar de hacer que la caja del partido sea insensible, Claude generó una línea que causaría un error de tiempo de ejecución:
Si el título de Thetab contiene un caso de ignoración de insumos, entonces
La declaración "Contiene" ya es insensible al caso, y la frase "ignorante del caso" estaba fuera de lugar, lo que resultó en un error.
Aquí están los resultados agregados:
- Claude 3.5 soneto: fallido
- Chatgpt gpt-4o: tuvo éxito pero con reservas
- Copiloto de Microsoft: fallido
- Meta ai: fallido
- Meta Code Llama: fallido
- Google Géminis avanzado: tuvo éxito
- Chatgpt 4: lo logró
- Chatgpt 3.5: fallido
Resultados generales
Así es como Claude 3.5 Sonnet en general en comparación con otros AIS:
- Claude 3.5 soneto: 1 de 4 tuvieron éxito
- Chatgpt GPT-4O: 4 de 4 tuvieron éxito, pero con una extraña respuesta de doble opción
- Copiloto de Microsoft: 0 de 4 tuvieron éxito
- Meta ai: 1 de 4 tuvo éxito
- Meta Code Llama: 1 de 4 tuvo éxito
- Google Gemini avanzado: 1 de 4 tuvieron éxito
- Chatgpt 4: 4 de 4 tuvieron éxito
- Chatgpt 3.5: 3 de 4 tuvieron éxito
Estaba bastante decepcionado con el soneto Claude 3.5. Anthrope prometió que era adecuado para la programación, pero no cumplía con esas expectativas. No es que no pueda programar; Simplemente no puede programar correctamente. Sigo esperando encontrar una IA que pueda superar a ChatGPT, especialmente a medida que estos modelos se integran en entornos de programación. Pero por ahora, me quedo con ChatGPT para la ayuda de programación, y te recomiendo que hagas lo mismo.
¿Has utilizado una IA para la programación? ¿Cuál y cómo fue? Comparta sus experiencias en los comentarios a continuación.
Siga mis actualizaciones de proyecto en las redes sociales, suscríbase a mi boletín semanal y conéctese conmigo en Twitter/X en @DavidgeWirtz, en Facebook en Facebook.com/davidgewirtz , en Instagram en Instagram.com/davidgewirtz , y en YouTube.com/davidgewirtztv .
Artículo relacionado
DeepSeek AI挑战Chatgpt并塑造了AI的未来
DeepSeek AI的兴起:AI Landscapeart人工智能中的新篇章一直处于不断变化状态,新参与者每天都在挑战现状。其中,DeepSeek AI已成为著名的竞争者,尤其是在App Store下载中超过Chatgpt之后。这个mi
AI烹饪视频很容易使用Leonardo AI和Chatgpt创建
用YouTube和Tiktok等平台的配乐吸引人的烹饪内容来彻底改变烹饪视频,这并不一定像是一个永无止境的项目。得益于人工智能的进步,此过程变得更加容易。本指南将引导您浏览最简单的方法
OpenAI推出ChatGPT深度研究工具的轻量版
OpenAI正在推出其ChatGPT深度研究工具的一个“轻量级”版本,旨在浏览网络并编制各种主题的研究报告。这一令人兴奋的更新现已面向ChatGPT Plus、团队和专业用户开放,公司于周四宣布了这一消息。但不仅如此——从今天起,即使是免费的ChatGPT用户也可以参与进来!新的轻量级深度研究工具由OpenAI的o4-mini模型版本提供支持。虽然它可能不像
comentario (5)
0/200
ScottMitchell
5 de mayo de 2025 00:00:00 GMT
Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!
0
StevenNelson
5 de mayo de 2025 00:00:00 GMT
クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?
0
HaroldLopez
5 de mayo de 2025 00:00:00 GMT
클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!
0
JamesMiller
5 de mayo de 2025 00:00:00 GMT
Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!
0
SebastianAnderson
5 de mayo de 2025 00:00:00 GMT
Claude 3.5 Sonnet está bien, pero no puede competir con ChatGPT en pruebas de codificación. ¡Es como llevar un cuchillo a un tiroteo! 😂 Sin embargo, es una mejora respecto a la versión anterior, así que felicidades a Anthropic por intentarlo. ¡Quizás la próxima vez nos sorprendan!
0
Prueba de las capacidades del nuevo soneto Claude 3.5 de Anthrope
La semana pasada, recibí un correo electrónico de Anthrope anunciando el lanzamiento del soneto Claude 3.5. Se jactaron de que "eleva la barra de la industria para la inteligencia, superando a los modelos de la competencia y a Claude 3 Opus en una amplia gama de evaluaciones". También afirmaron que era perfecto para tareas complejas como la generación de código. Naturalmente, tuve que poner estas afirmaciones a la prueba.
He ejecutado una serie de pruebas de codificación en varios AIS, y tú también puedes. Simplemente diríjase a cómo pruebo la capacidad de codificación de un chatbot Ai, y usted también puede encontrar todos los detalles. Veamos cómo se desempeñó el soneto Claude 3.5 con mis pruebas estándar, y veamos cómo se compara con otras AIS como Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced y ChatGPT.
1. Escribir un complemento de WordPress
Inicialmente, el soneto Claude 3.5 mostró muchas promesas. La interfaz de usuario que generó fue impresionante, con un diseño limpio que colocó los campos de datos de lado a lado por primera vez entre los AIS que he probado.
Captura de pantalla de David Gewirtz/Zdnet
Lo que me llamó la atención fue cómo Claude se acercó a la generación de código. En lugar de los archivos separados habituales para PHP, JavaScript y CSS, proporcionó un solo archivo PHP que generó automáticamente los archivos JavaScript y CSS en el directorio del complemento. Si bien este fue un enfoque innovador, es arriesgado porque depende de la configuración del sistema operativo que permite que un complemento escriba en su propia carpeta, un defecto de seguridad importante en un entorno de producción.
Desafortunadamente, a pesar de la solución creativa, el complemento no funcionó. El botón de "aleatorizar" no hizo nada, lo cual fue decepcionante dada su promesa inicial.
Aquí están los resultados agregados en comparación con las pruebas anteriores:
- Claude 3.5 soneto: interfaz: bueno, funcionalidad: falla
- Chatgpt gpt-4o: interfaz: bueno, funcionalidad: buena
- Copiloto de Microsoft: Interfaz: Adecuado, Funcionalidad: Fail
- Meta ai: interfaz: adecuada, funcionalidad: falla
- Meta Code Llama: falla completa
- Google Gemini Avanzado: Interfaz: bueno, Funcionalidad: Fail
- Chatgpt 4: Interfaz: bueno, funcionalidad: buena
- Chatgpt 3.5: Interfaz: bueno, funcionalidad: buena
2. Reescribir una función de cadena
Esta prueba evalúa qué tan bien una IA puede reescribir el código para satisfacer las necesidades específicas, en este caso, para conversiones en dólares y centros. El soneto de Claude 3.5 hizo un buen trabajo eliminando ceros principales, manejando enteros y decimales correctamente, y evitando valores negativos. También devolvió de manera inteligente "0" para entradas inesperadas, lo que ayuda a evitar errores.
Sin embargo, no pudo permitir entradas como ".50" por 50 centavos, lo cual era un requisito. Esto significa que el código revisado no funcionaría en un escenario del mundo real, por lo que tengo que marcarlo como un fracaso.
Aquí están los resultados agregados:
- Claude 3.5 soneto: fallido
- Chatgpt GPT-4O: tuvo éxito
- Copiloto de Microsoft: fallido
- Meta ai: fallido
- Meta Code Llama: tuvo éxito
- Google Géminis avanzado: fallido
- Chatgpt 4: lo logró
- Chatgpt 3.5: tuvo éxito
3. Encontrar un error molesto
Esta prueba es complicada porque requiere que la IA encuentre un error sutil que necesite un conocimiento específico de WordPress. Es un error que me extrañé y tuve que recurrir a Chatgpt para resolver inicialmente.
El soneto de Claude 3.5 no solo encontró y solucionó el error, sino que también notó un error introducido durante el proceso de publicación, que luego corrigí. Esta fue la primera vez entre los AIS que he probado desde que publiqué el conjunto completo de pruebas.
Aquí están los resultados agregados:
- Soneto de Claude 3.5: tuvo éxito
- Chatgpt GPT-4O: tuvo éxito
- Copilot de Microsoft: Falló. Espectacularmente. Con entusiasmo. Emojicamente.
- Meta ai: tuvo éxito
- Meta Code Llama: fallido
- Google Géminis avanzado: fallido
- Chatgpt 4: lo logró
- Chatgpt 3.5: tuvo éxito
Hasta ahora, el soneto Claude 3.5 ha fallado dos de cada tres pruebas. Veamos cómo le va con el último.
4. Escribir un guión
Esta prueba verifica el conocimiento de la IA de herramientas de programación especializadas como Applecript y Keyboard Maestro. Mientras que ChatGPT había mostrado competencia en ambos, Claude 3.5 Sonnet no le fue bien. Escribió un AppleScript que intentó interactuar con Chrome pero ignoró por completo el componente de Maestro del teclado.
Además, el Applecript contenía un error de sintaxis. Al tratar de hacer que la caja del partido sea insensible, Claude generó una línea que causaría un error de tiempo de ejecución:
Si el título de Thetab contiene un caso de ignoración de insumos, entonces
La declaración "Contiene" ya es insensible al caso, y la frase "ignorante del caso" estaba fuera de lugar, lo que resultó en un error.
Aquí están los resultados agregados:
- Claude 3.5 soneto: fallido
- Chatgpt gpt-4o: tuvo éxito pero con reservas
- Copiloto de Microsoft: fallido
- Meta ai: fallido
- Meta Code Llama: fallido
- Google Géminis avanzado: tuvo éxito
- Chatgpt 4: lo logró
- Chatgpt 3.5: fallido
Resultados generales
Así es como Claude 3.5 Sonnet en general en comparación con otros AIS:
- Claude 3.5 soneto: 1 de 4 tuvieron éxito
- Chatgpt GPT-4O: 4 de 4 tuvieron éxito, pero con una extraña respuesta de doble opción
- Copiloto de Microsoft: 0 de 4 tuvieron éxito
- Meta ai: 1 de 4 tuvo éxito
- Meta Code Llama: 1 de 4 tuvo éxito
- Google Gemini avanzado: 1 de 4 tuvieron éxito
- Chatgpt 4: 4 de 4 tuvieron éxito
- Chatgpt 3.5: 3 de 4 tuvieron éxito
Estaba bastante decepcionado con el soneto Claude 3.5. Anthrope prometió que era adecuado para la programación, pero no cumplía con esas expectativas. No es que no pueda programar; Simplemente no puede programar correctamente. Sigo esperando encontrar una IA que pueda superar a ChatGPT, especialmente a medida que estos modelos se integran en entornos de programación. Pero por ahora, me quedo con ChatGPT para la ayuda de programación, y te recomiendo que hagas lo mismo.
¿Has utilizado una IA para la programación? ¿Cuál y cómo fue? Comparta sus experiencias en los comentarios a continuación.
Siga mis actualizaciones de proyecto en las redes sociales, suscríbase a mi boletín semanal y conéctese conmigo en Twitter/X en @DavidgeWirtz, en Facebook en Facebook.com/davidgewirtz , en Instagram en Instagram.com/davidgewirtz , y en YouTube.com/davidgewirtztv .




Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!




クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?




클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!




Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!




Claude 3.5 Sonnet está bien, pero no puede competir con ChatGPT en pruebas de codificación. ¡Es como llevar un cuchillo a un tiroteo! 😂 Sin embargo, es una mejora respecto a la versión anterior, así que felicidades a Anthropic por intentarlo. ¡Quizás la próxima vez nos sorprendan!












