AI de copilot de GitHub probado: El éxito de codificación mixta me deja desconcertado

Hogar

Noticias

21 de abril de 2025

GregoryAllen

195

Explorando las inconsistencias en las herramientas de codificación de IA

Es realmente desconcertante cómo las herramientas de IA, todas construidas sobre el mismo modelo de lenguaje grande fundacional, pueden producir resultados tan variados. Por ejemplo, ChatGPT, Perplexity y GitHub Copilot aprovechan el modelo GPT-4 de OpenAI. Sin embargo, mis pruebas recientes mostraron diferencias marcadas en el rendimiento: mientras que los planes pro de ChatGPT y Perplexity destacaron, GitHub Copilot tuvo una tasa de éxito del 50%.

Realicé estas pruebas usando GitHub Copilot integrado en un entorno de VS Code. Compartiré una guía detallada sobre cómo configurarlo en un próximo artículo. Por ahora, profundicemos en los detalles de las pruebas que realicé.

Si tienes curiosidad sobre mi metodología de prueba y los prompts utilizados, puedes consultar mi guía detallada sobre la evaluación de las capacidades de codificación de un chatbot de IA.

TL;DR: GitHub Copilot logró pasar dos de las cuatro pruebas que realicé.

Prueba 1: Escribir un plugin de WordPress

Esta prueba fue una completa decepción. Fue mi experimento inicial, dejándome inseguro de si GitHub Copilot tiene dificultades con la codificación o si las restricciones de interacción dentro de VS Code limitan sus capacidades.

Aquí está el contexto: pedí a la IA que desarrollara un plugin de WordPress completamente funcional que incluyera una interfaz de administración y lógica operativa. La tarea del plugin era aceptar una lista de nombres, ordenarlos y separar cualquier duplicado para evitar que estuvieran adyacentes.

Esta tarea surgió de una necesidad del mundo real de la tienda de comercio electrónico de bienes digitales de mi esposa, donde ella gestiona un grupo activo de Facebook.

Mientras que cinco de los diez modelos de IA probados pasaron esta prueba completamente, tres pasaron parcialmente y dos, incluido Microsoft Copilot, fallaron completamente. GitHub Copilot, a pesar de recibir el mismo prompt, solo produjo código PHP. Aunque el problema podía resolverse con PHP solo, GitHub Copilot intentó referirse a JavaScript sin generarlo realmente.

Captura de pantalla por David Gewirtz/ZDNET

Cuando intenté solicitar a GitHub Copilot desde un archivo JavaScript para completar la tarea, respondió de manera extraña con más código PHP, aún haciendo referencia a un archivo JavaScript inexistente.

Captura de pantalla por David Gewirtz/ZDNET

Prueba 2: Reescribir una función de cadena

Esta prueba fue relativamente sencilla: proporcioné una función destinada a validar dólares y centavos, pero solo verificaba dólares enteros. El desafío era que la IA corrigiera la función.

GitHub Copilot modificó el código, pero el resultado fue problemático. Asumió que cualquier cadena de entrada era válida, lo que causaría errores si la cadena estaba vacía. Además, la expresión regular actualizada no podía manejar varios casos extremos, como entradas como "3.", ".3" o "00.30". Para una función destinada a validar moneda, tales omisiones son inaceptables, marcando otro fallo para GitHub Copilot.

Prueba 3: Encontrar un error molesto

Aquí, GitHub Copilot brilló. Esta prueba se basó en un desafío de codificación real que enfrenté, donde el mensaje de error no apuntaba directamente al problema real. Es algo así como un acertijo de codificación, que requiere una comprensión profunda de las llamadas a la API de WordPress para resolverlo.

Mientras que Microsoft Copilot, Gemini y Meta Code Llama tropezaron en esta prueba, GitHub Copilot lo logró, mostrando su capacidad para abordar problemas complejos del mundo real.

Prueba 4: Escribir un script

GitHub Copilot también tuvo éxito en esta prueba, donde Microsoft Copilot se quedó corto. La tarea involucraba crear un script que necesitaba integrar AppleScript, el modelo de objetos de Chrome y una utilidad específica de Mac llamada Keyboard Maestro.

Para pasar, la IA necesitaba reconocer y abordar los matices de los tres entornos, y GitHub Copilot lo hizo exactamente.

Pensamientos finales

Es desalentador ver que GitHub Copilot, que utiliza el modelo avanzado GPT-4, falló en la mitad de las pruebas. Dado el estatus de GitHub como una plataforma líder de gestión de código fuente, uno esperaría que su soporte de codificación de IA fuera más confiable.

Sin embargo, el mundo de la IA está en constante evolución, y soy optimista de que el rendimiento de GitHub Copilot mejorará con el tiempo. Volveremos a revisarlo en unos meses para ver cómo ha progresado.

¿Dependes de la IA para asistencia en codificación? ¿Qué herramienta de IA es tu preferida? ¿Has probado GitHub Copilot? Comparte tus experiencias en los comentarios a continuación.

Mantente actualizado con el progreso diario de mi proyecto en las redes sociales. No olvides suscribirte a mi boletín semanal y seguirme en Twitter/X en @DavidGewirtz, en Facebook en Facebook.com/DavidGewirtz, en Instagram en Instagram.com/DavidGewirtz, en Bluesky en @DavidGewirtz.com y en YouTube en YouTube.com/DavidGewirtzTV.

Artículo relacionado

Las mejores herramientas de AI para crear infografías educativas - Consejos y técnicas de diseño En el panorama educativo digital actual, la infografía ha surgido como un medio de comunicación transformador que convierte información compleja en formatos visualmente atractivos y fácilmente compren

Topaz DeNoise AI: Mejor herramienta de reducción de ruido en 2025 - Guía completa En el competitivo mundo de la fotografía digital, la claridad de imagen sigue siendo primordial. Fotógrafos de todos los niveles se enfrentan al ruido digital que compromete tomas que de otro modo ser

Maestro Esmeralda Kaizo Nuzlocke: Guía definitiva de supervivencia y estrategia Kaizo Esmeralda se erige como uno de los hacks de ROMs de Pokémon más formidables jamás concebidos. Aunque intentar una ejecución Nuzlocke aumenta exponencialmente el desafío, la victoria sigue siendo

comentario (24)

0/200

Entregar

StephenRoberts

13 de agosto de 2025 21:01:01 GMT+02:00

GitHub Copilot's AI is such a mixed bag! Sometimes it spits out perfect code, other times it’s like it’s drunk—random errors everywhere. Makes me wonder if the same GPT-4 is just mood-swinging or if the training data’s got some serious split personality. 😅 Anyone else getting whiplash from these AI tools?

WalterWilliams

5 de agosto de 2025 15:01:00 GMT+02:00

It's wild how GitHub Copilot can be a coding wizard one minute and totally miss the mark the next! 🤯 I tried it for a Python script, and it spat out half-baked code that left me scratching my head. Maybe it’s like a moody artist—brilliant but inconsistent? Anyone else getting these mixed vibes?

WillieLee

29 de julio de 2025 14:25:16 GMT+02:00

GitHub Copilot's AI is such a wild card! Sometimes it nails the code, other times it’s like it’s writing poetry instead of Python. 😅 I’m curious, does anyone else feel like they’re rolling dice with these AI tools?

JerryGonzalez

28 de julio de 2025 03:19:04 GMT+02:00

GitHub Copilot’s AI is such a mixed bag! Sometimes it’s like having a genius pair-programmer, other times it’s just spitting out buggy code that makes me scratch my head. 😕 Still, it’s wild to think how far AI coding has come, even if it’s not perfect yet.

JuanLewis

24 de abril de 2025 01:53:39 GMT+02:00

GitHub Copilot's AI is a mixed bag. Sometimes it nails the code, other times it's like it's guessing. It's baffling how inconsistent it can be. I guess it's still learning, but it's frustrating when you're on a deadline. 🤔

HenryJackson

23 de abril de 2025 16:51:43 GMT+02:00

GitHub CopilotのAIは一長一短ですね。時にはコードを完璧に書いてくれるのに、時にはまるで推測しているかのようです。なぜこんなに一貫性がないのか不思議です。まだ学習中なんでしょうが、締め切りがあるときはイライラしますね。🤔

Noticias principales

Generadores de Video AI Top de 2025: Pika Labs vs Alternativas Gemini 2.5 Pro ahora ilimitado y más barato que Claude, GPT-4O Doblaje AI: Guía Definitiva para la Creación de Voz Realista La IA de Cambium transforma la madera de los desechos en madera AI Builder y Power Automate Revolucionan la Sumarización de Documentos Operai mejora el asistente de voz de IA para mejores chats Cómo garantizar que sus datos sean confiables para la integración de IA Notebooklm se expande a nivel mundial, agrega diapositivas y verificación de hechos mejorada Los ajustes a los centros de datos de EE. UU. Podrían desbloquear 76 GW de nueva capacidad de potencia Google utiliza IA para suspender más de 39 millones de cuentas publicitarias por sospecha de fraude

Más

Presentado