Claude 3.5 Sonnet творчески борется в тестах на кодирование искусственного интеллекта.
3 мая 2025 г.
FrankWilliams
2
Тестирование возможностей нового сонета Claude 3.5 от Anpropic
На прошлой неделе я получил электронное письмо от Anthropic, объявляющего о выпуске Sonnet Claude 3.5. Они хвастались, что «поднимает индустриальную бар для интеллекта, опережая модели конкурентов и Claude 3 Opus на широком спектре оценок». Они также утверждали, что это идеально подходит для сложных задач, таких как генерация кода. Естественно, мне пришлось сделать эти претензии на тест.
Я запустил серию тестов кодирования на различных ИИ, и вы тоже можете. Просто зайдите в то, как я тестирую способность кодирования AI Chatbot - и вы также можете найти все детали. Давайте рассмотрим, как Claude 3.5 Sonnet выступил против моих стандартных тестов, и посмотрим, как он складывается против других AIS, таких как Microsoft Copilot, Meta AI, Meta -Llama, Google Gemini Advanced и CHATGPT.
1. Написание плагина WordPress
Первоначально, Claude 3.5 Sonnet показал много обещаний. Пользовательский интерфейс, который он сгенерировал, был впечатляющим, с чистым макетом, который впервые разместил поля данных с AIS, который я тестировал.
Скриншот Дэвида Гевирца/Zdnet
Что привлекло мое внимание, так это то, как Клод подошел к поколению кода. Вместо обычных отдельных файлов для PHP, JavaScript и CSS он предоставил один файл PHP, который автоматически генерировал файлы JavaScript и CSS в каталог плагина. Несмотря на то, что это был инновационный подход, он рискован, потому что это зависит от настроек ОС, позволяя плагину писать в собственную папку - основной недостаток безопасности в производственной среде.
К сожалению, несмотря на творческое решение, плагин не работал. Кнопка «Рандомиза» ничего не сделала, что было разочаровывающим, учитывая его первоначальное обещание.
Вот совокупные результаты по сравнению с предыдущими тестами:
- Claude 3.5 Сонет: Интерфейс: хорошо, функциональность: неудача
- Chatgpt GPT-4O: Интерфейс: хорошо, функциональность: хорошо
- Microsoft Copilot: интерфейс: адекватный, функциональность: неудача
- Meta AI: интерфейс: адекватный, функциональность: неудача
- Мета -код Llama: полная неудача
- Google Gemini Advanced: Интерфейс: хорошо, функциональность: неудача
- Chatgpt 4: Интерфейс: хорошо, функциональность: хорошо
- Chatgpt 3.5: Интерфейс: хорошо, функциональность: хорошо
2. Переписывание строковой функции
Этот тест оценивает, насколько хорошо ИИ может переписать код для удовлетворения конкретных потребностей, в данном случае для преобразования в долларах и центре. Claude 3.5 Sonnet проделал хорошую работу, удаляя ведущие нули, правильно обрабатывая целые числа и десятичные активы и предотвращая негативные значения. Он также умно вернул «0» для неожиданных входов, что помогает избежать ошибок.
Однако ему не удалось разрешить такие записи, как ".50" за 50 центов, что было требованием. Это означает, что пересмотренный код не будет работать в реальном сценарии, поэтому я должен пометить его как провал.
Вот совокупные результаты:
- Claude 3.5 Сонет: не удалось
- Chatgpt GPT-4O: добился успеха
- Microsoft Copilot: не удалось
- Meta AI: неудача
- Мета -код лама: преуспел
- Google Gemini Advanced: не удалось
- ЧАТГПТ 4: Успех
- CHATGPT 3.5: Успех
3. Найти раздражающую ошибку
Этот тест сложен, потому что он требует от ИИ, чтобы найти тонкую ошибку, которая нуждается в конкретных знаниях WordPress. Это ошибка, которую я скучал по себе, и мне пришлось обратиться в Chatgpt, чтобы изначально решить.
Claude 3.5 Sonnet не только обнаружил и исправил ошибку, но и заметил ошибку, введенную в процессе публикации, которую я затем исправил. Это было первым среди AIS, которые я тестировал с момента публикации полного набора тестов.
Вот совокупные результаты:
- Claude 3.5 Сонет: преуспел
- Chatgpt GPT-4O: добился успеха
- Microsoft Copilot: не удалось. Эффектно. С энтузиазмом. Эмоционально.
- Meta AI: преуспел
- Мета -код лама: неудача
- Google Gemini Advanced: не удалось
- ЧАТГПТ 4: Успех
- CHATGPT 3.5: Успех
До сих пор Claude 3.5 Sonnet провалил два из трех тестов. Посмотрим, как это происходит с последним.
4. Написание сценария
Этот тест проверяет знания ИИ по специализированным инструментам программирования, таких как AppleScript и клавиатура Maestro. В то время как CHATGPT продемонстрировал мастерство в обоих, Claude 3.5 Sonnet тоже не было. Он написал AppleScript, который пытался взаимодействовать с Chrome, но полностью игнорировал компонент Maestro клавиатуры.
Кроме того, AppleScript содержал синтаксисную ошибку. Пытаясь сделать матч нечувствительным, Клод сгенерировал строку, которая вызвала ошибку во время выполнения:
Если заголовок Thetab содержит ввод, игнорируя случай, тогда
Заявление «Содержит» уже нечувствительно к случаю, и фраза «игнорирование дела» была неуместна, что привело к ошибке.
Вот совокупные результаты:
- Claude 3.5 Сонет: не удалось
- Chatgpt GPT-4O: преуспел, но с бронированием
- Microsoft Copilot: не удалось
- Meta AI: неудача
- Мета -код лама: неудача
- Google Gemini Advanced: добиться успеха
- ЧАТГПТ 4: Успех
- CHATGPT 3.5: не удалось
Общие результаты
Вот как Claude 3.5 Sonnet выступил в целом по сравнению с другими AIS:
- Claude 3.5 Сонет: 1 из 4
- Chatgpt GPT-4O: 4 из 4 удалось, но с одним странным ответом на двойной выбор
- Microsoft Copilot: 0 из 4 следовало
- Meta ai: 1 из 4 успешных
- Мета -код лама: 1 из 4 успешных
- Google Gemini Advanced: 1 из 4 успешных
- Chatgpt 4: 4 из 4 удалось
- Chatgpt 3.5: 3 из 4 успешных
Я был очень разочарован сонетом Клода 3.5. Антропик обещал, что это подходит для программирования, но это не соответствовало этим ожиданиям. Дело не в том, что он не может программировать; Это просто не может программировать правильно. Я продолжаю надеяться найти ИИ, который может превзойти CHATGPT, особенно когда эти модели интегрируются в среды программирования. Но сейчас я придерживаюсь CHATGPT для программирования, и я рекомендую вам сделать то же самое.
Вы использовали ИИ для программирования? Какой, и как все прошло? Поделитесь своим опытом в комментариях ниже.
Следите за обновлениями моего проекта в социальных сетях, подпишитесь на мою еженедельную новостную рассылку и свяжитесь со мной в Twitter/X на @DavidgeWirtz, на Facebook на facebook.com/davidgewirtz , в Instagram на Instagram.com/davidgewirtz и на YouTube на YouTube.com/DavidgeWirtzTV .
Связанная статья
Open Deep Search arrives to challenge Perplexity and ChatGPT Search
If you're in the tech world, you've likely heard about the buzz surrounding Open Deep Search (ODS), the new open-source framework from the Sentient Foundation. ODS is making waves by offering a robust alternative to proprietary AI search engines like Perplexity and ChatGPT Search, and it's all about
Use ChatGPT to Craft a Superior Cover Letter: Tips and Tricks
Creating a resume that perfectly summarizes your career is challenging enough, but job applications often require a cover letter as well. This letter is your chance to dive into the specifics of why you're interested in the company, what qualifies you for the position, and why you're the best candid
Explore Earth Virtually: ChatGPT and Google Earth Vacation Planner
Ever felt the urge to escape the daily grind but found yourself stumped on where to go? Let's dive into a cool way to plan your next getaway without even stepping outside your door. By harnessing the power of ChatGPT and Google Earth, you can embark on a virtual vacation that's both exciting and rel
Комментарии (0)






Тестирование возможностей нового сонета Claude 3.5 от Anpropic
На прошлой неделе я получил электронное письмо от Anthropic, объявляющего о выпуске Sonnet Claude 3.5. Они хвастались, что «поднимает индустриальную бар для интеллекта, опережая модели конкурентов и Claude 3 Opus на широком спектре оценок». Они также утверждали, что это идеально подходит для сложных задач, таких как генерация кода. Естественно, мне пришлось сделать эти претензии на тест.
Я запустил серию тестов кодирования на различных ИИ, и вы тоже можете. Просто зайдите в то, как я тестирую способность кодирования AI Chatbot - и вы также можете найти все детали. Давайте рассмотрим, как Claude 3.5 Sonnet выступил против моих стандартных тестов, и посмотрим, как он складывается против других AIS, таких как Microsoft Copilot, Meta AI, Meta -Llama, Google Gemini Advanced и CHATGPT.
1. Написание плагина WordPress
Первоначально, Claude 3.5 Sonnet показал много обещаний. Пользовательский интерфейс, который он сгенерировал, был впечатляющим, с чистым макетом, который впервые разместил поля данных с AIS, который я тестировал.
Скриншот Дэвида Гевирца/Zdnet
Что привлекло мое внимание, так это то, как Клод подошел к поколению кода. Вместо обычных отдельных файлов для PHP, JavaScript и CSS он предоставил один файл PHP, который автоматически генерировал файлы JavaScript и CSS в каталог плагина. Несмотря на то, что это был инновационный подход, он рискован, потому что это зависит от настроек ОС, позволяя плагину писать в собственную папку - основной недостаток безопасности в производственной среде.
К сожалению, несмотря на творческое решение, плагин не работал. Кнопка «Рандомиза» ничего не сделала, что было разочаровывающим, учитывая его первоначальное обещание.
Вот совокупные результаты по сравнению с предыдущими тестами:
- Claude 3.5 Сонет: Интерфейс: хорошо, функциональность: неудача
- Chatgpt GPT-4O: Интерфейс: хорошо, функциональность: хорошо
- Microsoft Copilot: интерфейс: адекватный, функциональность: неудача
- Meta AI: интерфейс: адекватный, функциональность: неудача
- Мета -код Llama: полная неудача
- Google Gemini Advanced: Интерфейс: хорошо, функциональность: неудача
- Chatgpt 4: Интерфейс: хорошо, функциональность: хорошо
- Chatgpt 3.5: Интерфейс: хорошо, функциональность: хорошо
2. Переписывание строковой функции
Этот тест оценивает, насколько хорошо ИИ может переписать код для удовлетворения конкретных потребностей, в данном случае для преобразования в долларах и центре. Claude 3.5 Sonnet проделал хорошую работу, удаляя ведущие нули, правильно обрабатывая целые числа и десятичные активы и предотвращая негативные значения. Он также умно вернул «0» для неожиданных входов, что помогает избежать ошибок.
Однако ему не удалось разрешить такие записи, как ".50" за 50 центов, что было требованием. Это означает, что пересмотренный код не будет работать в реальном сценарии, поэтому я должен пометить его как провал.
Вот совокупные результаты:
- Claude 3.5 Сонет: не удалось
- Chatgpt GPT-4O: добился успеха
- Microsoft Copilot: не удалось
- Meta AI: неудача
- Мета -код лама: преуспел
- Google Gemini Advanced: не удалось
- ЧАТГПТ 4: Успех
- CHATGPT 3.5: Успех
3. Найти раздражающую ошибку
Этот тест сложен, потому что он требует от ИИ, чтобы найти тонкую ошибку, которая нуждается в конкретных знаниях WordPress. Это ошибка, которую я скучал по себе, и мне пришлось обратиться в Chatgpt, чтобы изначально решить.
Claude 3.5 Sonnet не только обнаружил и исправил ошибку, но и заметил ошибку, введенную в процессе публикации, которую я затем исправил. Это было первым среди AIS, которые я тестировал с момента публикации полного набора тестов.
Вот совокупные результаты:
- Claude 3.5 Сонет: преуспел
- Chatgpt GPT-4O: добился успеха
- Microsoft Copilot: не удалось. Эффектно. С энтузиазмом. Эмоционально.
- Meta AI: преуспел
- Мета -код лама: неудача
- Google Gemini Advanced: не удалось
- ЧАТГПТ 4: Успех
- CHATGPT 3.5: Успех
До сих пор Claude 3.5 Sonnet провалил два из трех тестов. Посмотрим, как это происходит с последним.
4. Написание сценария
Этот тест проверяет знания ИИ по специализированным инструментам программирования, таких как AppleScript и клавиатура Maestro. В то время как CHATGPT продемонстрировал мастерство в обоих, Claude 3.5 Sonnet тоже не было. Он написал AppleScript, который пытался взаимодействовать с Chrome, но полностью игнорировал компонент Maestro клавиатуры.
Кроме того, AppleScript содержал синтаксисную ошибку. Пытаясь сделать матч нечувствительным, Клод сгенерировал строку, которая вызвала ошибку во время выполнения:
Если заголовок Thetab содержит ввод, игнорируя случай, тогда
Заявление «Содержит» уже нечувствительно к случаю, и фраза «игнорирование дела» была неуместна, что привело к ошибке.
Вот совокупные результаты:
- Claude 3.5 Сонет: не удалось
- Chatgpt GPT-4O: преуспел, но с бронированием
- Microsoft Copilot: не удалось
- Meta AI: неудача
- Мета -код лама: неудача
- Google Gemini Advanced: добиться успеха
- ЧАТГПТ 4: Успех
- CHATGPT 3.5: не удалось
Общие результаты
Вот как Claude 3.5 Sonnet выступил в целом по сравнению с другими AIS:
- Claude 3.5 Сонет: 1 из 4
- Chatgpt GPT-4O: 4 из 4 удалось, но с одним странным ответом на двойной выбор
- Microsoft Copilot: 0 из 4 следовало
- Meta ai: 1 из 4 успешных
- Мета -код лама: 1 из 4 успешных
- Google Gemini Advanced: 1 из 4 успешных
- Chatgpt 4: 4 из 4 удалось
- Chatgpt 3.5: 3 из 4 успешных
Я был очень разочарован сонетом Клода 3.5. Антропик обещал, что это подходит для программирования, но это не соответствовало этим ожиданиям. Дело не в том, что он не может программировать; Это просто не может программировать правильно. Я продолжаю надеяться найти ИИ, который может превзойти CHATGPT, особенно когда эти модели интегрируются в среды программирования. Но сейчас я придерживаюсь CHATGPT для программирования, и я рекомендую вам сделать то же самое.
Вы использовали ИИ для программирования? Какой, и как все прошло? Поделитесь своим опытом в комментариях ниже.
Следите за обновлениями моего проекта в социальных сетях, подпишитесь на мою еженедельную новостную рассылку и свяжитесь со мной в Twitter/X на @DavidgeWirtz, на Facebook на facebook.com/davidgewirtz , в Instagram на Instagram.com/davidgewirtz и на YouTube на YouTube.com/DavidgeWirtzTV .












