Claude 3.5 Sonnet творчески борется в тестах на кодирование искусственного интеллекта.

Дом

Новости

4 мая 2025 г.

FrankWilliams

# ChatGPT

Тестирование возможностей нового Claude 3.5 Sonnet от Anthropic

На прошлой неделе я получил письмо от Anthropic, в котором сообщалось о выпуске Claude 3.5 Sonnet. Они утверждали, что он "поднимает планку интеллекта в отрасли, превосходя конкурирующие модели и Claude 3 Opus по широкому спектру оценок". Также они заявили, что он идеально подходит для сложных задач, таких как генерация кода. Естественно, мне пришлось проверить эти утверждения на практике.

Я провел серию тестов по программированию на различных ИИ, и вы тоже можете это сделать. Просто перейдите по ссылке Как я тестирую способности ИИ-чатбота к программированию - и вы тоже можете, чтобы узнать все детали. Давайте разберем, как Claude 3.5 Sonnet показал себя в моих стандартных тестах и как он сравнивается с другими ИИ, такими как Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced и ChatGPT.

1. Написание плагина для WordPress

Изначально Claude 3.5 Sonnet показал себя многообещающе. Созданный им пользовательский интерфейс впечатлил: чистый макет, в котором поля данных впервые среди протестированных мной ИИ были расположены бок о бок.

Скриншот интерфейса плагина WordPress, созданного Claude 3.5 Sonnet Скриншот: David Gewirtz/ZDNET

Мое внимание привлекло то, как Claude подошел к генерации кода. Вместо обычных отдельных файлов для PHP, JavaScript и CSS он предоставил один PHP-файл, который автоматически создавал файлы JavaScript и CSS в директории плагина. Хотя это был новаторский подход, он рискован, поскольку зависит от настроек ОС, разрешающих плагину записывать в свою собственную папку — это серьезная уязвимость безопасности в производственной среде.

К сожалению, несмотря на креативное решение, плагин не работал. Кнопка "Randomize" ничего не делала, что разочаровало, учитывая его первоначальный потенциал.

Вот совокупные результаты по сравнению с предыдущими тестами:

Claude 3.5 Sonnet: Интерфейс: хороший, функциональность: провал
ChatGPT GPT-4o: Интерфейс: хороший, функциональность: хорошая
Microsoft Copilot: Интерфейс: удовлетворительный, функциональность: провал
Meta AI: Интерфейс: удовлетворительный, функциональность: провал
Meta Code Llama: Полный провал
Google Gemini Advanced: Интерфейс: хороший, функциональность: провал
ChatGPT 4: Интерфейс: хороший, функциональность: хорошая
ChatGPT 3.5: Интерфейс: хороший, функциональность: хорошая

2. Переписывание строковой функции

Этот тест оценивает, насколько хорошо ИИ может переписать код для удовлетворения конкретных потребностей, в данном случае для преобразования долларов и центов. Claude 3.5 Sonnet хорошо справился с удалением ведущих нулей, корректно обработал целые числа и десятичные дроби, а также предотвратил отрицательные значения. Он также разумно возвращал "0" для неожиданных входных данных, что помогает избежать ошибок.

Однако он не смог обработать записи вида ".50" для 50 центов, что было требованием. Это означает, что переписанный код не будет работать в реальных сценариях, поэтому я вынужден отметить его как провал.

Вот совокупные результаты:

Claude 3.5 Sonnet: Провал
ChatGPT GPT-4o: Успех
Microsoft Copilot: Провал
Meta AI: Провал
Meta Code Llama: Успех
Google Gemini Advanced: Провал
ChatGPT 4: Успех
ChatGPT 3.5: Успех

3. Поиск раздражающей ошибки

Этот тест сложен, поскольку требует от ИИ найти тонкую ошибку, для чего необходимы специфические знания о WordPress. Это ошибка, которую я сам пропустил и для решения которой изначально обратился к ChatGPT.

Claude 3.5 Sonnet не только нашел и исправил ошибку, но и заметил ошибку, допущенную в процессе публикации, которую я затем исправил. Это был первый случай среди протестированных мной ИИ с момента публикации полного набора тестов.

Вот совокупные результаты:

Claude 3.5 Sonnet: Успех
ChatGPT GPT-4o: Успех
Microsoft Copilot: Провал. Зрелищно. Энтузиастично. С эмодзи.
Meta AI: Успех
Meta Code Llama: Провал
Google Gemini Advanced: Провал
ChatGPT 4: Успех
ChatGPT 3.5: Успех

На данный момент Claude 3.5 Sonnet провалил два из трех тестов. Посмотрим, как он справится с последним.

4. Написание скрипта

Этот тест проверяет знания ИИ о специализированных инструментах программирования, таких как AppleScript и Keyboard Maestro. В то время как ChatGPT показал мастерство в обоих, Claude 3.5 Sonnet справился хуже. Он написал AppleScript, который пытался взаимодействовать с Chrome, но полностью проигнорировал компонент Keyboard Maestro.

Более того, в AppleScript была синтаксическая ошибка. Пытаясь сделать соответствие нечувствительным к регистру, Claude сгенерировал строку, которая вызвала бы ошибку выполнения:

if theTab's title contains input ignoring case then

Оператор "contains" уже нечувствителен к регистру, а фраза "ignoring case" была размещена неверно, что привело к ошибке.

Вот совокупные результаты:

Claude 3.5 Sonnet: Провал
ChatGPT GPT-4o: Успех, но с оговорками
Microsoft Copilot: Провал
Meta AI: Провал
Meta Code Llama: Провал
Google Gemini Advanced: Успех
ChatGPT 4: Успех
ChatGPT 3.5: Провал

Общие результаты

Вот как Claude 3.5 Sonnet показал себя в целом по сравнению с другими ИИ:

Claude 3.5 Sonnet: 1 из 4 успешно
ChatGPT GPT-4o: 4 из 4 успешно, но с одним странным двойным ответом
Microsoft Copilot: 0 из 4 успешно
Meta AI: 1 из 4 успешно
Meta Code Llama: 1 из 4 успешно
Google Gemini Advanced: 1 из 4 успешно
ChatGPT 4: 4 из 4 успешно
ChatGPT 3.5: 3 из 4 успешно

Я был довольно разочарован Claude 3.5 Sonnet. Anthropic обещали, что он подходит для программирования, но он не оправдал ожиданий. Не то чтобы он не мог программировать; он просто не может программировать правильно. Я продолжаю надеяться найти ИИ, который превзойдет ChatGPT, особенно с учетом того, как эти модели интегрируются в среды программирования. Но пока я остаюсь с ChatGPT для помощи в программировании и рекомендую вам поступать так же.

Использовали ли вы ИИ для программирования? Какой именно и как это прошло? Поделитесь своим опытом в комментариях ниже.

Следите за обновлениями моего проекта в социальных сетях, подпишитесь на мою еженедельную рассылку и свяжитесь со мной на Twitter/X по адресу @DavidGewirtz, на Facebook по адресу Facebook.com/DavidGewirtz, на Instagram по адресу Instagram.com/DavidGewirtz и на YouTube по адресу YouTube.com/DavidGewirtzTV.

Связанная статья

Agent Pay от Mastercard улучшает поиск с помощью ИИ благодаря бесшовным транзакциям Традиционные поисковые платформы и ИИ-агенты часто требуют от пользователей переключения окон для завершения покупок после поиска продуктов или услуг.Mastercard революционизирует этот процесс, интегри

OpenAI Обязуется Исправить Ошибки После Чрезмерно Соглашательских Ответов ChatGPT OpenAI планирует пересмотреть процесс обновления модели ИИ для ChatGPT после того, как обновление вызвало чрезмерно подхалимские ответы, что вызвало широкий отклик пользователей.В прошлые выходные пос

OpenAI Представляет Продвинутые Модели Искусственного Интеллекта o3 и o4-mini OpenAI представила o3 и o4-mini в среду, новые модели ИИ, разработанные для паузы и анализа вопросов перед ответ(policy) ответом.OpenAI называет o3 своей самой сложной моделью рассуждений, превосходящ

Комментарии (10)

0/200

Представлять на рассмотрение

ScottMitchell

5 мая 2025 г., 16:17:31 GMT+03:00

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

JamesMiller

5 мая 2025 г., 11:59:50 GMT+03:00

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

StevenNelson

5 мая 2025 г., 10:23:24 GMT+03:00

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです！😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも？

JoseDavis

5 мая 2025 г., 9:46:04 GMT+03:00

Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !

HaroldLopez

5 мая 2025 г., 7:06:54 GMT+03:00

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

AveryThomas

5 мая 2025 г., 1:30:08 GMT+03:00

Claude 3.5 Sonnet居然在编程测试中表现一般？有点失望，感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈，Anthropic得加把劲了！

Лучшие новости

Gemini 2.5 Pro в настоящее время неограничен и дешевле, чем Claude, GPT-4O Топовые генераторы видео на AI в 2025: Pika Labs по сравнению с альтернативами Озвучка с помощью ИИ: Ультимативное руководство по созданию реалистичных голосов ИИ ИИ Cambium превращает отходы в пиломатериалы OpenAI улучшает AI Voice Assistant для лучших чатов Как гарантировать, что ваши данные заслуживают доверия для интеграции искусственного интеллекта NoteBooklm расширяется во всем мире, добавляет слайды и расширенную проверку фактов Настройки для дата -центров США могут разблокировать 76 ГВт новой мощности. Google использует ИИ для приостановки более 39 миллионов счетов объявлений о подозрении на мошенничество Клонирование голоса с ИИ: Полное руководство по освоению конверсии голоса

Более

Показан