вариант
Дом
Новости
Я поместил GPT -4O через свои тесты на кодирование, и это выявило их - за исключением одного странного результата

Я поместил GPT -4O через свои тесты на кодирование, и это выявило их - за исключением одного странного результата

17 апреля 2025 г.
141

Я поместил GPT -4O через свои тесты на кодирование, и это выявило их - за исключением одного странного результата

Если вы следите за миром технологий, вы, вероятно, знаете, что OpenAI только что выпустила свою новейшую большую языковую модель, GPT-4o, где "o" обозначает "omni". Эта новая модель обещает универсальность в работе с текстом, графикой и голосом, и я не мог дождаться, чтобы протестировать её с моим стандартным набором тестов по программированию. Эти тесты были проведены на множестве моделей AI, и результаты оказались весьма интересными. Оставайтесь со мной до конца, потому что вас ждёт неожиданный поворот.

Если вы хотите провести собственные эксперименты, ознакомьтесь с этим руководством: Как я тестирую способности AI-чатбота к программированию — и вы тоже можете. В нём описаны все тесты, которые я использую, вместе с подробными объяснениями их работы и того, на что следует обращать внимание в результатах.

Теперь давайте погрузимся в результаты каждого теста и посмотрим, как GPT-4o справляется по сравнению с предыдущими конкурентами, такими как Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced и более ранними версиями ChatGPT.

1. Написание плагина для WordPress

Вот краткий обзор пользовательского интерфейса GPT-4o:

Интересно, что GPT-4o позволила себе включить файл JavaScript, который динамически обновляет количество строк в обоих полях. Хотя в запросе не было явного запрета на использование JavaScript, такой творческий подход был неожиданным и эффективным. JavaScript также улучшает функциональность кнопки Randomize, позволяя получать несколько наборов результатов без полной перезагрузки страницы.

Строки были расположены правильно, а дубликаты были корректно разделены в соответствии со спецификацией. Это качественный код, с одной небольшой оговоркой: кнопка Randomize не была размещена на отдельной строке, хотя я не указывал это в запросе, так что за это баллы не снимаются.

Вот обобщённые результаты этого и предыдущих тестов:

  • ChatGPT GPT-4o: Интерфейс: хороший, функциональность: хорошая
  • Microsoft Copilot: Интерфейс: удовлетворительный, функциональность: провал
  • Meta AI: Интерфейс: удовлетворительный, функциональность: провал
  • Meta Code Llama: Полный провал
  • Google Gemini Advanced: Интерфейс: хороший, функциональность: провал
  • ChatGPT 4: Интерфейс: хороший, функциональность: хорошая
  • ChatGPT 3.5: Интерфейс: хороший, функциональность: хорошая

2. Переписывание строковой функции

Этот тест оценивает способность модели обрабатывать преобразования долларов и центов. GPT-4o успешно переписала код, чтобы отклонять входные данные, которые могли бы вызвать проблемы с последующими строками, гарантируя обработку только действительных значений долларов и центов.

Я был немного разочарован, что она не добавила автоматически ведущий ноль к значениям вроде .75, преобразовав их в 0.75. Однако, поскольку я не запрашивал эту функцию явно, это не ошибка AI. Это напоминание о том, что даже когда AI выдаёт рабочий код, может потребоваться уточнение запроса, чтобы получить именно то, что вам нужно.

Вот обобщённые результаты этого и предыдущих тестов:

  • ChatGPT GPT-4o: Успех
  • Microsoft Copilot: Провал
  • Meta AI: Провал
  • Meta Code Llama: Успех
  • Google Gemini Advanced: Провал
  • ChatGPT 4: Успех
  • ChatGPT 3.5: Успех

3. Поиск раздражающей ошибки

Этот тест интересен, потому что решение не очевидно с первого взгляда. Я сам изначально был озадачен этой ошибкой во время программирования, поэтому обратился за помощью к первой модели ChatGPT. Она нашла ошибку мгновенно, что тогда меня поразило.

В отличие от этого, три другие протестированные мной LLM не заметили отвлекающий манёвр в этой задаче. Сообщение об ошибке указывает на одну часть кода, но настоящая проблема кроется в другом месте, и для её выявления требуется глубокое знание фреймворка WordPress.

К счастью, GPT-4o правильно определила проблему и точно описала исправление.

Вот обобщённые результаты этого и предыдущих тестов:

  • ChatGPT GPT-4o: Успех
  • Microsoft Copilot: Провал. Зрелищно. Энтузиастично. С эмодзи.
  • Meta AI: Успех
  • Meta Code Llama: Провал
  • Google Gemini Advanced: Провал
  • ChatGPT 4: Успех
  • ChatGPT 3.5: Успех

Пока что GPT-4o справляется на все три. Посмотрим, как она проявит себя в последнем тесте.

4. Написание скрипта

В ответ на этот тест GPT-4o предоставила больше, чем я просил. Тест включает использование малоизвестного инструмента скриптов для Mac — Keyboard Maestro, AppleScript от Apple и поведение скриптов Chrome. Keyboard Maestro, кстати, для меня настоящая находка, делающая Mac моим основным инструментом для повышения продуктивности благодаря возможности перепрограммировать ОС и приложения.

Для прохождения теста AI должна правильно описать решение, используя комбинацию кода Keyboard Maestro, AppleScript и функциональности Chrome API.

Удивительно, но GPT-4o предоставила мне две разные версии:

Обе версии корректно взаимодействовали с Keyboard Maestro, но различались в обработке чувствительности к регистру. Левая версия была неверной, так как AppleScript не поддерживает "as lowercase". Правая версия, использующая "contains" и нечувствительная к регистру, работала отлично.

Я засчитываю GPT-4o успех, хотя и с оговорками, потому что она предоставила рабочий код. Однако возвращение двух вариантов, один из которых был неверным, заставило меня потратить дополнительное время на оценку и выбор правильного. Это могло быть так же трудоёмко, как написание кода самостоятельно.

Вот обобщённые результаты этого и предыдущих тестов:

  • ChatGPT GPT-4o: Успех, но с оговорками
  • Microsoft Copilot: Провал
  • Meta AI: Провал
  • Meta Code Llama: Провал
  • Google Gemini Advanced: Успех
  • ChatGPT 4: Успех
  • ChatGPT 3.5: Провал

Общие результаты

Вот как все модели показали себя в четырёх тестах:

  • ChatGPT GPT-4o: 4 из 4 успешны, но с одним странным двойным ответом
  • Microsoft Copilot: 0 из 4 успешны
  • Meta AI: 1 из 4 успешны
  • Meta Code Llama: 1 из 4 успешны
  • Google Gemini Advanced: 1 из 4 успешны
  • ChatGPT 4: 4 из 4 успешны
  • ChatGPT 3.5: 3 из 4 успешны

До сих пор ChatGPT был моим основным инструментом для помощи в программировании. Он всегда справлялся (кроме тех случаев, когда не справлялся). Остальные AI в основном не оправдали ожиданий в моих тестах. Но GPT-4o удивила меня своим последним двойным ответом. Это заставило меня задуматься, что происходит внутри этой модели, что могло вызвать такой сбой.

Несмотря на это, GPT-4o остаётся лучшей в моих тестах по программированию, так что я, вероятно, продолжу её использовать и лучше разберусь в её особенностях. В качестве альтернативы я могу вернуться к GPT-3.5 или GPT-4 в ChatGPT Plus. Следите за обновлениями; в следующий раз, когда ChatGPT обновит свою модель, я обязательно повторю эти тесты, чтобы проверить, сможет ли она стабильно выбирать правильный ответ во всех четырёх тестах.

Пробовали ли вы программировать с какой-либо из этих моделей AI? Каков ваш опыт? Делитесь в комментариях ниже.

Связанная статья
Теперь Meta AI отвечает на сообщения покупателей на Facebook Marketplace Теперь Meta AI отвечает на сообщения покупателей на Facebook Marketplace Facebook Marketplace внедряет новые функции Meta AI, в том числе автоматические ответы на запросы покупателей, как сообщила компания в четверг. Платформа также использует искусственный интеллект для у
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
Google представляет ноутбуки Gemini, объединившие NotebookLM с личной базой знаний Google представляет ноутбуки Gemini, объединившие NotebookLM с личной базой знаний Недавно Google запустил для Gemini функцию «Notebooks», призванную помочь пользователям управлять сложными проектами путем создания персонализированной базы знаний. Это обновление устраняет разрыв в д
Рекомендации по связанным специальным темам
Производительность Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии
Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии

Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью
Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью

Откройте для себя лучшие романтические чат-боты с искусственным интеллектом 2026 года, которые помогут вам построить искренние и долгосрочные отношения. В нашем тщательно составленном списке вы найдете чат-ботов с яркими и последовательными личностями, сравнение бесплатных и платных версий, а также результаты реальных тестов. Найдите своего идеального спутника и начните строить отношения уже сегодня на XIX.AI.

10 инструментов
xix.ai
Образование и обучение Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения
Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения

Откройте для себя 20 лучших наставников в области искусственного интеллекта и науки о данных на 2026 год, которые помогут вам овладеть SQL, Pandas и рабочими процессами машинного обучения. Изучите наш тщательно отобранный список на сайте XIX.AI – здесь вы найдете эффективные рекомендации, способные изменить ход ваших работ. Сравните бесплатные и платные варианты с примерами из реальной практики. Освоите науку о данных уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени
Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени

Откройте для себя 20 лучших тренажеров по флирту и общению с ИИ на сайте XIX.AI. Наша тщательно подобранная подборка самых популярных инструментов поможет вам развить коммуникабельность и уверенность в себе в режиме реального времени. Ознакомьтесь с незаменимыми инструментами, которые кардинально изменят вашу жизнь, — с сравнением бесплатных и платных версий и еженедельно обновляемым рейтингом. Раскройте свой коммуникативный потенциал уже сегодня.

10 инструментов
xix.ai
код Лучшие инструменты ИИ для автоматизированного тестирования модулей: создание случаев тестирования Jest, PyTest и JUnit одним кликом
Лучшие инструменты ИИ для автоматизированного тестирования модулей: создание случаев тестирования Jest, PyTest и JUnit одним кликом

Откройте для себя самые новые и высоко оцененные инструменты ИИ 2026 года для автоматизированного тестирования модулей. Наша тщательно подобранная коллекция включает мощные решения, способные радикально изменить процесс разработки, позволяющие мгновенно генерировать тестовые случаи для Jest, PyTest и JUnit. Сравните бесплатные и платные варианты с результатами реальных тестов, а также еженедельно обновляемыми рейтингами на сайте XIX.AI. Раскройте потенциал ИИ и повысьте эффективность своей работы в области разработки сегодня же.

10 инструментов
xix.ai
Анализ данных Лучшие инструменты для визуализации данных с помощью ИИ: автоматическое создание интерактивных панелей BI на основе исходных файлов
Лучшие инструменты для визуализации данных с помощью ИИ: автоматическое создание интерактивных панелей BI на основе исходных файлов

Откройте для себя лучшие инструменты визуализации данных на базе ИИ 2026 года на сайте XIX.AI. Наша тщательно отобранная подборка лидеров рейтинга поможет вам мгновенно создавать мощные интерактивные информационные панели BI на основе необработанных файлов. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемых рейтингов. Раскройте потенциал ваших данных уже сегодня.

10 инструментов
xix.ai
Комментарии (22)
0/500
RoyMartínez
RoyMartínez 1 мая 2026 г., 5:01:09 GMT+03:00

GPT-4o klingt beeindruckend, aber diese 'eine seltsame Ausnahme' macht mich neugierig. Was war das für ein seltsames Ergebnis? Vielleicht ein Hinweis darauf, dass KI bei bestimmten Logikaufgaben immer noch überraschend 'menschlich' scheitern kann? 🤔 Die Omni-Fähigkeiten sind cool, aber ich frage mich, wie stabil die Performance in allen Modi wirklich ist.

PaulYoung
PaulYoung 15 марта 2026 г., 3:00:58 GMT+03:00

Bon article ! Les tests de programmation sont toujours révélateurs. Je me demande s’il y a des biais selon les langages utilisés pour l'entraînement… Ou peut-être que c’est lié à la façon dont la requête est formulée ? 🤔

JonathanAllen
JonathanAllen 26 апреля 2025 г., 14:46:22 GMT+03:00

GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔

WillHarris
WillHarris 25 апреля 2025 г., 21:21:39 GMT+03:00

GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔

DonaldGonzález
DonaldGonzález 24 апреля 2025 г., 14:41:59 GMT+03:00

GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔

JustinAnderson
JustinAnderson 23 апреля 2025 г., 8:12:28 GMT+03:00

¡El GPT-4o me impresionó con sus habilidades de codificación! Pasó todos mis tests excepto por un resultado extraño que me dejó pensando. Su versatilidad en texto, gráficos y voz es genial! Pero ese fallo, hay que arreglarlo, OpenAI! 😎

OR