Дом

Новости

Я поместил GPT -4O через свои тесты на кодирование, и это выявило их - за исключением одного странного результата

Я поместил GPT -4O через свои тесты на кодирование, и это выявило их - за исключением одного странного результата

17 апреля 2025 г.

TimothyGonzález

141

Если вы следите за миром технологий, вы, вероятно, знаете, что OpenAI только что выпустила свою новейшую большую языковую модель, GPT-4o, где "o" обозначает "omni". Эта новая модель обещает универсальность в работе с текстом, графикой и голосом, и я не мог дождаться, чтобы протестировать её с моим стандартным набором тестов по программированию. Эти тесты были проведены на множестве моделей AI, и результаты оказались весьма интересными. Оставайтесь со мной до конца, потому что вас ждёт неожиданный поворот.

Если вы хотите провести собственные эксперименты, ознакомьтесь с этим руководством: Как я тестирую способности AI-чатбота к программированию — и вы тоже можете. В нём описаны все тесты, которые я использую, вместе с подробными объяснениями их работы и того, на что следует обращать внимание в результатах.

Теперь давайте погрузимся в результаты каждого теста и посмотрим, как GPT-4o справляется по сравнению с предыдущими конкурентами, такими как Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced и более ранними версиями ChatGPT.

1. Написание плагина для WordPress

Вот краткий обзор пользовательского интерфейса GPT-4o:

Интересно, что GPT-4o позволила себе включить файл JavaScript, который динамически обновляет количество строк в обоих полях. Хотя в запросе не было явного запрета на использование JavaScript, такой творческий подход был неожиданным и эффективным. JavaScript также улучшает функциональность кнопки Randomize, позволяя получать несколько наборов результатов без полной перезагрузки страницы.

Строки были расположены правильно, а дубликаты были корректно разделены в соответствии со спецификацией. Это качественный код, с одной небольшой оговоркой: кнопка Randomize не была размещена на отдельной строке, хотя я не указывал это в запросе, так что за это баллы не снимаются.

Вот обобщённые результаты этого и предыдущих тестов:

ChatGPT GPT-4o: Интерфейс: хороший, функциональность: хорошая
Microsoft Copilot: Интерфейс: удовлетворительный, функциональность: провал
Meta AI: Интерфейс: удовлетворительный, функциональность: провал
Meta Code Llama: Полный провал
Google Gemini Advanced: Интерфейс: хороший, функциональность: провал
ChatGPT 4: Интерфейс: хороший, функциональность: хорошая
ChatGPT 3.5: Интерфейс: хороший, функциональность: хорошая

2. Переписывание строковой функции

Этот тест оценивает способность модели обрабатывать преобразования долларов и центов. GPT-4o успешно переписала код, чтобы отклонять входные данные, которые могли бы вызвать проблемы с последующими строками, гарантируя обработку только действительных значений долларов и центов.

Я был немного разочарован, что она не добавила автоматически ведущий ноль к значениям вроде .75, преобразовав их в 0.75. Однако, поскольку я не запрашивал эту функцию явно, это не ошибка AI. Это напоминание о том, что даже когда AI выдаёт рабочий код, может потребоваться уточнение запроса, чтобы получить именно то, что вам нужно.

Вот обобщённые результаты этого и предыдущих тестов:

ChatGPT GPT-4o: Успех
Microsoft Copilot: Провал
Meta AI: Провал
Meta Code Llama: Успех
Google Gemini Advanced: Провал
ChatGPT 4: Успех
ChatGPT 3.5: Успех

3. Поиск раздражающей ошибки

Этот тест интересен, потому что решение не очевидно с первого взгляда. Я сам изначально был озадачен этой ошибкой во время программирования, поэтому обратился за помощью к первой модели ChatGPT. Она нашла ошибку мгновенно, что тогда меня поразило.

В отличие от этого, три другие протестированные мной LLM не заметили отвлекающий манёвр в этой задаче. Сообщение об ошибке указывает на одну часть кода, но настоящая проблема кроется в другом месте, и для её выявления требуется глубокое знание фреймворка WordPress.

К счастью, GPT-4o правильно определила проблему и точно описала исправление.

Вот обобщённые результаты этого и предыдущих тестов:

ChatGPT GPT-4o: Успех
Microsoft Copilot: Провал. Зрелищно. Энтузиастично. С эмодзи.
Meta AI: Успех
Meta Code Llama: Провал
Google Gemini Advanced: Провал
ChatGPT 4: Успех
ChatGPT 3.5: Успех

Пока что GPT-4o справляется на все три. Посмотрим, как она проявит себя в последнем тесте.

4. Написание скрипта

В ответ на этот тест GPT-4o предоставила больше, чем я просил. Тест включает использование малоизвестного инструмента скриптов для Mac — Keyboard Maestro, AppleScript от Apple и поведение скриптов Chrome. Keyboard Maestro, кстати, для меня настоящая находка, делающая Mac моим основным инструментом для повышения продуктивности благодаря возможности перепрограммировать ОС и приложения.

Для прохождения теста AI должна правильно описать решение, используя комбинацию кода Keyboard Maestro, AppleScript и функциональности Chrome API.

Удивительно, но GPT-4o предоставила мне две разные версии:

Обе версии корректно взаимодействовали с Keyboard Maestro, но различались в обработке чувствительности к регистру. Левая версия была неверной, так как AppleScript не поддерживает "as lowercase". Правая версия, использующая "contains" и нечувствительная к регистру, работала отлично.

Я засчитываю GPT-4o успех, хотя и с оговорками, потому что она предоставила рабочий код. Однако возвращение двух вариантов, один из которых был неверным, заставило меня потратить дополнительное время на оценку и выбор правильного. Это могло быть так же трудоёмко, как написание кода самостоятельно.

Вот обобщённые результаты этого и предыдущих тестов:

ChatGPT GPT-4o: Успех, но с оговорками
Microsoft Copilot: Провал
Meta AI: Провал
Meta Code Llama: Провал
Google Gemini Advanced: Успех
ChatGPT 4: Успех
ChatGPT 3.5: Провал

Общие результаты

Вот как все модели показали себя в четырёх тестах:

ChatGPT GPT-4o: 4 из 4 успешны, но с одним странным двойным ответом
Microsoft Copilot: 0 из 4 успешны
Meta AI: 1 из 4 успешны
Meta Code Llama: 1 из 4 успешны
Google Gemini Advanced: 1 из 4 успешны
ChatGPT 4: 4 из 4 успешны
ChatGPT 3.5: 3 из 4 успешны

До сих пор ChatGPT был моим основным инструментом для помощи в программировании. Он всегда справлялся (кроме тех случаев, когда не справлялся). Остальные AI в основном не оправдали ожиданий в моих тестах. Но GPT-4o удивила меня своим последним двойным ответом. Это заставило меня задуматься, что происходит внутри этой модели, что могло вызвать такой сбой.

Несмотря на это, GPT-4o остаётся лучшей в моих тестах по программированию, так что я, вероятно, продолжу её использовать и лучше разберусь в её особенностях. В качестве альтернативы я могу вернуться к GPT-3.5 или GPT-4 в ChatGPT Plus. Следите за обновлениями; в следующий раз, когда ChatGPT обновит свою модель, я обязательно повторю эти тесты, чтобы проверить, сможет ли она стабильно выбирать правильный ответ во всех четырёх тестах.

Пробовали ли вы программировать с какой-либо из этих моделей AI? Каков ваш опыт? Делитесь в комментариях ниже.

Связанная статья

Экспериментальный ИИ Claude от компании Anthropic успешно завершил переговоры и сделки в ходе тестирования в сфере электронной коммерции На фоне стремительного развития искусственного интеллекта компания Anthropic в минувшую пятницу незаметно запустила внутренний эксперимент под названием «Project Deal», продемонстрировав потенциал ИИ

DeepSeek Code готовится к запуску На фоне стремительного развития технологий искусственного интеллекта компания DeepSeek находится на захватывающем этапе своего развития. Недавно эта компания, специализирующаяся на ИИ, объявила о прив

Grok от Маска: 1,5 триллиона параметров и поглощение кода курсора — прорыв или блеф? Илон Маск наконец-то делает ход.В гонке по программированию ИИ компании OpenAI и Anthropic набирают обороты, в то время как xAI, похоже, отстает. Маск не раз заявлял о своем намерении составить конкур

Рекомендации по связанным специальным темам

Бизнес

Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами

Откройте для себя 20 лучших инструментов для рекрутинга на базе ИИ 2026 года на сайте XIX.AI. В нашем тщательно составленном списке представлены мощные, революционные решения для отбора резюме и автоматизации планирования собеседований с кандидатами. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемого рейтинга. Найдите своего идеального помощника по подбору персонала и оптимизируйте процесс рекрутинга уже сегодня!

10 инструментов

xix.ai

Производительность

Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии

Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.

10 инструментов

xix.ai

чат-бот

Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью

Откройте для себя лучшие романтические чат-боты с искусственным интеллектом 2026 года, которые помогут вам построить искренние и долгосрочные отношения. В нашем тщательно составленном списке вы найдете чат-ботов с яркими и последовательными личностями, сравнение бесплатных и платных версий, а также результаты реальных тестов. Найдите своего идеального спутника и начните строить отношения уже сегодня на XIX.AI.

10 инструментов

xix.ai

Образование и обучение

Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения

Откройте для себя 20 лучших наставников в области искусственного интеллекта и науки о данных на 2026 год, которые помогут вам овладеть SQL, Pandas и рабочими процессами машинного обучения. Изучите наш тщательно отобранный список на сайте XIX.AI – здесь вы найдете эффективные рекомендации, способные изменить ход ваших работ. Сравните бесплатные и платные варианты с примерами из реальной практики. Освоите науку о данных уже сегодня.

10 инструментов

xix.ai

чат-бот

Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени

Откройте для себя 20 лучших тренажеров по флирту и общению с ИИ на сайте XIX.AI. Наша тщательно подобранная подборка самых популярных инструментов поможет вам развить коммуникабельность и уверенность в себе в режиме реального времени. Ознакомьтесь с незаменимыми инструментами, которые кардинально изменят вашу жизнь, — с сравнением бесплатных и платных версий и еженедельно обновляемым рейтингом. Раскройте свой коммуникативный потенциал уже сегодня.

10 инструментов

xix.ai

код

Лучшие инструменты ИИ для автоматизированного тестирования модулей: создание случаев тестирования Jest, PyTest и JUnit одним кликом

Откройте для себя самые новые и высоко оцененные инструменты ИИ 2026 года для автоматизированного тестирования модулей. Наша тщательно подобранная коллекция включает мощные решения, способные радикально изменить процесс разработки, позволяющие мгновенно генерировать тестовые случаи для Jest, PyTest и JUnit. Сравните бесплатные и платные варианты с результатами реальных тестов, а также еженедельно обновляемыми рейтингами на сайте XIX.AI. Раскройте потенциал ИИ и повысьте эффективность своей работы в области разработки сегодня же.

10 инструментов

xix.ai

Комментарии (22)

0/500

Пожалуйста, войдите в систему

RoyMartínez

1 мая 2026 г., 5:01:09 GMT+03:00

GPT-4o klingt beeindruckend, aber diese 'eine seltsame Ausnahme' macht mich neugierig. Was war das für ein seltsames Ergebnis? Vielleicht ein Hinweis darauf, dass KI bei bestimmten Logikaufgaben immer noch überraschend 'menschlich' scheitern kann? 🤔 Die Omni-Fähigkeiten sind cool, aber ich frage mich, wie stabil die Performance in allen Modi wirklich ist.

PaulYoung

15 марта 2026 г., 3:00:58 GMT+03:00

Bon article ! Les tests de programmation sont toujours révélateurs. Je me demande s’il y a des biais selon les langages utilisés pour l'entraînement… Ou peut-être que c’est lié à la façon dont la requête est formulée ? 🤔

JonathanAllen

26 апреля 2025 г., 14:46:22 GMT+03:00

GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔

WillHarris

25 апреля 2025 г., 21:21:39 GMT+03:00

GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔

DonaldGonzález

24 апреля 2025 г., 14:41:59 GMT+03:00

GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました！しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに！🤔

JustinAnderson

23 апреля 2025 г., 8:12:28 GMT+03:00

¡El GPT-4o me impresionó con sus habilidades de codificación! Pasó todos mis tests excepto por un resultado extraño que me dejó pensando. Su versatilidad en texto, gráficos y voz es genial! Pero ese fallo, hay que arreglarlo, OpenAI! 😎

Лучшие новости

AI Builder и Power Automate Революционизируют Суммирование Документов AI Hosts of Notebooklm подкаста теперь доступны для интервью Китай представляет национальный гуманоидный робот и стандарты воплощенного интеллекта По данным Ramp, корпоративное внедрение ИИ находится на плаву Руководство по создателю изображений Bing: Гайд по генерации искусством ИИ Научитесь создавать музыку ИИ, используя свой голос: пошаговый учебник SUNO iMyFone MagicMic: Обзор и руководство по реальном времени AI изменению голоса Топовые генераторы видео на AI в 2025: Pika Labs по сравнению с альтернативами DeepSeek V4 становится мультимодальным искусственным интеллектом, меняющим правила игры Компания Embodied Intelligence представляет первый отраслевой стандарт, призванный сдержать неконтролируемый рост

Более

Показан