Я поместил GPT -4O через свои тесты на кодирование, и это выявило их - за исключением одного странного результата

Если вы следите за миром технологий, вы, вероятно, знаете, что OpenAI только что выпустила свою новейшую большую языковую модель, GPT-4o, где "o" обозначает "omni". Эта новая модель обещает универсальность в работе с текстом, графикой и голосом, и я не мог дождаться, чтобы протестировать её с моим стандартным набором тестов по программированию. Эти тесты были проведены на множестве моделей AI, и результаты оказались весьма интересными. Оставайтесь со мной до конца, потому что вас ждёт неожиданный поворот.
Если вы хотите провести собственные эксперименты, ознакомьтесь с этим руководством: Как я тестирую способности AI-чатбота к программированию — и вы тоже можете. В нём описаны все тесты, которые я использую, вместе с подробными объяснениями их работы и того, на что следует обращать внимание в результатах.
Теперь давайте погрузимся в результаты каждого теста и посмотрим, как GPT-4o справляется по сравнению с предыдущими конкурентами, такими как Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced и более ранними версиями ChatGPT.
1. Написание плагина для WordPress
Вот краткий обзор пользовательского интерфейса GPT-4o:
Интересно, что GPT-4o позволила себе включить файл JavaScript, который динамически обновляет количество строк в обоих полях. Хотя в запросе не было явного запрета на использование JavaScript, такой творческий подход был неожиданным и эффективным. JavaScript также улучшает функциональность кнопки Randomize, позволяя получать несколько наборов результатов без полной перезагрузки страницы.
Строки были расположены правильно, а дубликаты были корректно разделены в соответствии со спецификацией. Это качественный код, с одной небольшой оговоркой: кнопка Randomize не была размещена на отдельной строке, хотя я не указывал это в запросе, так что за это баллы не снимаются.
Вот обобщённые результаты этого и предыдущих тестов:
- ChatGPT GPT-4o: Интерфейс: хороший, функциональность: хорошая
- Microsoft Copilot: Интерфейс: удовлетворительный, функциональность: провал
- Meta AI: Интерфейс: удовлетворительный, функциональность: провал
- Meta Code Llama: Полный провал
- Google Gemini Advanced: Интерфейс: хороший, функциональность: провал
- ChatGPT 4: Интерфейс: хороший, функциональность: хорошая
- ChatGPT 3.5: Интерфейс: хороший, функциональность: хорошая
2. Переписывание строковой функции
Этот тест оценивает способность модели обрабатывать преобразования долларов и центов. GPT-4o успешно переписала код, чтобы отклонять входные данные, которые могли бы вызвать проблемы с последующими строками, гарантируя обработку только действительных значений долларов и центов.
Я был немного разочарован, что она не добавила автоматически ведущий ноль к значениям вроде .75, преобразовав их в 0.75. Однако, поскольку я не запрашивал эту функцию явно, это не ошибка AI. Это напоминание о том, что даже когда AI выдаёт рабочий код, может потребоваться уточнение запроса, чтобы получить именно то, что вам нужно.
Вот обобщённые результаты этого и предыдущих тестов:
- ChatGPT GPT-4o: Успех
- Microsoft Copilot: Провал
- Meta AI: Провал
- Meta Code Llama: Успех
- Google Gemini Advanced: Провал
- ChatGPT 4: Успех
- ChatGPT 3.5: Успех
3. Поиск раздражающей ошибки
Этот тест интересен, потому что решение не очевидно с первого взгляда. Я сам изначально был озадачен этой ошибкой во время программирования, поэтому обратился за помощью к первой модели ChatGPT. Она нашла ошибку мгновенно, что тогда меня поразило.
В отличие от этого, три другие протестированные мной LLM не заметили отвлекающий манёвр в этой задаче. Сообщение об ошибке указывает на одну часть кода, но настоящая проблема кроется в другом месте, и для её выявления требуется глубокое знание фреймворка WordPress.
К счастью, GPT-4o правильно определила проблему и точно описала исправление.
Вот обобщённые результаты этого и предыдущих тестов:
- ChatGPT GPT-4o: Успех
- Microsoft Copilot: Провал. Зрелищно. Энтузиастично. С эмодзи.
- Meta AI: Успех
- Meta Code Llama: Провал
- Google Gemini Advanced: Провал
- ChatGPT 4: Успех
- ChatGPT 3.5: Успех
Пока что GPT-4o справляется на все три. Посмотрим, как она проявит себя в последнем тесте.
4. Написание скрипта
В ответ на этот тест GPT-4o предоставила больше, чем я просил. Тест включает использование малоизвестного инструмента скриптов для Mac — Keyboard Maestro, AppleScript от Apple и поведение скриптов Chrome. Keyboard Maestro, кстати, для меня настоящая находка, делающая Mac моим основным инструментом для повышения продуктивности благодаря возможности перепрограммировать ОС и приложения.
Для прохождения теста AI должна правильно описать решение, используя комбинацию кода Keyboard Maestro, AppleScript и функциональности Chrome API.
Удивительно, но GPT-4o предоставила мне две разные версии:
Обе версии корректно взаимодействовали с Keyboard Maestro, но различались в обработке чувствительности к регистру. Левая версия была неверной, так как AppleScript не поддерживает "as lowercase". Правая версия, использующая "contains" и нечувствительная к регистру, работала отлично.
Я засчитываю GPT-4o успех, хотя и с оговорками, потому что она предоставила рабочий код. Однако возвращение двух вариантов, один из которых был неверным, заставило меня потратить дополнительное время на оценку и выбор правильного. Это могло быть так же трудоёмко, как написание кода самостоятельно.
Вот обобщённые результаты этого и предыдущих тестов:
- ChatGPT GPT-4o: Успех, но с оговорками
- Microsoft Copilot: Провал
- Meta AI: Провал
- Meta Code Llama: Провал
- Google Gemini Advanced: Успех
- ChatGPT 4: Успех
- ChatGPT 3.5: Провал
Общие результаты
Вот как все модели показали себя в четырёх тестах:
- ChatGPT GPT-4o: 4 из 4 успешны, но с одним странным двойным ответом
- Microsoft Copilot: 0 из 4 успешны
- Meta AI: 1 из 4 успешны
- Meta Code Llama: 1 из 4 успешны
- Google Gemini Advanced: 1 из 4 успешны
- ChatGPT 4: 4 из 4 успешны
- ChatGPT 3.5: 3 из 4 успешны
До сих пор ChatGPT был моим основным инструментом для помощи в программировании. Он всегда справлялся (кроме тех случаев, когда не справлялся). Остальные AI в основном не оправдали ожиданий в моих тестах. Но GPT-4o удивила меня своим последним двойным ответом. Это заставило меня задуматься, что происходит внутри этой модели, что могло вызвать такой сбой.
Несмотря на это, GPT-4o остаётся лучшей в моих тестах по программированию, так что я, вероятно, продолжу её использовать и лучше разберусь в её особенностях. В качестве альтернативы я могу вернуться к GPT-3.5 или GPT-4 в ChatGPT Plus. Следите за обновлениями; в следующий раз, когда ChatGPT обновит свою модель, я обязательно повторю эти тесты, чтобы проверить, сможет ли она стабильно выбирать правильный ответ во всех четырёх тестах.
Пробовали ли вы программировать с какой-либо из этих моделей AI? Каков ваш опыт? Делитесь в комментариях ниже.
Связанная статья
Проект «Звездные врата» Трампа на $500 млрд для лидерства в глобальных инновациях ИИ
В эпоху стремительного технологического прогресса гонка за доминирование в области искусственного интеллекта (ИИ) стала критически важным геополитическим и экономическим вызовом. Соединенные Штаты под
AI музыкальные каверы: Полное руководство по созданию уникальных песен
Искусственный интеллект (ИИ) произвел революцию в музыкальном производстве, внедряя инновационные способы переосмысления песен. ИИ-каверы песен позволяют пользователям создавать отличительные версии п
Топ-10 инструментов для улучшения опыта разработчиков в 2025 году
Опыт разработчиков (DevEx) — это больше, чем просто терминология. По мере усложнения технологических стеков, стандартизации удалённых команд и ускорения непрерывной доставки разработчики сталкиваются
Комментарии (20)
JonathanAllen
26 апреля 2025 г., 14:46:22 GMT+03:00
GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔
0
WillHarris
25 апреля 2025 г., 21:21:39 GMT+03:00
GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔
0
DonaldGonzález
24 апреля 2025 г., 14:41:59 GMT+03:00
GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔
0
JustinAnderson
23 апреля 2025 г., 8:12:28 GMT+03:00
¡El GPT-4o me impresionó con sus habilidades de codificación! Pasó todos mis tests excepto por un resultado extraño que me dejó pensando. Su versatilidad en texto, gráficos y voz es genial! Pero ese fallo, hay que arreglarlo, OpenAI! 😎
0
NicholasClark
23 апреля 2025 г., 5:12:49 GMT+03:00
GPT-4oのコードスキルには感心しました!私のテストをほぼ全てクリアしましたが、一つの奇妙な結果が気になります。テキスト、グラフィック、ボイスでの多才さは素晴らしい!でも、その一つのバグ、修正してほしいですね、OpenAI!😅
0
DavidThomas
22 апреля 2025 г., 20:04:24 GMT+03:00
GPT-4o is impressive, acing most of my coding tests! But that one weird result threw me off. Still, it's versatile across text, graphics, and voice. If only it could explain that odd outcome, it'd be perfect! 🤔
0
Если вы следите за миром технологий, вы, вероятно, знаете, что OpenAI только что выпустила свою новейшую большую языковую модель, GPT-4o, где "o" обозначает "omni". Эта новая модель обещает универсальность в работе с текстом, графикой и голосом, и я не мог дождаться, чтобы протестировать её с моим стандартным набором тестов по программированию. Эти тесты были проведены на множестве моделей AI, и результаты оказались весьма интересными. Оставайтесь со мной до конца, потому что вас ждёт неожиданный поворот.
Если вы хотите провести собственные эксперименты, ознакомьтесь с этим руководством: Как я тестирую способности AI-чатбота к программированию — и вы тоже можете. В нём описаны все тесты, которые я использую, вместе с подробными объяснениями их работы и того, на что следует обращать внимание в результатах.
Теперь давайте погрузимся в результаты каждого теста и посмотрим, как GPT-4o справляется по сравнению с предыдущими конкурентами, такими как Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced и более ранними версиями ChatGPT.
1. Написание плагина для WordPress
Вот краткий обзор пользовательского интерфейса GPT-4o:
Интересно, что GPT-4o позволила себе включить файл JavaScript, который динамически обновляет количество строк в обоих полях. Хотя в запросе не было явного запрета на использование JavaScript, такой творческий подход был неожиданным и эффективным. JavaScript также улучшает функциональность кнопки Randomize, позволяя получать несколько наборов результатов без полной перезагрузки страницы.
Строки были расположены правильно, а дубликаты были корректно разделены в соответствии со спецификацией. Это качественный код, с одной небольшой оговоркой: кнопка Randomize не была размещена на отдельной строке, хотя я не указывал это в запросе, так что за это баллы не снимаются.
Вот обобщённые результаты этого и предыдущих тестов:
- ChatGPT GPT-4o: Интерфейс: хороший, функциональность: хорошая
- Microsoft Copilot: Интерфейс: удовлетворительный, функциональность: провал
- Meta AI: Интерфейс: удовлетворительный, функциональность: провал
- Meta Code Llama: Полный провал
- Google Gemini Advanced: Интерфейс: хороший, функциональность: провал
- ChatGPT 4: Интерфейс: хороший, функциональность: хорошая
- ChatGPT 3.5: Интерфейс: хороший, функциональность: хорошая
2. Переписывание строковой функции
Этот тест оценивает способность модели обрабатывать преобразования долларов и центов. GPT-4o успешно переписала код, чтобы отклонять входные данные, которые могли бы вызвать проблемы с последующими строками, гарантируя обработку только действительных значений долларов и центов.
Я был немного разочарован, что она не добавила автоматически ведущий ноль к значениям вроде .75, преобразовав их в 0.75. Однако, поскольку я не запрашивал эту функцию явно, это не ошибка AI. Это напоминание о том, что даже когда AI выдаёт рабочий код, может потребоваться уточнение запроса, чтобы получить именно то, что вам нужно.
Вот обобщённые результаты этого и предыдущих тестов:
- ChatGPT GPT-4o: Успех
- Microsoft Copilot: Провал
- Meta AI: Провал
- Meta Code Llama: Успех
- Google Gemini Advanced: Провал
- ChatGPT 4: Успех
- ChatGPT 3.5: Успех
3. Поиск раздражающей ошибки
Этот тест интересен, потому что решение не очевидно с первого взгляда. Я сам изначально был озадачен этой ошибкой во время программирования, поэтому обратился за помощью к первой модели ChatGPT. Она нашла ошибку мгновенно, что тогда меня поразило.
В отличие от этого, три другие протестированные мной LLM не заметили отвлекающий манёвр в этой задаче. Сообщение об ошибке указывает на одну часть кода, но настоящая проблема кроется в другом месте, и для её выявления требуется глубокое знание фреймворка WordPress.
К счастью, GPT-4o правильно определила проблему и точно описала исправление.
Вот обобщённые результаты этого и предыдущих тестов:
- ChatGPT GPT-4o: Успех
- Microsoft Copilot: Провал. Зрелищно. Энтузиастично. С эмодзи.
- Meta AI: Успех
- Meta Code Llama: Провал
- Google Gemini Advanced: Провал
- ChatGPT 4: Успех
- ChatGPT 3.5: Успех
Пока что GPT-4o справляется на все три. Посмотрим, как она проявит себя в последнем тесте.
4. Написание скрипта
В ответ на этот тест GPT-4o предоставила больше, чем я просил. Тест включает использование малоизвестного инструмента скриптов для Mac — Keyboard Maestro, AppleScript от Apple и поведение скриптов Chrome. Keyboard Maestro, кстати, для меня настоящая находка, делающая Mac моим основным инструментом для повышения продуктивности благодаря возможности перепрограммировать ОС и приложения.
Для прохождения теста AI должна правильно описать решение, используя комбинацию кода Keyboard Maestro, AppleScript и функциональности Chrome API.
Удивительно, но GPT-4o предоставила мне две разные версии:
Обе версии корректно взаимодействовали с Keyboard Maestro, но различались в обработке чувствительности к регистру. Левая версия была неверной, так как AppleScript не поддерживает "as lowercase". Правая версия, использующая "contains" и нечувствительная к регистру, работала отлично.
Я засчитываю GPT-4o успех, хотя и с оговорками, потому что она предоставила рабочий код. Однако возвращение двух вариантов, один из которых был неверным, заставило меня потратить дополнительное время на оценку и выбор правильного. Это могло быть так же трудоёмко, как написание кода самостоятельно.
Вот обобщённые результаты этого и предыдущих тестов:
- ChatGPT GPT-4o: Успех, но с оговорками
- Microsoft Copilot: Провал
- Meta AI: Провал
- Meta Code Llama: Провал
- Google Gemini Advanced: Успех
- ChatGPT 4: Успех
- ChatGPT 3.5: Провал
Общие результаты
Вот как все модели показали себя в четырёх тестах:
- ChatGPT GPT-4o: 4 из 4 успешны, но с одним странным двойным ответом
- Microsoft Copilot: 0 из 4 успешны
- Meta AI: 1 из 4 успешны
- Meta Code Llama: 1 из 4 успешны
- Google Gemini Advanced: 1 из 4 успешны
- ChatGPT 4: 4 из 4 успешны
- ChatGPT 3.5: 3 из 4 успешны
До сих пор ChatGPT был моим основным инструментом для помощи в программировании. Он всегда справлялся (кроме тех случаев, когда не справлялся). Остальные AI в основном не оправдали ожиданий в моих тестах. Но GPT-4o удивила меня своим последним двойным ответом. Это заставило меня задуматься, что происходит внутри этой модели, что могло вызвать такой сбой.
Несмотря на это, GPT-4o остаётся лучшей в моих тестах по программированию, так что я, вероятно, продолжу её использовать и лучше разберусь в её особенностях. В качестве альтернативы я могу вернуться к GPT-3.5 или GPT-4 в ChatGPT Plus. Следите за обновлениями; в следующий раз, когда ChatGPT обновит свою модель, я обязательно повторю эти тесты, чтобы проверить, сможет ли она стабильно выбирать правильный ответ во всех четырёх тестах.
Пробовали ли вы программировать с какой-либо из этих моделей AI? Каков ваш опыт? Делитесь в комментариях ниже.



GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔




GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔




GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔




¡El GPT-4o me impresionó con sus habilidades de codificación! Pasó todos mis tests excepto por un resultado extraño que me dejó pensando. Su versatilidad en texto, gráficos y voz es genial! Pero ese fallo, hay que arreglarlo, OpenAI! 😎




GPT-4oのコードスキルには感心しました!私のテストをほぼ全てクリアしましたが、一つの奇妙な結果が気になります。テキスト、グラフィック、ボイスでの多才さは素晴らしい!でも、その一つのバグ、修正してほしいですね、OpenAI!😅




GPT-4o is impressive, acing most of my coding tests! But that one weird result threw me off. Still, it's versatile across text, graphics, and voice. If only it could explain that odd outcome, it'd be perfect! 🤔












