Дом
Я поместил GPT -4O через свои тесты на кодирование, и это выявило их - за исключением одного странного результата

Если вы следите за миром технологий, вы, вероятно, знаете, что OpenAI только что выпустила свою новейшую большую языковую модель, GPT-4o, где "o" обозначает "omni". Эта новая модель обещает универсальность в работе с текстом, графикой и голосом, и я не мог дождаться, чтобы протестировать её с моим стандартным набором тестов по программированию. Эти тесты были проведены на множестве моделей AI, и результаты оказались весьма интересными. Оставайтесь со мной до конца, потому что вас ждёт неожиданный поворот.
Если вы хотите провести собственные эксперименты, ознакомьтесь с этим руководством: Как я тестирую способности AI-чатбота к программированию — и вы тоже можете. В нём описаны все тесты, которые я использую, вместе с подробными объяснениями их работы и того, на что следует обращать внимание в результатах.
Теперь давайте погрузимся в результаты каждого теста и посмотрим, как GPT-4o справляется по сравнению с предыдущими конкурентами, такими как Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced и более ранними версиями ChatGPT.
1. Написание плагина для WordPress
Вот краткий обзор пользовательского интерфейса GPT-4o:
Интересно, что GPT-4o позволила себе включить файл JavaScript, который динамически обновляет количество строк в обоих полях. Хотя в запросе не было явного запрета на использование JavaScript, такой творческий подход был неожиданным и эффективным. JavaScript также улучшает функциональность кнопки Randomize, позволяя получать несколько наборов результатов без полной перезагрузки страницы.
Строки были расположены правильно, а дубликаты были корректно разделены в соответствии со спецификацией. Это качественный код, с одной небольшой оговоркой: кнопка Randomize не была размещена на отдельной строке, хотя я не указывал это в запросе, так что за это баллы не снимаются.
Вот обобщённые результаты этого и предыдущих тестов:
- ChatGPT GPT-4o: Интерфейс: хороший, функциональность: хорошая
- Microsoft Copilot: Интерфейс: удовлетворительный, функциональность: провал
- Meta AI: Интерфейс: удовлетворительный, функциональность: провал
- Meta Code Llama: Полный провал
- Google Gemini Advanced: Интерфейс: хороший, функциональность: провал
- ChatGPT 4: Интерфейс: хороший, функциональность: хорошая
- ChatGPT 3.5: Интерфейс: хороший, функциональность: хорошая
2. Переписывание строковой функции
Этот тест оценивает способность модели обрабатывать преобразования долларов и центов. GPT-4o успешно переписала код, чтобы отклонять входные данные, которые могли бы вызвать проблемы с последующими строками, гарантируя обработку только действительных значений долларов и центов.
Я был немного разочарован, что она не добавила автоматически ведущий ноль к значениям вроде .75, преобразовав их в 0.75. Однако, поскольку я не запрашивал эту функцию явно, это не ошибка AI. Это напоминание о том, что даже когда AI выдаёт рабочий код, может потребоваться уточнение запроса, чтобы получить именно то, что вам нужно.
Вот обобщённые результаты этого и предыдущих тестов:
- ChatGPT GPT-4o: Успех
- Microsoft Copilot: Провал
- Meta AI: Провал
- Meta Code Llama: Успех
- Google Gemini Advanced: Провал
- ChatGPT 4: Успех
- ChatGPT 3.5: Успех
3. Поиск раздражающей ошибки
Этот тест интересен, потому что решение не очевидно с первого взгляда. Я сам изначально был озадачен этой ошибкой во время программирования, поэтому обратился за помощью к первой модели ChatGPT. Она нашла ошибку мгновенно, что тогда меня поразило.
В отличие от этого, три другие протестированные мной LLM не заметили отвлекающий манёвр в этой задаче. Сообщение об ошибке указывает на одну часть кода, но настоящая проблема кроется в другом месте, и для её выявления требуется глубокое знание фреймворка WordPress.
К счастью, GPT-4o правильно определила проблему и точно описала исправление.
Вот обобщённые результаты этого и предыдущих тестов:
- ChatGPT GPT-4o: Успех
- Microsoft Copilot: Провал. Зрелищно. Энтузиастично. С эмодзи.
- Meta AI: Успех
- Meta Code Llama: Провал
- Google Gemini Advanced: Провал
- ChatGPT 4: Успех
- ChatGPT 3.5: Успех
Пока что GPT-4o справляется на все три. Посмотрим, как она проявит себя в последнем тесте.
4. Написание скрипта
В ответ на этот тест GPT-4o предоставила больше, чем я просил. Тест включает использование малоизвестного инструмента скриптов для Mac — Keyboard Maestro, AppleScript от Apple и поведение скриптов Chrome. Keyboard Maestro, кстати, для меня настоящая находка, делающая Mac моим основным инструментом для повышения продуктивности благодаря возможности перепрограммировать ОС и приложения.
Для прохождения теста AI должна правильно описать решение, используя комбинацию кода Keyboard Maestro, AppleScript и функциональности Chrome API.
Удивительно, но GPT-4o предоставила мне две разные версии:
Обе версии корректно взаимодействовали с Keyboard Maestro, но различались в обработке чувствительности к регистру. Левая версия была неверной, так как AppleScript не поддерживает "as lowercase". Правая версия, использующая "contains" и нечувствительная к регистру, работала отлично.
Я засчитываю GPT-4o успех, хотя и с оговорками, потому что она предоставила рабочий код. Однако возвращение двух вариантов, один из которых был неверным, заставило меня потратить дополнительное время на оценку и выбор правильного. Это могло быть так же трудоёмко, как написание кода самостоятельно.
Вот обобщённые результаты этого и предыдущих тестов:
- ChatGPT GPT-4o: Успех, но с оговорками
- Microsoft Copilot: Провал
- Meta AI: Провал
- Meta Code Llama: Провал
- Google Gemini Advanced: Успех
- ChatGPT 4: Успех
- ChatGPT 3.5: Провал
Общие результаты
Вот как все модели показали себя в четырёх тестах:
- ChatGPT GPT-4o: 4 из 4 успешны, но с одним странным двойным ответом
- Microsoft Copilot: 0 из 4 успешны
- Meta AI: 1 из 4 успешны
- Meta Code Llama: 1 из 4 успешны
- Google Gemini Advanced: 1 из 4 успешны
- ChatGPT 4: 4 из 4 успешны
- ChatGPT 3.5: 3 из 4 успешны
До сих пор ChatGPT был моим основным инструментом для помощи в программировании. Он всегда справлялся (кроме тех случаев, когда не справлялся). Остальные AI в основном не оправдали ожиданий в моих тестах. Но GPT-4o удивила меня своим последним двойным ответом. Это заставило меня задуматься, что происходит внутри этой модели, что могло вызвать такой сбой.
Несмотря на это, GPT-4o остаётся лучшей в моих тестах по программированию, так что я, вероятно, продолжу её использовать и лучше разберусь в её особенностях. В качестве альтернативы я могу вернуться к GPT-3.5 или GPT-4 в ChatGPT Plus. Следите за обновлениями; в следующий раз, когда ChatGPT обновит свою модель, я обязательно повторю эти тесты, чтобы проверить, сможет ли она стабильно выбирать правильный ответ во всех четырёх тестах.
Пробовали ли вы программировать с какой-либо из этих моделей AI? Каков ваш опыт? Делитесь в комментариях ниже.
Связанная статья
Теперь Meta AI отвечает на сообщения покупателей на Facebook Marketplace
Facebook Marketplace внедряет новые функции Meta AI, в том числе автоматические ответы на запросы покупателей, как сообщила компания в четверг. Платформа также использует искусственный интеллект для у
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей
В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
Google представляет ноутбуки Gemini, объединившие NotebookLM с личной базой знаний
Недавно Google запустил для Gemini функцию «Notebooks», призванную помочь пользователям управлять сложными проектами путем создания персонализированной базы знаний. Это обновление устраняет разрыв в д
Рекомендации по связанным специальным темам
Комментарии (22)
GPT-4o klingt beeindruckend, aber diese 'eine seltsame Ausnahme' macht mich neugierig. Was war das für ein seltsames Ergebnis? Vielleicht ein Hinweis darauf, dass KI bei bestimmten Logikaufgaben immer noch überraschend 'menschlich' scheitern kann? 🤔 Die Omni-Fähigkeiten sind cool, aber ich frage mich, wie stabil die Performance in allen Modi wirklich ist.
Bon article ! Les tests de programmation sont toujours révélateurs. Je me demande s’il y a des biais selon les langages utilisés pour l'entraînement… Ou peut-être que c’est lié à la façon dont la requête est formulée ? 🤔
GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔
GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔
GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔

Если вы следите за миром технологий, вы, вероятно, знаете, что OpenAI только что выпустила свою новейшую большую языковую модель, GPT-4o, где "o" обозначает "omni". Эта новая модель обещает универсальность в работе с текстом, графикой и голосом, и я не мог дождаться, чтобы протестировать её с моим стандартным набором тестов по программированию. Эти тесты были проведены на множестве моделей AI, и результаты оказались весьма интересными. Оставайтесь со мной до конца, потому что вас ждёт неожиданный поворот.
Если вы хотите провести собственные эксперименты, ознакомьтесь с этим руководством: Как я тестирую способности AI-чатбота к программированию — и вы тоже можете. В нём описаны все тесты, которые я использую, вместе с подробными объяснениями их работы и того, на что следует обращать внимание в результатах.
Теперь давайте погрузимся в результаты каждого теста и посмотрим, как GPT-4o справляется по сравнению с предыдущими конкурентами, такими как Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced и более ранними версиями ChatGPT.
1. Написание плагина для WordPress
Вот краткий обзор пользовательского интерфейса GPT-4o:
Интересно, что GPT-4o позволила себе включить файл JavaScript, который динамически обновляет количество строк в обоих полях. Хотя в запросе не было явного запрета на использование JavaScript, такой творческий подход был неожиданным и эффективным. JavaScript также улучшает функциональность кнопки Randomize, позволяя получать несколько наборов результатов без полной перезагрузки страницы.
Строки были расположены правильно, а дубликаты были корректно разделены в соответствии со спецификацией. Это качественный код, с одной небольшой оговоркой: кнопка Randomize не была размещена на отдельной строке, хотя я не указывал это в запросе, так что за это баллы не снимаются.
Вот обобщённые результаты этого и предыдущих тестов:
- ChatGPT GPT-4o: Интерфейс: хороший, функциональность: хорошая
- Microsoft Copilot: Интерфейс: удовлетворительный, функциональность: провал
- Meta AI: Интерфейс: удовлетворительный, функциональность: провал
- Meta Code Llama: Полный провал
- Google Gemini Advanced: Интерфейс: хороший, функциональность: провал
- ChatGPT 4: Интерфейс: хороший, функциональность: хорошая
- ChatGPT 3.5: Интерфейс: хороший, функциональность: хорошая
2. Переписывание строковой функции
Этот тест оценивает способность модели обрабатывать преобразования долларов и центов. GPT-4o успешно переписала код, чтобы отклонять входные данные, которые могли бы вызвать проблемы с последующими строками, гарантируя обработку только действительных значений долларов и центов.
Я был немного разочарован, что она не добавила автоматически ведущий ноль к значениям вроде .75, преобразовав их в 0.75. Однако, поскольку я не запрашивал эту функцию явно, это не ошибка AI. Это напоминание о том, что даже когда AI выдаёт рабочий код, может потребоваться уточнение запроса, чтобы получить именно то, что вам нужно.
Вот обобщённые результаты этого и предыдущих тестов:
- ChatGPT GPT-4o: Успех
- Microsoft Copilot: Провал
- Meta AI: Провал
- Meta Code Llama: Успех
- Google Gemini Advanced: Провал
- ChatGPT 4: Успех
- ChatGPT 3.5: Успех
3. Поиск раздражающей ошибки
Этот тест интересен, потому что решение не очевидно с первого взгляда. Я сам изначально был озадачен этой ошибкой во время программирования, поэтому обратился за помощью к первой модели ChatGPT. Она нашла ошибку мгновенно, что тогда меня поразило.
В отличие от этого, три другие протестированные мной LLM не заметили отвлекающий манёвр в этой задаче. Сообщение об ошибке указывает на одну часть кода, но настоящая проблема кроется в другом месте, и для её выявления требуется глубокое знание фреймворка WordPress.
К счастью, GPT-4o правильно определила проблему и точно описала исправление.
Вот обобщённые результаты этого и предыдущих тестов:
- ChatGPT GPT-4o: Успех
- Microsoft Copilot: Провал. Зрелищно. Энтузиастично. С эмодзи.
- Meta AI: Успех
- Meta Code Llama: Провал
- Google Gemini Advanced: Провал
- ChatGPT 4: Успех
- ChatGPT 3.5: Успех
Пока что GPT-4o справляется на все три. Посмотрим, как она проявит себя в последнем тесте.
4. Написание скрипта
В ответ на этот тест GPT-4o предоставила больше, чем я просил. Тест включает использование малоизвестного инструмента скриптов для Mac — Keyboard Maestro, AppleScript от Apple и поведение скриптов Chrome. Keyboard Maestro, кстати, для меня настоящая находка, делающая Mac моим основным инструментом для повышения продуктивности благодаря возможности перепрограммировать ОС и приложения.
Для прохождения теста AI должна правильно описать решение, используя комбинацию кода Keyboard Maestro, AppleScript и функциональности Chrome API.
Удивительно, но GPT-4o предоставила мне две разные версии:
Обе версии корректно взаимодействовали с Keyboard Maestro, но различались в обработке чувствительности к регистру. Левая версия была неверной, так как AppleScript не поддерживает "as lowercase". Правая версия, использующая "contains" и нечувствительная к регистру, работала отлично.
Я засчитываю GPT-4o успех, хотя и с оговорками, потому что она предоставила рабочий код. Однако возвращение двух вариантов, один из которых был неверным, заставило меня потратить дополнительное время на оценку и выбор правильного. Это могло быть так же трудоёмко, как написание кода самостоятельно.
Вот обобщённые результаты этого и предыдущих тестов:
- ChatGPT GPT-4o: Успех, но с оговорками
- Microsoft Copilot: Провал
- Meta AI: Провал
- Meta Code Llama: Провал
- Google Gemini Advanced: Успех
- ChatGPT 4: Успех
- ChatGPT 3.5: Провал
Общие результаты
Вот как все модели показали себя в четырёх тестах:
- ChatGPT GPT-4o: 4 из 4 успешны, но с одним странным двойным ответом
- Microsoft Copilot: 0 из 4 успешны
- Meta AI: 1 из 4 успешны
- Meta Code Llama: 1 из 4 успешны
- Google Gemini Advanced: 1 из 4 успешны
- ChatGPT 4: 4 из 4 успешны
- ChatGPT 3.5: 3 из 4 успешны
До сих пор ChatGPT был моим основным инструментом для помощи в программировании. Он всегда справлялся (кроме тех случаев, когда не справлялся). Остальные AI в основном не оправдали ожиданий в моих тестах. Но GPT-4o удивила меня своим последним двойным ответом. Это заставило меня задуматься, что происходит внутри этой модели, что могло вызвать такой сбой.
Несмотря на это, GPT-4o остаётся лучшей в моих тестах по программированию, так что я, вероятно, продолжу её использовать и лучше разберусь в её особенностях. В качестве альтернативы я могу вернуться к GPT-3.5 или GPT-4 в ChatGPT Plus. Следите за обновлениями; в следующий раз, когда ChatGPT обновит свою модель, я обязательно повторю эти тесты, чтобы проверить, сможет ли она стабильно выбирать правильный ответ во всех четырёх тестах.
Пробовали ли вы программировать с какой-либо из этих моделей AI? Каков ваш опыт? Делитесь в комментариях ниже.
Теперь Meta AI отвечает на сообщения покупателей на Facebook Marketplace
Facebook Marketplace внедряет новые функции Meta AI, в том числе автоматические ответы на запросы покупателей, как сообщила компания в четверг. Платформа также использует искусственный интеллект для у
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей
В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
Google представляет ноутбуки Gemini, объединившие NotebookLM с личной базой знаний
Недавно Google запустил для Gemini функцию «Notebooks», призванную помочь пользователям управлять сложными проектами путем создания персонализированной базы знаний. Это обновление устраняет разрыв в д
GPT-4o klingt beeindruckend, aber diese 'eine seltsame Ausnahme' macht mich neugierig. Was war das für ein seltsames Ergebnis? Vielleicht ein Hinweis darauf, dass KI bei bestimmten Logikaufgaben immer noch überraschend 'menschlich' scheitern kann? 🤔 Die Omni-Fähigkeiten sind cool, aber ich frage mich, wie stabil die Performance in allen Modi wirklich ist.
Bon article ! Les tests de programmation sont toujours révélateurs. Je me demande s’il y a des biais selon les langages utilisés pour l'entraînement… Ou peut-être que c’est lié à la façon dont la requête est formulée ? 🤔
GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔
GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔
GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔











