Google Gemma 3 достигает 98% точности Deepseek с одним графическим процессором.
1 мая 2025 г.
RichardJackson
0
Экономика искусственного интеллекта в последнее время стала основным направлением, особенно в связи с тем, что Startup DeepSeek AI демонстрирует впечатляющие экономии масштаба при использовании чипов графических процессоров. Но Google не собирается превзойти. В среду Tech Giant представила свою новейшую большую языковую модель с открытым исходным кодом Gemma 3, которая почти соответствует точности модели Deepseek R1, но использует значительно меньшую вычислительную мощность.
Google измерил эту производительность, используя оценки «ELO», систему, обычно используемую в шахматах и спорте для ранжирования конкурентов. Gemma 3 набрала 1338, просто стесняющийся R1 1363, что означает, что R1 технически превосходит Gemma 3. Google рекламирует этот баланс Compute и ELO, как «сладкое место».
В сообщении в блоге Google описывает Gemma 3 как «наиболее способную модель, которую вы можете запустить на одном графическом процессоре или TPU», ссылаясь на свой собственный чип ИИ, «блок обработки тензора». Компания утверждает, что Gemma 3 «обеспечивает современные показатели для своих размеров», заткнувшие модели, такие как Llama-405B, DeepSeek-V3 и O3-Mini в оценках человеческих предпочтений в плане лидеров LMARENA. Эта производительность облегчает создание привлекательного пользовательского опыта на одном GPU или TPU -хосте.
Google
Модель Google также превосходит Meta Llama 3 в оценке ELO, который, по оценкам Google, потребуется 16 графических процессоров. Стоит отметить, что эти цифры для конкурирующих моделей являются оценками Google; DeepSeek AI раскрыл только с использованием 1814 менее мощных графических процессоров Nvidia H800 для R1.
Более подробную информацию можно найти в блоге разработчика о Huggingface, где доступен репозиторий Gemma 3. Предназначенная для использования на устройствах, а не в центрах обработки данных, Gemma 3 имеет значительно меньшее количество параметров по сравнению с R1 и другими моделями с открытым исходным кодом. При подсчете параметров в диапазоне от 1 миллиарда до 27 миллиардов, GEMMA 3 довольно скромно по текущим стандартам, в то время как R1 может похвастаться значительным 671 миллиардом параметров, хотя он может избирательно использовать всего 37 миллиардов.
Ключом к эффективности GEMMA 3 является широко используемый метод ИИ, называемый дистилляцией, где обученные веса модели из более крупной модели передаются в меньшую, усиливая свои возможности. Кроме того, дистиллированная модель проходит три меры контроля качества: обучение подкреплению от обратной связи человека (RLHF), обучение подкреплению от обратной связи машины (RLMF) и подкрепление обучения на обратной связи с выполнением (RLEF). Они помогают уточнить результаты модели, делая их более полезными и улучшая свои математические и кодирующие способности.
В блоге Google Developer подробно описываются эти подходы, а в другом посте обсуждаются методы оптимизации для самой маленькой модели параметров 1 миллиарда, направленной на мобильные устройства. К ним относятся квантование, обновление макетов кэша ключей, улучшение времени загрузки переменной и распределение веса графических процессоров.
Google сравнивает Gemma 3 не только по оценкам ELO, но и с ее предшественником Gemma 2 и моделями Gemini с закрытым исходным кодом на различных критериях, таких как Livecodebench. В то время как Gemma 3 обычно не соответствует точности Gemini 1.5 и Gemini 2.0, Google отмечает, что он «показывает конкурентную производительность по сравнению с закрытыми моделями Близнецов», несмотря на меньшее количество параметров.
Google
Значительным обновлением в Gemma 3 над Gemma 2 является его более длительное «контекст -окно», расширяющееся с 8000 до 128 000 токенов. Это позволяет модели обрабатывать более крупные тексты, такие как целые бумаги или книги. Gemma 3 также является мультимодальной, способной обрабатывать текстовые и изображения, в отличие от его предшественника. Кроме того, он поддерживает более 140 языков, значительное улучшение по сравнению с возможностями английского языка Gemma 2.
Помимо этих основных особенностей, есть несколько других интересных аспектов для Gemma 3. Одной из проблем с большими языковыми моделями является потенциал для запоминания части их обучающих данных, что может привести к нарушениям конфиденциальности. Исследователи Google тестировали Gemma 3 для этого и обнаружили, что он запоминает длинный текст с более низкой скоростью, чем ее предшественники, что предполагает улучшенную защиту конфиденциальности.
Для тех, кто заинтересован в NITTY-Gitty, технический документ Gemma 3 обеспечивает тщательную разбивку возможностей и разработки модели.
Связанная статья
Фальшивые отзывы - большая проблема - и вот как ИИ может помочь исправить это
С момента своего создания в 2007 году TrustPilot стал популярной платформой для обзоров пользователей, накопив ошеломляющие 238 миллионов обзоров в течение почти миллиона предприятий и охватывая 50 национальностей. В то время как TrustPilot показывает обзоры американских предприятий, я обнаружил, что местные магазины, которые я искал, не были LI
Figma AI Beta запускает, расширяя возможности дизайна с помощью ИИ инструментов
Figma AI Beta наконец-то появилась на сцене, и она встряхивает мир дизайна своими передовыми инструментами искусственного интеллекта. После нескольких месяцев стремления ожидания этот релиз меняет правила игры для дизайнеров пользовательского интерфейса, предлагая смесь эффективности и творческой свободы, которую трудно победить. Давайте погрузимся в то, что Figma ai beta
Руководство по созданию 3D логотипа: методы импорта и экструдирования в 3DS Max
Если вы хотите сделать всплеск с вашим брендом в современном цифровом мире, создание потрясающего 3D-логотипа-это изменение игры. Это руководство проведет вас через процесс превращения ваших 2D-конструкций в привлекательные 3D-модели, используя Adobe Illustrator и Autodesk 3DS Max. Мы рассмотрим все FR
Комментарии (0)






Экономика искусственного интеллекта в последнее время стала основным направлением, особенно в связи с тем, что Startup DeepSeek AI демонстрирует впечатляющие экономии масштаба при использовании чипов графических процессоров. Но Google не собирается превзойти. В среду Tech Giant представила свою новейшую большую языковую модель с открытым исходным кодом Gemma 3, которая почти соответствует точности модели Deepseek R1, но использует значительно меньшую вычислительную мощность.
Google измерил эту производительность, используя оценки «ELO», систему, обычно используемую в шахматах и спорте для ранжирования конкурентов. Gemma 3 набрала 1338, просто стесняющийся R1 1363, что означает, что R1 технически превосходит Gemma 3. Google рекламирует этот баланс Compute и ELO, как «сладкое место».
В сообщении в блоге Google описывает Gemma 3 как «наиболее способную модель, которую вы можете запустить на одном графическом процессоре или TPU», ссылаясь на свой собственный чип ИИ, «блок обработки тензора». Компания утверждает, что Gemma 3 «обеспечивает современные показатели для своих размеров», заткнувшие модели, такие как Llama-405B, DeepSeek-V3 и O3-Mini в оценках человеческих предпочтений в плане лидеров LMARENA. Эта производительность облегчает создание привлекательного пользовательского опыта на одном GPU или TPU -хосте.
Google
Модель Google также превосходит Meta Llama 3 в оценке ELO, который, по оценкам Google, потребуется 16 графических процессоров. Стоит отметить, что эти цифры для конкурирующих моделей являются оценками Google; DeepSeek AI раскрыл только с использованием 1814 менее мощных графических процессоров Nvidia H800 для R1.
Более подробную информацию можно найти в блоге разработчика о Huggingface, где доступен репозиторий Gemma 3. Предназначенная для использования на устройствах, а не в центрах обработки данных, Gemma 3 имеет значительно меньшее количество параметров по сравнению с R1 и другими моделями с открытым исходным кодом. При подсчете параметров в диапазоне от 1 миллиарда до 27 миллиардов, GEMMA 3 довольно скромно по текущим стандартам, в то время как R1 может похвастаться значительным 671 миллиардом параметров, хотя он может избирательно использовать всего 37 миллиардов.
Ключом к эффективности GEMMA 3 является широко используемый метод ИИ, называемый дистилляцией, где обученные веса модели из более крупной модели передаются в меньшую, усиливая свои возможности. Кроме того, дистиллированная модель проходит три меры контроля качества: обучение подкреплению от обратной связи человека (RLHF), обучение подкреплению от обратной связи машины (RLMF) и подкрепление обучения на обратной связи с выполнением (RLEF). Они помогают уточнить результаты модели, делая их более полезными и улучшая свои математические и кодирующие способности.
В блоге Google Developer подробно описываются эти подходы, а в другом посте обсуждаются методы оптимизации для самой маленькой модели параметров 1 миллиарда, направленной на мобильные устройства. К ним относятся квантование, обновление макетов кэша ключей, улучшение времени загрузки переменной и распределение веса графических процессоров.
Google сравнивает Gemma 3 не только по оценкам ELO, но и с ее предшественником Gemma 2 и моделями Gemini с закрытым исходным кодом на различных критериях, таких как Livecodebench. В то время как Gemma 3 обычно не соответствует точности Gemini 1.5 и Gemini 2.0, Google отмечает, что он «показывает конкурентную производительность по сравнению с закрытыми моделями Близнецов», несмотря на меньшее количество параметров.
Google
Значительным обновлением в Gemma 3 над Gemma 2 является его более длительное «контекст -окно», расширяющееся с 8000 до 128 000 токенов. Это позволяет модели обрабатывать более крупные тексты, такие как целые бумаги или книги. Gemma 3 также является мультимодальной, способной обрабатывать текстовые и изображения, в отличие от его предшественника. Кроме того, он поддерживает более 140 языков, значительное улучшение по сравнению с возможностями английского языка Gemma 2.
Помимо этих основных особенностей, есть несколько других интересных аспектов для Gemma 3. Одной из проблем с большими языковыми моделями является потенциал для запоминания части их обучающих данных, что может привести к нарушениям конфиденциальности. Исследователи Google тестировали Gemma 3 для этого и обнаружили, что он запоминает длинный текст с более низкой скоростью, чем ее предшественники, что предполагает улучшенную защиту конфиденциальности.
Для тех, кто заинтересован в NITTY-Gitty, технический документ Gemma 3 обеспечивает тщательную разбивку возможностей и разработки модели.












