Gemini는 향상된 모델, 확장 컨텍스트, AI 에이전트를 공개합니다
지난 12월, 우리는 최초의 네이티브 멀티모달 모델인 Gemini 1.0을 출시했으며, 이는 Ultra, Pro, Nano의 세 가지 크기로 제공됩니다. 몇 달이 지난 후, 우리는 성능이 향상되고 100만 토큰의 획기적인 긴 컨텍스트 윈도우를 자랑하는 1.5 Pro를 소개했습니다.
개발자와 기업 고객들은 1.5 Pro의 긴 컨텍스트 윈도우, 강력한 멀티모달 추론, 그리고 전반적으로 뛰어난 성능을 활용하여 매우 놀라운 방식으로 이를 사용해 왔습니다.
사용자들의 피드백은 더 낮은 지연 시간과 비용을 가진 모델의 필요성을 강조했으며, 이는 우리가 계속해서 한계를 돌파하도록 자극했습니다. 그래서 오늘 우리는 Gemini 1.5 Flash를 소개하게 되어 기쁩니다. 이 모델은 1.5 Pro보다 가볍고, 빠르고 효율적으로 설계되었으며, 확장에 최적입니다.
1.5 Pro와 1.5 Flash는 이제 Google AI Studio와 Vertex AI를 통해 100만 토큰 컨텍스트 윈도우로 공개 프리뷰 상태에 있습니다. 그리고 더 많은 것을 필요로 하는 이들을 위해, 1.5 Pro는 이제 API와 Google Cloud 고객을 위한 대기자 명단을 통해 200만 토큰 컨텍스트 윈도우를 제공합니다.
여기서 멈추지 않습니다. 우리는 또한 Gemini 가족 전체에 걸쳐 업데이트를 출시하고, 차세대 오픈 모델인 Gemma 2를 공개하며, Project Astra로 AI 어시스턴트의 미래를 발전시키고 있습니다.
주요 기반 모델들의 컨텍스트 길이를 Gemini 1.5의 200만 토큰 기능과 비교
Gemini 모델 가족 업데이트
속도와 효율성을 최적화한 새로운 1.5 Flash
1.5 Flash를 소개합니다. 이는 Gemini 가족의 가장 최신이자 가장 빠른 멤버로, 우리의 API를 통해 제공됩니다. 이 모델은 높은 볼륨과 빈도의 작업에 맞춰져 있으며, 비용 효율적인 확장성을 제공하면서 획기적인 긴 컨텍스트 윈도우를 유지합니다.
1.5 Pro보다 가볍지만, 1.5 Flash는 결코 뒤처지지 않습니다. 이는 방대한 데이터 세트에서 멀티모달 추론에 탁월하며, 크기에 비해 인상적인 품질을 제공합니다.
새로운 Gemini 1.5 Flash 모델은 속도와 효율성을 위해 최적화되었으며, 멀티모달 추론에 매우 뛰어나며 획기적인 긴 컨텍스트 윈도우를 특징으로 합니다.
1.5 Flash는 요약, 채팅 애플리케이션, 이미지 및 비디오 캡션 작성과 같은 작업에서 빛을 발합니다. 또한 긴 문서와 표에서 데이터를 추출하는 데도 능숙합니다. 이러한 다재다능함은 1.5 Pro에서 "증류"를 통해 훈련된 결과로, 더 큰 모델의 핵심 지식과 기술이 더 효율적이고 작은 모델로 전달됩니다.
1.5 Flash에 대한 자세한 내용은 업데이트된 Gemini 1.5 기술 보고서, Gemini 기술 페이지에서 확인하고, 가용성과 가격에 대해 알아보세요.
1.5 Pro의 대폭 개선
지난 몇 달 동안, 우리는 다양한 작업에서 최고의 성능을 발휘하는 1.5 Pro를 크게 개선했습니다.
우리는 컨텍스트 윈도우를 200만 토큰으로 확장하고, 코드 생성, 논리적 추론, 계획, 다중 턴 대화, 오디오 및 이미지 이해 능력을 향상시켰습니다. 이러한 개선은 데이터와 알고리즘의 발전으로 뒷받침되며, 공개 및 내부 벤치마크에서 뚜렷한 향상을 보여줍니다.
1.5 Pro는 이제 점점 더 복잡하고 미묘한 지침을 처리하며, 역할, 형식, 스타일과 같은 제품 수준의 행동을 정의하는 지침을 포함합니다. 우리는 특정 사용 사례에 대한 모델의 응답을 세밀하게 조정하여 채팅 에이전트 페르소나를 사용자 정의하거나 여러 함수 호출로 워크플로우를 자동화할 수 있도록 했습니다. 사용자는 이제 시스템 지침을 통해 모델의 행동을 조정할 수 있습니다.
또한 Gemini API와 Google AI Studio에 오디오 이해 기능을 추가하여, 1.5 Pro가 Google AI Studio에 업로드된 비디오의 이미지와 오디오를 처리할 수 있도록 했습니다. 우리는 1.5 Pro를 Gemini Advanced 및 Workspace 앱과 같은 Google 제품에 통합하고 있습니다.
1.5 Pro에 대한 자세한 내용은 업데이트된 Gemini 1.5 기술 보고서와 Gemini 기술 페이지를 참조하세요.
Gemini Nano, 멀티모달 입력 이해
Gemini Nano는 텍스트 전용 입력을 넘어 이미지까지 포함하도록 발전하고 있습니다. Pixel을 시작으로, 멀티모달을 사용하는 Gemini Nano 앱은 텍스트, 시각, 소리, 음성 언어를 통해 더 인간적으로 세상을 해석할 수 있습니다.
Android에서 Gemini 1.0 Nano에 대해 자세히 알아보세요.
차세대 오픈 모델
오늘 우리는 또한 Gemini 모델과 동일한 연구와 기술로 구축된 오픈 모델 가족인 Gemma를 업데이트합니다.
우리는 책임감 있는 AI 혁신을 위한 차세대 오픈 모델인 Gemma 2를 출시합니다. Gemma 2는 우수한 성능과 효율성을 위한 새로운 아키텍처를 특징으로 하며, 새로운 크기로 제공됩니다.
Gemma 가족은 PaLI-3에서 영감을 받은 첫 번째 비전-언어 모델인 PaliGemma로 성장하고 있습니다. 또한 LLM Comparator를 통해 Responsible Generative AI Toolkit을 업그레이드하여 모델 응답 품질을 평가했습니다.
자세한 내용은 개발자 블로그를 참조하세요.
유니버설 AI 에이전트 개발 진행 상황
Google DeepMind에서 우리의 사명은 인류에 이익을 주기 위해 책임감 있게 AI를 구축하는 것입니다. 우리는 항상 일상생활을 지원할 수 있는 유니버설 AI 에이전트를 만드는 것을 목표로 했습니다. 그래서 우리는 Project Astra(고급 시각 및 대화 응답 에이전트)로 AI 어시스턴트의 미래에 대한 진행 상황을 공유합니다.
AI 에이전트가 진정으로 유용하려면, 인간처럼 세상을 이해하고 반응하며, 보고 듣는 것을 기억하여 컨텍스트를 파악하고 그에 따라 행동해야 합니다. 또한 적극적이고, 학습 가능하며, 개인적이어야 하며, 자연스럽고 지연 없는 대화를 가능하게 해야 합니다.
우리는 멀티모달 정보 처리를 크게 발전시켰지만, 대화 응답 시간을 달성하는 것은 어려운 엔지니어링 과제입니다. 수년간 우리는 모델이 인식하고, 추론하며, 대화하는 방식을 개선하여 상호작용이 더 자연스럽게 느껴지도록 했습니다.
Gemini를 기반으로, 우리는 비디오 프레임을 지속적으로 인코딩하고, 비디오와 음성 입력을 이벤트 타임라인으로 통합하며, 이 데이터를 빠르게 호출하기 위해 캐싱하는 프로토타입 에이전트를 개발했습니다.
최고 수준의 음성 모델을 사용하여, 우리는 또한 이 에이전트의 음성을 개선하여 더 넓은 범위의 억양을 제공했습니다. 그들은 자신이 처한 컨텍스트를 더 잘 이해하고 대화에서 신속하게 응답할 수 있습니다.
이 기술을 통해, 모든 사람이 전화나 안경을 통해 전문 AI 어시스턴트를 곁에 두는 미래를 쉽게 상상할 수 있습니다. 이러한 기능 중 일부는 올해 말 Gemini 앱 및 웹 경험과 같은 Google 제품에 도입될 것입니다.
지속적인 탐구
우리는 Gemini 모델 가족으로 큰 발전을 이루었으며, 한계를 더 멀리 밀어붙이겠다는 약속을 지키고 있습니다. 끊임없는 혁신을 통해, 우리는 Gemini의 새로운 사용 사례를 발굴하면서 새로운 프론티어를 탐구하고 있습니다.
Gemini와 그 기능에 대해 더 알아보려면, 우리의 리소스를 확인하세요.




Google에서 더 많은 이야기를 이메일로 받아보세요.
이메일 주소 귀하의 정보는 Google의 개인정보 보호정책에 따라 사용됩니다.
구독 완료. 한 단계만 더 남았습니다.
구독을 확인하려면 이메일을 확인하세요.
이미 뉴스레터에 구독하셨습니다.
다른 이메일 주소로도 구독할 수 있습니다.
관련 기사
WordPress.com에서는 이제 AI 에이전트가 게시물을 작성하고 게시할 수 있게 되었으며, 그 외에도 다양한 기능이 추가되었습니다
인기 웹 호스팅 및 게시 플랫폼인 WordPress.com이 이제 AI 에이전트를 도입하고 있으며, 이는 웹의 모습과 사용 경험을 재편할 수 있는 움직임입니다. 이 회사는 금요일, AI 에이전트가 고객 웹사이트에서 콘텐츠를 작성, 편집 및 게시할 뿐만 아니라 댓글을 관리하고, 메타데이터를 업데이트 및 수정하며, 태그와 카테고리를 통해 콘텐츠를 정리할 수 있
카카오 모빌리티, 물리적 AI를 위한 레벨 4 자율주행 로드맵 제시
카카오모빌리티는 물리적 AI 전략의 일환으로 레벨 4 자율주행 기술을 자체 개발할 계획이다.서울 코엑스에서 열린 '2026 월드 IT 쇼' 컨퍼런스에서 카카오모빌리티의 김진규 부사장 겸 피지컬 AI 사업본부장은 로드맵을 발표했다. 그의 발표는 피지컬 AI 시대의 모빌리티 플랫폼을 기반으로 한 자율주행 서비스에 중점을 두었다.연합뉴스에 따르면, '아이디어
배리 딜러: AGI 시대가 다가옴에 따라 샘 알트먼에 대한 신뢰는 무의미하다
억만장자 미디어 거물 배리 딜러는 최근 보도에서 달리 제기된 주장에도 불구하고, 오픈AI의 샘 알트만 CEO가 신뢰할 수 없는 인물이라고 생각하지 않는다고 밝혔다. 이번 주 월스트리트저널(WSJ)이 주최한 ‘Future of Everything’ 컨퍼런스에서 연설한 딜러는, 일부 전직 동료들과 이사회 구성원들로부터 때때로 교묘하게 조종하거나 기만적이라는 비
관련 특별 주제 추천
의견 (26)
0/500
Geminiの進化がすごいですね!長いコンテキストウィンドウは実用的なAIエージェント開発に革命をもたらしそう。でも、競争激化で倫理的なガイドラインが追いついてるか少し心配。🤔 個人的には、もっと小さなプロジェクトでも使える軽量版が早く出てくると嬉しいな。
ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀
젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓
O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓
El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.
지난 12월, 우리는 최초의 네이티브 멀티모달 모델인 Gemini 1.0을 출시했으며, 이는 Ultra, Pro, Nano의 세 가지 크기로 제공됩니다. 몇 달이 지난 후, 우리는 성능이 향상되고 100만 토큰의 획기적인 긴 컨텍스트 윈도우를 자랑하는 1.5 Pro를 소개했습니다.
개발자와 기업 고객들은 1.5 Pro의 긴 컨텍스트 윈도우, 강력한 멀티모달 추론, 그리고 전반적으로 뛰어난 성능을 활용하여 매우 놀라운 방식으로 이를 사용해 왔습니다.
사용자들의 피드백은 더 낮은 지연 시간과 비용을 가진 모델의 필요성을 강조했으며, 이는 우리가 계속해서 한계를 돌파하도록 자극했습니다. 그래서 오늘 우리는 Gemini 1.5 Flash를 소개하게 되어 기쁩니다. 이 모델은 1.5 Pro보다 가볍고, 빠르고 효율적으로 설계되었으며, 확장에 최적입니다.
1.5 Pro와 1.5 Flash는 이제 Google AI Studio와 Vertex AI를 통해 100만 토큰 컨텍스트 윈도우로 공개 프리뷰 상태에 있습니다. 그리고 더 많은 것을 필요로 하는 이들을 위해, 1.5 Pro는 이제 API와 Google Cloud 고객을 위한 대기자 명단을 통해 200만 토큰 컨텍스트 윈도우를 제공합니다.
여기서 멈추지 않습니다. 우리는 또한 Gemini 가족 전체에 걸쳐 업데이트를 출시하고, 차세대 오픈 모델인 Gemma 2를 공개하며, Project Astra로 AI 어시스턴트의 미래를 발전시키고 있습니다.
Gemini 모델 가족 업데이트
속도와 효율성을 최적화한 새로운 1.5 Flash
1.5 Flash를 소개합니다. 이는 Gemini 가족의 가장 최신이자 가장 빠른 멤버로, 우리의 API를 통해 제공됩니다. 이 모델은 높은 볼륨과 빈도의 작업에 맞춰져 있으며, 비용 효율적인 확장성을 제공하면서 획기적인 긴 컨텍스트 윈도우를 유지합니다.
1.5 Pro보다 가볍지만, 1.5 Flash는 결코 뒤처지지 않습니다. 이는 방대한 데이터 세트에서 멀티모달 추론에 탁월하며, 크기에 비해 인상적인 품질을 제공합니다.
1.5 Flash는 요약, 채팅 애플리케이션, 이미지 및 비디오 캡션 작성과 같은 작업에서 빛을 발합니다. 또한 긴 문서와 표에서 데이터를 추출하는 데도 능숙합니다. 이러한 다재다능함은 1.5 Pro에서 "증류"를 통해 훈련된 결과로, 더 큰 모델의 핵심 지식과 기술이 더 효율적이고 작은 모델로 전달됩니다.
1.5 Flash에 대한 자세한 내용은 업데이트된 Gemini 1.5 기술 보고서, Gemini 기술 페이지에서 확인하고, 가용성과 가격에 대해 알아보세요.
1.5 Pro의 대폭 개선
지난 몇 달 동안, 우리는 다양한 작업에서 최고의 성능을 발휘하는 1.5 Pro를 크게 개선했습니다.
우리는 컨텍스트 윈도우를 200만 토큰으로 확장하고, 코드 생성, 논리적 추론, 계획, 다중 턴 대화, 오디오 및 이미지 이해 능력을 향상시켰습니다. 이러한 개선은 데이터와 알고리즘의 발전으로 뒷받침되며, 공개 및 내부 벤치마크에서 뚜렷한 향상을 보여줍니다.
1.5 Pro는 이제 점점 더 복잡하고 미묘한 지침을 처리하며, 역할, 형식, 스타일과 같은 제품 수준의 행동을 정의하는 지침을 포함합니다. 우리는 특정 사용 사례에 대한 모델의 응답을 세밀하게 조정하여 채팅 에이전트 페르소나를 사용자 정의하거나 여러 함수 호출로 워크플로우를 자동화할 수 있도록 했습니다. 사용자는 이제 시스템 지침을 통해 모델의 행동을 조정할 수 있습니다.
또한 Gemini API와 Google AI Studio에 오디오 이해 기능을 추가하여, 1.5 Pro가 Google AI Studio에 업로드된 비디오의 이미지와 오디오를 처리할 수 있도록 했습니다. 우리는 1.5 Pro를 Gemini Advanced 및 Workspace 앱과 같은 Google 제품에 통합하고 있습니다.
1.5 Pro에 대한 자세한 내용은 업데이트된 Gemini 1.5 기술 보고서와 Gemini 기술 페이지를 참조하세요.
Gemini Nano, 멀티모달 입력 이해
Gemini Nano는 텍스트 전용 입력을 넘어 이미지까지 포함하도록 발전하고 있습니다. Pixel을 시작으로, 멀티모달을 사용하는 Gemini Nano 앱은 텍스트, 시각, 소리, 음성 언어를 통해 더 인간적으로 세상을 해석할 수 있습니다.
Android에서 Gemini 1.0 Nano에 대해 자세히 알아보세요.
차세대 오픈 모델
오늘 우리는 또한 Gemini 모델과 동일한 연구와 기술로 구축된 오픈 모델 가족인 Gemma를 업데이트합니다.
우리는 책임감 있는 AI 혁신을 위한 차세대 오픈 모델인 Gemma 2를 출시합니다. Gemma 2는 우수한 성능과 효율성을 위한 새로운 아키텍처를 특징으로 하며, 새로운 크기로 제공됩니다.
Gemma 가족은 PaLI-3에서 영감을 받은 첫 번째 비전-언어 모델인 PaliGemma로 성장하고 있습니다. 또한 LLM Comparator를 통해 Responsible Generative AI Toolkit을 업그레이드하여 모델 응답 품질을 평가했습니다.
자세한 내용은 개발자 블로그를 참조하세요.
유니버설 AI 에이전트 개발 진행 상황
Google DeepMind에서 우리의 사명은 인류에 이익을 주기 위해 책임감 있게 AI를 구축하는 것입니다. 우리는 항상 일상생활을 지원할 수 있는 유니버설 AI 에이전트를 만드는 것을 목표로 했습니다. 그래서 우리는 Project Astra(고급 시각 및 대화 응답 에이전트)로 AI 어시스턴트의 미래에 대한 진행 상황을 공유합니다.
AI 에이전트가 진정으로 유용하려면, 인간처럼 세상을 이해하고 반응하며, 보고 듣는 것을 기억하여 컨텍스트를 파악하고 그에 따라 행동해야 합니다. 또한 적극적이고, 학습 가능하며, 개인적이어야 하며, 자연스럽고 지연 없는 대화를 가능하게 해야 합니다.
우리는 멀티모달 정보 처리를 크게 발전시켰지만, 대화 응답 시간을 달성하는 것은 어려운 엔지니어링 과제입니다. 수년간 우리는 모델이 인식하고, 추론하며, 대화하는 방식을 개선하여 상호작용이 더 자연스럽게 느껴지도록 했습니다.
Gemini를 기반으로, 우리는 비디오 프레임을 지속적으로 인코딩하고, 비디오와 음성 입력을 이벤트 타임라인으로 통합하며, 이 데이터를 빠르게 호출하기 위해 캐싱하는 프로토타입 에이전트를 개발했습니다.
최고 수준의 음성 모델을 사용하여, 우리는 또한 이 에이전트의 음성을 개선하여 더 넓은 범위의 억양을 제공했습니다. 그들은 자신이 처한 컨텍스트를 더 잘 이해하고 대화에서 신속하게 응답할 수 있습니다.
이 기술을 통해, 모든 사람이 전화나 안경을 통해 전문 AI 어시스턴트를 곁에 두는 미래를 쉽게 상상할 수 있습니다. 이러한 기능 중 일부는 올해 말 Gemini 앱 및 웹 경험과 같은 Google 제품에 도입될 것입니다.
지속적인 탐구
우리는 Gemini 모델 가족으로 큰 발전을 이루었으며, 한계를 더 멀리 밀어붙이겠다는 약속을 지키고 있습니다. 끊임없는 혁신을 통해, 우리는 Gemini의 새로운 사용 사례를 발굴하면서 새로운 프론티어를 탐구하고 있습니다.
Gemini와 그 기능에 대해 더 알아보려면, 우리의 리소스를 확인하세요.




Google에서 더 많은 이야기를 이메일로 받아보세요.
구독 완료. 한 단계만 더 남았습니다.
구독을 확인하려면 이메일을 확인하세요.
이미 뉴스레터에 구독하셨습니다.
다른 이메일 주소로도 구독할 수 있습니다.
WordPress.com에서는 이제 AI 에이전트가 게시물을 작성하고 게시할 수 있게 되었으며, 그 외에도 다양한 기능이 추가되었습니다
인기 웹 호스팅 및 게시 플랫폼인 WordPress.com이 이제 AI 에이전트를 도입하고 있으며, 이는 웹의 모습과 사용 경험을 재편할 수 있는 움직임입니다. 이 회사는 금요일, AI 에이전트가 고객 웹사이트에서 콘텐츠를 작성, 편집 및 게시할 뿐만 아니라 댓글을 관리하고, 메타데이터를 업데이트 및 수정하며, 태그와 카테고리를 통해 콘텐츠를 정리할 수 있
배리 딜러: AGI 시대가 다가옴에 따라 샘 알트먼에 대한 신뢰는 무의미하다
억만장자 미디어 거물 배리 딜러는 최근 보도에서 달리 제기된 주장에도 불구하고, 오픈AI의 샘 알트만 CEO가 신뢰할 수 없는 인물이라고 생각하지 않는다고 밝혔다. 이번 주 월스트리트저널(WSJ)이 주최한 ‘Future of Everything’ 컨퍼런스에서 연설한 딜러는, 일부 전직 동료들과 이사회 구성원들로부터 때때로 교묘하게 조종하거나 기만적이라는 비
Geminiの進化がすごいですね!長いコンテキストウィンドウは実用的なAIエージェント開発に革命をもたらしそう。でも、競争激化で倫理的なガイドラインが追いついてるか少し心配。🤔 個人的には、もっと小さなプロジェクトでも使える軽量版が早く出てくると嬉しいな。
ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀
젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓
O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓
El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.





집






