Googleは、従来のエンコーダーを排除し、視覚データと音声データを直接処理する統合型マルチモーダルモデル「Gemma 4 12B」を公開しました。このモデルは、一般向けハードウェアでのローカル展開にわずか16GBのVRAMしか必要としません。軽量な埋め込み層を採用することで、計算負荷を低減しつつ、26BのMoEモデルに匹敵する性能を実現しています。 Apache 2.0ライセンスでオープンソース化されており、複数の推論フレームワークやエッジ展開に対応し、ダウンロード数は1億5000万回を超えています。





家
