Google、16GB環境で動くマルチモーダルAI「Gemma 4 12B」公開

桜井未来
6月5日
読了時間: 2分

26B MoEに近い性能を維持しながら低メモリ動作を実現。エンコーダーフリー設計とMTP drafterを採用

　米Googleは現地時間6月3日、オープンモデル「Gemma 4」シリーズの新モデル「Gemma 4 12B」を公開した。テキストに加え、画像や音声を扱えるマルチモーダルAIモデルで、16GBのVRAMまたはユニファイドメモリ環境でのローカル実行を想定する。

　「Gemma 4 12B」は、Gemma 4ファミリーにおいて小規模モデルのE2BおよびE4Bと、上位モデルの26B MoE（Mixture of Experts）の間を埋める位置付けとなる。Googleによると、標準ベンチマークでは26B MoEに近い性能を示しながら、総メモリ使用量は半分以下に抑えられているという。

エンコーダーフリーのマルチモーダルアーキテクチャを採用

　「Gemma 4 12B」では、画像や音声向けの専用エンコーダーを使用しない「エンコーダーフリー」のアーキテクチャを採用した。従来のマルチモーダルモデルでは、画像や音声を別モデルで処理した後に大規模言語モデル（LLM）へ入力する構成が一般的だったが、「Gemma 4 12B」では視覚・音声データを直接LLMに入力する仕組みを採用している。また、推論速度の向上を目的とした「Multi-Token Prediction（MTP） drafter」にも対応する。1回の推論で複数のトークンを予測することで、応答生成の高速化を図る。

https://www.youtube.com/watch?v=Q5a7dAREbXM

Video : @GoogleDevelopers

提供形態と対応環境

　「Gemma 4 12B」はApache 2.0ライセンスで公開され、商用利用や改変、再配布が可能だ。利用環境としては、LM StudioやOllama、Google AI Edge Gallery App、Google AI Edge Eloquent app、LiteRT-LM CLIをサポートする。

　開発者向けにはHugging Face Transformers、llama.cpp、MLX、SGLang、vLLMをサポートする。モデルはHugging FaceおよびKaggleで公開され、Google AI Studioからも利用できる。

参照サイト

Google The Keyword

Introducing Gemma 4 12B: a unified, encoder-free multimodal model

https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12B/