top of page

Google、16GB環境で動くマルチモーダルAI「Gemma 4 12B」公開

  • 執筆者の写真: 桜井 未来
    桜井 未来
  • 9 分前
  • 読了時間: 2分

Google、16GB環境で動くマルチモーダルAI「Gemma 4 12B」公開
image : Google

26B MoEに近い性能を維持しながら低メモリ動作を実現。エンコーダーフリー設計とMTP drafterを採用


 米Google現地時間6月3日、オープンモデル「Gemma 4」シリーズの新モデル「Gemma 4 12B」を公開した。テキストに加え、画像や音声を扱えるマルチモーダルAIモデルで、16GBのVRAMまたはユニファイドメモリ環境でのローカル実行を想定する。


 「Gemma 4 12B」は、Gemma 4ファミリーにおいて小規模モデルのE2BおよびE4Bと、上位モデルの26B MoE(Mixture of Experts)の間を埋める位置付けとなる。Googleによると、標準ベンチマークでは26B MoEに近い性能を示しながら、総メモリ使用量は半分以下に抑えられているという。


Google、16GB環境で動くマルチモーダルAI「Gemma 4 12B」公開
image : Google

エンコーダーフリーのマルチモーダルアーキテクチャを採用

 「Gemma 4 12B」では、画像や音声向けの専用エンコーダーを使用しない「エンコーダーフリー」のアーキテクチャを採用した。従来のマルチモーダルモデルでは、画像や音声を別モデルで処理した後に大規模言語モデル(LLM)へ入力する構成が一般的だったが、「Gemma 4 12B」では視覚・音声データを直接LLMに入力する仕組みを採用している。また、推論速度の向上を目的とした「Multi-Token Prediction(MTP) drafter」にも対応する。1回の推論で複数のトークンを予測することで、応答生成の高速化を図る。



提供形態と対応環境

 「Gemma 4 12B」はApache 2.0ライセンスで公開され、商用利用や改変、再配布が可能だ。利用環境としては、LM StudioやOllama、Google AI Edge Gallery App、Google AI Edge Eloquent app、LiteRT-LM CLIをサポートする。


 開発者向けにはHugging Face Transformers、llama.cpp、MLX、SGLang、vLLMをサポートする。モデルはHugging FaceおよびKaggleで公開され、Google AI Studioからも利用できる。



参照サイト

Google The Keyword

Introducing Gemma 4 12B: a unified, encoder-free multimodal model



TAGs


bottom of page