Google、音声生成AI「Gemini 3.1 Flash TTS」発表　自然言語で表現制御

audio tagsで話速や感情を指定、マルチスピーカーや多言語対応も強化

　米Googleは現地時間4月15日、音声生成AIモデル「Gemini 3.1 Flash TTS」を発表した。従来のテキスト読み上げ（Text-to-Speech）を拡張し、音声の表現力と制御性を高めた点が特徴となる。

　本モデルでは、テキスト内に指示を埋め込む「audio tags」により、話速や抑揚、感情表現などを自然言語で指定できる。ナレーション調や会話調といったスタイルの切り替えも柔軟に行え、従来のパラメータ設定型TTSに比べ直感的な操作が可能になった。

　対応言語は70以上に拡大。さらに、単一モデルで複数話者の音声を生成できるマルチスピーカー機能を備える。対話形式のコンテンツやポッドキャストなど、複数人の掛け合いを自然に再現できる点が特徴だ。

　音声品質については外部評価でも高い水準とされる一方、処理効率とのバランスも重視されている。また、生成音声には電子透かし技術「SynthID」が付与され、AI生成コンテンツの識別にも対応する。

　本モデルはプレビューとして、Gemini APIやGoogle AI Studio、Vertex AIで利用可能。Workspace領域ではGoogle Vidsとの連携も想定されている。

　音声AIはこれまで自然さが主な評価軸だったが、今回の進化は「意図した通りに表現できるか」という方向に軸足を移しつつある。生成AIは単なる読み上げツールから、音声コンテンツの演出やディレクションを担う領域へ広がりつつある。

参照サイト

Google The Keyword

Gemini 3.1 Flash TTS: the next generation of expressive AI speech