OpenAI、音声AI向け新モデル3種をAPI提供開始

白石奈々
1 日前
読了時間: 2分

音声入力70言語超に対応する翻訳モデルや、話しながらリアルタイムで書き起こすWhisperモデルも同時公開

　米OpenAIは現地時間5月7日、音声アプリ開発者向けに新世代のリアルタイム音声モデル3種をAPIで提供開始した。単純な呼びかけと返答を超え、会話しながら推論・翻訳・文字起こしまでこなす音声インターフェースの構築を可能にするという。

GPT-5クラスの推論力を持つ音声モデル「GPT‑Realtime‑2」

　今回の中核となる「GPT‑Realtime‑2」は、OpenAIとして初めてGPT-5クラスの推論能力を音声モデルに搭載した。複雑なリクエストへの対応や会話の文脈管理、ツール呼び出しの並列実行などに対応する。音声推論能力を測る「Big Bench Audio」では前世代の「GPT‑Realtime‑1.5」比で15.2%、会話知性を測る「Audio MultiChallenge」では13.8%それぞれ性能が向上したとしている。

70言語以上の音声をリアルタイム翻訳「GPT‑Realtime‑Translate」

　「GPT‑Realtime‑Translate」は、70言語以上の音声入力を13言語の音声出力へリアルタイムで翻訳するモデルだ。話者のペースに追いつきながら翻訳を行うとしており、企業の多言語カスタマーサポートなどへの活用が見込まれる。ドイツテレコムはすでにこのモデルを用いた自然な多言語対応の実証実験を進めているという。

話しながらリアルタイムで書き起こす「GPT‑Realtime‑Whisper」

　「GPT‑Realtime‑Whisper」は、話者が話している最中にリアルタイムで文字起こしを行うストリーミング型の音声認識モデルだ。従来の音声認識と異なり、発話の完了を待たずに随時テキストを出力する。

カスタマーサポートや音声エージェントへの活用が進む

　OpenAIは今回の発表に合わせ、音声AIの活用が「音声からアクション」「システムから音声」「音声から音声」の3つのパターンを中心に広がりつつあると説明した。不動産情報サービスのZillowはGPT‑Realtime‑2を活用した音声エージェントの早期テストを実施し、通話の成功率とコンプライアンス対応の改善を報告しているという。また、EU向けにはデータ居住要件（EU Data Residency）にも対応するとしており、欧州企業での導入も視野に入れた設計となっている。

参照サイト

OpenAI

Advancing voice intelligence with new models in the API

https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/