ChatGPT Images 2.0発表、推論対応の画像生成へ進化
- 白石 奈々

- 3 日前
- 読了時間: 2分

複数画像の一貫生成や文字描画を強化、ChatGPTとCodexで提供開始
米OpenAIは現地時間4月21日、ChatGPTの画像生成機能を強化した「ChatGPT Images 2.0」を発表した。テキスト生成で培った推論能力(thinking)を取り込み、複雑なプロンプトでも構図や要素、スタイルを踏まえた一貫性のあるビジュアル生成に対応した点が特徴だ。単なるキーワード入力ではなく、意図や文脈を含む指示を解釈し、より精度の高い出力につなげる。
一貫性と実用性を高める生成機能
機能面では、1つのプロンプトから複数画像を同一トーンで生成できるほか、キャラクターや配色の整合性も維持される。これにより、ストーリーボードや広告クリエイティブなど、連続性が求められる制作領域での活用が現実的になった。あわせて、画像内テキストの描画精度も改善され、日本語を含む多言語テキストに対応。ポスターやバナーといった実用的なデザイン制作にも適用しやすくなっている。


文脈理解を伴うビジュアル生成
さらに、thinkingモデル利用時には外部情報やアップロードファイルを踏まえた画像生成も可能となる。テキスト生成と同様に文脈理解を伴う形でビジュアルを生成できる点は従来との大きな違いであり、単なるイラスト生成ツールから、情報を反映したビジュアル生成ツールへと位置付けが広がりつつある。

提供範囲と利用条件
ChatGPT Images 2.0はChatGPTおよびCodexの全ユーザー向けに提供が開始されており、基本機能は広く利用可能だ。一方で、推論を伴う高度な生成機能などは有料プランを中心に提供される。なお、推論プロセスを組み込んだ影響で、生成時間は従来より長くなる場合もあるが、複雑な指示への追従性や完成度とのバランスを考慮した設計といえる。
画像生成AIの転換点
画像生成AIは「プロンプトで出力する」段階から、「意図を理解して設計する」段階へと移行している。ChatGPT Images 2.0は、その変化を具体的な機能として示したアップデートだ。
参照サイト
OpenAI
Introducing ChatGPT Images 2.0


