OpenAI Realtime APIモデル一覧|GPT-Realtime-2・Translate・Whisper・Miniの違いと業務導入の判断軸
OpenAIは2026年5月7日、Realtime APIで使える新しいボイスモデルとして gpt-realtime-2、gpt-realtime-translate、gpt-realtime-whisper を発表しました。ただし、Realtime系として見るべきモデルはこの3つだけではありません。公式モデル一覧では、gpt-realtime-1.5、gpt-realtime、gpt-realtime-mini、旧GPT-4o Realtime preview系、さらにChat Completions向けのAudioモデルも並びます。
結論: 複雑な音声エージェントならGPT-Realtime-2、通常の音声応答ならGPT-Realtime-1.5、低コストな音声応答ならGPT-Realtime-Mini、ライブ翻訳ならGPT-Realtime-Translate、ライブ文字起こしならGPT-Realtime-Whisperを起点にします。旧GPT-4o Realtime preview系は移行対象として扱い、Realtime接続が不要な音声処理はAudio系モデルと比較します。
本記事のポイント
- Realtime系は、GPT-Realtime-2、Translate、Whisper、1.5、Mini、旧previewを用途別に分けて選びます。
- 複雑な音声エージェントはGPT-Realtime-2、通常の音声応答は1.5、低コスト運用はMiniが候補です。
- 翻訳と文字起こしは専用モデルを使い、Chat Completions向けAudio系とは別枠で判断します。
この記事で扱うテーマ
このページで答える質問
- OpenAIのRealtime API系モデルには何がある?
- GPT-Realtime-2、Translate、Whisper、1.5、Miniの違いは?
- GPT-4o Realtime previewやAudio系モデルとは何が違う?
- BtoB業務ではどのRealtimeモデルから導入すべき?
Realtime APIの新ボイスモデルで何が変わったのか
OpenAIの公式発表では、3つの新モデルがRealtime APIで利用可能になったと説明されています。発表日は2026年5月7日です。GPT-Realtime-2は、より難しい依頼を扱い、会話を自然に進め、ツール利用を含む本番向けボイスエージェントを作るためのモデルとして位置づけられています。
同時に、GPT-Realtime-Translateは70以上の入力言語から13の出力言語へ、話者が話している途中に音声とテキストを返すライブ翻訳モデルとして紹介されています。GPT-Realtime-Whisperは、話された内容を低遅延で文字起こしし、字幕、会議メモ、会話ログをリアルタイムに生成する用途を狙ったモデルです。
つまり、今回の更新は「音声AIが少し自然になった」というだけではありません。これまでは、音声認識、LLM処理、音声合成、翻訳、字幕生成を複数の部品として組み合わせる設計が多くありました。新しいRealtime APIの整理では、目的別に専用セッションを選び、低遅延の音声体験を構築する方向がより明確になっています。
Realtime系モデルを一覧で整理する
モデル名が似ているため、導入検討では「どれが一番高性能か」から考えがちです。しかし実務では、Realtime APIで低遅延接続したいのか、翻訳や文字起こしだけをストリーミングしたいのか、通常のAPI呼び出しで音声を扱えば足りるのかを分ける方が判断しやすくなります。OpenAIのModelsページでは、Realtimeカテゴリに gpt-realtime-2、gpt-realtime-translate、gpt-realtime-1.5、gpt-realtime-mini が並んでいます。All modelsページでは、gpt-realtime-whisper、gpt-realtime、旧GPT-4o Realtime系、Audio系モデルも確認できます。
| モデル | 位置づけ | 向いている業務 | 注意点 |
|---|---|---|---|
| gpt-realtime-2 | 最も高機能なRealtime音声エージェント | 問い合わせ対応、予約変更、営業一次対応、社内ヘルプデスク | 推論量を上げるほど遅延や出力トークンが増える可能性がある |
| gpt-realtime-translate | ライブ音声翻訳専用 | 多言語サポート、海外商談、ウェビナー、イベント、教育 | 通常の会話エージェント用エンドポイントではなく翻訳専用エンドポイントを使う |
| gpt-realtime-whisper | ライブ文字起こし専用 | 字幕、議事録、商談ログ、採用面談ログ、コンタクトセンター分析 | 遅延を短くすると早く出るが、精度とのバランス評価が必要 |
| gpt-realtime-1.5 | 高品質な音声入出力モデル | 音声エージェント、顧客サポート、自然な会話体験 | GPT-Realtime-2ほどの推論・複雑なツール利用が必要かを比較する |
| gpt-realtime | 最初のGA Realtimeモデル | 既存Realtime実装、WebRTC・WebSocket・SIP接続の音声応答 | 新規導入では1.5、2、Miniとの性能・費用差を確認する |
| gpt-realtime-mini | 低コスト・高速版Realtime | 大量の一次応答、簡単な受付、低単価の音声UX | 複雑な推論や高精度な応答が必要な場面では上位モデルと比較する |
| GPT-4o Realtime preview系 | 旧preview系 | 過去に構築したRealtime試作や既存実装の確認 | 新規採用より、現行Realtimeモデルへの移行対象として見る |
| gpt-audio系 | Chat Completions向け音声モデル | Realtime接続が不要な音声入出力、短い音声処理 | WebRTCやSIPで低遅延会話を作るRealtimeモデルとは用途が異なる |
OpenAIのRealtime and audioガイドでも、音声エージェント、ライブ翻訳、ライブ文字起こしは異なるアーキテクチャとして整理されています。低遅延の会話が必要な場合はRealtimeセッション、ファイルや短いリクエスト単位の処理で足りる場合は従来の音声APIという切り分けも重要です。
GPT-Realtime-2は「話せるチャットボット」ではなく、音声で動くエージェント
gpt-realtime-2のモデルページでは、128,000コンテキスト、32,000最大出力トークン、音声入出力、画像入力、関数呼び出し対応が示されています。特にBtoB用途では、単に自然に話すだけでなく、CRMを参照する、日程候補を確認する、本人確認後に手続きを進めるといった「会話中の業務実行」に価値があります。
顧客対応に使う場合は、会話の途中で割り込まれても文脈を失わないこと、会社ごとの禁止表現を守ること、数字や固有名詞を聞き返せること、ツール実行前に確認を挟むことが重要です。これはAIエージェント自動化全般と同じで、モデル単体ではなく、権限、監査ログ、エスカレーションを含む業務設計として考える必要があります。
GPT-Realtime-1.5、gpt-realtime、Miniは音声応答の品質とコストで選ぶ
gpt-realtime-1.5は、音声エージェントや顧客サポート向けの高品質な音声入出力モデルとして位置づけられています。gpt-realtimeは最初のGA Realtimeモデルで、WebRTC、WebSocket、SIP接続で音声とテキストをリアルタイムに扱うモデルです。gpt-realtime-miniは、同じRealtime体験をより低コスト・高速に作るための選択肢です。
新規導入では、まずGPT-Realtime-2が必要なほど複雑な推論やツール利用があるかを見ます。一次受付、短い案内、FAQに近い応答、低単価で大量に処理する音声UXであれば、Miniを評価する余地があります。自然な会話品質を重視しつつ、複雑な推論までは求めない場合は、GPT-Realtime-1.5が比較対象になります。
GPT-Realtime-Translateは「会話後の翻訳」ではなく、進行中の通訳体験を作る
gpt-realtime-translateのモデルページでは、音声入力と音声・テキスト出力に対応し、料金はトークンではなく音声時間ベースで1分あたり0.034ドルと示されています。翻訳用途では、利用者が話し終わるまで待って全文翻訳するのではなく、入力音声が届いている間に翻訳音声と transcript delta を返す点が実務上の違いです。
海外顧客との商談、展示会の多言語案内、グローバルウェビナー、教育コンテンツでは、翻訳完了を待つ数秒の沈黙が体験を大きく損ないます。Realtime翻訳は、翻訳品質だけでなく、遅延、話者分離、字幕の出し方、原文ログと訳文ログの保存方針まで一緒に設計する必要があります。
GPT-Realtime-Whisperはライブ字幕と会話ログに向く
gpt-realtime-whisperのモデルページでは、低遅延の transcript delta が必要なライブ音声向けのストリーミング音声テキスト化モデルとして説明されています。料金は1分あたり0.017ドルです。会議や商談の終了後に録音ファイルを処理するだけなら別モデルで足りる場合がありますが、話している最中に字幕やメモを出したい場合は選択肢になります。
OpenAIのRealtime transcriptionガイドでは、GPT-Realtime-Whisperはライブ音声、 transcript delta、調整可能な遅延に向く一方、すべての文字起こしモデルを置き換えるものではなく、実際の音声、言語、専門用語、遅延要件でテストすべきとされています。医療、法務、採用、金融などの領域では、部分文字起こしをそのまま確定記録として扱わない運用も必要です。
GPT-4o Realtime preview系とAudio系は同じ棚に置かない
All modelsページには、旧GPT-4o Realtime preview系やGPT-4o mini Realtime preview系も残っています。これらは過去の実装や移行判断では確認対象になりますが、新規でRealtime音声エージェントを作る場合は、現行のGPT-Realtime系を優先して比較する方が自然です。
一方、gpt-audio-1.5、gpt-audio、gpt-audio-mini はChat Completions API向けの音声モデルです。音声ファイルや短い音声入出力をAPIリクエストとして処理する用途では候補になりますが、WebRTCやSIPで会話をつなぎ続けるRealtime APIのモデルとは設計が異なります。
料金と接続方式はモデルごとに見積もる
料金の見方もモデルごとに違います。OpenAIの発表では、GPT-Realtime-2は音声入力100万トークンあたり32ドル、キャッシュ入力100万トークンあたり0.40ドル、音声出力100万トークンあたり64ドルです。モデルページではテキストトークンや画像トークンの料金も併記されています。音声エージェントは入力音声、出力音声、テキスト、ツール実行後の追加会話が積み上がるため、1通話あたりの平均秒数とターン数で試算します。
GPT-Realtime-Translateは1分あたり0.034ドル、GPT-Realtime-Whisperは1分あたり0.017ドルです。翻訳や文字起こしは時間課金として見積もりやすい一方、同じ音声を複数言語へ翻訳する場合は、言語ごとにセッションを分ける構成になるため、配信規模に応じて費用が増えます。
接続方式は、ブラウザやモバイルでマイク入力と音声再生を直接扱うならWebRTC、サーバー側に音声パイプラインがあるならWebSocket、電話網との接続ではSIPを検討します。ただし、翻訳や文字起こしでSIPを使う場合はモデル対応を確認する必要があります。社内システムに組み込む際は、既存の通話基盤、録音基盤、CRM、SFA、問い合わせ管理とどこで接続するかを先に決めておくと、PoC後の作り直しを減らせます。
BtoBで導入しやすいユースケース
最初の導入先は、AIに任せる範囲を狭く切れる業務から選ぶのが現実的です。複雑な交渉や例外処理を最初から任せるより、短い会話、明確な判定、CRMへの記録、担当者への引き継ぎがある業務の方が検証しやすくなります。
問い合わせ一次対応
営業時間外の一次受付、資料請求後の確認、既存顧客からの簡単な手続き確認は、音声エージェントと相性があります。GPT-Realtime-2で会話し、CRMやFAQを参照し、一定条件を満たしたら人間へ転送する設計です。ここでは「解決率」だけでなく、誤案内率、転送率、本人確認失敗率、会話放棄率を見ます。
海外商談・イベント・ウェビナーの通訳
GPT-Realtime-Translateは、海外顧客との商談やイベント配信で、話者が話している最中に訳音声と字幕を出す用途に向きます。展示会やウェビナーのように、同じ説明を複数言語で届けたい場面では、参加者ごとの理解負荷を下げられます。BtoBイベント運営では、カンファレンス運営チェックリストと同じく、当日の音声導線、字幕表示、トラブル時の代替導線を事前に決めることが重要です。
商談・面談・サポート通話のライブ記録
GPT-Realtime-Whisperは、会話をしながら字幕、議事メモ、CRM入力の下書きを作る用途に向きます。営業組織では、通話後の入力漏れ、ヒアリング項目の欠落、次回アクションの曖昧さが成果を落とします。音声ログをリアルタイムに構造化することで、AIエージェントのKPI設計や営業改善にもつなげやすくなります。
本番導入前に確認すべき6つの項目
Realtime APIの音声AIは、デモだけを見ると導入が簡単に見えます。しかし本番で使うには、モデル選定よりも運用設計の方が成果を左右します。少なくとも次の6項目はPoC前に確認します。
1. AIが話していることをどう明示するか
OpenAIの発表では、開発者はエンドユーザーがAIとやり取りしていることを明確にする必要があると説明されています。電話、チャット、ウェビナー、社内会議のいずれでも、AI利用の明示、録音・文字起こしの同意、ログ保存期間をユーザー体験に組み込む必要があります。
2. どのタイミングで人間へ引き継ぐか
音声エージェントは、すべてを自動化するほど危険が増えます。契約、返金、医療・法務・金融判断、苦情、本人確認失敗、感情的な会話は、人間へ引き継ぐ条件を明確にします。営業電話AIでも同じですが、AIの役割を一次対応や記録に絞るだけで、実用化の難易度は大きく下がります。
3. 遅延と精度をどの指標で評価するか
音声AIでは、精度だけでなく待ち時間が体験を左右します。文字起こしなら、0.4秒、0.8から1.2秒、1.5から2.0秒、3.0秒といった遅延目標を実音声で比較します。電話対応なら、沈黙時間、割り込み後の復帰、数字や固有名詞の聞き返し、長時間会話での文脈維持を評価します。
4. 専門用語、固有名詞、数字の扱いを決める
BtoBの会話では、会社名、製品名、型番、日程、金額、契約番号が頻繁に出ます。音声認識や翻訳でここが崩れると、業務上の損失につながります。重要語のリスト、聞き返しルール、復唱ルール、保存前の確認ステップを用意します。
5. 会話ログと監査ログを分けて保存する
音声そのもの、文字起こし、翻訳文、AIの回答、ツール呼び出し、担当者への引き継ぎ理由は、同じログではありません。個人情報を含む会話ログと、運用改善に使う集計ログ、監査のための操作ログを分けて扱うことで、改善とガバナンスを両立しやすくなります。
6. 本番前に代表的な失敗会話を集める
きれいなデモ音声だけで判断すると、本番で破綻しやすくなります。雑音、早口、方言、電話回線の劣化、途中で話題が変わる会話、怒っている顧客、複数人が同時に話す場面、専門用語を含む商談をテストデータに入れます。成功例だけでなく、失敗例を評価セットに入れることが重要です。
よくある質問
GPT-Realtime-2だけで翻訳や文字起こしもできますか?
音声入出力やテキスト出力を扱えるため用途によっては近いことができます。ただし、OpenAIのガイドでは、ライブ翻訳は/v1/realtime/translations、ライブ文字起こしはtranscription sessionという専用の設計が示されています。翻訳や字幕が主目的なら、専用モデルを起点に考える方が実装と運用が明確です。
GPT-Realtime-1.5やMiniではなくGPT-Realtime-2を選ぶ基準は何ですか?
複雑な依頼を理解する、会話中に複数のツールを使う、割り込み後も文脈を保つ、業務ルールを強く守らせるといった要件がある場合はGPT-Realtime-2を優先して評価します。短い一次受付やFAQ応答が中心なら、GPT-Realtime-1.5やMiniも比較対象になります。
既存のWhisperや録音ファイル文字起こしは不要になりますか?
不要になるとは限りません。GPT-Realtime-Whisperはライブ音声の低遅延文字起こしに向くモデルです。録音済みファイルを後から高精度に処理する、話者分離を重視する、コスト優先でバッチ処理する場合は、別の音声テキスト化モデルや既存フローが向くことがあります。
gpt-audio系モデルとRealtime系モデルはどう使い分けますか?
会話をつなぎ続け、低遅延で音声を返し、WebRTC・WebSocket・SIPで接続するならRealtime系です。音声付きのAPIリクエストをChat Completionsで処理するだけなら、gpt-audio系モデルが候補になります。通話体験を作るか、音声処理リクエストを処理するかで分けます。
日本語の業務利用で最初に試すべき用途は何ですか?
最初は、問い合わせ一次受付、商談メモ、社内会議字幕、海外ウェビナー通訳のように、AIの失敗時に人間が補正しやすい用途から始めるのが現実的です。契約判断、クレーム処理、医療・法務・金融判断など、誤回答の影響が大きい業務は、引き継ぎ条件と監査ログを先に設計します。
料金はどのように見積もればよいですか?
音声エージェントは、1通話あたりの平均時間、ターン数、音声入力、音声出力、テキスト処理、ツール利用後の追加会話で見積もります。翻訳と文字起こしは分単位の料金が示されているため、利用時間、同時接続数、対象言語数を掛け合わせて試算します。PoCでは、成功した会話だけでなく、長引いた会話や人間へ引き継いだ会話も含めて平均コストを出します。
Realtime APIを導入する前に社内で決めるべきことは何ですか?
AI利用の明示、録音・文字起こしの同意、個人情報の保存範囲、ログ保存期間、人間への引き継ぎ条件、失敗時の責任分界、評価指標を決めます。技術検証だけを先に進めると、本番直前に法務、セキュリティ、現場運用で止まりやすくなります。
まとめ
Realtime APIのモデル群は、BtoB企業が音声AIを「話すデモ」から「業務で使う仕組み」へ進めるための選択肢です。GPT-Realtime-2は複雑な音声エージェント、GPT-Realtime-1.5は高品質な音声応答、GPT-Realtime-Miniは低コスト運用、GPT-Realtime-Translateは進行中の音声翻訳、GPT-Realtime-Whisperはライブ文字起こしというように、目的別にモデルとセッションを分けて考えると設計が安定します。
導入検討では、最新モデルの性能だけでなく、接続方式、遅延、費用、ログ、同意、引き継ぎ、評価セットまで具体化することが重要です。特に顧客接点で使う場合は、小さな業務範囲から始め、失敗会話を集めながら改善する進め方が現実的です。