OpenAIのRealtime API新ボイスモデルとは?GPT-Realtime-2・Translate・Whisperの違いと業務導入の判断軸
OpenAIは2026年5月7日、Realtime APIで使える新しいボイスモデルとして gpt-realtime-2、gpt-realtime-translate、gpt-realtime-whisper を発表しました。音声AIの導入を検討する企業にとって重要なのは、「新しいモデルが出た」こと自体ではなく、音声エージェント、リアルタイム通訳、ライブ文字起こしを別々の業務要件として設計しやすくなった点です。
結論: 顧客や従業員と会話しながら判断・実行するならGPT-Realtime-2、話された内容を別言語で届けたいならGPT-Realtime-Translate、字幕・議事録・会話ログを低遅延で作りたいならGPT-Realtime-Whisperを候補にします。導入前には、用途、接続方式、遅延許容、料金、安全設計、運用評価を分けて確認する必要があります。
本記事のポイント
- 3モデルは役割が異なり、音声エージェント、通訳、文字起こしを同じ選定軸でまとめないことが重要です。
- 会話しながら業務を実行するならGPT-Realtime-2、翻訳や字幕だけなら専用モデルを起点にします。
- 本番導入では、接続方式、遅延、料金、AI利用の明示、ログ保存、人間への引き継ぎを先に決めます。
この記事で扱うテーマ
このページで答える質問
- OpenAIのRealtime API新ボイスモデルは何が変わった?
- GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisperの違いは?
- BtoB業務ではどの用途から導入すべき?
- Realtime APIの音声AIを本番導入する前に何を確認すべき?
Realtime APIの新ボイスモデルで何が変わったのか
OpenAIの公式発表では、3つの新モデルがRealtime APIで利用可能になったと説明されています。発表日は2026年5月7日です。GPT-Realtime-2は、より難しい依頼を扱い、会話を自然に進め、ツール利用を含む本番向けボイスエージェントを作るためのモデルとして位置づけられています。
同時に、GPT-Realtime-Translateは70以上の入力言語から13の出力言語へ、話者が話している途中に音声とテキストを返すライブ翻訳モデルとして紹介されています。GPT-Realtime-Whisperは、話された内容を低遅延で文字起こしし、字幕、会議メモ、会話ログをリアルタイムに生成する用途を狙ったモデルです。
つまり、今回の更新は「音声AIが少し自然になった」というだけではありません。これまでは、音声認識、LLM処理、音声合成、翻訳、字幕生成を複数の部品として組み合わせる設計が多くありました。新しいRealtime APIの整理では、目的別に専用セッションを選び、低遅延の音声体験を構築する方向がより明確になっています。
3つのモデルの違いを用途で整理する
モデル名が似ているため、導入検討では「どれが一番高性能か」から考えがちです。しかし実務では、次のように用途で分けた方が判断しやすくなります。
| モデル | 主な用途 | 向いている業務 | 注意点 |
|---|---|---|---|
| gpt-realtime-2 | 音声エージェント | 問い合わせ対応、予約変更、営業一次対応、社内ヘルプデスク | 推論量を上げるほど遅延や出力トークンが増える可能性がある |
| gpt-realtime-translate | リアルタイム音声翻訳 | 多言語サポート、海外商談、ウェビナー、イベント、教育 | 通常の会話エージェント用エンドポイントではなく翻訳専用エンドポイントを使う |
| gpt-realtime-whisper | ライブ文字起こし | 字幕、議事録、商談ログ、採用面談ログ、コンタクトセンター分析 | 遅延を短くすると早く出るが、精度とのバランス評価が必要 |
OpenAIのRealtime and audioガイドでも、音声エージェント、ライブ翻訳、ライブ文字起こしは異なるアーキテクチャとして整理されています。低遅延の会話が必要な場合はRealtimeセッション、ファイルや短いリクエスト単位の処理で足りる場合は従来の音声APIという切り分けも重要です。
GPT-Realtime-2は「話せるチャットボット」ではなく、音声で動くエージェント
gpt-realtime-2のモデルページでは、128,000コンテキスト、32,000最大出力トークン、音声入出力、画像入力、関数呼び出し対応が示されています。特にBtoB用途では、単に自然に話すだけでなく、CRMを参照する、日程候補を確認する、本人確認後に手続きを進めるといった「会話中の業務実行」に価値があります。
顧客対応に使う場合は、会話の途中で割り込まれても文脈を失わないこと、会社ごとの禁止表現を守ること、数字や固有名詞を聞き返せること、ツール実行前に確認を挟むことが重要です。これはAIエージェント自動化全般と同じで、モデル単体ではなく、権限、監査ログ、エスカレーションを含む業務設計として考える必要があります。
GPT-Realtime-Translateは「会話後の翻訳」ではなく、進行中の通訳体験を作る
gpt-realtime-translateのモデルページでは、音声入力と音声・テキスト出力に対応し、料金はトークンではなく音声時間ベースで1分あたり0.034ドルと示されています。翻訳用途では、利用者が話し終わるまで待って全文翻訳するのではなく、入力音声が届いている間に翻訳音声と transcript delta を返す点が実務上の違いです。
海外顧客との商談、展示会の多言語案内、グローバルウェビナー、教育コンテンツでは、翻訳完了を待つ数秒の沈黙が体験を大きく損ないます。Realtime翻訳は、翻訳品質だけでなく、遅延、話者分離、字幕の出し方、原文ログと訳文ログの保存方針まで一緒に設計する必要があります。
GPT-Realtime-Whisperはライブ字幕と会話ログに向く
gpt-realtime-whisperのモデルページでは、低遅延の transcript delta が必要なライブ音声向けのストリーミング音声テキスト化モデルとして説明されています。料金は1分あたり0.017ドルです。会議や商談の終了後に録音ファイルを処理するだけなら別モデルで足りる場合がありますが、話している最中に字幕やメモを出したい場合は選択肢になります。
OpenAIのRealtime transcriptionガイドでは、GPT-Realtime-Whisperはライブ音声、 transcript delta、調整可能な遅延に向く一方、すべての文字起こしモデルを置き換えるものではなく、実際の音声、言語、専門用語、遅延要件でテストすべきとされています。医療、法務、採用、金融などの領域では、部分文字起こしをそのまま確定記録として扱わない運用も必要です。
料金と接続方式はモデルごとに見積もる
料金の見方もモデルごとに違います。OpenAIの発表では、GPT-Realtime-2は音声入力100万トークンあたり32ドル、キャッシュ入力100万トークンあたり0.40ドル、音声出力100万トークンあたり64ドルです。モデルページではテキストトークンや画像トークンの料金も併記されています。音声エージェントは入力音声、出力音声、テキスト、ツール実行後の追加会話が積み上がるため、1通話あたりの平均秒数とターン数で試算します。
GPT-Realtime-Translateは1分あたり0.034ドル、GPT-Realtime-Whisperは1分あたり0.017ドルです。翻訳や文字起こしは時間課金として見積もりやすい一方、同じ音声を複数言語へ翻訳する場合は、言語ごとにセッションを分ける構成になるため、配信規模に応じて費用が増えます。
接続方式は、ブラウザやモバイルでマイク入力と音声再生を直接扱うならWebRTC、サーバー側に音声パイプラインがあるならWebSocket、電話網との接続ではSIPを検討します。ただし、翻訳や文字起こしでSIPを使う場合はモデル対応を確認する必要があります。社内システムに組み込む際は、既存の通話基盤、録音基盤、CRM、SFA、問い合わせ管理とどこで接続するかを先に決めておくと、PoC後の作り直しを減らせます。
BtoBで導入しやすいユースケース
最初の導入先は、AIに任せる範囲を狭く切れる業務から選ぶのが現実的です。複雑な交渉や例外処理を最初から任せるより、短い会話、明確な判定、CRMへの記録、担当者への引き継ぎがある業務の方が検証しやすくなります。
問い合わせ一次対応
営業時間外の一次受付、資料請求後の確認、既存顧客からの簡単な手続き確認は、音声エージェントと相性があります。GPT-Realtime-2で会話し、CRMやFAQを参照し、一定条件を満たしたら人間へ転送する設計です。ここでは「解決率」だけでなく、誤案内率、転送率、本人確認失敗率、会話放棄率を見ます。
海外商談・イベント・ウェビナーの通訳
GPT-Realtime-Translateは、海外顧客との商談やイベント配信で、話者が話している最中に訳音声と字幕を出す用途に向きます。展示会やウェビナーのように、同じ説明を複数言語で届けたい場面では、参加者ごとの理解負荷を下げられます。BtoBイベント運営では、カンファレンス運営チェックリストと同じく、当日の音声導線、字幕表示、トラブル時の代替導線を事前に決めることが重要です。
商談・面談・サポート通話のライブ記録
GPT-Realtime-Whisperは、会話をしながら字幕、議事メモ、CRM入力の下書きを作る用途に向きます。営業組織では、通話後の入力漏れ、ヒアリング項目の欠落、次回アクションの曖昧さが成果を落とします。音声ログをリアルタイムに構造化することで、AIエージェントのKPI設計や営業改善にもつなげやすくなります。
本番導入前に確認すべき6つの項目
Realtime APIの音声AIは、デモだけを見ると導入が簡単に見えます。しかし本番で使うには、モデル選定よりも運用設計の方が成果を左右します。少なくとも次の6項目はPoC前に確認します。
1. AIが話していることをどう明示するか
OpenAIの発表では、開発者はエンドユーザーがAIとやり取りしていることを明確にする必要があると説明されています。電話、チャット、ウェビナー、社内会議のいずれでも、AI利用の明示、録音・文字起こしの同意、ログ保存期間をユーザー体験に組み込む必要があります。
2. どのタイミングで人間へ引き継ぐか
音声エージェントは、すべてを自動化するほど危険が増えます。契約、返金、医療・法務・金融判断、苦情、本人確認失敗、感情的な会話は、人間へ引き継ぐ条件を明確にします。営業電話AIでも同じですが、AIの役割を一次対応や記録に絞るだけで、実用化の難易度は大きく下がります。
3. 遅延と精度をどの指標で評価するか
音声AIでは、精度だけでなく待ち時間が体験を左右します。文字起こしなら、0.4秒、0.8から1.2秒、1.5から2.0秒、3.0秒といった遅延目標を実音声で比較します。電話対応なら、沈黙時間、割り込み後の復帰、数字や固有名詞の聞き返し、長時間会話での文脈維持を評価します。
4. 専門用語、固有名詞、数字の扱いを決める
BtoBの会話では、会社名、製品名、型番、日程、金額、契約番号が頻繁に出ます。音声認識や翻訳でここが崩れると、業務上の損失につながります。重要語のリスト、聞き返しルール、復唱ルール、保存前の確認ステップを用意します。
5. 会話ログと監査ログを分けて保存する
音声そのもの、文字起こし、翻訳文、AIの回答、ツール呼び出し、担当者への引き継ぎ理由は、同じログではありません。個人情報を含む会話ログと、運用改善に使う集計ログ、監査のための操作ログを分けて扱うことで、改善とガバナンスを両立しやすくなります。
6. 本番前に代表的な失敗会話を集める
きれいなデモ音声だけで判断すると、本番で破綻しやすくなります。雑音、早口、方言、電話回線の劣化、途中で話題が変わる会話、怒っている顧客、複数人が同時に話す場面、専門用語を含む商談をテストデータに入れます。成功例だけでなく、失敗例を評価セットに入れることが重要です。
よくある質問
GPT-Realtime-2だけで翻訳や文字起こしもできますか?
音声入出力やテキスト出力を扱えるため用途によっては近いことができます。ただし、OpenAIのガイドでは、ライブ翻訳は/v1/realtime/translations、ライブ文字起こしはtranscription sessionという専用の設計が示されています。翻訳や字幕が主目的なら、専用モデルを起点に考える方が実装と運用が明確です。
既存のWhisperや録音ファイル文字起こしは不要になりますか?
不要になるとは限りません。GPT-Realtime-Whisperはライブ音声の低遅延文字起こしに向くモデルです。録音済みファイルを後から高精度に処理する、話者分離を重視する、コスト優先でバッチ処理する場合は、別の音声テキスト化モデルや既存フローが向くことがあります。
日本語の業務利用で最初に試すべき用途は何ですか?
最初は、問い合わせ一次受付、商談メモ、社内会議字幕、海外ウェビナー通訳のように、AIの失敗時に人間が補正しやすい用途から始めるのが現実的です。契約判断、クレーム処理、医療・法務・金融判断など、誤回答の影響が大きい業務は、引き継ぎ条件と監査ログを先に設計します。
料金はどのように見積もればよいですか?
音声エージェントは、1通話あたりの平均時間、ターン数、音声入力、音声出力、テキスト処理、ツール利用後の追加会話で見積もります。翻訳と文字起こしは分単位の料金が示されているため、利用時間、同時接続数、対象言語数を掛け合わせて試算します。PoCでは、成功した会話だけでなく、長引いた会話や人間へ引き継いだ会話も含めて平均コストを出します。
Realtime APIを導入する前に社内で決めるべきことは何ですか?
AI利用の明示、録音・文字起こしの同意、個人情報の保存範囲、ログ保存期間、人間への引き継ぎ条件、失敗時の責任分界、評価指標を決めます。技術検証だけを先に進めると、本番直前に法務、セキュリティ、現場運用で止まりやすくなります。
まとめ
Realtime APIの新ボイスモデルは、BtoB企業が音声AIを「話すデモ」から「業務で使う仕組み」へ進めるための選択肢です。GPT-Realtime-2は会話しながら判断・実行する音声エージェント、GPT-Realtime-Translateは進行中の音声翻訳、GPT-Realtime-Whisperはライブ文字起こしというように、目的別にモデルとセッションを分けて考えると設計が安定します。
導入検討では、最新モデルの性能だけでなく、接続方式、遅延、費用、ログ、同意、引き継ぎ、評価セットまで具体化することが重要です。特に顧客接点で使う場合は、小さな業務範囲から始め、失敗会話を集めながら改善する進め方が現実的です。