先に結論
Whisper とは、OpenAI が公開している音声認識モデルで、音声をテキストへ変える Speech to Text の代表例として広く知られています。
OpenAI API では長く whisper-1 が文字起こしの中心でしたが、2026年4月23日時点の公式ドキュメントでは、/v1/audio/transcriptions は gpt-4o-transcribe 系もサポートしています。
ここが少しややこしいです。
今でも Whisper API という言い方は通じますが、実際の OpenAI Audio API では次のように分けて理解するとズレにくいです。
whisper-1: 伝統的な音声認識モデルgpt-4o-transcribe/gpt-4o-mini-transcribe: 新しい文字起こし向けモデルgpt-4o-transcribe-diarize: 話者分離つき文字起こし向けモデル
つまり、Whisper = 音声認識の基本を知る入口 でありつつ、今の API 全体では Whisper だけではない というのが現在の整理です。
この記事では、2026年4月23日時点の OpenAI Developers の
Speech to textガイドと/v1/audio/transcriptionsの API リファレンスを確認しながら整理しています。
Whisperとは何か
Whisper は、音声をテキストへ変換するための音声認識モデルです。
実務でよく言う 文字起こし、書き起こし、音声のテキスト化 が主な役割です。
たとえば次のような用途で使われます。
- 会議録音の文字起こし
- インタビュー音声の書き起こし
- 動画の字幕づくり
- 音声データの検索用テキスト化
- 外国語音声の英訳つき文字起こし
音声を理解して要約するAI というより、まずは 音声をテキストへ落とす土台 と考えると分かりやすいです。
そのうえで、要約や議事録整形は別モデルや後段処理へつなぐ構成が自然です。
OpenAIの音声認識APIでできること
OpenAI の Speech to text ガイドでは、Audio API に次の2つのエンドポイントがあると案内されています。
transcriptionstranslations
これを用途で言い換えるとこうです。
| できること | 何をするか |
|---|---|
| 文字起こし | 音声の言語のままテキスト化する |
| 翻訳つき文字起こし | 音声を英語テキストへ変換する |
特に translations は少し誤解されやすいですが、2026年4月23日時点の公式ドキュメントでは 英語への翻訳のみ です。
多言語へ自由に訳す API ではありません。
文字起こしAPIの基本
一番よく使うのは /v1/audio/transcriptions です。
音声ファイルを送ると、文字起こし結果が返ります。
OpenAI の API リファレンスでは、2026年4月23日時点で次のようなモデルが使えます。
whisper-1gpt-4o-transcribegpt-4o-mini-transcribegpt-4o-transcribe-diarize
ここで大事なのは、Whisper だけが唯一の選択肢ではない ことです。
記事タイトル上は Whisper を入口にしていますが、実装判断では 今どのモデルで何ができるか を見る方が正確です。
Whisperでできること
whisper-1 で押さえたいのは、文字起こしの基本機能が一通りそろっていることです。
1. 音声をその言語のまま文字起こしする
たとえば日本語の会議音声を入れれば、日本語テキストとして返す使い方です。
字幕作成や議事録のたたき台でまず使われるのはこれです。
2. 音声を英語へ翻訳しながら文字起こしする
/v1/audio/translations は whisper-1 のみ対応です。
たとえばドイツ語音声を入れて、英語テキストで受け取るような使い方ができます。
3. タイムスタンプを付ける
これは Whisper を説明するときにかなり大事です。
公式ドキュメントでは timestamp_granularities[] を使って、単語単位やセグメント単位の時刻情報を返せます。
たとえば、
- 字幕と音声の位置合わせ
- 動画編集時のカット位置把握
- どの単語が何秒に出たかの検索
のような用途で便利です。
2026年4月23日時点の公式ガイドでは、timestamp_granularities[] は whisper-1 のみ対応 とされています。
ここは gpt-4o-transcribe 系との違いとして覚えておくと実務で迷いにくいです。
4. 出力形式を変える
Whisper では json、text、srt、verbose_json、vtt の形式に対応しています。
そのため、ただ文章を返すだけでなく、字幕ファイル向けや詳細情報つきの形式へ出し分けられます。
今の OpenAI API で Whisper だけを見てよいのか
ここは 半分 yes、半分 no です。
音声認識の基本を理解する入口として Whisper を知るのはかなり自然です。
ただし、今の OpenAI API では文字起こし向けモデルとして gpt-4o-transcribe 系も並んでいます。
公式ドキュメントでは、transcriptions エンドポイントは whisper-1 に加えて gpt-4o-mini-transcribe、gpt-4o-transcribe、gpt-4o-transcribe-diarize をサポートすると案内されています。
そのため実務では、次のように見るのが分かりやすいです。
| 観点 | whisper-1 |
gpt-4o-transcribe 系 |
|---|---|---|
| 位置づけ | 伝統的な音声認識モデル | 現行の高品質文字起こし系 |
| 翻訳API | translations で使える |
translations では使わない |
| タイムスタンプ | 単語・セグメント対応 | 公式ガイド上は対象外 |
| ストリーミング完了音声の逐次返却 | 非対応 | 対応 |
| プロンプトでの補助 | 制約あり | より一般的なプロンプト補助が可能 |
つまり、Whisperとは? を調べている人でも、実装するときは Whisper 単体ではなく Audio API 全体の中でどのモデルを選ぶか を見る必要があります。
文字起こしの基本で押さえたい制約
OpenAI の Speech to text ガイドでは、ファイルアップロードに関して次の制約が案内されています。
- ファイルサイズは 25 MB まで
- 対応形式は
mp3mp4mpegmpgam4awavwebm
長い録音ファイルをそのまま投げたい場面は多いですが、25 MB を超える場合は分割や圧縮が必要です。
公式ガイドでも、長い入力はチャンクに分ける方法が紹介されています。
ここで大事なのは、分割するときに文の途中で切らない方がよい ことです。
文脈が切れると認識精度が落ちやすくなります。
プロンプトで文字起こしを補助できる
OpenAI のガイドでは、文字起こし精度を上げるために prompt を使えると案内されています。
たとえば次のような用途です。
- 固有名詞や略語の誤認識を減らす
- 句読点つきの出力へ寄せる
- フィラーを残したいことを伝える
- 分割した前のチャンク文脈を渡す
特に業務用語、商品名、社内略語が多い音声ではかなり効きます。
会議録で GPU が別単語になったり、サービス名が崩れたりするのは実務でよくあります。
ただし Whisper については、公式ガイドでも プロンプトの効き方は他の言語モデルより制限が強い と説明されています。
2026年4月23日時点のガイドでは、whisper-1 はプロンプト末尾 224 トークンしか見ないという注意もあります。
ストリーミング文字起こしはできるか
できます。
ただし、ここも Whisper = 何でも同じようにできる ではありません。
公式ガイドでは、完了済み録音ファイルに対して stream=true を付けると、transcript.text.delta などのイベントを受け取りながら逐次的に文字起こしを受け取れます。
一方で、2026年4月23日時点のガイドでは streamed transcription は whisper-1 非対応 と明記されています。
この違いは大きいです。
たとえば、
- バッチ的に録音ファイルを文字起こしする
- UI上で少しずつ結果を見せたい
なら gpt-4o-transcribe 系が候補になります。
リアルタイム音声認識との違い
OpenAI のガイドでは、進行中の音声ストリームを扱う場合は Realtime API 側の transcription session を使う方法も案内されています。
これは 録音済みファイルを後で文字起こしする のとは少し別物です。
リアルタイム会話、通話、ライブ字幕のように、その場で音声を流し込みながら処理する用途で使います。
つまり、ざっくり分けるとこうです。
- 録音済みファイルの文字起こし: Audio API
- 進行中音声の認識: Realtime API
音声認識API と一言で言っても、ここを混同しない方が実務では設計しやすいです。
文字起こしでよくある誤解
1. Whisper は要約まで自動でやってくれる
違います。
Whisper の中心は音声認識です。要約や議事録整形は後段で別処理に分ける方が自然です。
2. 翻訳APIなら何語にも訳せる
OpenAI の Speech to text ガイドでは、translations は 英語への翻訳のみ です。
多言語字幕を全部ここだけでまかなう前提では見ない方が安全です。
3. Whisper が今の OpenAI 文字起こしの全部だ
これも違います。
現在の公式ドキュメントでは gpt-4o-transcribe 系が並んでいるため、Whisper はあくまで選択肢のひとつです。
4. 長い音声もそのまま無制限に投げられる
25 MB 制限があるので、長尺音声では分割や圧縮の設計が必要です。
実務ではどう使うとよいか
迷ったら次の分け方がかなり素直です。
まず文字起こしの仕組みを理解したい: Whisper を基準に把握する字幕や単語タイムスタンプが欲しい:whisper-1を検討する現行の高品質文字起こしを使いたい:gpt-4o-transcribe系を検討する話者分離したい:gpt-4o-transcribe-diarizeを見る進行中の音声をその場で扱いたい: Realtime API 側も見る
要するに、Whisper は今でも重要ですが、OpenAI の音声認識APIを理解するには Whisper だけ見れば十分、とはもう言いにくい というのが現在の実態です。
まとめ
Whisper とは、OpenAI の代表的な音声認識モデルで、会議音声、字幕、インタビュー、録音データの文字起こしで広く知られています。
API では音声のまま文字起こしする transcriptions と、英語へ翻訳しながら文字起こしする translations が基本です。
ただし、2026年4月23日時点の OpenAI 公式ドキュメントでは、/v1/audio/transcriptions は whisper-1 だけでなく gpt-4o-transcribe 系もサポートしています。
そのため、Whisperとは何か を理解したうえで、実装時は タイムスタンプが必要か、ストリーミングが必要か、話者分離が必要か まで見てモデルを選ぶのが実務的です。
参考リンク
- OpenAI Developers: Speech to text
- OpenAI API Reference: Create transcription