Whisper は、OpenAI が公開した音声認識モデルです。音声をテキストへ変換する Speech to Text の代表例として知られていて、会議録音、インタビュー、字幕づくり、音声データの検索用テキスト化などでよく話題になります。
まず押さえたいポイント
- OpenAI の音声認識モデル名
- 主な役割は音声の文字起こし
- 音声をその言語のままテキスト化できる
- 英語への翻訳つき文字起こしにも使われる
- 今の OpenAI Audio API では Whisper 以外の文字起こしモデルもある
どんな場面で使うか
Whisper は、録音データをテキスト化したい場面で使われます。たとえば、会議の議事録作成、動画字幕のたたき台、インタビューの書き起こし、サポート通話ログの整理などです。まずは音声を文字へ落とし、そのあとで要約や分類を別処理に回す流れの入口として使われることが多いです。
また、OpenAI の Speech to text ガイドでは、transcriptions と translations の2系統が案内されています。後者は音声を英語テキストへ変換する用途で、2026年4月23日時点では whisper-1 が対応モデルです。
よくある誤解
Whisper は 音声を理解して要約まで全部やるAI ではありません。中心はあくまで音声認識です。議事録整形や要点抽出は別モデルや後段処理で行う前提の方が実務に合います。
もうひとつ大事なのは、OpenAI の文字起こし = Whisper だけ ではなくなっていることです。2026年4月23日時点の OpenAI 公式ドキュメントでは、/v1/audio/transcriptions は whisper-1 に加えて gpt-4o-transcribe 系もサポートしています。つまり、Whisper は重要な基本用語ですが、実装時は API 全体の中で位置づけを見た方が正確です。
注意点
Whisper 系の文字起こしは便利ですが、長い音声ではファイルサイズ制限や分割の設計が必要です。また、固有名詞や略語が多い音声では、プロンプトや後処理で補助した方が実務では安定しやすいです。
詳しい使い方や、今の OpenAI Audio API での位置づけは、Whisperとは?OpenAIの音声認識APIでできることと文字起こしの基本 で整理しています。