openai/whisper
6 articles
前提知識
- ›Pythonの基礎的な知識
- ›ニューラルネットワークの概念に対する一般的な理解
- ›PyTorchのnn.Moduleの基本的な知識
01
Whisperのアーキテクチャを一望する:OpenAIの音声認識コードベースを読み解く
Whisperコードベース全体をガイド付きで巡るツアー。エントリーポイントからモデルアーキテクチャまで、9つのモジュールで構成されるPythonパッケージの全体像をマッピングします。
02
音声波形からメルスペクトログラムへ:Whisper のオーディオフロントエンド
生の音声ファイルからエンコーダーが受け取るテンソルまで、オーディオ前処理パイプラインの全体を追います。
03
WhisperのトークンLanguage:TiktokenがテキストA・時間・タスクをエンコードする仕組み
音声とテキストを橋渡しするWhisperのtiktokenベースのトークナイゼーションシステムを解説します。
04
Whisper のデコーダー内部:Beam Search、Logit フィルター、KV キャッシュ
コードベース中でもっとも構造的に豊かな部分である、自己回帰デコードシステムを深く掘り下げます。
05
30秒のウィンドウ:Whisperの文字起こしループと失敗からの復旧
30秒のスライディングウィンドウで音声ファイル全体を処理するメインの文字起こしループと、堅牢な失敗復旧の仕組みを解説します。
06
単語レベルのタイムスタンプ:クロスアテンション整合、DTW、出力フォーマット
クロスアテンション重みの抽出とDynamic Time Warpingに基づく単語タイムスタンプシステムの仕組み、および出力ライターの継承階層を解説します。