openai/whisper

6 articles

前提知識

Whisperコードベース全体をガイド付きで巡るツアー。エントリーポイントからモデルアーキテクチャまで、9つのモジュールで構成されるPythonパッケージの全体像をマッピングします。

生の音声ファイルからエンコーダーが受け取るテンソルまで、オーディオ前処理パイプラインの全体を追います。

音声とテキストを橋渡しするWhisperのtiktokenベースのトークナイゼーションシステムを解説します。

コードベース中でもっとも構造的に豊かな部分である、自己回帰デコードシステムを深く掘り下げます。

30秒のスライディングウィンドウで音声ファイル全体を処理するメインの文字起こしループと、堅牢な失敗復旧の仕組みを解説します。

クロスアテンション重みの抽出とDynamic Time Warpingに基づく単語タイムスタンプシステムの仕組み、および出力ライターの継承階層を解説します。