Read OSS

openai/whisper

6 articles

前提知識

01

Whisperのアーキテクチャを一望する:OpenAIの音声認識コードベースを読み解く

Whisperコードベース全体をガイド付きで巡るツアー。エントリーポイントからモデルアーキテクチャまで、9つのモジュールで構成されるPythonパッケージの全体像をマッピングします。

02

音声波形からメルスペクトログラムへ:Whisper のオーディオフロントエンド

生の音声ファイルからエンコーダーが受け取るテンソルまで、オーディオ前処理パイプラインの全体を追います。

03

WhisperのトークンLanguage:TiktokenがテキストA・時間・タスクをエンコードする仕組み

音声とテキストを橋渡しするWhisperのtiktokenベースのトークナイゼーションシステムを解説します。

04

Whisper のデコーダー内部:Beam Search、Logit フィルター、KV キャッシュ

コードベース中でもっとも構造的に豊かな部分である、自己回帰デコードシステムを深く掘り下げます。

05

30秒のウィンドウ:Whisperの文字起こしループと失敗からの復旧

30秒のスライディングウィンドウで音声ファイル全体を処理するメインの文字起こしループと、堅牢な失敗復旧の仕組みを解説します。

06

単語レベルのタイムスタンプ:クロスアテンション整合、DTW、出力フォーマット

クロスアテンション重みの抽出とDynamic Time Warpingに基づく単語タイムスタンプシステムの仕組み、および出力ライターの継承階層を解説します。