Read OSS

openai/whisper

6 articles

前置知识

01

Whisper 架构概览:读懂 OpenAI 语音识别代码库

带你系统浏览整个 Whisper 代码库,从入口点到模型架构,逐一梳理这个由 9 个模块组成的 Python 包。

02

从声波到梅尔频谱:Whisper 的音频前端

完整追踪音频预处理流程,从原始音频文件到编码器所消费的张量。

03

Whisper 的 Token 语言:Tiktoken 如何编码文本、时间与任务

深入探讨 Whisper 中基于 tiktoken 的分词系统,了解它如何在音频与文本之间架起桥梁。

04

深入 Whisper 解码器:Beam Search、Logit 过滤器与 KV-Cache

深度剖析自回归解码系统——代码库中架构最为丰富的核心模块。

05

30 秒窗口:Whisper 的转录循环与失败恢复机制

详细介绍主转录循环的工作原理——通过滑动 30 秒窗口处理完整音频文件,并提供健壮的失败恢复机制。

06

词级时间戳:交叉注意力对齐、DTW 与输出格式化

深入讲解基于交叉注意力权重提取与动态时间规整(DTW)构建的词级时间戳系统,以及输出写入器的层次结构。