openai/whisper

6 articles

前置知识

带你系统浏览整个 Whisper 代码库，从入口点到模型架构，逐一梳理这个由 9 个模块组成的 Python 包。

完整追踪音频预处理流程，从原始音频文件到编码器所消费的张量。

深入探讨 Whisper 中基于 tiktoken 的分词系统，了解它如何在音频与文本之间架起桥梁。

深度剖析自回归解码系统——代码库中架构最为丰富的核心模块。

详细介绍主转录循环的工作原理——通过滑动 30 秒窗口处理完整音频文件，并提供健壮的失败恢复机制。

深入讲解基于交叉注意力权重提取与动态时间规整（DTW）构建的词级时间戳系统，以及输出写入器的层次结构。