openai/whisper
6 articles
前置知识
- ›具备基本的 Python 编程能力
- ›对神经网络概念有基本了解
- ›熟悉 PyTorch nn.Module 的基础用法
01
Whisper 架构概览:读懂 OpenAI 语音识别代码库
带你系统浏览整个 Whisper 代码库,从入口点到模型架构,逐一梳理这个由 9 个模块组成的 Python 包。
02
从声波到梅尔频谱:Whisper 的音频前端
完整追踪音频预处理流程,从原始音频文件到编码器所消费的张量。
03
Whisper 的 Token 语言:Tiktoken 如何编码文本、时间与任务
深入探讨 Whisper 中基于 tiktoken 的分词系统,了解它如何在音频与文本之间架起桥梁。
04
深入 Whisper 解码器:Beam Search、Logit 过滤器与 KV-Cache
深度剖析自回归解码系统——代码库中架构最为丰富的核心模块。
05
30 秒窗口:Whisper 的转录循环与失败恢复机制
详细介绍主转录循环的工作原理——通过滑动 30 秒窗口处理完整音频文件,并提供健壮的失败恢复机制。
06
词级时间戳:交叉注意力对齐、DTW 与输出格式化
深入讲解基于交叉注意力权重提取与动态时间规整(DTW)构建的词级时间戳系统,以及输出写入器的层次结构。