ggml-org/llama.cpp
6 articles
前置知识
- ›基本的 C/C++ 知识(指针、类、虚函数派发)
- ›对大语言模型的基本了解,知道它是如何生成文本的
01
llama.cpp 架构:代码库导览地图
全面介绍 llama.cpp 代码库的核心组成,涵盖双库架构、目录结构、C API 外观模式、核心类型以及推理生命周期
02
llama.cpp 如何将模型权重转化为计算
深入解析 llama.cpp 的计算图系统:图上下文工具包、模型构建器、架构分发机制,以及非 Transformer 模型的适配方式
03
GGML:llama.cpp 底层的张量引擎
深入剖析 GGML 的惰性求值模型、后端虚函数表系统、编译期注册机制、后端调度器、量化类型体系以及 GGUF 文件格式
04
解码循环:批处理、KV 缓存与内存管理
追踪从 llama_decode() 出发的推理流水线,涵盖批次拆分、核心 process_ubatch() 循环、KV 缓存管理与错误恢复
05
从 HTTP 请求到 Token:服务器与 CLI 工具
llama.cpp 服务器如何通过 slot 机制处理并发请求、其兼容 OpenAI 的 API 设计,以及 CLI 为何复用服务器内部实现
06
为 llama.cpp 贡献新的模型架构
从 GGUF 转换、计算图构建到测试的完整实践指南,手把手带你添加新的模型架构