ggml-org/llama.cpp

6 articles

前置知识

全面介绍 llama.cpp 代码库的核心组成，涵盖双库架构、目录结构、C API 外观模式、核心类型以及推理生命周期

深入解析 llama.cpp 的计算图系统：图上下文工具包、模型构建器、架构分发机制，以及非 Transformer 模型的适配方式

深入剖析 GGML 的惰性求值模型、后端虚函数表系统、编译期注册机制、后端调度器、量化类型体系以及 GGUF 文件格式

追踪从 llama_decode() 出发的推理流水线，涵盖批次拆分、核心 process_ubatch() 循环、KV 缓存管理与错误恢复

llama.cpp 服务器如何通过 slot 机制处理并发请求、其兼容 OpenAI 的 API 设计，以及 CLI 为何复用服务器内部实现

从 GGUF 转换、计算图构建到测试的完整实践指南，手把手带你添加新的模型架构