Read OSS

ggml-org/llama.cpp

6 articles

前置知识

01

llama.cpp 架构:代码库导览地图

全面介绍 llama.cpp 代码库的核心组成,涵盖双库架构、目录结构、C API 外观模式、核心类型以及推理生命周期

02

llama.cpp 如何将模型权重转化为计算

深入解析 llama.cpp 的计算图系统:图上下文工具包、模型构建器、架构分发机制,以及非 Transformer 模型的适配方式

03

GGML:llama.cpp 底层的张量引擎

深入剖析 GGML 的惰性求值模型、后端虚函数表系统、编译期注册机制、后端调度器、量化类型体系以及 GGUF 文件格式

04

解码循环:批处理、KV 缓存与内存管理

追踪从 llama_decode() 出发的推理流水线,涵盖批次拆分、核心 process_ubatch() 循环、KV 缓存管理与错误恢复

05

从 HTTP 请求到 Token:服务器与 CLI 工具

llama.cpp 服务器如何通过 slot 机制处理并发请求、其兼容 OpenAI 的 API 设计,以及 CLI 为何复用服务器内部实现

06

为 llama.cpp 贡献新的模型架构

从 GGUF 转换、计算图构建到测试的完整实践指南,手把手带你添加新的模型架构