ggml-org/llama.cpp

6 articles

前提知識

llama.cpp のコードベースを体系的に解説。2層のライブラリ構造、ディレクトリ構成、C API ファサードパターン、中核となる型、そして推論の実行フローを網羅します

llama.cpp の計算グラフシステムを深く掘り下げる：グラフコンテキストのツールキット、モデルビルダー、アーキテクチャのディスパッチ機構、そして非Transformerモデルがどのように同じフレームワークに収まるか

GGMLの遅延評価モデル、バックエンドvtableシステム、コンパイル時登録、バックエンドスケジューラ、量子化タイプ、GGUFファイルフォーマットを詳しく解説します

llama_decode()からバッチ分割、process_ubatch()のコアループ、KVキャッシュ管理、エラーリカバリまで、推論パイプラインを追う

llama.cppのサーバーがスロットを使って並行リクエストを処理する仕組み、OpenAI互換API、そしてCLIがサーバーの内部実装を再利用している理由

GGUF 変換からグラフ構築、テストまで——新しいモデルアーキテクチャを追加するための実践的なエンドツーエンドガイド