Jinn's Hub
about
/
blog
/
projects
/
EN
/
Search
所有标签
标签: "vllm"
源码精读 003 — vLLM, KV cache 变成虚拟内存的地方
63.3 万行代码、 20 个 attention backend、 7185 行 GPU model runner、 一次让引擎本身变成进程的架构重构。 推理引擎三部曲的收官。