标签: "MLSys"

注意力机制详解 — Full, Sparse, Linear, NSA & GLA

从 Full Attention 出发，拆解 Sparse 和 Linear 两条路线，直到 DeepSeek NSA 和 Gated Linear Attention

TritonForge：面向多轮 Agent 任务的 Server-based RL 训练与评测闭环

基于 slime + Megatron 的端到端 Server-based RL 框架，聚焦 Triton 内核生成，支持 NVIDIA 与 AMD 双生态

Transformer 详解 (数学 + 代码)

从数学原理、代码实现、逻辑结构三个维度拆解 Transformer 的 Self-Attention、LayerNorm 和 MLP