Jinn's Hub
about / blog / projects / EN /
2026
  • 注意力机制详解 — Full, Sparse, Linear, NSA & GLA
    从 Full Attention 出发,拆解 Sparse 和 Linear 两条路线,直到 DeepSeek NSA 和 Gated Linear Attention
2025
  • Benchmark: Qwen3-Coder-30B-A3B + EAGLE3 投机解码
    EAGLE3 投机解码在 Qwen3-Coder 上的性能评测,代码生成场景 1.87x 加速
  • NeMo-RL vs slime:RL 训练框架对比
    两个主流 RL 训练框架的深度对比:算法、工程质量、MoE 支持、ROCm 兼容性
  • TritonForge:面向多轮 Agent 任务的 Server-based RL 训练与评测闭环
    基于 slime + Megatron 的端到端 Server-based RL 框架,聚焦 Triton 内核生成,支持 NVIDIA 与 AMD 双生态
  • SFT 与 RL 训练指南
    SFT 和 RL 的核心区别、Loss 计算、数据构建到 RLHF 实战的完整指南
  • KV Cache 与模型权重
    理解 KV Cache 和 Model Weights 的区别与关联,掌握大模型推理优化的第一步
  • LLM 在 GPU 上的显存计算
    详解 LLM 训练和推理的显存估算,包括 DP / TP / PP / EP 分布式策略的显存分摊
  • Transformer 详解 (数学 + 代码)
    从数学原理、代码实现、逻辑结构三个维度拆解 Transformer 的 Self-Attention、LayerNorm 和 MLP
© 2026 • Jinn's Hub 🔬
Press Esc or click anywhere to close