Blog | Jinn's Hub

about / blog / sources / projects / EN /

2026

FlyDSL 笔记 · Layout 之下的 BasisAttr

上一篇 FlyDSL 精读把 layout 代数收在了五个词上，这篇补的是更深一层的子概念 —— Fly_Basis 类型和 BasisAttr。是什么、为什么 layout 需要、以及 mentor 给我的'完善它'任务从哪条线进入最干净。
从 Python 到硅片 · 给 ML 工程师的编译器与体系结构小科普

你可以把生产级 ML 系统写好几年，都不知道 IR、 MLIR、 LLVM、 ISA、 FFI 这些词指什么。这一篇是补丁 —— 写给本科 CS 念过、但是 Compiler 和 Computer Arch 没好好上过的 ML 工程师。配一份带 6 张 SVG 图、中英双语的 HTML 深读。
注意力机制详解 — Full, Sparse, Linear, NSA & GLA

从 Full Attention 出发，拆解 Sparse 和 Linear 两条路线，直到 DeepSeek NSA 和 Gated Linear Attention

2025

Benchmark: Qwen3-Coder-30B-A3B + EAGLE3 投机解码

EAGLE3 投机解码在 Qwen3-Coder 上的性能评测，代码生成场景 1.87x 加速
NeMo-RL vs slime：RL 训练框架对比

两个主流 RL 训练框架的深度对比：算法、工程质量、MoE 支持、ROCm 兼容性
TritonForge：面向多轮 Agent 任务的 Server-based RL 训练与评测闭环

基于 slime + Megatron 的端到端 Server-based RL 框架，聚焦 Triton 内核生成，支持 NVIDIA 与 AMD 双生态
SFT 与 RL 训练指南

SFT 和 RL 的核心区别、Loss 计算、数据构建到 RLHF 实战的完整指南
KV Cache 与模型权重

理解 KV Cache 和 Model Weights 的区别与关联，掌握大模型推理优化的第一步
LLM 在 GPU 上的显存计算

详解 LLM 训练和推理的显存估算，包括 DP / TP / PP / EP 分布式策略的显存分摊
Transformer 详解 (数学 + 代码)

从数学原理、代码实现、逻辑结构三个维度拆解 Transformer 的 Self-Attention、LayerNorm 和 MLP

© 2026 • Jinn's Hub 🔬

Press Esc or click anywhere to close