Jinn's Hub
about
/
blog
/
projects
/
EN
/
Search
所有标签
标签: "RL"
NeMo-RL vs slime:RL 训练框架对比
两个主流 RL 训练框架的深度对比:算法、工程质量、MoE 支持、ROCm 兼容性
TritonForge:面向多轮 Agent 任务的 Server-based RL 训练与评测闭环
基于 slime + Megatron 的端到端 Server-based RL 框架,聚焦 Triton 内核生成,支持 NVIDIA 与 AMD 双生态
SFT 与 RL 训练指南
SFT 和 RL 的核心区别、Loss 计算、数据构建到 RLHF 实战的完整指南