精读预计 8 分钟

MiMo-v2.5-Pro-UltraSpeed: 1T model with 1000 tokens per second

摘要

该模型通过模型与系统深度协同（Codesign），在单台 8 卡通用服务器上突破了万亿参数模型的生成速度瓶颈。核心技术包括针对 MoE 专家的 FP4 量化、DFlash 块级并行猜测解码，以及 TileRT 的持久化引擎内核。这种速度旨在将 AI 推理转变为实时思维延伸，赋能代码生成、高频交易及医疗辅助等场景。目前已在 HuggingFace 开源相关权重，并开启了为期两周的 API 限时试用申请。

荐读理由

你可以参考其「混合 FP4 量化」与「DFlash 并行猜测解码」在通用 GPU 上实现 1T 模型极速推理的架构方案，并利用 HuggingFace 开源权重验证其在 Coding Agent 等高吞吐场景下的实际增益。

Hacker News · 137 赞 · 63 评讨论 → 阅读原文 →

这条对你有帮助吗？