精读 预计 8 分钟
MiMo-v2.5-Pro-UltraSpeed: 1T model with 1000 tokens per second
摘要
该模型通过模型与系统深度协同(Codesign),在单台 8 卡通用服务器上突破了万亿参数模型的生成速度瓶颈。核心技术包括针对 MoE 专家的 FP4 量化、DFlash 块级并行猜测解码,以及 TileRT 的持久化引擎内核。这种速度旨在将 AI 推理转变为实时思维延伸,赋能代码生成、高频交易及医疗辅助等场景。目前已在 HuggingFace 开源相关权重,并开启了为期两周的 API 限时试用申请。
荐读理由
你可以参考其「混合 FP4 量化」与「DFlash 并行猜测解码」在通用 GPU 上实现 1T 模型极速推理的架构方案,并利用 HuggingFace 开源权重验证其在 Coding Agent 等高吞吐场景下的实际增益。
这条对你有帮助吗?