新闻中心News

蚂蚁百灵团队开源高效推理模型 Ring-mini-sparse-2.0-exp

作者：DDD | 点击: | 来源：DDD

2710
2025

蚂蚁百灵大模型团队近日正式开源了高效推理模型Ring-mini-sparse-2.0-exp，该模型基于全新设计的Ling2.0架构，专为长序列解码任务优化，创新性地结合了高稀疏度的MixtureofExpert（MoE）结构与稀疏注意力机制。据团队介绍，通过架构与推理系统的深度协同优化，该模型在处理复杂长序列推理任务时，吞吐量相较原始版本Ring-mini-2.0提升近3倍。同时，在多个高难度推理基准测试中持续保持领先水平（SOTA），为开源社区提供了一种兼具高性能推理效率和强大上...

蚂蚁百灵大模型团队近日正式开源了高效推理模型 ring-mini-sparse-2.0-exp，该模型基于全新设计的 ling 2.0 架构，专为长序列解码任务优化，创新性地结合了高稀疏度的 mixt

ure of expert（moe）结构与稀疏注意力机制。

据团队介绍，通过架构与推理系统的深度协同优化，该模型在处理复杂长序列推理任务时，吞吐量相较原始版本 Ring-mini-2.0 提升近 3 倍。同时，在多个高难度推理基准测试中持续保持领先水平（SOTA），为开源社区提供了一种兼具高性能推理效率和强大上下文理解能力的轻量级解决方案。

Ling 2.0 Sparse 架构的提出，旨在应对大语言模型发展的两大关键趋势：上下文长度扩展（Context Length Scaling）与测试时扩展（Test Time Scaling）。该机制通过高效的稀疏注意力设计，显著提升了模型在长文本场景下的运行效率。

该方案借鉴了 Mixture of Block Attention (MoBA) 的思想，采用块级稀疏注意力（block-wise sparse attention），将输入的 Key 和 Value 按照块进行划分。每个 query 在 head 维度上仅选择 top-k 个关键块参与注意力计算，大幅降低整体计算量。此外，该设计进一步融合了 Grouped Query Attention (GQA)，使同一组内的多个 query heads 共享相同的 top-k 块选择结果，从而实现一次块读取服务多个 head，有效减少内存访问开销（I/O cost）。

Ring-mini-sparse-2.0-exp 开源地址：
Hugging Face：https://www./link/a082c0a47eb5379353243b15bf77c560
ModelScope：https://www./link/f3a3d61b07332233ac57e4f232725e18
GitHub：https://www./link/3310199d4a42bc84d71ce62d2d260379

欢迎光临，我们是一家专注中小型企业营销推广服务的公司！

专注企业电商网络营销推广！免费电商SEO诊断，你可信任的网络推广专家

蚂蚁百灵团队开源高效推理模型 Ring-mini-sparse-2.0-exp