DeepSeek-V3.2-Exp稀疏注意力机制提升长上下文推理效率-AI应用工坊

创新机制降低长序列计算复杂度

近年来，大语言模型在处理长文本任务中展现出强大能力，但也面临着计算复杂度高、推理速度慢的挑战。DeepSeek-AI最近发布了实验性模型DeepSeek-V3.2-Exp，通过引入一种新颖的稀疏注意力机制，在保持模型性能的同时，显著提升了长上下文任务中的训练与推理效率。

DeepSeek稀疏注意力机制主要由两个核心组件构成：闪电索引器和细粒度令牌选择机制。传统的注意力机制在计算时需要关注序列中所有之前的令牌，导致计算复杂度为O(L²)，其中L是序列长度。而新的稀疏注意力机制通过索引器为每个查询令牌筛选出最相关的k个键值令牌，将复杂度降至O(L·k)，其中k远小于L。

具体实现上，索引器会为每个查询令牌计算一个注意力分数，并只保留分数最高的k个令牌参与后续的注意力计算。这一设计不仅大幅减少了计算量，还保留了模型对关键信息的捕捉能力，在长序列处理中展现出显著优势。

DeepSeek-V3.2-Exp是基于DeepSeek-V3.1-Terminus继续训练得到的模型。训练过程采用两阶段策略：首先是密集预热阶段，仅训练索引器参数，使其输出的分数分布与原始注意力分布对齐；随后进入稀疏训练阶段，引入令牌选择机制，同时优化索引器和主模型参数，使模型适应稀疏注意力模式。整个训练过程使用了128K长度的上下文数据，总计训练了近千亿令牌。

在性能表现方面，多项基准测试结果显示，DeepSeek-V3.2-Exp的表现与V3.1-Terminus基本持平，部分任务中甚至有所提升。在通用能力测试中，MMLU-Pro、GPQA等任务表现稳定；在搜索与代码任务方面，BrowseComp、Codeforces等任务略有提升；数学推理任务中，AIME 2025测试表现更优。更重要的是，在长上下文推理场景中，V3.2-Exp的推理成本显著降低，随着序列长度增加，其推理速度优势愈发明显。

从技术架构角度看，稀疏注意力机制是基于DeepSeek自研的MLA架构实现的，特别采用了MQA模式，使得每个键值条目可以被多个查询头共享，进一步提升了计算效率。这种设计在保持模型性能的同时，有效解决了长序列处理中的计算瓶颈问题。

尽管内部测试结果令人鼓舞，DeepSeek-AI仍在积极推进在真实场景中的大规模测试，以进一步验证稀疏注意力架构的鲁棒性与实用性。DeepSeek-V3.2-Exp的发布不仅展示了一种高效的长上下文处理方案，也为大模型在保持性能的同时降低计算成本提供了新的技术思路。

文章版权归作者所有，未经允许请勿转载。

THE END