DeepSeek-V3.2-Exp:稀疏注意力机制实现高效长上下文推理

创新机制降低长序列计算复杂度

近年来,大语言模型在处理长文本任务中展现出强大能力,但也面临着计算复杂度高、推理速度慢的挑战。DeepSeek-AI最近发布了实验性模型DeepSeek-V3.2-Exp,通过引入一种新颖的稀疏注意力机制,在保持模型性能的同时,显著提升了长上下文任务中的训练与推理效率。

DeepSeek稀疏注意力机制主要由两个核心组件构成:闪电索引器和细粒度令牌选择机制。传统的注意力机制在计算时需要关注序列中所有之前的令牌,导致计算复杂度为O(L²),其中L是序列长度。而新的稀疏注意力机制通过索引器为每个查询令牌筛选出最相关的k个键值令牌,将复杂度降至O(L·k),其中k远小于L。

具体实现上,索引器会为每个查询令牌计算一个注意力分数,并只保留分数最高的k个令牌参与后续的注意力计算。这一设计不仅大幅减少了计算量,还保留了模型对关键信息的捕捉能力,在长序列处理中展现出显著优势。

DeepSeek-V3.2-Exp是基于DeepSeek-V3.1-Terminus继续训练得到的模型。训练过程采用两阶段策略:首先是密集预热阶段,仅训练索引器参数,使其输出的分数分布与原始注意力分布对齐;随后进入稀疏训练阶段,引入令牌选择机制,同时优化索引器和主模型参数,使模型适应稀疏注意力模式。整个训练过程使用了128K长度的上下文数据,总计训练了近千亿令牌。

在性能表现方面,多项基准测试结果显示,DeepSeek-V3.2-Exp的表现与V3.1-Terminus基本持平,部分任务中甚至有所提升。在通用能力测试中,MMLU-Pro、GPQA等任务表现稳定;在搜索与代码任务方面,BrowseComp、Codeforces等任务略有提升;数学推理任务中,AIME 2025测试表现更优。更重要的是,在长上下文推理场景中,V3.2-Exp的推理成本显著降低,随着序列长度增加,其推理速度优势愈发明显。

从技术架构角度看,稀疏注意力机制是基于DeepSeek自研的MLA架构实现的,特别采用了MQA模式,使得每个键值条目可以被多个查询头共享,进一步提升了计算效率。这种设计在保持模型性能的同时,有效解决了长序列处理中的计算瓶颈问题。

尽管内部测试结果令人鼓舞,DeepSeek-AI仍在积极推进在真实场景中的大规模测试,以进一步验证稀疏注意力架构的鲁棒性与实用性。DeepSeek-V3.2-Exp的发布不仅展示了一种高效的长上下文处理方案,也为大模型在保持性能的同时降低计算成本提供了新的技术思路。

© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容