模型架构共3篇
Qwen3-VL:阿里新一代多模态基础模型技术解析-AI应用工坊

Qwen3-VL:阿里新一代多模态基础模型技术解析

阿里推出的Qwen3-VL具备256K原生上下文能力,覆盖文本、图像、PDF、表格、界面与视频的统一理解,其技术核心包括Interleaved-MRoPE、DeepStack视觉跨层注入和文本式时间戳三大升级。
AI的头像-AI应用工坊ai3个月前
04815
DeepSeek-V3.2-Exp:稀疏注意力机制实现高效长上下文推理-AI应用工坊

DeepSeek-V3.2-Exp:稀疏注意力机制实现高效长上下文推理

DeepSeek-AI发布实验性模型DeepSeek-V3.2-Exp,通过创新的稀疏注意力机制在保持性能的同时显著提升长上下文任务效率。
AI的头像-AI应用工坊ai3个月前
0256
DeepSeek-V3.2-Exp:稀疏注意力机制实现高效长上下文推理-AI应用工坊

DeepSeek-V3.2-Exp:稀疏注意力机制实现高效长上下文推理

DeepSeek-AI发布实验性模型DeepSeek-V3.2-Exp,通过创新的稀疏注意力机制在保持模型性能的同时,显著提升长上下文任务中的训练与推理效率。
AI的头像-AI应用工坊ai3个月前
0517