引言

近年来,大规模语言模型(LLM)的训练和推理成本成为人工智能发展的核心挑战。传统Transformer计算量庞大,推理速度受限,使得模型难以高效部署。DeepSeek通过Mixture-of-Experts(MoE)架构优化计算、Multi-Head Latent Attention(MLA)提升推理效率、强化学习(GRPO)训练推理能力,以及模型蒸馏降低推理计算成本,构建了一条完整的研究路线。这套方法不仅让LLM训练更经济高效,同时使推理速度和成本达到最佳平衡。

DeepSeek研究路线概览

DeepSeek的研究路线主要围绕四个关键优化展开:

  • MoE结构优化 —— 通过MoE减少90%计算量,降低训练成本,使大规模训练成为可能。
  • MLA机制优化推理 —— 通过Multi-Head Latent Attention(MLA)减少93.3% KV存储,提升长文本处理能力,使推理效率提高5.76倍。
  • 强化学习(GRPO)训练推理能力 —— 采用GRPO进行RL训练,使模型在数学、逻辑推理和代码生成任务上获得接近OpenAI-o1级别的推理能力。
  • 模型蒸馏优化推理成本 —— 将高推理能力的大模型压缩为相对计算成本更低的小模型,从而实现高效部署和推理运行。

为了更直观地展现DeepSeek的研究路线,我们结合论文时间线展示其技术演进过程。

DeepSeek研究时间线

论文时间线与技术演进对比

时间 论文研究内容 研究路线对应阶段
2024年1月 DeepSeek LLM 提出MoE架构,优化计算效率,提高推理能力
2024年2月 DeepSeekMath 采用GRPO进行RL训练,提升数学推理能力
2024年5月 DeepSeek-V2 采用MLA机制减少KV存储,提升长文本推理能力
2024年6月 DeepSeek-Coder-V2 采用MoE结构和RL训练优化代码推理能力
2024年12月 DeepSeek-V3 进一步优化MoE结构,结合RL和蒸馏
2025年1月 DeepSeek-R1-Zero 完全基于强化学习(RL),不依赖SFT训练
2025年2月 DeepSeek-R1 结合SFT和RL训练,优化可读性和任务泛化能力

DeepSeek如何优化计算、推理和部署

MoE结构优化计算

传统LLM训练采用全参数(Dense)计算,每次计算都会激活所有参数,导致计算资源浪费。DeepSeek采用 Mixture-of-Experts(MoE)结构,将模型拆分为多个专家,每次仅激活一部分专家,大幅降低计算开销。

DeepSeek-V3采用671B总参数的MoE架构,但每次推理仅激活37B参数,使得计算量仅为同规模全参数 Transformer的一小部分,同时保持了大模型的推理能力。这一优化使得DeepSeek的计算需求降低了90%,训练成本大幅减少,使得更大规模的LLM训练成为可能。

MLA机制优化推理

KV(Key-Value)缓存是长文本处理的关键问题,传统Transformer采用 O(N²) 计算复杂度,导致长文本任务计算和存储需求急剧上升。DeepSeek采用Multi-Head Latent Attention(MLA)机制,对KV存储和计算进行了优化。

MLA通过低秩压缩和动态注意力分配,减少KV缓存存储,使其存储需求降低93.3%,同时提高推理吞吐量5.76倍。DeepSeek在128K长度的上下文任务下,依然能够保持高效计算,而不会受到显存瓶颈的限制。这一优化在代码、数学、科学论文等长文本任务上表现尤为突出。

强化学习(GRPO)训练推理能力

DeepSeek 采用强化学习(RL)进行推理优化,使得模型能够在数学、逻辑推理和代码生成等任务上展现出更强的能力。不同于传统LLM依赖监督微调(SFT),DeepSeek采用Group Relative Policy Optimization(GRPO)作为RL训练框架。

GRPO通过相对排序优化策略,让模型在同一任务上比较不同推理路径,从而优化最优解的选择。这种方法相比传统强化学习减少了对额外奖励模型(Critic)的依赖,提高了训练效率,同时降低了计算资源需求。DeepSeek-R1 采用纯RL训练,仅依靠自我探索训练,而非人工监督数据,依然在数学推理、代码生成等任务上达到了接近OpenAI-o1-1217的水平。

DeepSeek推理速度分析

DeepSeek的优化策略不仅减少了训练成本,同时在推理速度上也展现出显著优势。下表展示了DeepSeek在RTX 3090上的推理性能,不同规模模型的Token生成速度对比:

模型 总时长 (ns) 加载时长 (ns) Tokens 每秒
DeepSeek: 14B 17,065,433,000 6,406,687,700 63.05
DeepSeek: 32B 40,749,799,300 5,299,336,000 32.49
DeepSeek: 70B 109,397,301,800 31,870,481,500 1.73

总结

DeepSeek通过Mixture-of-Experts(MoE)架构降低90%的计算量,Multi-Head Latent Attention(MLA)机制减少93.3% KV存储,强化学习(GRPO)让推理能力自主优化,最终通过模型蒸馏训练出低计算成本的小模型,从而在训练、推理、部署 全链路上提升LLM的计算效率。这一技术路线不仅使得大规模LLM训练变得更加经济可行,同时让高推理能力模型能够适配不同计算环境,无论是高性能服务器还是低算力设备,都能有效运行DeepSeek模型。