DeepSeekAI开源国产第一个混合专家技术的大模型：DeepSeekMoE-16B_

混合专家（Mixture of Experts）是大模型一种技术，这个技术将大模型划分为不同的子专家模型，每次推理只选择部分专家网络进行推理，在降低成本的同时保证模型的效果。此前Mistral开源的Mixtral-8×7B-MoE大模型被证明效果很好，推理速度很棒（参考：https://www.datalearner.com/blog/1051702307667324）。而幻方量化旗下的DeepSeek刚刚开源了可能是国产第一个MoE技术的大模型，DeepSeek-MoE 16B。

从模型公布的结果看，16B的DeepSeek MoE模型推理只使用28亿参数，效果与70亿模型差不多。还有一个145B模型的MoE目前没有训练完。目前论文公布的数据看，效果不够惊艳！

DeepSeek MoE 16B简介
DeepSeek MoE 16B的评测对比
DeepSeek MoE 145B的评测对比
DeepSeek MoE 16B与Mixtral 8×7B MoE对比
总结

DeepSeek MoE 16B简介

DeepSeek是中国知名私募幻方量化旗下的大模型初创企业，在2023年7月份成立。在2023年11月底开源了四个大语言模型，表现水平与LLaMA2差不多，但是中文有明显提升。

此次开源的DeepSeek MoE 16B的模型也包含两个版本，一个是基座版本的DeepSeek MoE 16B Base，另一个是在次基础上聊天优化的DeepSeek MoE 16B Chat。

DeepSeek MoE 16B模型的参数164亿，预训练大小32GB左右。DeepSeek MoE 16B模型每次推理仅仅激活其中28亿左右的参数，因此约等于30亿参数规模的大模型，但是其效果和LLaMA2-7B差不多，也就是说，以LLaMA2-7B的40%的参数获得了差不多水平的结果。同时，DeepSeekAI透露，他们正在训练有1450亿参数的MoE版本的大模型，但是每次推理仅激活190亿参数左右，但是性能与670亿参数模型效果差不多。

DeepSeek MoE 16B在2万亿tokens的数据集上进行预训练，数据集包含网络、数学、中文等，应该和此前DeepSeek LLM系列模型用的是同样的数据集。

DeepSeek MoE 16B的评测对比

DeepSeek MoE 16B模型与DeepSeekLLM 7B的对比如下：

参数内容
LLaMA2-7B
DeepSeek 7B Base
DeepSeek MoE 16B
模型参数70亿69亿164亿
每次推理参数70亿69亿28亿
4K输入的FLOPs187.9T183.5T74.4T
训练数据集大小2万亿tokens2万亿tokens2万亿tokens
MMLU 评分（文本理解）45.848.245
CMMLU 评分（中文文本理解）14.647.242.5
GSM8K评分（数学推理）15.517.418.8
HumanEval评分（代码）14.626.226.8
MBPP评分（代码）21.839.539.2

从这个对比结果结果可以看到（注意，这些均是基础模型版本，不带微调的结果，微调后效果会更高），DeepSeek MoE 16B的各项评测结果与70亿参数规模的LLaMA2-7B和DeepSeek LLM 7B差不多，但是其推理成本低很多。根据官方的描述，这个模型可以在40GB显存中运行，但是推理速度是7B模型的2.5倍。

聊天优化后的结果如下：

指标
抽样次数
LLAMA2-7B SFT
DeepSeek 7B Chat
DeepSeekMoE 16B Chat
参数总数N/A6.7B6.9B16.4B
激活参数数N/A6.7B6.9B2.8B
每 4K 令牌的 FLOPsN/A187.9T183.5T74.4T
HellaSwag (Acc.)0-shot67.971.072.2
PIQA (Acc.)0-shot76.978.479.7
ARC-easy (Acc.)0-shot69.770.269.9
ARC-challenge (Acc.)0-shot50.850.250.0
BBH (EM)3-shot39.343.142.2
RACE-middle (Acc.)5-shot63.966.164.8
RACE-high (Acc.)5-shot49.650.850.6
DROP (EM)1-shot40.041.733.8
GSM8K (EM)0-shot63.462.662.2
MATH (EM)4-shot13.514.715.2
HumanEval (Pass@1)0-shot35.445.145.7
MBPP (Pass@1)3-shot27.839.046.2
TriviaQA (EM)5-shot60.159.563.3
NaturalQuestions (EM)0-shot35.232.735.1
MMLLU (Acc.)0-shot50.049.747.2
WinoGrande (Acc.)0-shot65.168.469.0
CLUE-WSC (EM)5-shot48.466.268.2
CEval (Acc.)0-shot35.144.740.0
CMMLU (Acc.)0-shot36.951.249.3

也就是说，这个模型的显存要求比7B模型高很多，但是推理速度更快。

DeepSeek MoE 145B的评测对比

除了上面这个164亿规模的DeepSeek MoE模型外，DeepSeekAI还训练了一个1446亿参数规模的MoE模型，未来还会开源。这个模型的效果与700亿参数规模的模型差不多，对比结果如下：

参数内容
LLaMA2-70B
DeepSeek 67B Base
DeepSeek MoE 145B
模型参数700亿674亿1446亿
每次推理参数700亿674亿222亿
4K输入的FLOPs/2057.5T585.6T
训练数据集大小2万亿tokens2450亿tokens2450亿tokens
MMLU 评分（文本理解）8445.139.4
CMMLU 评分（中文文本理解）53.140.635.9
GSM8K评分（数学推理）58.411.812.2
HumanEval评分（代码）28.723.819.5
MBPP评分（代码）62.933.633.2

目前，这个DeepSeek MoE 1450亿参数规模的模型只训练了2450亿参数规模，约等于之前2万亿的1/10多一点。还在继续训练中，从评测结果看，效果比较一般。目前也没有公布预训练结果，可能需要一段时间。

DeepSeek MoE 16B与Mixtral 8×7B MoE对比

这里我们也对比一下此前MistralAI开源的混合专家模型与DeepSeek混合专家模型的评测结果。

如下表所示：

基准测试
Mixtral
DeepSeek MoE 16B （2450亿）
DeepSeek MoE 145B
模型参数560亿164亿1446亿
每次推理参数140亿28亿222亿
MMLU70.6%45.0%39.4%
Code (Humaneval)40.2%26.8%19.5%
数学 (MATH数据集)28.4%4.3%3.1%
GSM8K74.4%18.8%12.2%

怎么说呢，DeepSeek MoE模型效果很一般。但是可能是16B的DeepSeek MoE模型参数太少，而145B的DeepSeek MoE模型又没有训练完成的原因。只有等后续DeepSeek MoE 145B完成之后了。

总结

按照官方的材料，目前DeepSeek MoE 16B已经训练完毕，有2个模型，分别是基座模型和聊天优化的版本。而更大更强的DeepSeek MoE 145B模型未来也会开源。这个模型应该和此前一样，都是免费商用授权的。

从目前的评测结果看，这个MoE模型的评测结果似乎不够理想，基本可以理解为显存大小比70亿参数规模高，效果差不多，唯一的优点是推理速度更快。而未来的DeepSeek 145B版本不知道会不会有类似的结论。这个结论与Mixtral-8×7B效果似乎有一点点差别。

DeepSeek目前开源的模型比较多，共6个，未来DeepSeek MoE 145B再开源2个就8个了，大家可以关注DataLearnerAI的模型信息卡：

模型名称
参数规模
类型
DataLearnerAI模型信息卡地址
DeepSeek LLM 7B Base69亿基座大模型https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-7b-base
DeepSeek LLM 7B Chat69亿聊天优化大模型https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-7b-chat
DeepSeek MoE 16B Base164亿混合专家基座大模型https://www.datalearner.com/ai-models/pretrained-models/DeepSeekMoE-16B-Base
DeepSeek MoE 16B Chat164亿混合专家聊天优化大模型https://www.datalearner.com/ai-models/pretrained-models/DeepSeekMoE-16B-Chat
DeepSeek LLM 67B Base674亿基座大模型https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-67b-base
DeepSeek LLM 67B Chat674亿聊天优化大模型https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-67b-chat