混合专家(Mixture of Experts)是大模型一种技术,这个技术将大模型划分为不同的子专家模型,每次推理只选择部分专家网络进行推理,在降低成本的同时保证模型的效果。此前Mistral开源的Mixtral-8×7B-MoE大模型被证明效果很好,推理速度很棒(参考:https://www.datalearner.com/blog/1051702307667324)。而幻方量化旗下的DeepSeek刚刚开源了可能是国产第一个MoE技术的大模型,DeepSeek-MoE 16B。
从模型公布的结果看,16B的DeepSeek MoE模型推理只使用28亿参数,效果与70亿模型差不多。还有一个145B模型的MoE目前没有训练完。目前论文公布的数据看,效果不够惊艳!
- DeepSeek MoE 16B简介
- DeepSeek MoE 16B的评测对比
- DeepSeek MoE 145B的评测对比
- DeepSeek MoE 16B与Mixtral 8×7B MoE对比
- 总结
DeepSeek MoE 16B简介
DeepSeek是中国知名私募幻方量化旗下的大模型初创企业,在2023年7月份成立。在2023年11月底开源了四个大语言模型,表现水平与LLaMA2差不多,但是中文有明显提升。
此次开源的DeepSeek MoE 16B的模型也包含两个版本,一个是基座版本的DeepSeek MoE 16B Base,另一个是在次基础上聊天优化的DeepSeek MoE 16B Chat。
DeepSeek MoE 16B模型的参数164亿,预训练大小32GB左右。DeepSeek MoE 16B模型每次推理仅仅激活其中28亿左右的参数,因此约等于30亿参数规模的大模型,但是其效果和LLaMA2-7B差不多,也就是说,以LLaMA2-7B的40%的参数获得了差不多水平的结果。同时,DeepSeekAI透露,他们正在训练有1450亿参数的MoE版本的大模型,但是每次推理仅激活190亿参数左右,但是性能与670亿参数模型效果差不多。
DeepSeek MoE 16B在2万亿tokens的数据集上进行预训练,数据集包含网络、数学、中文等,应该和此前DeepSeek LLM系列模型用的是同样的数据集。
DeepSeek MoE 16B的评测对比
DeepSeek MoE 16B模型与DeepSeekLLM 7B的对比如下:
- 参数内容
- LLaMA2-7B
- DeepSeek 7B Base
- DeepSeek MoE 16B
- 模型参数70亿69亿164亿
- 每次推理参数70亿69亿28亿
- 4K输入的FLOPs187.9T183.5T74.4T
- 训练数据集大小2万亿tokens2万亿tokens2万亿tokens
- MMLU 评分(文本理解)45.848.245
- CMMLU 评分(中文文本理解)14.647.242.5
- GSM8K评分(数学推理)15.517.418.8
- HumanEval评分(代码)14.626.226.8
- MBPP评分(代码)21.839.539.2
从这个对比结果结果可以看到(注意,这些均是基础模型版本,不带微调的结果,微调后效果会更高),DeepSeek MoE 16B的各项评测结果与70亿参数规模的LLaMA2-7B和DeepSeek LLM 7B差不多,但是其推理成本低很多。根据官方的描述,这个模型可以在40GB显存中运行,但是推理速度是7B模型的2.5倍。
聊天优化后的结果如下:
- 指标
- 抽样次数
- LLAMA2-7B SFT
- DeepSeek 7B Chat
- DeepSeekMoE 16B Chat
- 参数总数N/A6.7B6.9B16.4B
- 激活参数数N/A6.7B6.9B2.8B
- 每 4K 令牌的 FLOPsN/A187.9T183.5T74.4T
- HellaSwag (Acc.)0-shot67.971.072.2
- PIQA (Acc.)0-shot76.978.479.7
- ARC-easy (Acc.)0-shot69.770.269.9
- ARC-challenge (Acc.)0-shot50.850.250.0
- BBH (EM)3-shot39.343.142.2
- RACE-middle (Acc.)5-shot63.966.164.8
- RACE-high (Acc.)5-shot49.650.850.6
- DROP (EM)1-shot40.041.733.8
- GSM8K (EM)0-shot63.462.662.2
- MATH (EM)4-shot13.514.715.2
- HumanEval (Pass@1)0-shot35.445.145.7
- MBPP (Pass@1)3-shot27.839.046.2
- TriviaQA (EM)5-shot60.159.563.3
- NaturalQuestions (EM)0-shot35.232.735.1
- MMLLU (Acc.)0-shot50.049.747.2
- WinoGrande (Acc.)0-shot65.168.469.0
- CLUE-WSC (EM)5-shot48.466.268.2
- CEval (Acc.)0-shot35.144.740.0
- CMMLU (Acc.)0-shot36.951.249.3
也就是说,这个模型的显存要求比7B模型高很多,但是推理速度更快。
DeepSeek MoE 145B的评测对比
除了上面这个164亿规模的DeepSeek MoE模型外,DeepSeekAI还训练了一个1446亿参数规模的MoE模型,未来还会开源。这个模型的效果与700亿参数规模的模型差不多,对比结果如下:
- 参数内容
- LLaMA2-70B
- DeepSeek 67B Base
- DeepSeek MoE 145B
- 模型参数700亿674亿1446亿
- 每次推理参数700亿674亿222亿
- 4K输入的FLOPs/2057.5T585.6T
- 训练数据集大小2万亿tokens2450亿tokens2450亿tokens
- MMLU 评分(文本理解)8445.139.4
- CMMLU 评分(中文文本理解)53.140.635.9
- GSM8K评分(数学推理)58.411.812.2
- HumanEval评分(代码)28.723.819.5
- MBPP评分(代码)62.933.633.2
目前,这个DeepSeek MoE 1450亿参数规模的模型只训练了2450亿参数规模,约等于之前2万亿的1/10多一点。还在继续训练中,从评测结果看,效果比较一般。目前也没有公布预训练结果,可能需要一段时间。
DeepSeek MoE 16B与Mixtral 8×7B MoE对比
这里我们也对比一下此前MistralAI开源的混合专家模型与DeepSeek混合专家模型的评测结果。
如下表所示:
- 基准测试
- Mixtral
- DeepSeek MoE 16B (2450亿)
- DeepSeek MoE 145B
- 模型参数560亿164亿1446亿
- 每次推理参数140亿28亿222亿
- MMLU70.6%45.0%39.4%
- Code (Humaneval)40.2%26.8%19.5%
- 数学 (MATH数据集)28.4%4.3%3.1%
- GSM8K74.4%18.8%12.2%
怎么说呢,DeepSeek MoE模型效果很一般。但是可能是16B的DeepSeek MoE模型参数太少,而145B的DeepSeek MoE模型又没有训练完成的原因。只有等后续DeepSeek MoE 145B完成之后了。
总结
按照官方的材料,目前DeepSeek MoE 16B已经训练完毕,有2个模型,分别是基座模型和聊天优化的版本。而更大更强的DeepSeek MoE 145B模型未来也会开源。这个模型应该和此前一样,都是免费商用授权的。
从目前的评测结果看,这个MoE模型的评测结果似乎不够理想,基本可以理解为显存大小比70亿参数规模高,效果差不多,唯一的优点是推理速度更快。而未来的DeepSeek 145B版本不知道会不会有类似的结论。这个结论与Mixtral-8×7B效果似乎有一点点差别。
DeepSeek目前开源的模型比较多,共6个,未来DeepSeek MoE 145B再开源2个就8个了,大家可以关注DataLearnerAI的模型信息卡:
- 模型名称
- 参数规模
- 类型
- DataLearnerAI模型信息卡地址
- DeepSeek LLM 7B Base69亿基座大模型https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-7b-base
- DeepSeek LLM 7B Chat69亿聊天优化大模型https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-7b-chat
- DeepSeek MoE 16B Base164亿混合专家基座大模型https://www.datalearner.com/ai-models/pretrained-models/DeepSeekMoE-16B-Base
- DeepSeek MoE 16B Chat164亿混合专家聊天优化大模型https://www.datalearner.com/ai-models/pretrained-models/DeepSeekMoE-16B-Chat
- DeepSeek LLM 67B Base674亿基座大模型https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-67b-base
- DeepSeek LLM 67B Chat674亿聊天优化大模型https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-67b-chat


财经自媒体联盟

4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有