DeepSeekAI开源国产第一个混合专家技术的大模型:DeepSeekMoE-16B

DeepSeekAI开源国产第一个混合专家技术的大模型:DeepSeekMoE-16B
2024年01月11日 15:02 DataLearnerAI

混合专家(Mixture of Experts)是大模型一种技术,这个技术将大模型划分为不同的子专家模型,每次推理只选择部分专家网络进行推理,在降低成本的同时保证模型的效果。此前Mistral开源的Mixtral-8×7B-MoE大模型被证明效果很好,推理速度很棒(参考:https://www.datalearner.com/blog/1051702307667324)。而幻方量化旗下的DeepSeek刚刚开源了可能是国产第一个MoE技术的大模型,DeepSeek-MoE 16B。

从模型公布的结果看,16B的DeepSeek MoE模型推理只使用28亿参数,效果与70亿模型差不多。还有一个145B模型的MoE目前没有训练完。目前论文公布的数据看,效果不够惊艳!

  • DeepSeek MoE 16B简介
  • DeepSeek MoE 16B的评测对比
  • DeepSeek MoE 145B的评测对比
  • DeepSeek MoE 16B与Mixtral 8×7B MoE对比
  • 总结

DeepSeek MoE 16B简介

DeepSeek是中国知名私募幻方量化旗下的大模型初创企业,在2023年7月份成立。在2023年11月底开源了四个大语言模型,表现水平与LLaMA2差不多,但是中文有明显提升。

此次开源的DeepSeek MoE 16B的模型也包含两个版本,一个是基座版本的DeepSeek MoE 16B Base,另一个是在次基础上聊天优化的DeepSeek MoE 16B Chat。

DeepSeek MoE 16B模型的参数164亿,预训练大小32GB左右。DeepSeek MoE 16B模型每次推理仅仅激活其中28亿左右的参数,因此约等于30亿参数规模的大模型,但是其效果和LLaMA2-7B差不多,也就是说,以LLaMA2-7B的40%的参数获得了差不多水平的结果。同时,DeepSeekAI透露,他们正在训练有1450亿参数的MoE版本的大模型,但是每次推理仅激活190亿参数左右,但是性能与670亿参数模型效果差不多。

DeepSeek MoE 16B在2万亿tokens的数据集上进行预训练,数据集包含网络、数学、中文等,应该和此前DeepSeek LLM系列模型用的是同样的数据集。

DeepSeek MoE 16B的评测对比

DeepSeek MoE 16B模型与DeepSeekLLM 7B的对比如下:

  • 参数内容
  • LLaMA2-7B
  • DeepSeek 7B Base
  • DeepSeek MoE 16B
  • 模型参数70亿69亿164亿
  • 每次推理参数70亿69亿28亿
  • 4K输入的FLOPs187.9T183.5T74.4T
  • 训练数据集大小2万亿tokens2万亿tokens2万亿tokens
  • MMLU 评分(文本理解)45.848.245
  • CMMLU 评分(中文文本理解)14.647.242.5
  • GSM8K评分(数学推理)15.517.418.8
  • HumanEval评分(代码)14.626.226.8
  • MBPP评分(代码)21.839.539.2

从这个对比结果结果可以看到(注意,这些均是基础模型版本,不带微调的结果,微调后效果会更高),DeepSeek MoE 16B的各项评测结果与70亿参数规模的LLaMA2-7B和DeepSeek LLM 7B差不多,但是其推理成本低很多。根据官方的描述,这个模型可以在40GB显存中运行,但是推理速度是7B模型的2.5倍。

聊天优化后的结果如下:

  • 指标
  • 抽样次数
  • LLAMA2-7B SFT
  • DeepSeek 7B Chat
  • DeepSeekMoE 16B Chat
  • 参数总数N/A6.7B6.9B16.4B
  • 激活参数数N/A6.7B6.9B2.8B
  • 每 4K 令牌的 FLOPsN/A187.9T183.5T74.4T
  • HellaSwag (Acc.)0-shot67.971.072.2
  • PIQA (Acc.)0-shot76.978.479.7
  • ARC-easy (Acc.)0-shot69.770.269.9
  • ARC-challenge (Acc.)0-shot50.850.250.0
  • BBH (EM)3-shot39.343.142.2
  • RACE-middle (Acc.)5-shot63.966.164.8
  • RACE-high (Acc.)5-shot49.650.850.6
  • DROP (EM)1-shot40.041.733.8
  • GSM8K (EM)0-shot63.462.662.2
  • MATH (EM)4-shot13.514.715.2
  • HumanEval (Pass@1)0-shot35.445.145.7
  • MBPP (Pass@1)3-shot27.839.046.2
  • TriviaQA (EM)5-shot60.159.563.3
  • NaturalQuestions (EM)0-shot35.232.735.1
  • MMLLU (Acc.)0-shot50.049.747.2
  • WinoGrande (Acc.)0-shot65.168.469.0
  • CLUE-WSC (EM)5-shot48.466.268.2
  • CEval (Acc.)0-shot35.144.740.0
  • CMMLU (Acc.)0-shot36.951.249.3

也就是说,这个模型的显存要求比7B模型高很多,但是推理速度更快。

DeepSeek MoE 145B的评测对比

除了上面这个164亿规模的DeepSeek MoE模型外,DeepSeekAI还训练了一个1446亿参数规模的MoE模型,未来还会开源。这个模型的效果与700亿参数规模的模型差不多,对比结果如下:

  • 参数内容
  • LLaMA2-70B
  • DeepSeek 67B Base
  • DeepSeek MoE 145B
  • 模型参数700亿674亿1446亿
  • 每次推理参数700亿674亿222亿
  • 4K输入的FLOPs/2057.5T585.6T
  • 训练数据集大小2万亿tokens2450亿tokens2450亿tokens
  • MMLU 评分(文本理解)8445.139.4
  • CMMLU 评分(中文文本理解)53.140.635.9
  • GSM8K评分(数学推理)58.411.812.2
  • HumanEval评分(代码)28.723.819.5
  • MBPP评分(代码)62.933.633.2

目前,这个DeepSeek MoE 1450亿参数规模的模型只训练了2450亿参数规模,约等于之前2万亿的1/10多一点。还在继续训练中,从评测结果看,效果比较一般。目前也没有公布预训练结果,可能需要一段时间。

DeepSeek MoE 16B与Mixtral 8×7B MoE对比

这里我们也对比一下此前MistralAI开源的混合专家模型与DeepSeek混合专家模型的评测结果。

如下表所示:

  • 基准测试
  • Mixtral
  • DeepSeek MoE 16B (2450亿)
  • DeepSeek MoE 145B
  • 模型参数560亿164亿1446亿
  • 每次推理参数140亿28亿222亿
  • MMLU70.6%45.0%39.4%
  • Code (Humaneval)40.2%26.8%19.5%
  • 数学 (MATH数据集)28.4%4.3%3.1%
  • GSM8K74.4%18.8%12.2%

怎么说呢,DeepSeek MoE模型效果很一般。但是可能是16B的DeepSeek MoE模型参数太少,而145B的DeepSeek MoE模型又没有训练完成的原因。只有等后续DeepSeek MoE 145B完成之后了。

总结

按照官方的材料,目前DeepSeek MoE 16B已经训练完毕,有2个模型,分别是基座模型和聊天优化的版本。而更大更强的DeepSeek MoE 145B模型未来也会开源。这个模型应该和此前一样,都是免费商用授权的。

从目前的评测结果看,这个MoE模型的评测结果似乎不够理想,基本可以理解为显存大小比70亿参数规模高,效果差不多,唯一的优点是推理速度更快。而未来的DeepSeek 145B版本不知道会不会有类似的结论。这个结论与Mixtral-8×7B效果似乎有一点点差别。

DeepSeek目前开源的模型比较多,共6个,未来DeepSeek MoE 145B再开源2个就8个了,大家可以关注DataLearnerAI的模型信息卡:

  • 模型名称
  • 参数规模
  • 类型
  • DataLearnerAI模型信息卡地址
  • DeepSeek LLM 7B Base69亿基座大模型https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-7b-base
  • DeepSeek LLM 7B Chat69亿聊天优化大模型https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-7b-chat
  • DeepSeek MoE 16B Base164亿混合专家基座大模型https://www.datalearner.com/ai-models/pretrained-models/DeepSeekMoE-16B-Base
  • DeepSeek MoE 16B Chat164亿混合专家聊天优化大模型https://www.datalearner.com/ai-models/pretrained-models/DeepSeekMoE-16B-Chat
  • DeepSeek LLM 67B Base674亿基座大模型https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-67b-base
  • DeepSeek LLM 67B Chat674亿聊天优化大模型https://www.datalearner.com/ai-models/pretrained-models/deepseek-llm-67b-chat

0条评论|0人参与网友评论
最热评论

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部