苹果发布语言模型OpenELM：基于开源训练和推理框架_

来源：环球网

【环球网科技综合报道】4月25日消息，苹果公司于日前发布一个名为OpenELM的高效语言模型，具有开源训练和推理框架。

苹果方面表示，“大型语言模型的可重复性和透明性对于推进开放研究、确保结果的可信度以及调查数据和模型偏差以及潜在风险至关重要。为此，我们发布了 OpenELM。”

据介绍，OpenELM使用分层缩放策略，可以有效地分配Transformer模型每一层的参数，从而提高准确率。例如，在参数量约为10亿的情况下，OpenELM与OLMo 相比准确率提升了2.36%，同时所需的预训练 tokens 数量为原来的50%。

“与以往只提供模型权重和推理代码并在私有数据集上进行预训练的做法不同。”苹果官方指出，“我们发布的版本包含了在公开数据集上训练和评估语言模型的完整框架，包括训练日志、多个检查点和预训练配置。我们还发布了将模型转换为 MLX 库的代码，以便在苹果设备上进行推理和微调。此次全面发布旨在增强和巩固开放研究社区，为未来的开放研究工作铺平道路。”

据悉，这是一项开源语言模型，其源码及预训练的模型权重和训练配方可在苹果 Github库中获取。

头条号入驻

环球网世界很精彩！

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

苹果发布语言模型OpenELM：基于开源训练和推理框架

头条号入驻

巴菲特股东会开场电影首次公开放映，致敬芒格：他是伯克希尔的建筑师

天津河北区警方通报“一女子在永乐桥欲跳桥轻生”：女子被救下并送医治疗

加沙希法医院骨科主任遭拘禁后在以色列监狱去世，联合国官员：极度震惊！

财经自媒体联盟更多自媒体作者

热文排行榜