大模型论文周报丨来自谷歌、微软、OpenAI、Hugging Face、清华大学等_

大模型又可以称为Foundation Model模型，模型通过亿级的语料或者图像进行知识抽取，学习进而生产了亿级参数的大模型。大模型的出现迎来了AI研究的新时代，其所带来的结果提升十分显著，超越了很多领域中针对研究问题设计特定算法实现的提升。

本周精选了10篇大模型领域的优秀论文，分别来自谷歌、微软、OpenAI、Hugging Face、清华大学等机构。

为了方便大家阅读，只列出了论文标题、作者、AI华同学综述等信息，如果感兴趣可点击“论文详情页”查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

1.PaLM 2 Technical Report

作者：Google

链接：https://www.aminer.cn/pub/645c5eee178f214388805cc2/

AI综述（大模型驱动）：该技术报告介绍了一种新的语言模型PaLM 2，该模型具有更好的多语言和推理能力，比其前身PaLM更高效。经过大量的评估，该模型展现出了在不同模型大小上更好的下游任务质量，同时展现出比PaLM更快和更高效的推理能力。这种改进的效率使得该模型能够更广泛地部署，同时也使得模型能够以更自然的交互方式更快地响应。PaLM 2 展现出了强大的推理能力，并在BIG-Bench和其他推理任务上比PaLM有着大幅度的提升。此外，该模型在一系列负责任的AI评估中表现稳定，并允许在推理时控制毒性，而不会对其他功能造成额外的开销或影响。总的来说，PaLM 2 在各种任务和能力方面都取得了最先进的表现。

2.Shap-E: Generating Conditional 3D Implicit Functions

作者：Heewoo Jun,Alex Nichol

链接：https://www.aminer.cn/pub/6456389bd68f896efacf6ae7/

AI综述（大模型驱动）：本文介绍了Shap E,一种条件生成模型,用于建模3D资产。该模型直接生成隐式函数参数,并通过编码器输出的条件传播模型进行训练。与现有的3D生成模型相比,Shap E能够在几秒钟内生成复杂和多样化的3D资产。与顶点E相比,Shap E扩展速度更快,可获得类似或优于基准质量。我们发布了模型权重、推理代码和样本。

3.ChatLog: Recording and Analyzing ChatGPT Across Time

作者：Shangqing Tu,Chunyang Li,Jifan Yu,Xiaozhi Wang,Lei Hou,Juanzi Li

链接：https://www.aminer.cn/pub/644b39720ac8640098308f56/

AI综述（大模型驱动）：本文收集了一个名为ChatLog的冗余时间数据库,其中两个部分更新每月和每天,包括从逻辑和分类任务中提取的38,730个答案对齐问题。ChatLog每日由一个包含1000多个相同的问题的形式生成的数据库组成,该数据库可用于全面的自动和人类评估,以提供 ChatGPT不断发展的模式证据。我们还通过提取其知识和语言特征来分析overtimeChatGPT的特征,并发现一些稳定的特征来提高罗伯塔基于探测器的鲁棒性。

4.StarCoder: may the source be with you!

作者：Raymond Li, Loubna Ben Allal，Leandro von Werra,Harm de Vries等人

链接：https://www.aminer.cn/pub/645c5e47d68f896efa22ce3a/

AI综述（大模型驱动）：BigCode社区是一个开放科学协作机构,致力于开发大型语言模型(code LLM)的共同开发者。它引入了StarCoder和StarCoderBase,这些模型具有8K个上下文长度、令人难以置信的能力和快速的大规模推理能力。我们通过将100万个python标记转换为starcoderbase,实现了starcoder,并证明了starcoderbase在支持多种编码语言的情况下优于所有支持多个编码语言的open code LLM。

5.ArtGPT-4: Artistic Vision-Language Understanding with Adapter-enhanced MiniGPT-4

作者：Zhengqing Yuan,Huiwen Xue,Xinyi Wang,Yongming Liu,Zhuanzhe Zhao,Kun Wang

链接：https://www.aminer.cn/pub/6461b9c9d68f896efad431c6/

AI综述（大模型驱动）：本文提出了一种名为ArtGPT 4的大型语言模型,该模型能够在图像文本对上进行训练和生成视觉代码。该模型可以在2小时内使用特斯拉A100设备进行训练,仅使用大约200GB的数据。该模型可以绘制具有艺术魅力的图像,并生成视觉代码,包括引人注目的Web页面。此外,文章提出了新的评估方法来评估视觉语言模型的性能。在之后的评估方法中,ArtGPT 4比现有的\textbf{艺术状态}模型得分高于1个点,比艺术家仅0.25个点低。

6.Do LLMs Understand User Preferences? Evaluating LLMs On User Rating Prediction

作者：Wang-Cheng Kang,Jianmo Ni,Nikhil Mehta,Maheswaran Sathiamoorthy,Lichan Hong,Ed Chi,Derek Zhiyuan Cheng

链接：https://www.aminer.cn/pub/645dad0cd68f896efad9d9aa/

AI综述（大模型驱动）：本文探讨了在大规模语言模型(LLM)中,如何利用协同过滤(CF)来预测用户评分。研究了不同大小的LMs,从250M到540B的参数,并在零射、少射和fine-tuning情景中评估了它们的性能。通过全面分析,比较了LMs和 Strong CF方法,发现低射LMs落后于传统的推荐模型,可访问用户交互数据,表明用户交互数据的重要性。此外,通过fine-tuning,LMs能够获得媲美或更优的性能,通过数据效率来证明其潜力。

7.CodeT5+: Open Code Large Language Models for Code Understanding and Generation

作者：Yue Wang,Hung Le,Akhilesh Deepak Gotmare,Nghi D. Q. Bui,Junnan Li,Steven C. H. Hoi

链接：https://www.aminer.cn/pub/6462f133d68f896efa9116ef/

AI综述（大模型驱动）：本文提出了一种名为《codeT5+》的编码解码器家族,用于可视化、对比学习、文本代码匹配和 causal LM预训练任务。该模型能够灵活地结合不同downstream代码任务,有效地提高其性能,并探讨了操作调校以与自然语言指令相匹配。通过对20多个相关基准测试进行广泛评估,我们发现该模型在各种相关的基准测试中均表现出最先进的SoTA性能。

8.InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

作者：Wenliang Dai,Junnan Li,Dongxu Li,Anthony Meng Huat Tiong,Junqi Zhao,Weisheng Wang,Boyang Li,Pascale Fung,Steven Hoi

链接：https://www.aminer.cn/pub/645dad14d68f896efad9dc94/

AI综述（大模型驱动）：本文系统和全面地研究了视觉语言训练调优的问题。我们收集了26个公开的数据集,将它们转换为训练调优格式,并将它们分组为置于训练调优和置于零射击评估的聚类。此外,我们还引入了监督意识视图特征提取方法,以便模型能够从给定的指令中提取信息性特征。这些模型在所有13个搁浅数据集上实现了最先进的零射击性能,超过了Blip 2和更大的Flamingo。此外,我们还量化了InstructBLIP比竞争多模式模型的优势。

9.EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention

作者：Xinyu Liu,Houwen Peng,Ningxin Zheng,Yuqing Yang,Han Hu,Yixuan Yuan

链接：https://www.aminer.cn/pub/645dad16d68f896efad9df53/

AI综述（大模型驱动）：本文提出了一种名为EfficientViT的高速可视化Transformer家族。我们发现,现有的Transformer模型的速度通常与内存不均等操作有关,特别是在MHSA中,Tensor Reshaping和元素 wise函数。因此,我们设计了一个新的建筑块,采用一个单独连接有效的FFN层之间的一小部分内存,提高内存效率,同时改善通道通信。为了解决这个问题,我们提出了一个 cascading小组关注模块,结合了整个特征的不同分段,不仅可以节省计算成本,而且可以提高注意的多样性。实验结果表明,EfficientViT在精度和准确性方面优于现有的有效模型,并且具有良好的竞争优势。

10.FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance

作者：Lingjiao Chen,Matei Zaharia,James Zou

链接：https://www.aminer.cn/pub/645c5e3fd68f896efa22c662/

AI综述（大模型驱动）：本文综述了在大量数据集和文本中使用大型语言模型(LLM)的计算成本问题。我们提出了一种简单的、但可扩展的LM cascade机制FrugalGPT,它学习如何使用不同的LMs来降低成本和提高准确性。

— end —