AI前沿速报0905：AI在商业领域的广泛应用推动GPU需求_

大家好，欢迎来到本期AI前沿速报。本期内容包括：大模型在自动驾驶领域的应用加速、Meta AI发布视觉转换模型Nougat、韩国研究人员提出文本到语音模型VITS2等。我们希望通过这些资讯，让大家了解到AI技术的前沿进展，并引发对AI接下来发展的思考与讨论。请大家关注、点赞、转发这篇内容，让更多的人了解AI的日新月异变化。

1. 【大模型在自动驾驶领域的应用加速】

大模型在自动驾驶中的应用正在加速发展，可以处理不同传感器数据之间的关系，更全面和准确地理解驾驶环境。为了探讨大模型在自动驾驶中的关键问题和构建方法，智东西公开课将于9月11日晚举办在线研讨会。研讨会邀请了上海科技大学助理教授马月昕、上海人工智能实验室青年研究员侯跃南和香港大学博士后研究员陈润楠进行深度讲解。马月昕将分享大规模场景3D视觉基础模型的构建挑战，侯跃南和陈润楠将分别探讨自动驾驶技术研究与应用探索以及零样本3D场景理解。

2. 【Meta AI发布Nougat：一种可将科学文档转化为标记语言的视觉转换模型】

Meta AI团队推出了一种名为Nougat的解决方案，旨在通过视觉转换模型将科学文档转化为标记语言，以提高科学知识的可访问性。该模型可以将PDF文件转化为易于访问和机器可读的标记语言，填补了人们易于阅读的文本和计算机处理和分析的文本之间的差距。该团队还发布了一个预训练模型，供研究人员和其他人使用。这一方法为数字时代的科学文献提供了有效的解决方案。

3. 【韩国研究人员提出VITS2：单阶段文本到语音模型的突破，提高自然度和效率】

韩国研究人员提出了一种名为VITS2的单阶段文本到语音模型，通过改进之前模型的各个方面，合成更自然的语音。该模型解决了间歇性不自然、计算效率和对音素转换的依赖等问题。研究人员在持续时间预测、增强变分自编码器、对齐搜索和基于说话者的文本编码器等四个方面进行了改进。实验证明，该方法在合成语音的质量上有显著提高。

4. 【新型AI架构HybridGNet揭示解剖分割的秘密】

研究人员开发了一种名为HybridGNet的新型AI编码-解码神经架构，利用标准卷积进行图像特征编码，并使用图卷积神经网络（GCNNs）解码出解剖结构的合理表示。该架构通过对输入图像进行标准卷积处理，并通过采样“瓶颈潜在分布”生成基于标记的分割结果。此外，还引入了Image-to-Graph Skip Connection（IGSC）模块，通过编码器到解码器的特征传递，增强了模型恢复细节的能力。研究结果显示，HybridGNet相比现有方法具有更好的效果。

5. 【AI在商业领域的广泛应用推动了GPU需求】

近期，沃尔玛宣布将向5万名非门店员工推出一款基于生成式AI的应用程序，帮助员工加快起草流程、提供创意伙伴、总结大型文件等。这类部署推动了对用于训练深度学习模型所需的图形处理单元（GPU）的需求。Nvidia作为主要的GPU供应商，其业绩喜人。然而，一些观察人士认为，虽然当前的生成式AI需求高涨，但也可能意味着其发展的下一个浪潮即将到来。Nvidia CEO Jensen Huang表示，现在是“加速计算”的黎明时刻，他建议企业将资本投资从通用计算转向生成式AI和加速计算。然而，并非所有软件都适合在GPU上运行，目前的生成式AI仍存在一些限制。尽管如此，生成式AI的未来前景依然光明，它将继续推动自动化和提高生产力的发展。

6. 【苹果公司将把iPhone的充电端口从Lightning改为USB-C】

苹果公司将在未来几年内将iPhone的充电端口从Lightning改为USB-C，以满足欧盟的要求。这一改变将给用户带来便利，可以使用一根充电线为iPhone、Mac和iPad充电，并提升数据传输速度和充电速度。然而，苹果公司也面临一些问题，如失去来自Lightning配件制造商的授权收入、需要投入大量资源和资金进行转换、可能增加与安卓设备的兼容性，以及可能引起负面舆论。苹果公司将采取措施降低公关风险，并保证用户的无缝过渡。

7. 【DeepMind联合创始人苏莱曼：AI制衡计划，加强监管应对未来挑战】

DeepMind联合创始人苏莱曼认为，AI几乎可以做任何事情，但人类需要思考如何应对未来AI带来的挑战。他提出了一个由10个部分组成的AI制衡计划，用来限制新兴技术的负面影响。苏莱曼认为加强监管才是真正改变现状的方式，他关注其他AI公司在加强审核方面的尝试。他的公司Inflection也将在审核上继续努力。未来，AI公司和政府将如何应对“错位”AI问题，我们将持续关注。

8. 【研究人员开发出一款AI应用程序，用于检测脊柱问题】

研究人员开发了一款名为AlignProCARE的计算机程序，可以通过X射线测量脊柱问题的严重程度，并判断其恶化速度。该程序还可以识别不同类型的脊柱曲线，并判断是否需要进一步检查。研究人员表示，这种应用程序可以减少轻度脊柱问题患者的X射线检查次数，对于没有易于获得经验丰富的脊柱外科医生的人来说尤其有帮助。该应用程序易于使用，成本低廉，并且不会给患者带来较多辐射。研究人员仍在努力开发更先进的工具，以进一步帮助医生进行诊断。

9. 【亚马逊研究人员提出“HandsOff”方法，消除手动注释合成图像数据的需求】

亚马逊研究人员在计算机视觉和模式识别会议上介绍了一种名为“HandsOff”的创新方法。该方法通过利用少量标记图像和生成对抗网络（GANs），消除了对合成图像数据进行手动注释的需求。HandsOff采用了GAN反演的新方法，通过训练一个独立的GAN反演模型，将真实图像映射到GAN的潜在空间中的点，从而创建一个基于标记图像的小数据集。研究人员通过优化GAN反演模型，确保即使对于不完全重构的想法，也能保证标签的准确性。HandsOff在语义分割、关键点检测和深度估计等重要计算机视觉任务上展示了最先进的性能，仅使用少于50个现有标记图像。这一突破性的方法将大大减少训练机器学习模型所需的资源和时间。

10. 【珠海芯动力发布首款基于可重构架构的GPGPU芯片RPP-R8】

珠海芯动力发布了首款基于可重构架构的GPGPU芯片RPP-R8，该芯片具备通用编程性和高能效的特点，能满足高效并行计算和AI计算应用。芯动力的研发团队由资深半导体从业者组成，他们通过创新的RPP架构，在性能、面积和功耗方面超过了传统GPU架构。该芯片已实现千片级小规模量产，并在边缘计算、医疗超声波和AI等领域得到应用。芯动力的目标是在竞争激烈的GPGPU赛道中拿下第一，并超越英伟达。

11. 【Meta发布122种语言的机器阅读理解数据集】

Meta发布了涵盖122种语言变体的多项选择机器阅读理解（MRC）数据集Belebele。该数据集可以评估高、中、低资源语言的单语言和多语言模型。每个问题有四个多选答案，并与FLORES-200数据集中的一个短文段相连。该数据集可以直接比较所有语言的模型性能。

12. 【创新奇智发布工业大模型产品矩阵】

创新奇智发布了“奇智孔明AInnoGC”工业大模型产品矩阵，包括工业大模型AInno-15B和三款生成式AI应用产品。AInno-15B拥有150亿以上参数，具备工业知识归纳生成、工业数据分析、自动化任务编排等能力。创新奇智的思路是聚焦工业，在开源大模型的基础上设计适合工业的垂类大模型参数结构。此次发布的产品矩阵将加速制造行业的智能化转型。

13. 【苹果和荣耀将采用3D打印技术改进Apple Watch工艺】

苹果和荣耀计划在新款Apple Watch中引入3D打印技术，以改进钛合金底盘的生产工艺。这一举措引起了行业对3D打印技术的关注。苹果选择了中国的铂力特和华曙高科作为3D打印设备的供应商，而激光零部件供应商则是美国的IPG光电。尽管3D打印市场规模相对较小，但预计未来会有较大增长空间。中国企业在3D打印领域的发展也在加速追赶。

14. 【英国政府公布全球AI安全峰会计划】

英国政府计划于2023年11月1日至2日在Bletchley Park举办全球AI安全峰会，旨在解决AI发展在国家和国际层面上所面临的挑战和机遇。峰会将汇集各国政府、科技组织、学术界和民间社会，旨在促进明智的AI监管。峰会的核心关注点之一是识别和减轻最强大的AI系统所带来的风险，包括AI被滥用以破坏生物安全和传播敏感信息。此外，峰会还将探讨如何利用AI造福人类，包括医疗技术和交通安全等领域。英国政府表示将与全球合作伙伴密切合作，确保AI的安全和全球受益。

15. 【研究发现：Lucene与OpenAI嵌入结合可实现强大的向量搜索】

最近，研究人员发现，通过将Lucene与OpenAI嵌入结合，可以构建一个强大的向量搜索原型。这种方法可以简化从内容生成密集向量的复杂过程，并使其更易于实践者使用。研究结果表明，Lucene在构建搜索生态系统时已经足够。然而，只有时间才能证明这种方法是否正确。这也提醒我们，在快速发展的人工智能世界中，权衡成本与收益仍然是一种主要思维方式。

16. 【中国国际智能产业博览会在重庆开幕】

中国国际智能产业博览会在重庆开幕，吸引了国内外产学研大佬参加。重庆作为智能网联新能源汽车布局活跃的城市，拥有丰富的汽车产业基础和发展劲头。重庆汽车产量连续多年位居全国前列，智能网联新能源汽车产业集群已初具规模。重庆还通过人才培养、产业生态环境建设和顶层设计等方式助力智能车产业发展。中国各地智能车产业也在全面开花，展现出中国独特的加速度。

17. 【Colossal-AI发布LLaMA2训练加速方案，提升195%】

Colossal-AI开源了针对LLaMA2大模型的全流程方案，支持8到512卡的训练、微调和推理，并具备高可扩展性。使用8卡训练LLaMA2-7B时，硬件利用率达到业界领先水平。对于预训练任务，使用512张A100 40GB预训练LLaMA2-70B，Colossal-AI的训练速度提升了195%。此外，Colossal-AI还提供了ShardFormer多维细粒度并行方案，支持多种并行方式和主流开源模型。为了进一步提升开发和部署效率，Colossal-AI还推出了云平台解决方案，用户可以无代码训练个性化私有模型，并一键部署。

18. 【IOI'23中国队全员夺金！包揽一二名斩获团体第一，历史金牌总数达到100枚】

中国队在IOI 2023国际信息学奥林匹克竞赛上再次全员夺金，以绝对优势拿下一二名，并斩获团体冠军。四位金牌得主分别是许庭强、程思元、戚朗瑞和刘一平。中国队自参加该赛事以来，金牌数量已达到100枚，奖牌总数量139枚，稳居世界第一。本届比赛共产生30枚金牌、58枚银牌和90枚铜牌，其中有两道题只有中国队选手给出了完整解决方案。

19. 【陶哲轩安利AI工具：新论文排版用上VSCode Copilot+插件】

数学家陶哲轩在Mastodon上透露，他将使用VSCode+插件+Copilot进行论文排版，取代了他用了近十年的TeXnicCenter + MikTeX组合。陶哲轩称这种方式比Word更高效，能够自定义代码片段并获得AI驱动的建议。他还分享了配置环境的方法，并展示了论文片段。这套组合将在他即将发布的论文中使用。

感谢您的关注，AI前沿观察将继续为您带来前沿、全面的人工智能资讯。请大家积极参与互动，点赞、评论、转发，让更多人了解AI的前沿技术和应用。明天的速报，我们不见不散！