大家好,欢迎来到本期AI前沿速报。本期内容包括:Bard推出升级版AI模型与Google应用集成、Meta将推出面向年轻用户的生成式AI聊天机器人、AI的不确定时代等。我们希望通过这些资讯,让大家了解到AI技术的前沿进展,并引发对AI接下来发展的思考与讨论。请大家关注、点赞、转发这篇内容,让更多的人了解AI的日新月异变化。
1. 【Bard推出升级版AI模型,与Gmail、Drive等Google应用集成】
Bard推出了最新的升级版AI模型,与Gmail、Drive等Google应用实现了深度集成。这一功能名为Bard Extensions,可以从Gmail、Docs、Drive、Google Maps、YouTube等工具中提取和展示相关信息。用户可以通过Bard Extensions在一次对话中完成多个任务,如规划旅行、撰写简历和求职信等。此外,Bard还增加了“Google it”功能,用户可以通过点击“G”图标,验证Bard的回答是否与网络上的信息一致。这些升级使Bard成为一个更加强大和可靠的工具,为用户提供更好的体验。
2. 【Meta将推出面向年轻用户的生成式AI聊天机器人】
据《华尔街日报》报道,Meta准备推出一款名为“Gen AI Personas”的生成式AI聊天机器人,专为年轻用户设计。据悉,该机器人将在本周三开始的Meta Connect活动上发布,提供多种“人设”,旨在通过更丰富多彩的行为吸引年轻用户,继ChatGPT成为过去一年增长最快的应用之一。据报道,Meta已经在Instagram上测试了一些更普遍定位的聊天机器人人设。Meta计划创建“数十个”这样的机器人,并已经开发了一个聊天机器人创建工具,使名人能够为他们的粉丝制作自己的聊天机器人。据文章称,还可能会有一些更注重生产力的机器人,能够帮助“编码和其他任务”。Meta还将展示更多关于其元宇宙项目和新的Quest 3头戴式显示器的信息。
3. 【AI的不确定时代】
人工智能(AI)的快速发展给我们带来了巨大的不确定性。AI已经在日常生活中产生了影响,从生成的歌曲到模仿失去的亲人的聊天机器人,技术正在变得无处不在。未来,AI将变得更加普遍,带来更多的变革。下一代AI模型将更加复杂和通用化,具备推理、常识和判断等能力。谷歌、DeepMind和其他公司正在开发更大、更先进的模型,这些模型可能是人工通用智能(AGI)的重要一步。然而,这些新的发展也引发了对监管和规范的呼吁。AI的发展前景巨大,但也存在潜在的危险,我们需要谨慎对待,确保将其发展为造福人类的技术。
4. 【Lumen:通过呼吸测量碳水化合物燃烧,帮助用户了解个人新陈代谢】
Lumen是一款手持设备,通过呼吸测量用户的代谢活动。用户通过设备吸入空气10秒钟,然后通过设备呼出至少6秒钟。Lumen通过测量二氧化碳水平来判断用户是在燃烧脂肪还是碳水化合物。用户可以每天或多次测量,应用程序会告诉他们是否在燃烧碳水化合物或脂肪。Lumen还提供了饮食建议,帮助用户保持代谢平衡。该设备的创始人表示,使用Lumen可以提高代谢灵活性,使身体在需要时高效地切换使用脂肪储备和碳水化合物储备作为燃料来源。Lumen设备的订阅价格为249美元,每月续费19美元。
5. 【研究发现大型语言模型在编译优化方面表现出色】
Meta AI研究人员试图让大型语言模型(LLMs)进行与常规编译器相同的代码优化。他们认为LLMs无法处理编译器优化的复杂性,因为LLMs通常用于翻译语言和生成代码。然而,研究结果却令人惊讶,LLMs在编译优化方面表现出色。研究人员的方法是使用7亿参数的LLM架构,并通过训练模型来优化代码。他们的研究成果对于广大社区具有重要意义。详情请参阅原文链接。
6. 【新思科技开发者大会:芯片行业未来发展航向】
新思科技在上海举办2023开发者大会,探讨科技创新和多重技术领域的未来发展。会上,新思科技提出了芯片行业未来发展的建议,包括培养青少年人才和推动绿色科技创新。会议还讨论了芯片开发者面临的挑战,如软件复杂性、系统复杂性、能效、信息安全和功能安全等。与会嘉宾认为,EDA+AI是一个值得关注的赛道。此外,会议还解构了芯片技术革新和落地方向,并强调培育人才是芯片行业的当务之急。
7. 【研究探讨图像匿名化对计算机视觉性能的影响】
一项新的研究比较了传统的图像匿名化方法和更现实的方法对计算机视觉任务的影响。研究发现,传统方法如模糊会降低计算机视觉模型的性能,而现实的匿名化方法通过用生成模型合成内容来替换隐私敏感信息,能更好地保留图像的实用性。研究还发现,全身匿名化会导致性能下降,尽管现实的方法稍微更有效。这项研究的局限性包括依赖自动注释和特定模型架构。未来的工作可以改进这些匿名化技术并解决生成模型的挑战。
8. 【基于LLM模型的自动化Agent开发流程和微调方法】
本文介绍了基于LLM模型的自动化Agent的开发流程和微调方法。Agent的构建包括任务拆分和函数调用两个模块,使用Marcoroni-70B模型和codellama模型进行微调。微调过程中使用LLaMA-Efficient-Tuning框架和deepspeed集成。完成微调后进行了测试,通过量化部署和flash_attention特性提高了模型的推理速度。项目的局限性是工具集和容错机制的简单性,可以进一步完善和扩展。
9. 【研究团队提出新方法,提升开源数学模型的推理能力】
来自滑铁卢大学和俄亥俄州立大学的研究团队提出了一种新的数学指令微调方法,可以增强开源数学模型的推理能力。他们创建了一个多样化的混合指令微调数据集MathInstruct,涵盖了不同的数学领域和复杂程度,并将思维链和思维程序两种方法结合起来。通过在MathInstruct上微调,他们得到了不同大小的模型,并发现这些新模型在领域外数据集上的性能优于之前的模型。这项研究为提升开源数学模型的能力提供了新的思路。
10. 【VLAM会是自动驾驶的黑盒解药吗?】
伦敦的自动驾驶公司Wayve开发了基于视觉-语言-动作模型(VLAM)的自动驾驶交互模型LINGO-1。LINGO-1能够通过语言解释自动驾驶系统的行为逻辑,并回答用户的问题。它结合了自然语言、视觉和动作数据进行训练,能够生成驾驶行为背后的原因。VLAM为自动驾驶带来了可解释性、规划和推理、长尾场景处理和新场景学习等机会。LINGO-1的准确率约为60%。VLAM的应用还可能解决自动驾驶事故定责中的数据共享问题。
11. 【特斯拉人形机器人Optimus展示了自主分类和纠正能力】
特斯拉人形机器人Optimus展示了其自主分类和纠正能力。Optimus可以自主地对物体进行分类,并且即使有干扰也能准确分类。此外,Optimus还展示了自主纠正的行为能力。特斯拉团队表示,Optimus可以完成长期任务,只需要收集更多数据就可以训练新的复杂任务。马斯克也对Optimus的进展表示肯定。Optimus是特斯拉人形机器人的一部分,未来目标是成为拥有\大脑\的类人机器人。
12. 【中国选手在亚运会赛艇比赛中获得首枚金牌】
中国选手邹佳琪和邱秀萍在亚运会赛艇女子轻量级双人双桨决赛中夺得了中国代表团的第一枚金牌。这是中国代表团在亚运会的第一天就获得的10余枚金牌之一。这次亚运会见证了中国成为体育强国的历程。阿里云利用AI技术修复了1974年亚运会的老照片,展示了中国运动员的昔日风采。修复后的照片将在杭州亚运会博物馆展出。
13. 【中国研究人员推出名为“FreeMan”的大规模真实多视角数据集】
中国研究人员推出了一种名为“FreeMan”的新型大规模多视角数据集,旨在解决现有数据集在真实场景下进行3D人体姿势估计时的限制。该数据集包含8000个序列的1100万帧,使用8台同步智能手机在各种场景下拍摄。研究人员通过自动化注释流程生成了精确的3D注释,该数据集对于多个任务具有价值,包括单目3D估计、2D到3D转换、多视角3D估计和人体主题的神经渲染。研究人员还通过与现有数据集的比较,展示了FreeMan在真实场景中的优越泛化能力。这一研究成果有望推动人体建模、计算机视觉和人机交互领域的进展,弥合了受控实验室条件和真实场景之间的差距。
14. 【亚马逊云科技发布生成式AI安全合规解决方案】
亚马逊云科技发布了一系列生成式AI安全合规解决方案,以应对生成式AI应用中的安全挑战。该解决方案涵盖了数据安全、模型安全、应用安全和全球合规四个方面。在数据安全方面,亚马逊云科技提供了敏感数据保护解决方案,帮助客户自动发现和管理敏感数据。在模型安全方面,亚马逊云科技提供了负责任的AI基础模型,并保证组织内部数据不会被共享。在应用安全方面,亚马逊云科技推出了Amazon CodeWhisperer和Amazon CodeGuru Security等服务,帮助客户实现应用开发的保护。在全球合规方面,亚马逊云科技确保相关数据仅在中国境内存储,并利用AI提升安全合规效率。亚马逊云科技希望通过这些解决方案,帮助客户构建安全的生成式AI应用。
15. 【TikTok推出AI标签工具,帮助用户识别AI生成内容】
短视频平台TikTok推出了可选的AI标签工具,让创作者可以将其视频标记为AI生成内容。此举旨在解决AI生成内容的透明度和理解问题。TikTok还在测试自动AI检测标签,以平衡AI创新和责任。该平台还承诺将所有使用AI技术的特效命名中加入“AI”字样,以便用户更容易识别。TikTok将推出教育视频和媒体素养资源,进一步教育用户有关AI的知识。这些举措旨在提高创作者和观众对AI生成内容的透明度,促进创作表达的透明性。
16. 【Deci AI发布DeciDiffusion 1.0:一个拥有8.2亿参数的文本到图像潜在扩散模型,速度是稳定扩散的3倍】
Deci AI团队发布了DeciDiffusion 1.0,这是一个具有重大突破的文本到图像生成模型。该模型采用了U-Net-NAS架构,比传统的U-Net架构更高效。通过优化训练过程,该模型能够以更少的迭代次数生成高质量的图像。用户研究结果显示,DeciDiffusion 1.0在美学方面具有优势,并在图像与文本描述的匹配上与稳定扩散1.5相当。这一创新将使文本到图像生成更加实用和可行。
17. 【第三届“青年科学家50²论坛”在深圳举行】
第三届“青年科学家50²论坛”在深圳南方科技大学举行,50+院士、200+科学家参与。论坛由南方科技大学和腾讯公司共同主办,是为“科学探索奖”获奖人提供的学术交流平台。论坛上举行了“科学探索奖”的颁奖典礼,共有48人获奖。腾讯公司表示将继续支持基础科研,2022年启动了“新基石研究员项目”,并计划在2023年庆祝“科学探索奖”五周年。
18. 【研究人员提出通用模型构造方法Prompt2Model】
研究人员提出了一种名为Prompt2Model的通用模型构造方法,开发者只需提供自然语言提示,即可训练出适用于指定任务的模型。该方法包括数据集检索、数据集生成、模型检索、模型训练、模型评估和演示创建等步骤。实验结果显示,Prompt2Model在多个任务中表现优于大型语言模型。该方法的设计模块化、可扩展,可由开发者进行重新实现或禁用。
19. 【AI算力增长超过人类70年发展的6.7亿倍】
一张图揭示了AI算力70多年发展了6.7亿倍,未来AI各方面能力将全面超越人类。电子计算机诞生后的10年内,人类历史上的第一个AI应用就出现了。70多年过去了,AI模型现在不仅能写诗,还能根据文本提示生成图像,甚至是帮助人类发现未知的蛋白质结构。计算能力、可用的训练数据和算法是AI进步的三大要素。AI发展的三个时代分别是:人工学习时代、深度学习时代和大规模AI模型时代。未来AI技术的进展将取决于计算能力和可用数据的增长。AI行业的初创公司融资规模达到了140亿美元,生成式AI领域的发展势头良好。
20. 【OpenAI推出新一代作图模型DALL·E 3,结合ChatGPT,提供更精准的生成结果】
OpenAI推出了新一代作图模型DALL·E 3,该模型可以准确还原细节,并为图片配上文字。与Midjourney相比,DALL·E 3在理解用户目标方面更出色,但在渲染精细度和拟真程度上稍逊一筹。DALL·E 3的优势在于使用AI生成Prompt来控制绘图AI,降低用户使用门槛。同时,DALL·E 3与ChatGPT结合,用户可以通过自然语言与模型沟通,更精准地控制生成结果。这一推出可能对Midjourney产生竞争压力,同时也为文生图领域带来了新的可能性。
感谢您的关注,AI前沿观察将继续为您带来前沿、全面的人工智能资讯。请大家积极参与互动,点赞、评论、转发,让更多人了解AI的前沿技术和应用。明天的速报,我们不见不散!
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有