AI前沿速报0619:Meta发布语音模型Voicebox

AI前沿速报0619:Meta发布语音模型Voicebox
2023年06月19日 12:01 AI前沿科技小编

大家好,今天的速报为大家带来了AI领域的前沿资讯。本期速报包括微软CEO Satya Nadella的AI投资和未来愿景、Meta AI的颠覆性语音合成模型、Otter AI在感知和推理基准测试中的成果等多项内容。此外,我们还将为您介绍一些AI销售辅助工具、生成AI带来的新安全威胁和机遇、企业实用的AI应用等。让我们一起关注AI技术的前沿动态吧!记得点赞、转发哦!

1. 【微软CEO纳德拉谈AI投资和未来愿景】

微软CEO纳德拉表示,他对GPT-2.5、GPT-3和GPT-4的能力印象深刻,微软已经向OpenAI投资了1000亿美元。Copilot将民主化开发,让编程变得有趣。AI将使世界更加繁荣,惠及80亿人口,成为民主化的力量,改变医疗保健,提高患者的治疗效果。微软与OpenAI合作,与谷歌在AI领域竞争。纳德拉相信元宇宙的潜力。

2. 【Meta AI发布语音合成模型Voicebox】

Meta AI研究人员开发的Voicebox可以在六种语言中合成语音,并进行噪声去除、内容编辑、风格转换和多样化样本生成。该模型采用了一种称为Flow Matching的新方法,性能超越了扩散模型。经过超过50,000小时的录音和公共领域有声读物的转录训练,能够进行上下文文本到语音的合成、跨语言风格转移、语音去噪和编辑以及多样化语音采样。由于潜在的滥用风险,该模型和代码的公共访问被保留。

3. 【Otter AI模型利用MIMIC-IT数据集在感知和推理基准测试中实现先进的性能】

Otter AI模型使用MIMIC-IT数据集实现先进的性能,该模型整合了来自不同来源的数据,包括语言、图像和视频。Otter在遵循用户指令和展示高水平推理能力方面表现更好,支持多模态上下文学习和视觉问答任务。这些贡献为未来多模态模型的研究提供了宝贵的资源和见解。

4. 【AI辅助销售工具】

Warmer.ai、Drift、Dooly、Troops、TopOpps、Exceed.ai、Tact.ai、SalesDirector、Zoovu、People.ai、ChatSpot、Managr.ai、Veloxy.io、Namora AI、Saile.ai和Pod AI是目前一些不错的AI销售辅助应用程序。这些工具自动化例行销售程序并提供有价值的前瞻性,使销售团队能够专注于战略性举措。

5. 【生成式AI创造新的安全威胁和机遇】

美国宣布对AI研究进行新的投资,并即将公布公共评估和政策。攻击者正在使用AI改进网络钓鱼和欺诈。AI革命正在快速发展,创造了四个主要问题类别。攻击者比防御者更快地采用AI。合成文本、语音和图像将有利于社交工程攻击。大规模模型正在创造垄断和进入壁垒。未来生命研究所呼吁暂停AI创新。需要更多的创新和行动来确保负责任和道德的AI使用。AI为创新的安全方法创造了机遇。

6. 【企业实用步骤指南:如何应对AI挑战】

人工智能正在改变企业的方方面面,如何应对AI挑战?首先,CIO和技术高管需要为实验创造机会,避免陷入固定模式,实现人工智能与人类系统的协同,验证AI的局限性,不断迭代和学习。其次,企业需要将AI视为探索、发现和适应的动态领域,才能取得成功。

7. 【自然语言处理中情感分析的经典模型:MemNet、AT-LSTM、IAN和AF-LSTM】

情感分析对社交媒体管理、商业决策和定向营销至关重要;主要有基于词典和基于机器学习两种方法;MemNet、AT-LSTM、IAN和AF-LSTM是使用深度学习技术的机器学习模型;这些模型涵盖了文档级、句子级和方面级情感分析。

8. 【微软研究开发的BioViL-T:自我监督框架提高生物医学应用的预测性能】

微软研究开发了一种自我监督训练框架BioViL-T,该框架在训练和微调过程中考虑了早期图像和报告,实现了各种下游基准测试的新性能,如进展分类和报告创建。BioViL-T利用多图像编码器提取时空特征,文本编码器与图像特征可选交叉注意力。研究人员还发布了一个名为MS-CXR-T的新的多模态时间基准数据集。模型和源代码已公开发布,以鼓励进一步研究。

9. 【UC伯克利的SqueezeLLM:用于大型语言模型服务的后训练量化框架】

UC伯克利的研究人员开发了SqueezeLLM,这是一个后训练量化框架,将密集和稀疏分解与基于灵敏度的非均匀量化策略相结合。它可以实现超低位精度,同时保持竞争性的模型性能,减少模型大小和推理时间成本。当应用于语言建模任务的LLaMA-7B、13B和30B时,它优于现有的量化方法。将SqueezeLLM应用于Vicuna-7B和13B模型,也优于当前非常先进的方法GPTQ和AWQ。

10. 【斯坦福和康奈尔研究人员推出Tart:一种插拔式Transformer模块,以任务无关的方式增强AI推理能力】

斯坦福和康奈尔研究人员推出了一种名为Tart的插拔式Transformer模块,以任务无关的方式增强AI推理能力。该模块使用合成教授的推理模块来提高LLMs的推理能力,独立于任务、模型和领域。Tart将GPT-Neo的性能提高到与GPT-3和Bloom相当,并超过后者4%。它解决了上下文学习的短时限障碍,并且数据可扩展,效益可达6.8%。它适用于各种NLP任务的模型家族,并适用于语音和视觉领域。

11. 【UC圣地亚哥分校和高通研究人员推出自然程序:一种基于自然语言的演绎推理格式】

UC圣地亚哥分校和高通研究人员推出了一种名为“自然程序”的自然语言演绎推理格式,使语言模型能够生成高精度的推理步骤。该格式采用逐步验证过程,确保后续步骤严格基于先前步骤,提高了大型语言模型产生推理过程的可靠性。在公开可访问的模型上进行了测试,如OpenAI的GPT-3.5-turbo(175B),在算术和常识数据集上展示了验证技术的有效性。

12. 【亚马逊众包平台机械土耳其存在AI欺诈问题】

瑞士洛桑联邦理工学院的研究人员发现,亚马逊机械土耳其上分布式众包工作者中有相当一部分使用ChatGPT等工具作弊;他们开发了一种方法来确定文本内容是由人还是机器创建的;AI渗透到众包工作中可能会产生严重后果,因为产品经理依赖于人类在某些任务上比机器更擅长。

13. 【You.com旨在通过AI创新挑战谷歌的搜索霸主地位】

You.com是一家由CEO Richard Socher领导的消费者搜索引擎,旨在挑战谷歌的搜索霸主地位。该公司已获得4500万美元的融资,并声称拥有比最近被收购的搜索引擎初创公司Neeva更多的用户。Socher在自然语言处理方面的研究为今天的AI技术铺平了道路,他相信创新将有助于削弱谷歌的搜索霸权。

14. 【联邦持续学习研究取得进展】

联邦持续学习(FCL)结合联邦学习和持续学习,实现多设备的持续学习;FCL解决了联邦学习模型中的灾难性遗忘问题;FedWeIT框架允许客户端之间选择性地传输知识,降低通信成本;其他研究领域包括联邦类增量学习(FCIL)、联邦交叉相关和持续学习(FCCL)以及联邦语音(FedSpeech)。

15. 【基于扩散模型的音频驱动说话人生成技术】

中国云从科技和上海交通大学的研究人员开发了一种从音频输入生成高质量说话人视频的方法。该方法在多个数据集上表现优于以前的研究。应用包括虚拟新闻广播、虚拟演讲和视频会议。该方法使用解耦面部属性、唇音同步、动态连续属性建模和基于去噪扩散概率模型的音频驱动面部生成。

16. 【欧盟AI法规:严格监管VS宽松态度的美国】

欧洲议会通过了世界上首部AI法规《AI法案》,关注AI模型中的数据使用和潜在的版权问题。欧盟的《GDPR》将数据保护确立为一项基本权利。美国联邦贸易委员会质疑OpenAI和其他大型语言模型的问责和治理。数据保护相关法规的差异可能导致全球分裂。

17. 【GPT-4 MIT本科数学论文存在缺陷】

近日,一篇GPT-4 MIT本科数学论文备受批评。该论文的方法和结果存在缺陷,数据集中包含无法解决和无效的问题,评分机制也存在严重缺陷。研究人员建议改进GPT-4的问题解决和评分机制。

18. 【理想汽车发布电动车和自动驾驶系统】

理想汽车发布了W01电动车,充电时间为9分钟,续航里程为400公里;公司开发了City NOA自动驾驶系统,无需高精度地图;计划在2021年底前建设超过300个充电站。此外,中国自动驾驶初创公司Noa获得了由博世领导的5800万美元融资。

感谢您的关注,AI前沿观察将继续为您带来前沿、全面的人工智能资讯。请大家积极参与互动,点赞、评论、转发,让更多人了解AI的前沿技术和应用。明天的速报,我们不见不散!

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部