多模态、万亿参数、生成语音,吴恩达回顾人工智能2021

多模态、万亿参数、生成语音,吴恩达回顾人工智能2021
2021年12月31日 18:37 智东西

作者 | ZeR0

编辑 | 漠影

智东西12月31日报道,近日,人工智能学术大牛吴恩达(Andrew Ng)在其主编的人工智能周讯《The Batch》上发表文章,回顾2021年全球人工智能五大进展,并展望2022年后的人工智能技术发展前景。

这五大进展分别是:多模态AI起飞、万亿参数、无声之声、通用架构、政府制定法规。

一、多模态AI起飞

虽然GPT-3和EfficientNet等分别针对文本和图像的模型是深度学习一些最引人注目的成功的原因,但找到文本和图像之间关系的方法取得了令人印象深刻的进步。

发生的事:OpenAI实现图像和文本匹配的CLIP和根据输入文本生成对应图像的Dall·E开启了多模式学习的重要一年;DeepMind的Perceiver IO对文本、图像、视频和点云进行分类;斯坦福大学的ConVIRT在医疗X光影像中添加了文本标签。

驱动故事:虽然最新的多模态系统大多是实验性的,但也有一些现实世界的应用进展。

开源社区将CLIP与生成对抗网络相结合,打造了引人注目的数字艺术作品。

艺术家Martin O’Leary使用Samuel Coleridge的史诗《忽必烈汗(Kubla Khan)》作为输入,生成充满迷幻色彩的“Sinuous Rills”。

Facebook表示其多模式仇恨言论检测器标记并删除了社交网络中97%的辱骂及有害内容。该系统能根据文本、图像和视频在内的10种数据类型,将模因和其他图像文本配对归类为良性或有害。

谷歌表示在其搜索引擎中添加多模态(及多语言)功能。其多任务统一模型能返回文本、音频、图像和视频链接,以响应75种语言中任意一种的查询。

新闻背后:今年的多模态发展之势建立在数十年的研究基础上。早在1989年,约翰霍普金斯大学和加州大学圣地亚哥分校的研究人员就开发了一个根据说话者的音频和视觉数据对元音进行分类的系统。在接下来的20年间,各种研究小组尝试了数字视频库索引、基于视听数据对人类情绪进行分类等多模式应用。

事物发展:图像和文本是如此复杂,以至于在过去,研究人员只能专注于其中之一。通过这样做,他们开发了非常不同的技术。然而在过去十年里,计算机视觉和自然语言处理已经在神经网络得到有效融合,这为合并这两种模式的统一模型打开了大门,集成音频模型亦是如此。

二、万亿参数

模型从“大”迈向“巨大”。

发生的事:谷歌Switch Transformer开启了2021年,这是首个超过1万亿参数的模型,参数规模高达1.6万亿。随后北京智源人工智能研究院推出更大的、拥有1.75万亿参数规模的大模型悟道2.0。

驱动故事:单纯增加模型参数没有什么神奇的,但随着处理能力和数据源的增长,深度学习“越大越好”的趋势已成为一项原则。

资金雄厚的人工智能公司正在以狂热的速度堆积参数,既为提高性能,也为秀肌肉,特别是在语言模型中,互联网为无监督和半监督的预训练提供了大量无标签的数据。

自2018年以来,参数竞赛从BERT(1.1亿)、GPT-2(15亿)、MegatronLM(83亿)、Turing-NLG(170亿)、GPT-3(1750亿)一路增长至今。

很好,但是:构建越来越大的模型的努力带来了挑战。巨模型开发人员必须克服四个巨大障碍:

(1)数据:大模型需要大量数据,但网络和数字图书馆等大型来源可能缺乏高质量的数据。例如,研究人员常用的BookCorpus是一本由11000本电子书组成的数据集,用于训练30多种大型语言模型,它可能会传播对某些宗教的偏见。人工智能社区越来越意识到数据质量至关重要,但在收集大规模高质量数据集的有效方法上尚未达成共识。

(2)速度:今天的硬件很难处理巨大的模型,当位反复进出内存时,这些模型可能会陷入困境。为了减少延迟,Switch Transformer背后的谷歌团队开发了一种方法,让每个token处理模型层的选定子集。他们的最佳模型比参数量只有1/30的模型快了约66%。同时,微软开发了DeepSpeed库,这个库并行处理数据、各层和层组,并通过在CPU和GPU之间划分任务来减少冗余处理。

(3)能耗:训练如此庞大的网络会消耗大量电能。2019年的一项研究发现,在8个英伟达P100 GPU上训练2亿参数的Transformer模型所造成的碳排放,几乎和一辆普通汽车五年驾驶总排放量一样多。有望加速人工智能的新一代芯片,如Cerebras的WSE-2和谷歌的最新TPU,可能有助于减少排放,同时风能、太阳能和其他更清洁的能源会增加。

(4)速度:这些大模型太大了,很难在消费者或边缘设备上运行,大规模部署它们需要通过互联网访问(较慢)或精简版实现(功能较弱)。

发展现状:自然语言模型排行榜仍由参数高达数千亿的模型主导,其部分原因是处理万亿多个参数难度很大。毫无疑问,他们的万亿级继任者将在适当的时候取代他们。这种趋势看不到尽头:有传言称OpenAI的GPT-3继任者将包含100万亿个参数。

三、无声之声

音乐家和电影制片人采用人工智能作为音频制作工具箱的标准部分。

发生的事:专业媒体制造商使用神经网络,生成新声音并修改旧声音。这令配音演员感到危机。

驱动故事:生成模型可以从现有录音中学习,创建令人信服的复制品。一些制作人使用该技术生成原始声音或复制现有声音。

例如,美国初创公司Modulate使用生成对抗网络实时合成新声音。它使游戏玩家和语音聊天者能够构建虚拟角色中;跨性别者使用它来调整他们更接近性别身份的声音。

Sonantic是一家专门从事合成声音的初创公司,为2015年失声的演员Val Kilmer创造了一种新的声音。该公司根据这位演员作品中的音频训练了模型。

电影制片人摩根·内维尔聘请了一家软件公司,为他的纪录片《Roadrunner: A Film About Anthony Bourdain》重现已故巡回演出主持人Anthony Bourdain的声音。此举引起了Bourdain的遗孀的愤怒,她说她没有给予许可。

挺好,但是:Bourdain的遗孀并不是唯一一个被人工智能模仿已故者的能力所困扰的人。配音演员对这项技术威胁到他们的生计表示担忧。2015年电子游戏《巫师3:狂野狩猎》的粉丝对同人版本重现原配音演员的声音感到不安。

新闻背后:最近将生成音频纳入主流,是在早期研究成果的延续。

OpenAI的Jukebox在一个包含120万首歌曲的数据库上进行了训练,它使用自动编码器、Transformer和解码器流水线,以从Elvis到Eminem的风格制作完全实现的录音(歌词由公司的工程师共同编写)。

2019年,一位匿名人工智能开发人员设计了一种技术,允许用户在短短15秒内从文本行中复制动画和电子游戏角色的声音。

现状:生成音频及视频的模型使媒体制作人不仅能够增强档案录音,还能从头开始创建新的、类似于声音的录音。但道德和法律问题正在增加。当人工智能取代配音演员时,他们应该如何获得补偿?谁有权将死者的克隆声音商业化?全新的人工智能生成的专辑有市场吗?它应该存在吗?

四、一个架构做所有事情

Transformer架构正快速扩展其覆盖领域。

发生的事:Transformer最初是为自然语言处理而开发的,现在正在成为深度学习的利器。2021年,他们被用来发现新药、识别语言和绘画等。

驱动故事:事实证明,Transformer已经擅长视觉任务、预测地震以及蛋白质分类和生成。过去一年里,研究人员将他们推向了广阔的新领域。

TransGAN是一个生成对抗网络,包含Transformer,以确保每个生成的像素与之前生成的像素一致。它在衡量生成图像与训练数据的相似性方面取得了先进成果。

Facebook的TimeSformer使用该架构来识别视频剪辑中的操作。它解释视频帧的顺序不是文本中通常的单词序列。它的性能优于卷积神经网络,在更短的时间内分析和更少的功率下分析较长的片段。

Facebook、谷歌和加州大学伯克利分校的研究人员在文本上训练了GPT-2,然后冻结了其自注意和前馈层。他们能够针对广泛的领域对其进行微调,包括数学、逻辑问题和计算机视觉。

DeepMind发布了AlphaFold 2的开源版本,该版本使用Transformer根据蛋白质的氨基酸序列预测蛋白质的3D形状。该模型激发了医学界在推动药物发现和揭示生物洞察力方面的潜力。

新闻背后:Transformer于2017年首次亮相,并迅速彻底改变了语言建模思路。它的自注意机制能跟踪序列中每个元素与所有其他元素的关系,不仅适合分析单词序列,还适合分析像素、视频帧、氨基酸、地震波等序列。

基于Transformer的大型语言模型已经占据了中心位置,作为新兴基础模型的示例,在大型无标签语料库上预训练的模型,可以在数量有限的标签示例中为专门任务进行微调。Transformer在各种领域工作良好这一事实,可能预示着基于Transformer的基础模型超越了语言领域。

现状:深度学习的历史中,出现了一些迅速普及的想法:ReLU激活函数、Adam优化器、注意力机制,以及现在的Transformer。过去一年的发展表明,这种架构仍处于发展阶段。

五、政府制定法律

各国政府纷纷拟定或颁布新法规,以控制自动化的社会影响。

发生的事:随着人工智能对隐私、公平、安全和国际竞争的潜在影响变得越来越明显,各国政府加大了监管力度。

驱动故事:人工智能相关法律往往反映了世界不同政治秩序的价值观,有利于社会公平和个人自由之间的某种平衡。

欧盟起草了基于风险类别禁止或限制机器学习应用的规则,将禁止实时人脸识别与社会信用系统。控制重要基础设施、协助执法和根据生物识别技术识别人员的系统需要提供详细的文件,证明其安全,并接受持续的人工监督。规则草案于4月发布,必须经过包括修正案在内的立法程序,可能至少再过12个月才能实施。

从明年开始,中国互联网监管机构将执行有关推荐算法和其他它认为扰乱社会秩序的人工智能系统的法规,包括传播虚假信息、助长成瘾行为和危害国家安全的系统。企业在部署可能影响公众情绪的算法之前必须获得批准,那些违反规则的企业将面临禁令。

美国政府提出了一项人工智能权利法案,该法案将保护公民免受侵犯隐私和公民权利的系统的影响。政府将在1月15日之前收集公众对该提案的意见。在联邦之下,一些美国城市和州限制人脸识别系统,纽约市通过了一项法律,要求对招聘算法进行偏见审计。

联合国人权事务高级专员呼吁成员国暂停人工智能的某些使用,包括侵犯人权、限制基本服务的获取和利用私人数据的使用。

新闻背后:人工智能社区可能正在就监管达成共识。最近对534名机器学习研究人员的调查发现,68%的人认为部署应该更加强调可信度和可靠性。受访者通常更信任欧盟或联合国等国际机构,而不是国家政府。

现状:在中国之外,大多数人工智能相关法规正在等待批准。但零散的提案表明,人工智能从业者必须根据各种国家制度调整工作。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部