AI“肥料”不足，OpenAI被曝疯狂转录YouTube视频_

在大模型竞赛中，数据短缺危机正越来越严峻。

最近《纽约时报》的一项调查显示，为了获得大量且高质量的训练数据，包括OpenAI、Google和META在内的科技公司纷纷走捷径，忽视平台政策，在违法边缘疯狂试探。

其中OpenAI通过语音转录工具Whisper，收集了超100万小时的YouTube视频文本，作为GPT-4的训练数据。

《纽约时报》报道封面

AI公司正疯狂从互联网上获取各类数据以训练AI大模型，但这是否合法、符合平台政策呢？

一场围绕数据资源的权益争夺战已在创作者、内容平台和AI公司之间展开。

AI“肥料”不足，

OpenAI疯狂转录YouTube视频

据《纽约时报》报道，OpenAI多年来一直在收集数据、清理数据，并将其输入到一个庞大的文本池中，以训练大型语言模型。

这些数据包括来自Github的计算机代码、国际象棋数据库、来自Quizlet的高中考试题和作业内容等。

到了2021年底，OpenAI已经耗尽了互联网上所有可靠的英文文本资源，急需更多数据来训练下一代模型GPT-4。

为此，OpenAI内部商量了几个方案：转录播客、有声读物和YouTube视频；用AI系统从头开始创建数据；收购已经收集了大量数字数据的初创公司。

OpenAI的研究团队后来创建了一个名为Whisper的语音识别工具，用于转录YouTube视频和播客，生成新的对话文本，以进一步提高AI的智能程度。

Whisper博客：https://openai.com/research/whisper

三名知情人士表示，OpenAI员工知道这样做会涉足法律灰色地带，可能违反YouTube的规则。Google旗下的YouTube禁止将其视频用于“独立”的应用程序，还禁止通过“任何自动化手段（如机器人或爬虫）”访问其视频。

但OpenAI团队认为用视频训练AI是合理使用，最终还是转录了超过100万小时的YouTube视频。

知情人士称，OpenAI总裁Greg Brockman领导了开发GPT-4的团队，他亲自参与收集了这些YouTube视频，然后将其输入至GPT-4。

除了OpenAI，Meta、Google等科技公司也采取了类似的措施。

据Meta去年初的内部会议录音，Meta的生成式AI副总裁Ahmad Al-Dahle称，团队已经使用了互联网上几乎所有可用的英文书籍、论文、诗歌和新闻文章来开发模型，除非Meta获得更多数据，否则无法匹敌ChatGPT。

2023年3月和4月，Meta团队考虑收购出版社Simon & Schuster以获取其长篇作品的授权，以及讨论了如何在未经许可的情况下，从互联网上收集受版权保护的数据，即使这将带来诉讼。

他们提到，如果与出版商、艺术家、音乐家和新闻行业谈判授权的话，会耗费太长时间。

Meta曾表示，已经从Instagram和Facebook获取了数十亿公开共享的图像和视频来训练其模型。

有知情人士称，Google也转录了YouTube视频来训练自家的AI模型，并在去年扩大了其服务条款。

此前的隐私政策称，Google只能使用公开信息来“帮助训练Google的语言模型并构建Google翻译等功能”，更改后的条款扩大了AI技术适用范围，Google可以利用数据“训练AI模型并构建Google翻译、Bard和Cloud AI等产品和功能”。

Google隐私政策修改

Google的内部消息显示，这一变化的目的之一是为了让Google能利用公开的Google文档、Google地图上的餐厅评论等其他在线数据，来完善其AI产品。

创作者纷纷起诉AI侵权

开发更大更强的AI，意味着需要看似无尽的数据资源。从新闻报道、出版作品，到网络留言、博客文章、社交平台上的照片和视频等等，互联网上的各类数据正成为AI行业发展的重要基石。

而对于创作者来说，AI公司使用他们的作品来训练模型，存在侵犯版权和道德问题。

《纽约时报》去年底起诉OpenAI和微软，称其在未经许可的情况下使用受版权保护的新闻文章来训练AI聊天机器人。OpenAI和微软回应称这是“合理使用”，或者说受版权法保护的。

去年好莱坞罢工也涉及AI相关权利的争议。电影制作人、演员Justine Bateman是美国演员工会（SAG-AFTRA）的AI顾问，她认为AI模型在未经许可或付费的情况下获取内容（包括她的作品和电影），“这是美国最大的盗窃案”。

近期，包括知名歌手Billie Eilish、Nicki Minaj等在内的200多名艺术家签署了一封公开信，要求科技公司承诺不开发破坏或取代人类创意的AI工具，“我们必须防止AI被掠夺性地用来窃取专业创作者的声音和肖像，侵犯创作者的权利，并破坏音乐生态系统”。

面对创作者的抗议，内容平台也亮明了态度。

YouTube首席执行官Neal Mohan近日在接受彭博社采访时强调，下载YouTube视频，然后用于训练Sora等AI模型显然违反了YouTube现行的相关条款。

他承认Google在训练Gemini模型时“使用了YouTube上的一些内容”，但在使用前已得到创作者的授权，这是YouTube与创作者之间的协议所允许的。

Google发言人Matt Bryant针对隐私政策的变更回应称，Google没有在未经用户“明确许可”的情况下使用Google文档或相关应用的信息来训练AI，条款中指的是一个允许用户测试实验性功能的自愿计划。

AI合成数据可行吗

回顾AI大模型的进程，2020年之前，大多数AI模型使用的训练数据比现在小得多。

AI大模型训练数据量变化，图源《纽约时报》

直到约翰·霍普金斯大学理论物理学家Jared Kaplan发表了一篇关于AI的开创性论文，发现训练大型语言模型所需的数据越多，它的性能就越好。

此后，“规模即一切（Scale Is All You Need）”很快成为AI研究的口号。

论文地址：https://arxiv.org/pdf/2001.08361.pdf

OpenAI在2020年11月推出了GPT-3，它是当时训练数据量最大的模型——约3000亿个token。Google旗下的AI实验室DeepMind更进一步，在2022年测试了400个AI模型，其中一个模型Chinchilla接受了1.4万亿token的训练。

不过这一纪录没有维持多久。去年，中国的研究人员发布了一个AI模型Skywork，中英文文本训练数据量达3.2万亿token。Google的PaLM 2更是超过3.6万亿token。

研究机构Epoch表示，AI公司使用数据的速度比产生数据的速度更快，最早到2026年，互联网上的高质量数据可能被使用殆尽。

如何解决“数据荒”以及一系列产业问题，成了当下AI发展的焦点。

面对数据短缺危机，科技公司正在开发“合成数据”（Synthetic data），即使用AI生成的文本、图像和代码，让AI从自己生成的内容中进行学习。

OpenAI发言人Lindsay Held告诉The Verge，OpenAI的每个模型都拥有独特的数据集，他们的数据来源众多，包括公开数据和非公开数据的合作伙伴，并且正在考虑生成自己的合成数据。

Sam Altman曾表示，未来所有数据都将变成合成数据。既然AI模型可以产生类似人类的文本，那么也可以创建额外的数据来开发更好的AI，这将减少团队对版权数据的依赖。

不少业内人士推测，Sora可能已经通过使用了基于数据驱动的Unreal Engine5大量生成了合成数据作为训练集。

但构建一个可以自我训练的AI系统说起来容易，做起来难。从自己的输出中学习的AI模型可能会陷入一个死循环，不断强化自己的怪癖、错误和局限。

“这些AI系统需要的数据就像在丛林中寻找出路，”前OpenAI研究员Jeff Clune说，“如果它们只在合成数据上训练，很可能会在丛林中迷路。”

为了对抗这一点，OpenAI和其他公司正在研究两个不同的AI模型如何合作生成更有用、更可靠的合成数据。一个AI产生数据，另一个评估信息以分离好的数据和坏的。不过这种方法是否有效仍未得到研究证实。

此外，目前海外已有Scale AI、Gretel.ai等企业开始给外界提供合成数据服务。

国内方面，清华大学苏世民书院院长、人工智能国际治理研究院院长薛澜在近期的公开演讲中谈到，中国的数据量很大，但没有真正产业化，相对标准化的数据服务商还比较少，因为大数据服务不赚钱，公共数据企业没有意愿去清洗，定制化服务又一般收费比较高。因此，数据市场如何构建也是需要解决的问题。

头条号入驻

新榜官微服务于内容产业，以内容服务产业

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

AI“肥料”不足，OpenAI被曝疯狂转录YouTube视频

AI“肥料”不足，

OpenAI疯狂转录YouTube视频

创作者纷纷起诉AI侵权

AI合成数据可行吗

头条号入驻

990万卖掉迈巴赫，“红衣大叔周鸿祎”抖音涨粉超56万｜新榜观察

东方甄选跑去给京东打工了，但这能解决它的增长焦虑吗？

5000字复盘4月AIGC进展！内含6个最新创作工具、5个热门案例

财经自媒体联盟更多自媒体作者

热文排行榜