训练大模型数据告罄？合成数据逆袭，开启高效之路_

在大数据时代，数据被称为石油；在生成式AI（GenAI）时代，数据则被称为“智能的基石”，就像建筑需要稳固的基石来支撑一样，生成式AI模型的智能表现完全依赖于数据，高质量的数据是构建和训练这些复杂大模型的基础。

Google于2017年发明的transformer模型引发了行业的一个重大转变就是使用无监督学习，使大模型（LLM）能够接触到Web上质量参差不齐的大量数据，而不是在少量高质量、人工策划的数据之上以监督方式训练。

然而，随着大型语言模型变得越来越大，专家不止一次地警告说，训练LLM将要用完目前我们所拥有的所有数据。大企业控制大部分数据，其他企业则没有数据可用。

如何破局呢？合成数据目前成为一些企业训练LLM的出路。MIT Technology Review将AI用的合成数据使用评为2022年十大突破性技术之一。Forrester的研究甚至将合成数据确定为AI 2.0的一部分。

合成数据是在AI的帮助下生成的信息，其唯一目的是神经网络开发。以这种方式创建训练数据集，比手动组合训练数据集要快得多，也更具成本效益。但合成数据引发的困惑或者担忧也在日益增加。

AI用的数据真的要用完了吗？

随着预训练的LLM指标变得越来越大，功能越来越强，需要更大、更复杂的数据训练集。像ChatGPT这样的大语言模型，是通过在海量的文本数据上进行训练，才能获得理解语言、生成回答的能力。这些数据包含了语法规则、语义理解、知识体系等诸多语言相关的信息，是模型能够展现出智能回答的根本所在。

2018年OpenAI发布GPT-1模型时，只有大约1.15亿个参数，并在BookCorpus上进行了训练。BookCorpus是一个由大约7000本未出版的书籍组成的数据集，包含约4.5GB的文本。

OpenAI于2019年推出的GPT-2参数数量扩展到15亿个，通过使用WebText训练，训练数据扩展到约40GB。WebText是该公司根据Reddit用户抓取的链接创建的一个新颖的训练集。

按参数数量划分的LLM增长图片来源：HumanFirst

于2020年首次亮相的GPT-3，OpenAI将其参数数量扩展到1750亿个，使用从开源中挑选出来的570G文本进行了预训练，包括BookCorpus（Book1和Book2）、Common Crawl、Wikipedia和WebText2，相当于大约4990亿个代币。

虽然OpenAI于2023年首次亮相的GPT-4的官方大小和训练集细节很少，但估计LLM的大小在1万亿到1.8万亿之间，这将使它比GPT-3大5到10倍，训练集为13万亿个代币（大约10万亿个单词）。

专家称，在即将到了的某个时候，我们可能会用完现有的数据。随着AI模型变得越来越大，AI模型训练者已经开始在Web上搜索新的数据源，包括发布到互联网上的大量视频。

AI初创公司Anthropic CEO Dario Amodei最近估计，我们有10%的可能性会用完足够的数据来继续扩展模型。“由于各种原因，我们离数据耗尽不远了”。

研究人员认为，目前基于人工数据的LLM开发速度是不可持续的。按照目前的扩展速度，将在2026年至2032年之间创建一个基于所有可用人类文本数据进行训练的LLM。换句话说，我们可能会用完所有的新数据。

原因之一是随着Web数据的创建者和收集者越来越多地限制使用数据来训练 AI，让寻找数据变得越来越困难按照目前的速度，预计到2025年，近50%的网站内容将全部或部分限制。

研究发现，来自OpenAI的爬虫最常受到限制，约为26%；其次是来自Anthropic和Common Crawl的爬虫（约13%）、谷歌的AI爬虫（约10%）、Cohere（约5%）和Meta（约4%）。

第二个原因是互联网的创建并不是为了提供用于训练AI模型的数据。

收集和注释数据的过程既耗时又昂贵，引发了许多问题。由于机器学习严重依赖数据，因此它面临的一些主要障碍和挑战包括：

确保数据质量是机器学习专业人员面临的最重大挑战之一。当数据质量不佳时，由于混淆和误解，模型可能会生成不正确或不精确的预测。

数据稀缺。当代AI困境的很大一部分源于数据可用性不足，要么可访问数据集的数量不足，要么手动标记成本过高，会有当前的信息并不包括所有内容，数据准确性差。

数据隐私和公平性。由于隐私和公平问题，许多领域无法公开发布数据集。由于欧盟的GDPR、美国的几项法案等保护了公民数据，工程团队用于训练AI模型的数据有限。

应对这些挑战对于释放机器学习的全部潜力及其对各个行业的变革性影响至关重要。在许多情况下，当真实数据不可用或由于隐私或合规风险而必须保密时，合成数据是必要的。

合成数据变得越来越必不可少

人工智能领域的最新创新技术让合成数据的生成变得高效且低成本。合成数据是一种模仿真实世界数据的非人工创建的数据，是由基于生成式AI技术的计算算法和模拟创建而成。

因此，合成数据集首先具有与其所基于的实际数据相同的数学特性，但不包含相同信息。这样，企业与组织就能使用合成数据进行研究、测试，甚至训练LLM。

其次，合成数据主要有部分和完整两种类型。部分合成数据用合成信息取代真实数据集的一小部分，可以使用此类型保护数据集的敏感部分，如需要分析客户特定的数据，则可以合成诸如姓名、联系方式以及其他可以追溯到特定人员的真实世界信息之类的属性。

在完整合成数据中，组织完全生成新的数据，将不包含任何真实世界的数据。但是它将使用与真实数据相同的关系、分布和统计属性。虽然这些数据不是来自实际记录的数据，但它可以让您得出相同的结论。

在测试机器学习模型时，您就可以使用完整合成数据。如果想要测试或创建新模型，但没有足够的真实训练数据来提高机器学习准确性，完整合成数据就会有用。

合成数据的生成涉及使用计算方法和模拟来创建数据。生成合成数据主要有三种方法，每种方法都提供不同级别的数据准确性和类型。

统计分布，首先分析真实数据以确定其潜在的统计分布，如正态分布，数据科学家从这些已识别的分布中生成合成样本，以创建在统计学上与原始数据集相似的数据集。

基于模型，训练机器学习模型以理解和复制真实数据的特征，由模型可以生成与真实数据具有相同统计分布的人工数据。

最后是深度学习方法，可以使用生成对抗网络（GAN）、变分自动编码器（VAE）等高级技术来生成合成数据，通常用于更复杂的数据类型，例如图像或时间序列数据，并且可以生成高质量的合成数据集。

合成数据的效率和成本优势正在日益扩大。

首先，按需生成，效率高，成本低。大多数现实生活中的数据收集技术都是劳动密集型的，且成本高昂，并且存在更大的隐私风险。利用合成图像数据集，可以简化数据收集过程，提高效率，降低成本，按需生成几乎无限规模的合成数据。

合成数据生成工具是获取更多数据的一种经济高效的方式，还可以预先标注（分类或标记）为机器学习使用案例生成的数据，还可以将合成数据添加到拥有的总数据量中，从而生成更多用于分析的训练数据。

第二，解决了数据的机密性和隐私问题。由于真实数据包含敏感信息，使用者可能不希望它们被披露。然而，合成数据不包含私人信息，也无法追溯到来源，在很大程度上解决了数据机密性和隐私问题，并消除了因使用真实人物和地点的图像而引起的隐私问题。

医疗保健、金融和法律部门等领域制定了许多保护敏感数据的隐私、版权和合规法规。可以使用合成数据代替个人数据来达到与这些私有数据集相同的目的。以医学研究根据实时数据集创建合成数据为例，合成数据保持与原始数据集相同的生物学特征和遗传标记百分比，但所有姓名、地址和其他个人患者信息都是虚假的。

第三，可以消除“有偏见的数据”问题。从现实世界捕获的数据通常偏向于易于收集的数据，容易受到人为标记错误的影响，并且需要经常刷新，可能非常昂贵。这些数据通常会导致结果有偏差、准确性水平降低和分析错误。

在可能的情况下，通过大量高质量的合成数据并结合少量真实数据，可以实现最佳的AI结果。这种数据集的合成版本验证了隐私规则并准确反映了真实世界的数据。

可以使用合成数据来减少人工智能训练模型中的偏差。由于大型模型通常使用公开的数据进行训练，因此文本中可能存在偏差。研究人员可以使用合成数据来对比人工智能模型收集的任何带偏差的语言或信息。例如，如果某些基于观点的内容偏向特定群体，则可以创建合成数据来平衡整个数据集。

五类供应商构成合成数据版图

世界正变得越来越需要数据，数据可用性的缺乏与对准确和足够的数据的需求，正在造就合成数据的商机。目前，国内外不同公司，正在合成数据战场上鏖战。

为应对数据缺乏和数据质量低等挑战，目前市场上有不少开源的数据集。最典型的一个是OpenCSG开源的最大中文合成数据集Chinese Cosmopedia。

Chinese Cosmopedia项目通过整合中文互联网中的多种数据来源和内容类型，构建了涵盖约1500万条数据和600亿个token的庞大数据集。该数据集包括了多种文体和风格，如大学教科书、中学教科书、幼儿故事、技术教程和普通故事等，内容广泛涉及学术、教育、技术等多个领域。这些多样化的数据能够满足不同应用场景的需求，帮助训练更加智能和精准的中文生成式语言模型。

OpenCSG团队在数据生成过程中，通过种子数据和prompt（提升）设计来控制数据的主题和风格，确保数据的多样性和高质量。例如，种子数据来源于各类中文百科、知识问答和技术博客等。而prompt则用于生成具有不同受众和风格的内容，从学术教科书到儿童故事，内容广泛且具有针对性。

另一个则是Hugging Face推出的最大开放合成数据集Cosmopedia。该数据集由超过3000万个样本和250亿个代币组成，由Mixtral生成。

Hugging Face拥有Cosmopedia v0.1，是最大的开放合成数据集，由超过 3000万个样本组成，由Mixtral 7b生成。它由教科书、博客文章、故事和 WikiHow文章等各种类型的内容组成，总共贡献了250亿个代币。

该数据集旨在通过映射来自RefinedWeb和RedPajama等Web数据集的信息来编译全球知识。它包含基本信息，包括提示、合成内容、种子数据源、令牌长度、文本格式（如教科书、博客文章）和目标受众。

通过真实场景等技术，来合成数据。成立于2021年6月跨维智能，是通用具身智能技术研发公司。其核心技术sim2real可在物理仿真机器人操作场景中引入真实世界的干扰，进而形成海量的精确标注合成数据，并用于具身智能大模型。

基于此技术，跨维智能推出了数据与具身智能仿真引擎dexverse，用于数据生成和大模型训练，还计划推出基于3D VLA大模型的成像感知套件以及支持任意抓取/控制的通用具身智能大模型，目前其技术和产品已在工业制造等领域落地。

Apple Hypersim用于整体室内场景理解的照片级真实合成数据集，包含每个像素真实标签的注释以及每个场景的相应真实几何图形、材质信息和照明信息。数据集由461张室内图像的77400张图像合成场景组成，由专业艺术家制作。

Apple Hypersim通过准备输入数据（网格、相机姿势、场景文件），估计自由空间，生成相机轨迹，利用云渲染系统渲染图像，同时进行交互式网格注释，最后将二者整合进行后处理，为图像添加多种标注信息，以此来合成数据。

科技公司推出了合成数据生成平台，轻松生成合成数据。亚马逊云科技推出的Amazon SageMaker Ground Truth现在支持合成数据生成，可以为用户生成数十万张自动标记的合成图像。SageMaker Ground Truth是一项数据标记服务，可以轻松标记数据，还可以生成带标签的合成数据，而无需手动收集或标记真实数据。

群核科技2024年推出的群核空间智能平台，可提供合成数据服务。该平台基于其两大技术引擎——群核启真（渲染）引擎和群核矩阵（CAD）引擎，能够生成包含真实物理规律的、大规模的高质量合成数据，为AI走入物理世界提供数据支持。

另一家中国企业光轮智能结合生成式AI和仿真技术，为行业提供3D、物理真实、可泛化的合成数据，主要应用于自动驾驶、具身智能、多模态大模型等领域。其数据按帧收费，可根据客户传感器参数及数据标注格式生产数据，满足不同客户的个性化需求。

2024年3月，光轮智能与上海人工智能实验室联合推出并开源自动驾驶3D Occupancy合成数据集“lightwheelocc”。

Bitext通过其专有的自然语言平台生成合成数据，专注于为企业生成用于微调LLM的混合数据集，以实现语言模型的垂直化，应用于不同领域，如零售、银行等。目前与Databricks和Amazon AWS是合作伙伴，并在Hugging Face上公开发布其数据集和模型。

基于大模型的合成数据生成工具大量出现。2024年6月，英伟达开源了 Nemotron-4340b系列模型，开发者可使用该系列模型生成合成数据，用于训练大型语言模型，以应用于医疗保健、金融、制造、零售和其他行业的商业应用。

12月7日，Meta推出开源大模型Llama 3.3，让合成数据生成变得轻而易举，让合成数据成本下降了30倍。Llama 3.3拥有700亿个参数，针对效率和可访问性进行了优化。开发人员现在可以使用其扩展的128k令牌上下文长度来生成大量高质量的数据集，从而解决隐私限制和资源限制等挑战。

凭借其RLHF调优和监督微调，Llama 3.3为需要高精度的任务生成指令对齐的数据集。同样，Llama 3.3的多语言支持和可扩展性使其成为弥合代表性不足的语言数据鸿沟不可或缺的工具。

最后一种，通过API和平台，生成和利用数据。湖仓一体企业Databricks推出了一个用于生成合成数据集的新API，客户可以使用它来为其机器学习项目生成合成数据。

使用API创建数据集的过程分为三个步骤：上传一个框架或文件集合，其中包含与其AI应用程序将执行的任务相关的业务信息，帧必须采用Apache Spark或 Pandas支持的格式；指定API应生成的问题和答案的数量；审查合成数据集是否有错误，Databricks表示，其开发API的方式可以简化这部分工作流程。

企业数据分析软件公司SAS正在进军合成数据领域，通过收购英国初创公司 Hazy的知识产权来增强其人工智能产品组合，将使其能够为其客户提供工具，以创建急需的合成数据。Hazy的平台，使公司能够以以前不可能的方式使用最敏感和最私密的信息，保持合规性。

合成数据集能训练更值得信赖的AI系统吗？

在一个高度由数据驱动的世界中，人工生成的数据或合成数据正成为解决数据稀缺和隐私问题等的一个很有前途的出路。如果使用得当，合成数据可以很好地补充人工注释的数据，同时提高项目的速度，降低成本。

合成数据在悄悄地应用。英伟达发布的开源模型Nemotron-4 340B使用了98%的合成数据。Cohere公司通过让两个AI模型，一个作为导师，一个作为学生，来创建合成数据，并由人类进行审查，以此作为训练数据来训练语言模型，效果也不错。

Writer公司2024年10月推出了基于合成数据训练的企业大语言模型，旨在创建能够完成关键任务型企业工作的先进AI系统，其训练方法有助于减少隐私问题，为企业提供更安全、可靠且适应性强的AI解决方案。

合成数据已在无人驾驶汽车中使用多年，Uber使用合成数据来验证异常检测算法和对稀缺数据的预测。而西门子则利用合成数据来对及其进行集体学习，实现故障预测。“我们创建了合成训练数据，然后使用这些数据在模型的数字孪生上训练风力涡轮机的变速箱神经网络。然后，我们用物理数据对变速箱滚珠轴承中发生的真实故障进行了测试。结果显示预测非常准确”。

合成数据的质量正成为相应LLM发展的一个关键因素。数据的质量和多样性决定了生成式AI模型智能的高度。如果数据存在偏差或不完整，模型生成的内容就会受到影响。例如，在训练图像生成模型时，如果训练数据中某种物体的图像角度有限，那么模型在生成该物体图像时可能会出现角度单一的问题。

而深度伪造、有偏见的AI和隐私问题已成为AI模型的巨大危机。简单地说，在不充分的数据上训练的模型将产生不正确和不可信的预测。

2024年7月，登上Nature封面的一篇论文证实，用合成数据训练模型就相当于“近亲繁殖”，9次迭代后就会让模型原地崩溃。即使合成数据仅仅占到总数据集的最小部分，甚至是1%的比例，仍然可能导致模型崩溃。甚至，ChatGPT和Llama这种较大的模型，还可能放大这种“崩溃”现象。

显然仅靠合成数据无法实现通用AI(AGI)。Meta的AI科学家Yann LeCun认为，LLM和合成数据的结合不一定会导致AGI。提高LLM可靠性的主要挑战之一是用规划取代自回归标记预测。很长一段时间以来，LeCun一直坚持，为了实现 AGI，LLM的推理能力需要改进，而不是简单地引入更多数据。

尽管合成数据带来了巨大的机会，但面临的主要挑战之一是存在的现实差距。这种领域差距也称为恐怖谷，它限制了仅在模拟中训练的机器学习模型的实际性能。缩小差距对于有效使用合成数据的研究和实际挑战非常重要。

合成数据，为AI模型训练打开了一扇新的大门，在这扇门后，数据的供应不再局限于现实的有限宝藏。但是会不会关上了智能提升的灵一扇大门呢？

头条号入驻

数据猿大数据产业创新服务媒体

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

训练大模型数据告罄？合成数据逆袭，开启高效之路

AI用的数据真的要用完了吗？

合成数据变得越来越必不可少

五类供应商构成合成数据版图

合成数据集能训练更值得信赖的AI系统吗？

头条号入驻

2024中国数据分析领域最具商业合作价值企业盘点