上图这些人是不存在的。这些面孔是使用一种深度学习形式人工生成的…… 资料来源:THIS-PERSON-DOES-NOT-EXIST.COM
想象一下,如果有可能以廉价和快速的方式生产出无限量的世界上最有价值的资源。那么,这将会带来什么样的巨大经济转型和机遇呢?
这这就是今天的现实,它被称为合成数据。
合成数据并不是一个新想法,但就现实世界的影响而言,其现在正接近一个关键的拐点。它有望颠覆人工智能的整个价值链和技术堆栈,并产生巨大的经济影响。
数据是现代人工智能的命脉。获取正确的数据是构建强大 AI 的最重要和最具挑战性的部分。从现实世界中收集高质量数据是复杂、昂贵且耗时的。这就是合成数据的价值所在。
合成数据是一个非常简单的概念——其中一个想法似乎好得令人难以置信。简而言之,合成数据技术使从业者能够简单地以数字方式生成他们需要的数据,无论他们需要多少数量,都可以根据他们的精确规格定制。
根据一项广泛引用的 Gartner 研究,到 2024 年,用于人工智能开发的所有数据中,60% 将是合成的,而不是真实的。
花点时间消化一下。这是一个惊人的预测。
数据是现代经济的基础。用《经济学人》的话说,它是“世界上最宝贵的资源”。在短短几年内,用于人工智能的大部分数据可能来自一个颠覆性的新来源——如今很少有企业了解甚至不知道。
不用说,这将带来巨大的商业机会。
合成数据初创公司Datagen的首席执行官兼联合创始人Ofir Zuk表示 :“我们可以简单地说,合成数据的总目标市场和数据的总目标市场将会融合。”
合成数据的兴起将彻底改变数据的经济、所有权、战略动态,甚至(地缘)政治。这是一项值得关注的技术。
从自动驾驶汽车到人脸
虽然合成数据的概念已经存在了几十年,但从 2010 年代中期开始,该技术首次在自动驾驶汽车领域得到了广泛的商业应用。
合成数据开始出现在自动驾驶汽车领域也就不足为奇了。首先,因为 AV(Audio and Video)领域吸引了更多的机器学习人才和投资资金,甚至可能比任何其他人工智能商业应用都要多,它通常是合成数据等基础创新的催化剂。
鉴于 AV 世界中“边缘案例”的挑战和重要性,合成数据和自动驾驶汽车特别适合彼此。为自动驾驶汽车在道路上可能遇到的每个可能场景收集真实世界的驾驶数据是不可能的。鉴于世界是多么不可预测和未知情况,实际上需要数百年的真实驾驶才能收集构建真正安全的自动驾驶汽车所需的所有数据。
因此,自动驾驶汽车公司开发了复杂的模拟引擎来综合生成必要的数据量,并有效地将他们的人工智能系统暴露在驾驶场景的“长尾”中。这些模拟世界可以自动生成任何可以想象的驾驶场景的数千或数百万个排列——例如,改变其他汽车的位置、添加或移除行人、增加或降低车速、调整天气等等。
多年来,领先的自动驾驶汽车厂商——Waymo、Cruise、Aurora、Zoox——都在合成数据和模拟方面进行了大量投资,并将其作为其技术堆栈的核心部分。例如,2016 年,Waymo生成了 25 亿英里的模拟驾驶数据来训练其自动驾驶系统(相比之下,从现实世界收集的驾驶数据仅为 300 万英里)。到 2019 年,这一数字已达到100 亿英里。
正如 Andreessen Horowitz 的合伙人 Chris Dixon在 2017 年所说:“现在,你几乎可以通过他们对模拟的认真程度来衡量自主团队——无人机团队、汽车团队的成熟度。”
因此,出现的第一批合成数据初创公司瞄准了自动驾驶汽车终端市场。其中包括 Applied Intuition(最近估值为 36 亿美元)、Parallel Domain 和 Cognata 等公司。
但没过多久,人工智能企业家就认识到,为自动驾驶汽车行业开发的合成数据功能可以推广并应用于许多其他计算机视觉应用。
从机器人技术到物理安全,从地理空间图像到制造,近年来计算机视觉在整个经济中发现了广泛的有价值的应用。对于所有这些用例,构建 AI 模型需要大量的标记图像数据。
合成数据在这里代表了一个强大的解决方案。
使用合成数据方法,企业可以比其他方法更快、更便宜地获取训练数据——即从现实世界中费力地收集数据。想象一下,在系统上人工生成 100,000 张智能手机图像比在现实世界中一张一张地收集这些图像要容易得多。
重要的是,现实世界的图像数据必须先手动标记,然后才能用于训练 AI 模型——这是一个昂贵、耗时且容易出错的过程。合成数据的一个关键优势是不需要手动数据标记:因为图像首先是从头开始以数字方式定制的,所以它们会自动带有“像素完美”的标签。
计算机视觉的合成数据究竟是如何工作的?如何人工生成如此高保真、逼真的图像数据?
合成数据核心的一项关键人工智能技术被称为生成对抗网络或 GAN。
GAN由 AI 先驱 Ian Goodfellow于 2014 年发明,自那时以来一直是研究和创新的活跃领域。Goodfellow 的核心概念突破是用两个独立的神经网络构建 GAN,然后让它们相互对抗。
从给定的数据集(例如,人脸照片的集合)开始,第一个神经网络(称为“生成器”)开始生成新图像,就像素而言,这些图像在数学上与现有图像相似。同时,第二个神经网络(“鉴别器”)被输入照片,而不会被告知它们是来自原始数据集还是来自生成器的输出;它的任务是识别哪些照片是合成生成的。
当这两个网络迭代地相互对抗时——生成器试图欺骗鉴别器,鉴别器试图停止生成器的创造——它们相互磨练彼此的能力。最终判别器的分类成功率下降到 50%,并不比随机猜测好,这意味着合成生成的照片已经与原件无法区分。
2016 年,人工智能巨匠 Yann LeCun称GAN 是“机器学习过去十年中最有趣的想法”。
推动视觉合成数据近期发展势头的另外两个重要研究进展是扩散模型和神经辐射场(NeRF)。
最初受热力学概念的启发,扩散模型通过增加噪声破坏训练数据来学习,然后找出如何逆转这种噪声过程以恢复原始图像。一旦经过训练,扩散模型就可以应用这些去噪方法从随机输入中合成新颖的“干净”数据。
扩散模型在过去一年中大受欢迎,包括作为DALL-E 2的技术支柱,这是OpenAI 备受讨论的新文本到图像模型。与 GAN 相比,具有一些有意义的优势,预计扩散模型将在生成 AI 的世界中发挥越来越重要的作用。
与此同时,NeRF 是一种强大的新方法,可以快速准确地将二维图像转换为复杂的三维场景,然后可以对其进行操作和导航以生成多样化的高保真合成数据。
为计算机视觉提供合成数据解决方案的两家领先初创公司是 Datagen(最近宣布了 5000 万美元的 B轮融资)和 Synthesis AI(最近宣布了 1700 万美元的 A 轮融资)。两家公司都专注于人类数据,尤其是人脸;他们的平台使用户能够以编程方式自定义跨维度的面部数据集,包括头部姿势、面部表情、种族、注视方向和发型。
AI.Reverie 是这一领域的先行者,去年被 Facebook 收购——这表明大型科技公司对合成数据越来越感兴趣。早期创业公司包括 Rendered.ai、Bifrost 和 Mirage。
循环往复,虽然几年前自动驾驶汽车为合成数据的增长提供了原始动力,但时至今日,自动驾驶汽车行业仍在继续推动该领域的最新发展。
Waabi 是自动驾驶汽车类别中最引人入胜的新创业公司之一,他将模拟技术提升到了一个新的水平。Waabi 由曾负责 Uber 的 AV 研究工作的 AI 杰出人物 Raquel Urtasun 创立,去年凭借一支星光熠熠的团队和超过 8000 万美元的资金脱颖而出。
Waabi 的目标是通过利用下一代 AI 构建一种新型的自主堆栈,避免更多传统方法的缺点,从而超越更成熟的 AV 玩家。该堆栈的中心是合成数据。
与 AV 领域的其他公司相比,Waabi 没有大量投资于在现实世界的道路上部署汽车以收集驾驶数据。相反,Waabi 大胆地寻求主要通过虚拟仿真来训练其自主系统。2 月,该公司公开推出了名为Waabi World的尖端模拟平台。
“在 Waabi,我们在生成合成数据方面更进一步,”Urtasun 说。“我们不仅可以近乎实时地以前所未有的保真度模拟车辆的传感器,而且我们以闭环方式进行模拟,以便环境对我们做出反应,我们也对其做出反应。这对于自动驾驶汽车等机器人系统非常重要,因为我们不仅需要学习感知世界,还需要安全地采取行动。”
语言至上
虽然合成数据将改变计算机视觉的游戏规则,但该技术将在另一个领域释放更多的转变和机会:语言。
基于文本的合成数据的巨大潜力反映了语言在人类事务中无处不在的基本现实;它基本上是所有重要商业活动的核心。自然语言处理 (NLP) 的最新进展为整个经济领域的价值创造提供了几乎无限的机会。合成数据在这里可以发挥关键作用。
以下几个具体的例子将有助于说明这种可能性。
Anthem 是世界上最大的健康保险公司之一,它使用其大量的患者医疗记录和索赔数据来支持人工智能应用,例如自动欺诈检测和个性化患者护理。
上个月,Anthem宣布与 Google Cloud 合作生成大量合成文本数据,以改进和扩展这些 AI 用例。例如,这个合成数据语料库将包括人工生成的病史、医疗保健索赔和相关的医疗数据,这些数据保留了真实患者数据的结构和“信号”。
Anthem 的首席信息官 Anil Bhatt说:“越来越多……合成数据将超越并成为人们未来使用 AI 的方式。”
最近的另一个例子暗示了更具变革性的可能性。
去年年底,全球领先的基因测序公司 Illumina宣布与初创公司 Gretel.ai 合作创建合成基因组数据集。
基因组数据是世界上最复杂、多维、信息丰富的数据类型之一。从字面上看,它包含了生命的秘密——如何构建有机体的说明。长度超过 30 亿个碱基对,每个人独特的 DNA 序列在很大程度上定义了他们的身份,从身高到眼睛颜色,再到患心脏病或药物滥用的风险。(虽然不是自然语言,但基因组序列是文本数据;每个人的 DNA 序列都可以通过简单的 4 个字母“字母表”进行编码。)
使用领先的人工智能分析人类基因组,使研究人员能够更深入地了解疾病、健康以及生命本身的运作方式。但由于基因组数据的可用性有限,这项研究受到了瓶颈。围绕人类基因数据的严格隐私法规和数据共享限制阻碍了研究人员大规模处理基因组数据集的能力。
合成数据提供了一种潜在的革命性解决方案:它可以复制真实基因组数据集的特征和信号,同时回避这些数据隐私问题,因为数据是人工生成的,并不对应于现实世界中的任何特定个体。
当涉及到由合成数据解锁的各种基于语言的机会时,这两个例子只是冰山一角。
近年来出现了一些有前途的初创公司来寻求这些机会。
这一类别中最著名的初创公司是上文提到的 Gretel.ai,迄今为止,该公司已从 Greylock 和其他人那里筹集了超过 6500 万美元的资金。
从医疗保健到金融服务,从游戏到电子商务,各行各业的蓝筹客户对其技术有着强劲的市场需求。
Gretel.ai 首席执行官/联合创始人 Ali Golshan 说:“看到客户开始以如此快的速度采用合成数据真是令人惊讶。”“即使与 12 或 18 个月前相比,企业对合成数据的认识和需求也在快速增长。我们的客户继续以创新的新方式应用我们的技术给我们带来惊喜。”
该领域另一个有趣的早期参与者是 DataCebo。DataCebo 由麻省理工学院的一群教师和他们的学生创立,他们之前创建了 Synthetic Data Vault (SDV),这是最大的开源模型、数据、基准和其他合成数据工具的生态系统。DataCebo 和 Synthetic Data Vault 专注于结构化(即表格或关系)文本数据集,即在表格或数据库中组织的文本数据。
DataCebo 联合创始人 Kalyan Veeramachaneni 说:“使用这项技术最重要的动态是保真度和隐私之间的权衡。”“DataCebo 平台提供的核心是一个微调选项,使客户能够围绕他们生成的合成数据加强隐私保证,但要以保真度为代价,反之亦然。”
Tonic.ai 是另一家热门的初创公司,为综合生成的文本数据提供工具。Tonic 的主要用例是用于软件测试和开发的合成数据,而不是用于构建机器学习模型。
最后一个值得注意的初创公司是 Syntegra,它专注于专门针对医疗保健的合成数据,其用例涵盖医疗保健提供者、健康保险公司和制药公司。考虑到市场规模和现实世界患者数据的棘手隐私挑战,合成数据在医疗保健领域的长期影响可能比任何其他领域都要大。
值得注意的是,在很大程度上,这里讨论的公司和示例使用经典的统计方法或传统的机器学习来生成合成数据,重点是结构化文本。但在过去的几年里,语言 AI 的世界已经发生了革命性的变化,引入了Transformer 架构和新兴的大规模“基础模型”范式,如 OpenAI 的 GPT-3。
通过利用大型语言模型 (LLM) 来生成具有以前无法想象的真实性、原创性、复杂性和多样性的非结构化文本(或多模态)数据语料库,这是构建下一代合成数据技术的机会。
“大型语言模型的最新进展为我们带来了机器生成的数据,这些数据通常与人类编写的文本无法区分,”DeepMind 专注于生成语言模型的高级研究科学家 Dani Yogatama 说。“这种新型合成数据已成功应用于构建广泛的人工智能产品,从简单的文本分类器到问答系统,再到机器翻译引擎到会话代理。使这项技术民主化将对我们开发生产 AI 模型的方式产生变革性的影响。”
模拟到现实的差距
退后一步,该领域的基本概念挑战是合成生成的数据必须与真实数据足够相似,才能对数据服务的任何目的有用。这是大多数人在学习合成数据时的第一个问题——它真的能准确到足以替代真实数据吗?
人工智能的最新进展极大地提高了合成数据的保真度。对于计算机视觉和自然语言处理的广泛应用,今天的合成数据技术已经足够先进,可以部署在生产环境中。但这里还有更多工作要做。
(资料图片仅供参考)
在计算机视觉中,由于神经辐射场 (NeRF) 等持续的深度学习创新,俗称“模拟到真实的差距”正在迅速缩小。Nvidia 的Omniverse等开发人员平台的发布,一个领先的 3D 图形模拟平台,通过使开发人员可以广泛使用最先进的合成数据功能,在这方面发挥了重要作用。
衡量给定合成数据集有效性的最直接方法是将其换成真实数据,然后查看 AI 模型的性能。例如,计算机视觉研究人员可能会在合成数据上训练一个分类模型,在真实数据上训练第二个分类模型,将两个模型部署在相同的先前未见过的测试数据集上,然后比较两个模型的性能。
在实践中,计算机视觉中合成数据的使用不需要,通常也不是,这种二进制。研究人员可以通过在他们的训练数据集中结合真实数据和合成数据来推动显着的性能改进,而不是只使用真实数据或合成数据,使人工智能能够从两者中学习并扩大训练语料库的整体规模。
还值得注意的是,合成数据集有时实际上优于真实数据。这是什么原因呢?
数据是从现实世界收集的这一事实并不能保证它是 100% 准确和高质量的。一方面,现实世界的图像数据通常必须由人工手动标记,然后才能用于训练 AI 模型;这种数据标记可能不准确或不完整,从而降低 AI 的性能。另一方面,合成数据自动带有完美的数据标签。此外,合成数据集可以比真实世界的数据集更大、更多样化(毕竟这就是重点),这可以转化为卓越的 AI 性能。
对于文本数据,行业从业者已经开始开发指标来量化和基准化合成数据的保真度。
例如,Gretel.ai 根据三个不同的统计严格指标(场相关稳定性、深层结构稳定性和场分布稳定性)对其合成数据集进行评分,并将其汇总以产生 0 到 100 之间的整体合成数据质量分数。简而言之,这个总体数字代表“如果使用原始数据集,从合成数据集得出的科学结论是否相同的置信度得分。”
Gretel 的合成数据通常表现得很好:相对于在现实世界数据上训练的模型,基于它训练的 AI 模型的准确度通常在几个百分点之内,有时甚至更准确。
合成数据初创公司 Syntegra 同样提出了深思熟虑的分析框架,用于评估医疗保健环境中的合成数据保真度。
对于文本数据,保真度和隐私之间存在一个基本的权衡:随着合成数据越来越类似于它所基于的真实世界数据,可以从合成数据中重建原始真实世界数据的风险相应增加数据。如果原始的真实数据是敏感的——比如医疗记录或金融交易——这是一个问题。因此,合成文本数据的核心挑战不仅仅是在真空中最大化保真度,而是在保护隐私的同时最大化保真度。
前方的路
下图说明了很多问题。据 Gartner 称,到 2030 年,合成数据将完全盖过 AI 模型中的真实数据。
随着合成数据在未来几个月和几年内变得越来越普遍,它将对各个行业产生颠覆性影响。它将改变数据的经济学。
通过使高质量的训练数据更容易获得和负担得起,合成数据将削弱专有数据资产作为持久竞争优势的优势。
从历史上看,无论是哪个行业,为了了解人工智能的战略动态和机遇,最重要的第一个问题是:谁拥有数据?近年来,谷歌、Facebook 和亚马逊等科技巨头取得如此市场主导地位的主要原因之一是其无与伦比的客户数据量。
回到自动驾驶汽车的例子:谷歌(Waymo)已经投入了数十亿美元,并花费了十多年的时间来收集数百万英里的真实驾驶数据。任何竞争对手都不太可能在这方面赶上他们。但如果生产级自动驾驶系统几乎可以完全使用合成训练数据构建,那么谷歌强大的数据优势就会消失,而像 Waabi 这样的年轻初创公司就有合法的竞争机会。
合成数据兴起的最终结果将是赋能全新一代的人工智能新贵,并通过降低构建人工智能优先产品的数据壁垒来掀起人工智能创新浪潮。
合成数据扩散的一个有趣的相关影响将是减少对数据标记的需求和重要性,因为合成生成的数据不需要手动标记。
数据标记一直是现代机器学习中一个笨拙、不雅的部分。直觉上,真正的智能代理(如人类)不应该需要手动将标签附加到他们观察到的每个对象上以识别它们。
但由于在今天的 AI 范式下需要标记数据,数据标记本身已经成为一个庞大的产业;许多公司每年花费数千万或数亿美元来标记他们的数据。在令人瞠目结舌的收入增长中,领先的数据标签服务提供商 Scale AI 去年的估值为 73 亿美元。一个由小型数据标签初创公司组成的完整生态系统也同样出现了。
合成数据将威胁这些公司的生计。似乎认识到这一点,Scale AI现在的目标是进入合成数据游戏本身,今年早些时候推出了一个名为 Scale Synthetic 的合成数据平台。
合成数据技术将在未来几年重塑人工智能世界,扰乱竞争格局并重新定义技术堆栈。它将通过民主化数据访问来加速人工智能在社会中的传播。它将成为我们人工智能驱动的未来的关键催化剂。精通数据的个人、团队和组织应注意。