首页 新闻 合成数据会阻碍生成AI的进步还是被证明是必不可少的突破?

合成数据会阻碍生成AI的进步还是被证明是必不可少的突破?

2025年04月26日
HenryWalker
0

合成数据会阻碍生成AI的进步还是被证明是必不可少的突破?

了解合成数据:AI及其他地区的游戏规则改变者

随着生成AI的出现,我们对合成图像和文本并不陌生。但是您听说过合成数据吗?正如名称所暗示的那样,它的数据是人为创建的,可以代表真实数据。这种创新的工具正在医疗保健,金融,汽车行业,尤其​​是在人工智能领域中引起轰动。

在我们的数字时代,综合数据的重要性在South by Southwest(SXSW)的AI会议上强调了“模拟数据对AI和未来的影响”。本次会议研究了合成数据如何增强生成AI,同时还可以解决潜在的陷阱。

该小组以Nvidia的Mike Hollinger,TypeForm的Oji Udezue和来自德克萨斯州立大学的Tahir Ekin等专家为特色。他们对技术有一个普遍乐观的看法。乌德祖说:“对我们来说,它(综合数据)使我们有能力建造更便宜和更好的东西 - 这是一种圣杯。”

合成数据的优势

合成数据提供了一种模仿现实世界中的方式,在这些方案中,收集实际数据可能太昂贵,耗时或提出隐私问题,尤其是使用敏感财务数据。由于其在训练和完善AI和机器学习模型中的关键作用,它的知名度最近飙升,这与这些技术迅速发展至关重要。

Hollinger解释说:“与Chatgpt一起,与Gemini一起使用Claude,DeepSeek,以及这些模型中的任何一个,在该模型的训练数据中很可能是合成生成的步骤。”此过程涉及使用合成数据来增强和改变训练材料,从而进行更健壮的模型培训。

合成数据对AI模型特别有益,因为它们需要大量,多样化和高质量的数据集来进行有效的培训。这些可能很难获得,尤其是对于不可通过公共资料来源的利基市场或专有数据集而言。 Gartner最近的一份报告将合成数据称为2025年的最高趋势,建议其用来填补见解的空白或替换敏感数据以增强隐私。

与合成数据相关的风险

生成合成数据涉及使用复杂的算法来模仿真实数据的模式和结构。但是,就像任何AI输出一样,偏差的风险可能会对结果产生重大影响。 Hollinger以会议当天的一个例子为例,由于日光节省时间,该会议的时间为23个小时。如果合成数据集包含受此类时间变化影响的一天,则可能会偏向模型的准确性。

确保合成数据保持在现实情况下,对于避免这些差异并保持准确性至关重要。然而,乌德祖(Udezue)指出了一个挑战:“人类以无法预测的方式是不可预测的。您如何预测80亿人的变化?”

除技术问题外,一个主要的障碍是建立对合成数据的信任。它的生成,验证和使用的透明度(也许是通过模型卡)至关重要。埃金(Ekin)提出了一个相关的问题:“从用户角度来看,我们正在使用这些AI工具,但是您如何进入未在道路上测试但仅使用模拟数据进行测试的自动驾驶汽车?”

展望未来:综合数据的未来

尽管面临这些挑战,但小组对合成数据在AI和其他部门的未来中的作用表示乐观。 Udezue得出结论,强调,模拟数据将正确使用后,将提升科学,将提升软件,但将提升该行业,但是我们必须正确地获得治理和透明度,否则我们将无法正确利用它。”

相关文章
AI电子书生成器:轻松创建和出售电子书 AI电子书生成器:轻松创建和出售电子书 在当今的数字世界中,创建和销售电子书对于许多人来说都是一项有利可图的努力。但是,它通常需要大量的时间和精力。得益于人工智能(AI),创建电子书的过程变得更加易于访问和简化。让我们深入了解AI电子书的世界
AI驱动指南:以简单的步骤创建令人惊叹的数字艺术贴纸 AI驱动指南:以简单的步骤创建令人惊叹的数字艺术贴纸 您准备好潜入充满活力的数字艺术贴纸创作世界吗?让我们探讨如何使用Chatgpt和Dall-E之类的工具来利用AI的魔力,以使您的独特贴纸想法栩栩如生。本指南将使您完成整个过程,从制定详细提示到完善y
AI声音效应发电机:在线制作音频魔术 AI声音效应发电机:在线制作音频魔术 在数字内容创建的世界中,声音效果不仅仅是背景噪音,它们是一个至关重要的元素,可以将您的项目从善良转变为难忘。无论您是制作YouTube视频,播客还是游戏,完美的声音都可以激发情感,让现场和Lea
评论 (0)
0/200
OR