一文读懂：什么是合成数据？-服务器专区

一文读懂：什么是合成数据？

作者：陶然编辑：陶然 2022-08-23 14:00 IT168网站原创

　　如今，数据正在大规模地产生，为机器学习提供了绝佳的机会。然而，对于数据科学家和机器学习实践者来说，这些数据的很大一部分仍然是超界的。严格的隐私管理、高昂的成本、长时间的处理都阻碍了数据的分析。

　　因此，Gartner预估85%的AI项目都将失败，这就是合成数据的好处所在。

　　合成数据是在详细的算法和仿真的帮助下系统生成的人工数据。它是完全匿名的数据，是真实数据的绝佳替代品，因为它允许组织创建按需培训数据，无论他们想要多大的规模。

　　什么是合成数据？

　　人工智能算法人工创建合成数据，但它是在真实数据集上训练的，具有与原始数据相同的属性。由于合成数据与实际数据没有一对一的关联，因此重新识别的机会更少。

　　因此，数据科学家可以自信地复制和使用数据进行测试和建模，而不会有暴露个人身份信息的风险，也不会与监管机构发生冲突。

　　如何生成合成数据？

　　有几种方法可以生成合成数据。更简单的选择包括蒙特卡洛模拟和从分布集中绘制数字，但如果数据集很复杂，通常首选生成模型。

　　生成模型是基于神经网络的，它可以自动从现实数据中找到的模式中学习，并产生与现实数据精确匹配的信息。生成对抗网络(GANs)和变分自编码器(VAEs)是两种常见的生成模型架构。

　　在GAN模型中，两个神经网络模型(称为生成器和鉴别器)在一个零和游戏中竞争，其中一个网络的收益就是另一个网络的损失。另一方面，变分自编码器是工作在编码器-解码器概念上的无监督模型。

　　什么工具有助于合成数据的生成？

　　下面是可以用来创建合成数据的工具示例：

　　Datagen是一个合成数据集解决方案，提供逼真的数据集，可用于物联网(IoT)、机器人和增强现实(AR)。

　　Scikit-learn构建于Matplotlib、NumPy和SciPy之上，是一个开源的Python库，提供了生成合成数据集的工具。

　　Pydgben是一个Python库，它可以创建常见的条目，如姓名、工作、信用卡号码、电子邮件地址等。

　　并行域是一个合成数据平台，产生高质量的传感器数据，以改善ML模型和计算机视觉工作流程。

　　使用合成数据的好处

　　在构建机器学习模型时，合成数据比其他类型的数据更具可扩展性、更容易使用、更具有成本效益。

　　可伸缩性。ML模型消耗大量数据。为了训练和测试的目的，根本不可能获得如此大量的有关数据。借助合成数据工具，数据科学家可以创建任意数量的数据副本，以构建高质量的AI/ML模型。

　　易用性。在处理真实数据时，保护个人信息、消除不准确信息和有效地处理不同格式的数据至关重要。合成数据处理起来要容易得多，因为它掩盖了私人信息、消除了错误，并标准化了格式，以更直观地进行标记。

　　具有成本效益。获取真实的培训数据可能会让企业花费大量资金。此外，手动标记它们是耗时的。有了合成数据生成工具，这一过程被简化，并证明是一个更经济和更快的过程。

　　使用合成数据的挑战

　　合成数据提供了一些好处，但它也有一定的局限性。例如，一个显著的缺点是，有效地使用合成数据需要高技能的分析师，他们知道如何使用复杂的数据生成器工具。这通常是困难的，因为在就业市场上缺乏合格的人工智能工人。

　　此外，合成数据只与原始数据一样好，而真实数据往往充满偏见。因此，当神经网络在有偏差的历史数据上训练时，它们反映了相同的偏差。这通常会导致机器学习模型的输出不准确。

　　合成数据的用例

　　合成数据最突出的两个应用案例是自动驾驶汽车和医疗保健。

　　自动驾驶。到目前为止，自动驾驶汽车是合成数据的最佳用例。汽车制造商必须考虑数以百万计的场景，并收集相应的数据，以制造安全的汽车。这在现实中是不可能实现的，但通过合成数据，组织可以生成任何可以想象的驾驶场景的数百万甚至数十亿种排列，从而达成安全驾驶解决方案。

　　医疗保健。医疗保健是一个高度监管的行业，有严格的法律管理患者数据的使用。由于合成数据是完全匿名的，不存在重新识别的风险，医疗机构可以轻松地使用它进行科学研究、临床试验和训练医疗行业的ML模型。

　　合成数据的未来

　　合成数据生成是创建具有成本效益和高度可伸缩数据的革命性方法。随着人们对合成数据及其各种好处的认识越来越多，越来越多的企业将挖掘其潜力以获得好处。

　　此外，随着隐私法的收紧，企业将别无选择，只能求助于合成数据。因此，它将继续受到欢迎，直到它完全成为主流。

关注我们