【IT168 资讯】数据和商业智能(BI)是同一枚硬币的两面。在存储、处理和分析方面的进展使数据民主化,因此,你不必成为数据库专业人员或数据科学家,就可以使用大量的数据集并获得深入的见解。当然还得通过一个学习曲线来获取,但是自助式商业智能和数据可视化工具正在重新定义企业如何利用它们收集到的所有数据进行可操作的分析。然而,在商业智能或数据库公司中,高级分析和人工智能(AI)数据库是有区别的,它是为训练机器学习(ML)和深度学习模型而设计的。
ML算法正在被编织进今天软件的大部分结构中。消费者体验融合了虚拟助手与人工智能。包括谷歌和微软在内的科技巨头正在进一步推动我们的智能未来,不仅是通过研究,还通过重写他们的技术从而更深入的了解如何与人工智能合作。
训练机器和深度学习模型的一个挑战是,你需要训练一个神经网络的纯粹的数据量和处理能力,例如,在诸如图像分类或自然语言处理(NLP)等领域的复杂模式识别。因此,人工智能数据库开始在市场上流行,以此来优化企业的人工智能学习和培训流程。笔者与gpu加速的关系数据库提供商Kinetica进行了交谈,后者已经建立了一个自己的人工智能数据库,PCMag的常驻BI和数据库专家Pam Baker还为我们揭秘了人工智能数据库和传统数据库的工作方式。
人工智能数据库是什么?
人工智能数据库瞬息万变的性质使得它很难建立术语。你经常听到诸如ML、deep learning和AI这样的术语,实际上,它们在人工智能的大伞下发展。因此,Baker表示,对于人工智能数据库的定义,有两种截然不同的定义:一种是实际的,另一种是就有点空想了。
在这个行业里有一种松散的共识,即人工智能数据库将完全脱离自然语言查询。用户界面将是这样的,你不需要依赖搜索词和关键短语来找到你需要的信息,允许用户用NLP来调用数据集就好。所以,现在的人工智能数据库的定义实际上是对原本定义的一种延伸。
更实际的定义,本质上是使用一个专用数据库来加速ML模型的训练。一些科技公司已经在开发专门的人工智能芯片,以减轻新的硬件产品的沉重处理负载,原因是供应商们推出了更多的基于AI的功能,需要大量的计算能力。在数据方面,使用人工智能数据库可以帮助你更好地解决与训练ML和深度学习模型相关的容量、速度和复杂数据治理和管理挑战方面的问题,以节省时间并优化资源。
了解机器学习
“现在有很多加速ML的训练的不同的策略,”Baker解释说,一个是将基础设施与人工智能研究人员的编码分开,这样自动化的功能就是处理基础设施和培训ML模型。这样,你可以在30天或30分钟内观察,而不是花3个月的时间来培训一个模型。
Kinetica将这个想法分解为一个集成的数据库平台,以对ML和深度学习建模进行优化。人工智能数据库结合了数据仓库、高级分析和内存数据库中的可视化功能。Kinetica先进技术集团的副总裁兼首席软件工程师Mate Radalj表示,人工智能数据库应该能够同时吸收、探索、分析和可视化快速、复杂的数据。我们的目标是降低成本,产生新的收入,并整合ML模型,这样企业就可以做出更高效、更有数据驱动的决策。
“人工智能数据库是一般数据库的子集,”Radalj说,“现在,人工智能数据库非常流行。但是很多解决方案都使用分布式组件,如:[Apache]Spark,[Hadoop]MapReduce和HDFS。我们的数据库是在一个平台上用集成的cpu和gpu构建的。对我们来说,高层次的好处是更快的配置和更低的硬件内存,基于模型的训练,快速周转并分析集成到同一个平台上。
人工智能数据库是如何工作的?
在实践中有许多人工智能数据库的例子。Microsoft Batch AI提供基于云的基础设施,用于培训练深度学习和在微软(Microsoft gpu)上运行的Azure Learn上的ML模型。该企业的Azure Data Lake产品,使企业和数据科学家更容易在分布式架构中处理和分析数据。
另一个例子是谷歌的AutoML方法,从根本上重新设计了ML模型的训练方式。谷歌自动化ML模型设计是基于特定的数据集生成新的神经网络架构,然后测试并迭代数千次,以编码更好的系统。事实上,谷歌的人工智能现在可以创造比人类研究人员更好的模型。
谷歌的AutoML:用ML编写ML代码,所以你甚至不需要人。一些企业正试图将先进的分析技术作为一种方式进行,但事实并非如此,而其他人则在这样一个先进水平上做ML,这超出了大多数企业目前所能理解的范围。
还有Kinetica,这家总部位于旧金山的初创公司已经筹集了6300万美元的风险投资(VC)资金,为快速数据摄取和分析提供了一个高性能的SQL数据库。Kinetica是Radalj所说的一个大规模并行处理(MPP)分布式数据库和计算平台,其中每个节点都包含内存数据、CPU和GPU。
是什么使得人工智能数据库不同于传统数据库,Radalj解释说,涉及到三个核心元素:
·加速数据摄入
·内存数据联合本地(跨数据库节点的并行处理)
·数据科学家、软件工程师和数据库管理员的共同平台,可以更快地迭代和测试模型,并直接将结果应用于分析。
Kinetica 人工智能数据库
对于所有的非数据库和人工智能模型训练专家来说,Radalj打破了这三个核心元素,并解释了人工智能数据库与有形的商业价值。数据可用性和数据摄取是关键的因素,因为处理实时流媒体数据的能力可以让企业对人工智能驱动的洞察力采取快速行动。
Radalj表示,曾有零售客户,每隔五分钟就想要跟踪销售费率。于是,利用人工智能来预测,根据过去几个小时的历史数据,明确他们是否应该补充库存,然后优化这一过程。但要实现机器驱动的库存补充,就需要(数据库)支持每秒600 - 1200个查询。
Baker认为,ML需要大量的数据,所以对于人工智能数据库来说,快速摄取它是非常重要的。第二个因素,“内存数据的联合位置”。内存中的数据库存储主要内存中的数据,而不是单独的磁盘存储。它这样做是为了更快地处理查询,特别是在分析商业智能数据库中。
因此,人工智能数据库支持并行处理——它模拟了人脑处理多个刺激的能力,同时还能在可伸缩的数据库基础设施中继续分布。这就阻止了更大的硬件占用,这导致了Radalj所说的“数据传输”,或者需要在不同的数据库组件之间来回发送数据。
在实际的数据库硬件方面,Kinetica与英伟达(Nvidia)合作,该企业拥有强大的人工智能gpu阵容,并正在与英特尔(Intel)探索更多的机会。很多企业正在密切关注新兴的人工智能硬件和基于云的基础设施,如谷歌的张量处理单元(tpu)。
最后,有一个统一的模型训练过程的概念。如果一个人工智能数据库的好处是更快的摄入和处理服务为企业的ML和深度学习的努力提供更大的、面向业务的目标,那么它只会更有效。
炒作还是现实?
Kinetica对于人工智能数据库底线的定义是优化计算和数据库资源。这样,你就可以创建更好的ML和深度学习模型,更快、更有效地训练它们,并保持一条贯穿于在如何应用于你的业务方面。
Radalj给出了一个舰队管理或卡车运输公司的例子。在这个例子中,人工智能数据库可以处理来自车队的大量实时信息。然后,通过对地理空间数据的建模,并将其与分析相结合,数据库可以动态地重新路由卡车并优化路线。它更容易快速提供、原型和测试。
作为一个商业概念,深度学习、ML,所有这些都是一个可靠的概念。我们所研究的是可以解决的技术问题,即使我们还没有解决它们。
至于人工智能数据库是否都是炒作,或者它们是否代表了商业运行的一个重要趋势,Baker认为,两者都有一点。作为一个营销术语,大数据现在已经不受欢迎了。现在有一些先进的、数据驱动的分析和真正的ML和深度学习算法之间的市场融合。无论如何,不管你是在谈论什么,它的开始与结束都是数据。