基础架构3.0：人工智能革命成功的基石-服务器专区

基础架构3.0：人工智能革命成功的基石

作者：李佳惠编辑：李佳惠 2017-12-04 16:48 IT168网站原创

　　【IT168 资讯】无论如何，我们现在已经进入了机器学习和人工智能的时代。海量数据、廉价存储、弹性计算和算法优化(尤其是深度学习)的融合带来的效应已经不仅仅出现在科幻小说上了。

基础架构3.0：人工智能革命的基石

　　在复杂的策略游戏中，机器已经超越了人类，更不用说图像识别、语音转录以及其他的进步，这些进步开始使我们对人类未来的假设变得复杂化。基于语音的个人助理对于我们来说已经是司空见惯的，而完全自动化的车辆似乎也就停留在不远的弯道上。

　　鉴于最近的这些进展，围绕机器学习和人工智能的大部分对话都集中在算法及其应用方面的突破上。

　　就像在早期的计算时代，当一个人需要成为汇编语言、编译器和操作系统的专家来开发一个简单的应用程序时，那么今天你需要大量的统计和分布式PhDs来构建和部署人工智能。使机器学习和人工智能，但是，在某些方面，它仍然是一个有限而昂贵的学科，仅供少数精英工程组织使用。

　　最终，这与基础设施发展的滞后有关，迄今为止，机器学习技术的创新远远落后于基础设施的发展。简而言之，帮助开创当前实际机器学习时代的系统和工具不适合为下一代产生的智能应用提供支持。

　　展望未来，我们需要一个全新的工具链来释放ML / AI的潜力，使开发人员和企业能够操作和使用。那么，基础设施的下一个重大机遇就是为智能系统构建模块。

　　从基础设施1.0到2.0及更高版本

　　应用程序和基础架构逐步发展。

　　硬件或系统软件的进步使堆栈层层叠叠，实现了新的应用程序品种。这些应用程序已经成熟并逐渐耗尽了其基础资源，催化基础架构层面的后续创新循环。更好、更快、更便宜的构建模块的兴起不可避免地会导致应用程序向最终用户提供以前无法预知的体验。

　　90年代末和00年代早期的商业互联网的存在归功于x86指令集(Intel)，标准化操作系统(Microsoft)，关系数据库(Oracle)，以太网互联(Cisco)以及网络数据存储(EMC)。亚马逊、eBay、雅虎甚至谷歌和Facebook最早的迭代都建立在这个我们称为基础设施1.0的基础上。

　　然而，随着网络的成熟，到2015年底，从1995年的1600万用户增长到超过30亿，应用程序的规模和性能要求发生了变化。对于web规模的巨人来说，在客户端服务器时代开发的技术支持下运行他们的业务已经不再可行也不够经济。

　　相反，从这些企业的内部看。将卓越的技术专长与来自学术界、谷歌、Facebook和亚马逊(Amazons)的并行计算研究结合在一起，定义了一种新的基础架构设施，它是可扩展的，可编程的(通常)开源商品。 Linux，KVM，Xen，Docker，Kubernetes，Mesos，MySQL，MongoDB，Kafka，Hadoop，Spark等等这些技术定义了云时代。Sunil Dhaliwal将这种转变描述为基础设施2.0。

　　最终，这一代的技术是为了将互联网扩展到数十亿终端用户，并有效地存储从这些用户获取的信息。在这样做的过程中，基础设施2.0的创新催化了数据增长的急剧加速。结合几乎无穷尽的并行计算和算法的进步，为今天的实际机器学习时代设定了舞台。

　　基础设施3.0：走向智能系统

　　基础架构2.0最终关心的问题是“我们如何连接世界?”如今的一代技术改写了这个问题：“我们如何理解世界?

　　这种区分，连通性与认知，使得ML / AI与前几代的软件截然不同。编码认知的计算挑战是它颠倒了经典的编程范式。而在传统应用中，逻辑是手动编码来执行特定的任务，在ML / AI中，训练算法从数据库中推断逻辑。然后用这个逻辑来做出相关的决定和预测。

　　其结果是一个“智能”的应用程序，但是异常的数据密集型和计算成本昂贵。这些性质使得ML / AI不合适在过去的七十三年里通用的冯·诺依曼计算范式的多用途。相反，ML / AI代表了一个新的基础架构，需要重新思考基础设施、工具和开发实践。

　　但迄今为止，ML / AI的研究和创新的优势一直致力于新算法、模型训练技术和优化。具有讽刺意味的是，ML / AI系统中只有一小部分代码用于学习或预测。相反，大部分的复杂性体现在数据准备、特性工程以及大规模执行这些任务所需的分布式系统基础设施上执行。

基础架构3.0：人工智能革命的基石

　　成功建立和部署ML / AI需要一个涉及多个离散系统的复杂的、精心协调的工作流程。首先，数据需要被摄入、清理和标记。然后，必须确定预测所依据的适当属性(称为特征)。最后，开发人员必须对模型进行训练并进行验证、服务和不断优化。从开始到结束，即使是技术最精通的组织，这个过程也可能会花费几个月的时间。

基础架构3.0：人工智能革命的基石

　　为了让ML / AI充分发挥潜力，它必须从今天的学科毕业，进入工程领域。在实践中，这意味着需要有新的抽象、接口、系统和工具，来使开发人员能够轻松地开发和部署智能应用程序。

　　这些必要的演进不是抽象或渐进式过程改进的微小变化。相反，它们在系统设计和开发工作流程中都是破坏性的、基础性的变化。

　　相应地，在堆栈的每一层，我们都开始看到针对ML / AI范例而优化的新平台和工具。机会很多：

　　·具有许多计算内核和高带宽内存(HBM)的专用硬件非常接近处理器芯片。这些芯片针对执行神经网络固有的快速、低精度、浮点运算所需的高度并行数值计算进行了优化。

　　·系统软件具有硬件高效的实现，将计算编译到晶体管级别。

　　·用于训练和推理的分布式计算框架可以有效地在多个节点上扩展模型操作。

　　·数据和元数据管理系统，为创建和管理训练和预测数据提供可靠、统一和可重复的管道。

　　·极低延迟的服务基础架构，使机器能够根据实时数据和上下文快速执行智能操作。

　　·模型解释、QA、调试和可观测性工具，可以大规模地监控、反思、优化模型和应用程序。

　　·封装整个ML / AI工作流程的端到端平台，从最终用户中抽象出复杂性。例如优步的Michelangelo和Facebook的FBLearner等内部系统。

　　就在过去的十年里，云计算堆栈出现，在接下来的几年里，我们也期待着会有庞大的基础设施和工具生态系统能够围绕ML / AI进行合并。