一张图片胜过千言万语,在网红、KOL、明星带货越来越火的今天,以图搜图成为我们迅速“种草”的必备技能。
机器如何快速精准地找到图片对应的商品的呢?想想我们小时候怎么查字典?拆偏旁,算笔画,或者拼拼音、找声母,然后就是翻页。
图片搜索的基本原理类似于查字典,也需要图片库(字典)以及对应的索引库(相当于拼音、偏旁的索引);然后把一个图片进行特征提取(算笔画或者拼拼音);接着把特征值输入到索引库,通过搜索匹配得到结果,搜索结果会进入商品库,商品库会根据搜索结果自动弹出一系列的推荐商品(不用翻页了,感谢计算机)。
我们知道这种技术在多年前就被电商普遍采用了,但一直比较低调,因为体验实在是……,好在今天的以图搜图早就甩昨天800条大马路了。
以图搜图,轻松搜到同款
为什么会有这样的提升?一方面,得益于程序猿/媛加班加点对于系统的不断改进,另一方面则得益于AI,以图搜图大量采用了AI技术,AI技术可以通过大量计算自我优化,提高模型准确度,也就是说,以图搜图的准确度也是计算力暴力提升的结果。
AI是什么?计算机可以像人一样计算,AI可以让计算机可以像人一样学习和思考。怎么实现呢?我们都知道任何一个计算机软件都有着大量的函数参数,而且是不可变的,但是AI系统中函数的参数是可变的,甚至软件结构也是可以调整的,程序猿/媛、攻城狮们先要做出一组标记数据,比如程序猿/媛和攻城狮们最爱的喵星人和它的死敌汪星人就被拿来做训练了。喵星人的照片就标记为猫,汪星人的照片标记为狗,然后把这些数据输入到模型中,模型就会根据自己的计算结果对比数据的标记结果,进行自我调整,从而提高输出的准确率。更多频次的训练、更大的标记数据集都会让模型的准确度不断提高。这个过程是线下的,被称为训练,经过训练的模型就可以上线提供服务,提供服务的过程被称为推理,也就是我们用到的以图搜图。
近年来,很多程序猿/媛、攻城狮们的年薪已经跨过百万大关,互联网公司的人力成本是噌噌的涨,相比之下,计算力的单价却一直按照摩尔定律在降低…不!在超越摩尔定律的速度降低(GPU、FPGA性能的飙升是另一个技术话题了),所以,互联网大佬们敞开了买AI服务器,来提升算法。我们躺在床上购物的时候,真不要忘了小浪,要知道中国一半以上的AI服务器都是浪潮做的,没有浪潮,请回忆800条街外的以图搜图吧。
好,最后几个问题,快问快答,让你知道在以图搜图中,计算力有多暴力。
-请问最最最复杂的AI模型有多复杂?
-怎么也要几万个参数吧?训练数据集估计要几个亿?
-什么?!那是几年前,现在稍微像点样子的AI模型都是千亿级别数量的参数、万亿级别数量的训练数据集,少年,这些参数光是数完,估计人类都灭亡了。这么大规模的AI模型需要多少服务器?
-我觉得怎么也要几万台吧?
-又错了,多的几百台就够了,少的几十台就行,因为AI服务器的性能就是这么逆天!浪潮AGX-5每秒可以完成训练2000万亿次。
-等等,这个速度有多快?
- 这么来说吧,2018年全球超算TOP500排行榜的状元美国Summit超级计算机的时候,计算性能是2亿亿次,虽然是多了一个0,但是Summit是用3400台服务器堆起来的。当然AI训练是4位或是8位计算精度,Summit是64位计算精度。
浪潮服务器AGX-5
我们知道不仅是电商,还有很多的企业、政府等传统用户也要部署AI,没关系,不管是什么需求,只要您提,小浪都能满足,对于传统用户,小浪首先推荐NF5468M5。
高度4U,可支持8颗最高性能的Tesla V100以PCI-E或NVLink高速互联,可以提供高达300GB/s的互连带宽,并提供极低的延迟;面向在线推理对高能效比的需求,其可支持16颗高能效比的TeslaP4、T4。适合于互联网批量部署,也适合刚入AI圈子的技术小白。
浪潮服务器NF5468M5
最后,扯远一句。
我们正在步入AI的时代,不知不觉中AI已经包围了我们。买杯咖啡,扫码支付背后有AI;进超市买东西,商品陈列背后有AI;开车,集成了AI技术的摄像头,让你规规矩矩,你网购、浏览网页、电话……背后全是AI。有了AI,天气预报预报时长从3天提高到1周,贷款审核周期从以周为单位变成以分钟为单位……
AI能够走入我们的生活,主要是算法、数据和计算力的推动,程序猿/媛成为高光群体、AI创业公司成为资本宠儿后,算法的价值已经广为人知,相比而言,计算力的价值却一直被忽视。计算力对于AI就像水、电和煤气对于我们的生活一样,因为太重要了,所以被忽视。
你能够岁月静好,是因为有人在为你负重前行。翻译过来就是“你能够血拼双十一,是因为有AI服务器在不停的计算”。
浪潮是中国最大的AI服务器提供商,愿意为你负重前行,愿意用计算守护你的狂欢。