25262
从人工智能火热的催生、要不要提供人工智能专用芯片,到接下来人工智能可能应用的行业和方式,再到英特尔对硬件及算法的思考,宋继强院长都给出了中肯的分析和案例。
12 月 17 日,来自英特尔中国研究院的宋继强院长,在 2016 中国人工智能产业大会现场做了题为《英特尔人工智能赋予明日精彩体验》的主题分享。
从人工智能火热的催生、要不要提供人工智能专用芯片,到接下来人工智能可能应用的行业和方式,再到英特尔对硬件及算法的思考,宋继强院长都给出了中肯的分析和案例。
以下为机器之心整理的现场分享内容,以飨读者。
数据洪流催生的人工智能火热
最近人工智能是一个非常非常火的词,从通过人工智能去玩游戏,到通过人工智能下象棋;从无人驾驶,到智能机器人,都非常非常火。人工智能突然变到一个非常高的高度,实际上跟数据有很大的关系。
目前我们正处在数据洪流中,2020 年会有 500 亿的智能设备连入互联网,包括个人、日常生活的周遭、环境中、车里面、医院里、交通工具和工厂等等,都在大量使用智能设备。
这些智能设备会产生各种各样的数据,数据促使我们训练人工智能的算法,同时这些数据也通过训练好的人工智能算法产生更大的增值价值。这也是为什么人工智能吸引了这么多科研人员和企业,大家一起把资源贡献出来。
如何把握好人工智能的应用,跟怎么能够驾驭数据洪流非常有关系。我们认为,关键是搞好端到端的集成。那么多不同种类的设备,个头有大有小,采集来的数据种类很多,通常不是传统的结构化数据。怎样很好的利用云端和终端协同计算能力,让他们之间无缝并保持高速的传输能力、存储能力,从而构建端到端的解决方案行程良性循环,这是我们深刻相信的未来场景。
英特尔也在为这件大事进行布局,从终端到云端,包括中间的通讯链路、存储都有解决方案。我们收购了前端的视觉芯片深度学习公司,也有云端专门根据人工智能做定制芯片的公司,后面我会逐步介绍一下。
现在,是不是制造人工智能专用芯片的时间节点?
人工智能已经发展了 60 年,但在历史发展的长河中仍处在早期阶段。怎么看一个技术是否已经达到成熟阶段?至少有三点:第一,看它的应用是否已经普及到各行各业,即应用的广泛度;第二,是否已经有标准,不管是国家标准还是行业标准,是否已经有标准开始在制定和落地;第三,是否已经有专用的硬件开始在市面上使用,这一点是比较重要的。大家都知道做硬件第一是费钱,第二是周期长。在产业没起来之前,硬件厂商是不会铺进去的。
Robert Noyce 是英特尔的创始人之一,也是硅谷之父。他很早就研究脑科学,那时的计算机技术都用来为大脑建模,观察人脑是怎么工作的。反过来怎么利用我们在脑科学上得到的一些认知和新奇的想法,去促进计算机科学或者计算架构的发展,为这个领域提供更好的计算能力,也是我们正在考虑的事。
以深度学习举例,我们训练出一个很广、很深的深度学习模型,直接变成一个硬件是不太可能的,而且也是低效的。高效的办法是什么?我们去分析这个模型,找到懂这个模型的人把它通过硬件描述出来,然后产生硬件的抽象,抽象出里面的数据流。数据是怎么流的,中间的流水线上有哪些重要处理模块,他们各自的时间、带宽要求是怎么样,有哪些计算的语言。里面的计算内核是非常重要的,而且是否有大规模运行和反复运用的机会。在这样的基础上,再做硬件芯片就会有很好的认识。同时我们看哪些放在硬件里面固化,哪些让它去灵活使用。
有这样的认知以后,我们才到了第三步,可以产生出一个针对这种工作负载优化的硬件。这个硬件也不是很快达到要求,一个很好的例子是视频加速芯片。从早期标准,到一代一代每一代都有专用芯片,都有专用的认知。如果这个产业真的发展到了各行各业都要去使用的状态,那这个行业就需要专业模型,而不是在通用的芯片上做模拟。
现在做人工智能的应用,或者说部署云端人工智能计算还是很少。英特尔分析,现在是云端提供绝大部分的计算资源,AI 计算的份额在 10%
左右,还是比较少,但是是会飞速发展的。到 2020 年,AI 计算量将会增长 12
倍。节省电力、体积和资源,我们要不断推动技术创新,不能停留在今天这个阶段,后面有更多的优化方案等着我们。
从英特尔对人工智能的分析来看,人工智能从在学术界开始,定义其目标是让机器具备人的智能处理的能力。哪些能力很重要?三大能力——感知能力、推理能力和行动能力,这三大能力决定了机器人能不能根据外界环境做出智能的决策,同时把决策反馈到外部世界,而且比较稳定。还有一个就是适应性,适应不停变化的环境,有持续、自主、不断增强的学习能力。记忆是目前大家想得比较少的。但是在一个真正的自主系统里记忆非常重要,它帮助你把感知、推理、行动串起来,去适应新的环境。
具体的方法工具上,首先要有大量的数据才能把知识和规则提取出来,才能为我们所用,处理新的数据。第二类是知识驱动,不在于你有多大的数据,可能用很少但非常关键和精准,能推出一个完备的系统。这两部分应该是齐头并进的,不能说哪一块优于另外一块,而是应该互相结合的去做。
Lake Crest,为深度学习量身定制的专用芯片
深度学习目前非常火,原因是什么?因为最近这几年首先有 ImageNet 等提供了大量数据,计算能力大幅提升,存储能力也大幅度提升。这使得我们可以通过深度学习,在某些领域取得比较大的突破。比如视觉识别,计算机人脸识别的能力已经可以超过人。目前在语音的识别和视觉的物体识别两个领域有非常大的突破,我们也看到了这个突破,通过深度学习可以增加性能,而不是把数据增加一百倍,把训练时间增加一百倍。
增加处理器数量是希望能大幅度缩减训练时间,但是光增加处理数量行吗?不行,你会需要一个平台,因为处理器与处理器之间需要通讯,这些通讯有时候是数据通讯,有时候是控制通讯。当通讯的到达瓶颈时,再增加处理器也缩短不了时间。这就是为什么在使用某些架构的时,再增加处理器训练时间也不会减少。这时需要有更高效的技术,同时增加计算密度和通讯带宽,这样才能达到线性增长。
Lake Crest 是英特尔今年 11 月份刚刚对全球发布的代号,这个代号是专门为深度学习定制的一款芯片。这款芯片有几大特色:第一,它的运算设计是为深度学习量身定制,同时它的计算密度也非常高;第二,它把多节点之间的数据访问瓶颈优化掉了,能支持高速内存,同时这个高速内存直接封装在芯片中。这会带来什么好处?在做深度学习训练时,神经网络的每一个节点里既有计算也有数据,而且有的数据还是浮点型。现在,我们可以通过这个硬件技术让每个计算节点有自己的内存接口,这意味着设计模型在做算法训练时,尺寸大小不受太大的限制。
这是它的架构图,中间那些绿色的是计算处理单元,提供了我们称为基于张量架构的单元。张量计算架构可以很快速直接进行块运算,比用处理器快很多,Flexpoint 技术也提供很好计算密度。同时这四个黄块直接在一个芯片中封装在一起,有各自独立的 IO 接口,而且距离主芯片非常近。上面的蓝块 ICL,是私有定制芯片间的通讯链路,速度非常快、带宽也很高。12 个 ICL 意味着什么?它可以跟 12 个芯片连接,可以构成一个 12 维的超网络支持运算。这就是有一定灵活性的深度学习计算架构。
我们之前的包括至强融核(Xeon Phi)技术,继续做通用计算的加速。Arria FPGA 可以在功耗和性能优化的情况下做加速,这在 2016 年就实现了。
面对人工智能,算法、终端以及数据库的相应变化
有了硬件,要注意不能放松对算法的研究。所以英特尔内部也和学术界合作,在这几个前沿的领域快速推进深度学习领域的算法和研究。包括怎么更快的训练,怎么更好的利用少一些的数据和监督达到训练的特性,怎么把记忆元素加进去。记忆其实是通过对历史数据的分析和挖掘找出的开展模式,这些模式可以用来大幅提高对训练的指导。
还有怎么把大模型稀疏化和修剪。现在模型和参数非常多,千万、甚至上亿级别的都有,有用的没有那么多。大量参数是为零的,为他存储和计算是在浪费资源。所以要做好模型的稀疏化,让硬件的利用效率最高。另外就是怎么支持更大规模的计算,包括在云端有更多的批量同时运算,在每个节点可以用更高阶的方法做处理。
通过这些技术可以大幅增加模型的并行化计算能力。到了 2020 年,英特尔要在这个软硬件方案集成下,把训练时间相对于今天缩减 100 倍。
刚才讲的是云端。云端训练得非常好、有了模型,但我们在使用时接触到的是终端设备,怎么在终端设备上去部署、使用这些能力呢?这点非常重要,如果云端做得非常好,任何一个数据都需要终端设备采集送到云端再返回,使得设备非常依赖依赖网络,对实时交互来说是无法接受的。我们另一个杀手锏就是在终端这一侧也有很好的硬件方案。我们最近收购了 Movidius,它能提供保留了一定可编程能力的硬件芯片解决方案。低功耗、平台是比信用卡还小的板子、终端嵌入 AI,有更高的能效,更低的宽带需求。同时,延迟更少,对存储开销更少,容错连续性更好。
刚才讲的主要是深度学习。推理也很重要,而且未来越来越依赖推理来降低对大数据的依赖。现实生活中不可能各个应用都有大数据,需要逐步个性化收集记忆和规则,去做人工智能应用的增强。
英特尔有一个 Saffron 的方案,它是一个自然智能平台。在英特尔收购之前,Saffron 专门给波音这种大企业提供零件维修库,这个零件坏了,接下来什么零件可能很快就要坏了,还有每年要定时去检测哪几个零件。这些预防性的知识支持,来自一个独特的、能够记录很多事件的数据库。这个数据库不光可以很好的记录这些事件,分门别类做表述,同时上面也有统计量,这样可以利用机器学习、数据挖掘提取出可以称之为记忆的东西。相似性上可以做一些自动的分类,关联性可以用来看什么趋势、规则、模式,并利用这些趋势做预测。看到前面的事情发生,就知道后面的事情在未来的什么时间点很有可能发生。如果发生了,那就是预测成功,如果没发生,就是一次异常。实际上是在提供基于记忆的一整套方法。
AI 市场仍处在婴儿期
AI 的整个市场仍处于婴儿期,对于想投身于利用 AI 做各种产业的公司和学者来说时尤未晚,还有很多事情可以做。
在英特尔看来,会重度利用 AI 的行业有几个:一个是智能制造会对 AI 有很大的需求,它产生的数据量太多了;第二是智能零售,这里面有人消费的记录、有商品之间关联被购买的信息,有很多的数据;无人驾驶也是非常大的一块,英特尔把无人驾驶也是提升到很高的高度,认为无人驾驶是几年后一个最大的智能平台,可以承载很多种不同业务。但是首要是要把车做出来,让它安全可用,这也会用到很多人工智能技术。同时,精准医疗、智慧城市、互联网金融和体育,都会非常多的应用人工智能的。
举两个例子,其中一个是零售。我们知道零售业是端到端的产业,从生产、仓储到发布广告做推销、推广,看用户体验的反馈再到把货物送到客户手里,是一个很长的链条,整个链条里都有人工智能可以加速的地方。在今年双十一我们和京东联合做了一些试验,效果很好。没有用到之前说的至强融核的新技术,就是在英特尔至强处理器上做优化,在非法检测图片应用性能提升了 4 倍,图片版权保护应用也提升了 2 倍。
另外一个全球性领域——医疗,也是数据非常多的行业。为什么说中国区有很好的机会呢?华大基因做了很好的基因测序工作,而且这个工作在全世界是领先的。英特尔的目标是精准医疗,大幅缩短使用周期和成本。现在针对类似癌症的定制化个性化医疗方案,不光要花不少钱做基因测序,还要等一星期,结果才能出得来。我们的目标是到 2020 年,和行业伙伴一起把这个时间缩短到一天,价格也大幅下降。一天之间做基因测序、分析、并将其他医学影像处理分析,根据这些数据做个性化诊疗,给出个性化的医疗方案,这个对于大众来讲有非常重要的意义。
一个面向所有人的人工智能学院
目前英特尔推出了 Nervana 人工智能学院,是我们同全球领先的行业、企业领袖和学术界的重要教授们一起合作的结果。除了硬件方面的支持之外,还会给大家展示怎样做解决方案,而且这个解决方案一定是端到端平台支持的,不能只提供一个模块。因为这个模块的用户很多不知道嵌入到系统里怎么做,怎么做到最好,所以端到端的方案是非常有用的。同时,要对这个算法有广泛的支持,能够适应新算法。深度学习也好,人工智能也好,由于大量的精英加入算法更迭速度是很快的,通常一个星期就有一些新算法出来。怎么支持到这些广泛算法,这是软硬件系统、不是一个硬件公司自己推动的事,要结合产业界很多做软件的思路。还要把它提供出来,跨行业合作。
为了能够更广泛支持行业里各种开源的深度学习框架,我们通过 Nervana Neon 框架做跟硬件无关的适配,可以利用它的图编译器。深度学习 SDK 可以帮助数据科学家分析哪些数据比较有用,怎么产生一个好的模型;支持这些非深度学习专家把模型整合到方案中去,最终支持很方便的测试看部署以后的效果,并形成一个好的迭代。这些都是我们非常想与整个生态一起合作共赢的事情。
对英特尔来讲,主要提供的是两层东西:最底层就是硬件支持,我们会长期提供各种层级、端到端的硬件支持,而且不只是芯片还包括了存储和网络方面的能力;第二是我们会提供一个中间层,保证现在开源的内容在平台上可以很容易使用起来,不会增加开发人员、研究人员重新学习平台的负担。有这样的支持以后,我们相信再往上去做几个比较主流的行业应用的时候,大家会更得心应手,也会提高整个人工智能去推动行业应用的普及率和速度。
希望大家有时间都去看一看我们的人工智能学院,这是最近才开始上线的,里面逐步会有更多东西放出来,也希望大家多关注英特尔在这方面的动向,我们既然承诺了到 2020 年要提升 100 倍,也欢迎大家来监督我们怎么实现它,谢谢大家。