吴文俊人工智能科学技术奖
RESEARCH REPORT
研究报告
首页 > 研究报告 > 正文

商汤科技林倞:AI科技浪潮 深度学习将是弄潮儿

2016年12月17日   来源:网易科技     

2694

本次大会以“AI新时代·产业新动能”为主题,会上商汤科技首席研发总监林倞发表名为“科技X商业”的主题演讲,重点阐述了商汤科技在人脸识别、图像视频内容解析等方面的一系列原创技术,并且展示在金融、移动互联网、安防监控三大行业的典型产业落地成果。



  网易科技讯12月17日消息,由中国人工智能学会主办,网易科技与智能君博承办的2016中国人工智能产业大会暨第六届吴文俊人工智能科学技术奖颁奖盛典今日在深圳登喜路国际大酒店举行。

  本次大会以“AI新时代·产业新动能”为主题,会上商汤科技首席研发总监林倞发表名为“科技X商业”的主题演讲,重点阐述了商汤科技在人脸识别、图像视频内容解析等方面的一系列原创技术,并且展示在金融、移动互联网、安防监控三大行业的典型产业落地成果。

  林倞表示,人工智能三起两落,从创立到寒冬再到现在的火爆,大数据和高性能计算引爆了深度学习,这个过程都与产业界密不可分。产业界对人工智能的期望很高,广泛认为人工智能是下一步的科技浪潮,而其中重要就是深度学习。



  林倞将人工智能系统比作火箭,大数据是燃料,深度学习的算法就是火箭的引擎,此外还需要高性能技术作为火箭的外壳来点爆这个过程。深度学习能够更好发挥数据的优势,相比其他的机器学习的算法或工具,能够有更高的预测精度,并且使得模型有更强的对数据的能力。

  林倞表示,自从深度学习的复兴以来,各项人工智能技术都有很大的突破。而在几年前广泛认为人工智能很难在产业界形成很大的影响,很多技术、方法被认为是不能落地的。而现在,深度学习已经深入到各种领域细节,而此前的语音识别、人脸、图像、生命科学都有广泛的应用。(Sherwood)

  以下为演讲实录:

  非常荣幸能有机会在这个舞台上向大家分享和汇报商汤科技的成果,我们是一家专注于从学术到转换的企业,我本人也是来自于学术界,在学术界从事了十几年。就像戴博士讲的,人工智能三起两落,从创立到寒冬,到现在新的时代,大数据和高性能计算点爆了深度学习,这个过程都是与产业界密不可分的,从三起两落也看出了,产业界对人工智能的期许非常高,我们把产业界的发展看成四个阶段,从信息时代到互联网时代,再更进一步的智能化,整个过程中人工智能一直都是一个热点,虽然中间有一些寒冬,到底发生了什么?使得现在开始,广泛认为人工智能是下一步的科技浪潮?其中重要的一点就是深度学习。

  如果我们把人工智能系统看作是一个火箭的话,我们认为大数据就是燃料,深度学习的算法就是火箭的引擎,我们还需要高性能技术,火箭的外壳来点爆这个过程。相比深度学习,我正好在戴文渊后面介绍这个工作,我就可以跳过深度学习和大数据时代的机器学习的特点,简单来说,深度学习能够更好发挥数据的优势,相比其他的机器学习的算法或者工具,能够有更高的预测精度,并且使得模型有更强的对数据的能力。

  自从深度学习的复兴以来,各项人工智能技术都有很大的突破,就像十几年前广泛认为人工智能很难在产业界形成很大的影响。很多技术、方法被认为是不能落地的,刚才谈到的这些问题,包括产业界还有毕业的学生不好找工作,我也都碰到过。我们看现在,不知不觉中深度学习已经深入到各种领域细节,包括最早的语音识别、人脸、图像、生命科学都有广泛的应用。在这样的背景下,商汤科技的定位是希望走一条与传统产业化不同的道路,我们是来自于学术界的科学家,我们都希望我们原创性的技术,我们坚持原创自主的核心研发,从人脸开始,我们是最早布局人工智能深度学习的企业,最早将深度学习成功运用于计算机视觉。在2014年,我们的人脸检测算法超过了脸书的人脸识别准确率。在ImageNet,两指标达到世界第一。在这个算法背后我们建立自己的超算集群Deeplink,此外我们辐射到各种各样的行业。

  我们这个团队的特点就是有一批在国际上有广泛影响力的成果,在人工智能领域,拿到最佳论文的统计上应该是全世界之一。最早在2013年之前,计算机视觉领域内总共有29篇论文涉及到深度学习,其中有14篇是属于我们团队,我们的数量仅次于谷歌微软这样大的公司。简单的介绍几个核心任务,ImageNet的特点就是数据规模特别大,种类很多,从传统图像分类、定位、一般物品检测、场景理解和层次结构化的分割,基本上覆盖了从底层视觉到高层视觉,从2010年以来,这个比赛一直是风向标。从这个比赛来看,我们的团队从2014年开始参加这个挑战赛,2014年是亚军,今年我们有三项任务中是获得冠军,并且与竞争对手有较大的差距。

  我们最早提出了DeepID,当时在LFW首次汇报中,首次超过人类肉眼的算法,这也成为了当年的最佳学术论文。另外就是在更早以前,深度学习之前我们提出了在图象视频中的快速去雾算法,当时获得了2009年的最佳论文奖。

  右边是我们搭建出来的一千层的网络,我们提出高效、可拓展、灵活性的框架,我们从算法到硬件平台,软件框架的设计能力,我们是全覆盖的。此外我们还有前端,我们强调的是深度学习的学习能力,PPL是我们自己做的,在X86或者ARM或者CUDA这种处理器架构上,使得我们的算法在不同的平台上,我们的优势也是比较明显的。也是基于这样的部署能力,使得我们的算法在移动端、云端,像这是一个faceU的产品,现在市面上60%以上的像机美颜都是有这种产品支持。

  也是因为我们在深度学习领域的前期布局,现在我们有八十名的全职博士,我们有一百多名来自于北大清华的研发人员,还有来自于百度、微软、联想大量工程团队。

  我们有了这么多的原创算法,有这么多的顶级科研,怎么在产业化做进一步的驱动?目前我们公司主要是在四各行业里做产业化布局,包括安防部分智慧城市,金融行业主要是互联网身份认证,还有移动互联网娱乐互联网,还有智慧商业这四大行业。我们看第一个,我们是最早做人脸比对系统,基于视频,这是senseFace的场景,如果大家知道一个新闻,在北京已经可以通过人脸的刷脸进站,不需要用传统的查身份证,这也是我们公司的产品。这是今年新做的全局的图象视频解析,因为我本人就是做这个出身的,在十年前做这个的时候,也获得了奖项,这种图象视频解析到产业界还有很长的距离,我们来看能不能在监控环境下能够实现精细化的人车属性、层次结构、运动信息的分析并且进行结构化存储,使得大量的视频数据和图象数据能够有效检索查询,在交通行业,在安防行业都有广泛深刻的影响,我相信这个应该会促进下一个变革。这是另外一个场景,是基于多目标智能跟踪一体机,能够通过预测对可疑目标进行抓拍。包括对车的快速车牌的抓拍识别。这是我们在移动互联网另外一个场景,叫借贷宝,互联网金融一个难点就是如何实现实名认证,通过我们的算法能够实现检测,可以看出这是真人还是照片。另外中国移动也已经实现了三亿的手机卡实名认证,这是我们线上的产品,通过人的运动来区分身份证进行比对。这是移动互联网产品,有些比较潮的朋友都试过这样的产品,包括娱乐化,对人脸的关键化定位,增强虚拟现实。我们是最早将深度学习应用于城市学的,包括去模糊、去抖动等等。这是我们将图象视频从安防领域推广到商业领域,我们叫智慧商业,包括对人群属性分析,人群区域属性分析,来挖掘更多的商业价值,这都是基于视频的大数据分析。这是我们在G20峰会上的介绍,我们的目标是AI+,我们希望通过TOC端的技术来改变行业和相关的垂直领域。这是政府部门对我们的关注以及我们跟相关行业的一些合作。谢谢。

组织机构

主管单位
中华人民共和国科学技术部
国家科学技术奖励工作办公室
主办单位
中国人工智能学会

奖励资质