吴文俊人工智能科学技术奖
RESEARCH REPORT
研究报告
首页 > 研究报告 > 正文

余凯:计算机比人聪明?千万别这样说

2016年03月14日   来源:     

2170

我在互联网工作这么长时间,我们来看看互联网到底改变了什么?

  我在互联网工作这么长时间,我们来看看互联网到底改变了什么?

  互联网改变了什么?

  互联网的本质就像微信App一开启时就显示的图片一样,具有深刻的哲学思辨在里面:在纷繁复杂的世界里面,我们和世界是什么关系呢?就这个问题的解决,孔子提出“仁”,宗教提出“彼岸世界”,互联网提出“人和世界的连接”,连接人和世界的时候,包括连接人和信息(比如百度)、人和商品(比如亚马逊、淘宝)、人和人(比如微信)、人和服务(比如滴滴、Uber),从而催生大的行业机会,发生了很多伟大的事情,产生了巨大的社会价值。连接才是首要,拥有并不关键,高效连接才是有用的,这也是互联网给世界带来的最大变化。

  一切的连接都需要通过媒介,互联网是通过PC、手机、智能硬件、汽车等等,它延展你的能力,使人和世界的连接更加紧密。这里有两个关键的问题要解决:人如何用自然的方式和机器交互?机器如何更好地索引世界,成为人的朋友?这两者背后的支撑点都是大数据。

  交互领域里面诞生了世界上最伟大的公司:苹果,在连接人和世界的链条里面,苹果让人和机器更紧密,依次从键盘、鼠标再到触摸、语音、手势。那么,未来交互的终极形态是什么?是心灵感应、脑机交互。

  索引领域里面也诞生了世界上最伟大的公司:谷歌,市值5000亿美金。索引的趋势是:从无序到有序,让无结构化的信息变得有序,方便人们获取;从数据到语义,方便人们了解数据背后的内容是什么;从线下到线上,检索虚拟信息、商品信息、线下服务信息。

  所有的这些都和机器的进化实实在在有关,即:从个人电脑到智能手机时代,再分化出智能硬件,最后的趋势就是“智能助手”概念,它可以帮你完成很多事情,像你的真正助理,打点你的一切。

  那么,未来是怎样的?连接人和世界,完成交互和索引,人和机器完全融为一体,没有距离,机器变成robot(在计算机控制下具有自主行为的机器),它完全懂你此刻在想什么,然后自主地完成你想做的事情。当然,这需要无处不在的传感器和强大的计算能力。

  大家经常问我一个问题:机器变聪明之后,是否会对人类造成威胁?我回答,有可能,它在很多方面可能超出人类,比如对机器而言,学习是瞬间的,只需要光纤网络传输,而我要把我的知识传递给我身边的朋友,需要通过语言、反复的交流以及很长的时间,他才能够真正地理解,机器却可以马上被制造出来并复制知识、交流知识,未来它对人类会真正产生威胁。

  我认为救赎的方式只有一条,唯一的机会就是在交互上取得突破性的进展,使人和机器的交互是零距离的。如果是这样的情况,那你也可以具有机器的能力,比如把小芯片装在你的身体里面。

  怎么在交互上取得突破性的进展?我们来看看目前在科技上人类取得的一些成就。

  关于强人工智能的哲学思辨

  什么是人工智能技术?人工智能发生到什么程度了?前几天在国家会议中心有一场机器人大会,机器人长得跟人一样,惟妙惟肖。那么,对于人工智能,究竟什么事情是可以实现的?什么是为之过早的?什么是我们不用担心的?今天的人工智能处于萌芽期,处于“润物细无声”、“濛濛细雨”的状态,但我们还是能隐约听到轰隆隆的雷声。

  我有时在想,人类竟然是唯一登上月球的生命物种,为什么不是别的物种?那是因为我们有非凡的大脑。这就是我们对自身的奥秘那么痴迷的原因,于是我们就在想:是否可以通过数学、技术复制人类非凡的大脑和智力,这也是人工智能的着迷之处。从整个信息技术的发展来看,从信息理论到图灵测试,再到通讯技术的发展,再到计算机信息科学,所有的发展到最后都是为了一件事情:我们能不能通过计算让机器具有智能功能?

  那么,什么是人工智能?首先,它具有感知的能力,身上装有传感器,能够感知到环境的变化;其次是理解力,从感知阶段上升到对世界的理解;第三是决策,通过从世界获得的信号上升为理解之后做出决策。

  其实,搜索引擎也是一个人工智能系统,因为它有一个非常精致的结构:

  它拥有感知能力,借助免费服务,用户都在给搜索引擎提供数据,真实的信息也因此在不断分层,即外显信息(在社交上晒出的)、部分信息(在特定地方分享)、隐私信息。互联网最精巧的商业模式之一就是拿着用户信息实现商业价值,正因为对用户的了解足够正确,就可以推出符合用户当下的广告或商品。这中间就是一个强大的系统,基于大数据的人工智能系统构建了一个桥梁,所以搜索引擎和“瓦力”机器人都具有典型的人工智能的几个方面。

  讲到人工智能,我们都会看到一个浪漫主义的观点,也就是“强人工智能”,即拥有跟人一样的智能,有强大的学习能力。图灵测试是伟大科学家图灵提出来的,他怎么定义“强人工智能”呢?他说,如果现在搁着一块布,你不知道幕布背后是机器人还是人,如果你无法辨别,对方就具有强人工智能。

  微软小冰(微软的人工智能伴侣虚拟机器人)做得不错,但是多聊几句话后就会发现,小冰系统更擅长插科打诨,严肃的对话很难进行下去。现在会看到很多通过图灵测试的报道,其实都是胡扯的,我们今天的算法离真正意义上的“强人工智能”还差很远。

  另外一种观点,即机器人具备部分的人工智能,我们称之为“弱人工智能”,它在某个不确定性的环境下能够做一些事情。具备部分智能的机器人是目前工业界的主流观点,只要能产生实实在在的智能,就有价值了。

  关于什么是人工智能,大家常常有哲学思辨的热情。历史上有一个著名的讨论,叫做“思想实验”,它讲的是:一个房间里面关着一个英国人,从来不知道中文和中国的任何事情,然后房间的桌子上面有一本书让他认知,这时从门外递进一张英文的条子,让他到神奇的书里面查阅后写出一份中文的翻译,结果他写出来了。这看起来这很智能,但是这个英国人并不懂中文,他写出翻译这个外表的行为是不是他内在真正的智能呢?行为上面表现的智能并不是真正的智能。我个人认可另外一种回答,也就是这个英国人不懂中文,但是“英国人+书+房间”,这个系统是智能的。

  什么是Robot?我们中文把它翻译成机器人,我认为这个翻译是有误导性的,不够准确。剑桥辞典的翻译是:“在计算机控制下具有自主行为的机器”。我们再看Android(安卓),它的意义是:“长得像人的robot”,也就是Android才应该翻译成机器人。什么是robot?什么是普通的machine(机器)?

  按照确定性和固定的程序进行操作,具备一致性的产品是机器,在传感器指引下能够感应、自适应不确定性环境的机器,就是robot,它具有很大的市场,已经有一大批的公司拥有了大市值。工业4.0会讲到C2M(顾客对工厂),用户的个性化订单直接反映到工厂生产,每个商品背后是具体的用户订单需求,在这种情况需要强大的robot流水线。

  在大城市,你永远面对不确定性的车况,如果一个机器能够自主地驾驶,在不确定的环境中去捕捉瞬间的变化,然后转化为对路况的理解,然后形成控制的决策,这就是robot,所以robot需要长得像人吗?我们面临的机器人产业是非常宽泛的。

  1956年,AI这个词汇诞生,当时科技领域的先贤者召开了AI会议,提出了非常有远见的思考:怎么让机器仿真,实现智能?当然,他们的思想不是最早的,更早可以追溯到莱布尼茨,他最早提出通过数据演算出智能能力。

  这些先贤者不仅有远见,而且还过分乐观,他们认为智能的基本问题可以在一个夏天解决,但是这个问题解决了吗?没有。维基百科词条“AI winter”列出了很多失败案例,为什么在长达的五六十年里面煽起大家那么多的热情,却没有产生我们期待的路径呢?

  过去绝大部分的AI系统,更多以科学演绎的方式,演绎的概念就是类似“一生二,二生三,三生万物”,从一个基本法则出发,推导出一个纷繁复杂的系统(归纳是从纷繁复杂的世界提炼出简单的规律。以前受自然科学的研究影响,都是以不言自明的公理出发研究,比如认定上帝造人,但是以这样的思维出发会导致人工智能过于简单)。传统基于规则的AI系统没有成果,形成了很多的教训:

  教训1:这个世界是纷繁的,存在着很多因素和要素,彼此之间有复杂的影响,形成复杂的网络和系统,这难以用一个公式来描述;

  教训2:有很多因素和参量,你观测不到,所以系统具备不确定性。现实以概率运行,如果你用确定性的规则,没办法掌握这样的复杂系统,我们要采用基于统计的概念;

  教训3:现实世界纷繁复杂,你很难完整描述,从数据中不断学习、对问题的理解,从而随着数据演化和进化是关键,这也就是我们今天讲的大数据时代的意义所在,本质上数据提供了我们了解世界的可能。随着数据演化,学习能力是一个关键。

  我认为过去60年AI的一个总结是:基于规则的系统,统治了过去的AI时代。现在需要进入数据驱动的系统,把数据导到机器里面,机器通过消化和吸收生成对世界认知的模型。

  我们再探讨些本质性的AI问题,归结出最简单的形式:通过观测到的现象、数据、知识,映射成预测、判断。比如,你输入一个图像,然后输出“物体”的名字,这样的映射就是图像识别;你输入一个语音讯号,然后输出“文本序列”,这是语音识别;你输入一段话,然后输出“解析的树状结构”,这是自然云储;你输入车辆行使周边路况的情况,然后输出“控制决策”,这是自动驾驶。

  我们面临的很多问题是:如何从数据中学习映射函数,形成训练样本?比如把多个图片定义为“长颈鹿”的标签,系统通过训练学习,然后再给出类似的新图片的时候,该图片也能自动打上这个标签。

  从有限推导无限,是不可能的,除非你提出假设,没有假设,就没办法做出判断。在古代,古人的智慧说“近朱者赤,近墨者黑”,就蕴涵了一个朴素的智慧,就是判断的时候一定隐含了假设:两个在某些方面相似的人,在其它方面具有相似的特征和特性。

  这就反映到人工智能大数据学习的本质问题:假设的合理性。我们希望从数据得出的结论是简单的、光滑的,而不是复杂的,所以哲学上有一个词汇:剃刀原理,也就是能够同时解释某个现象的几条规律里面,我们喜欢选择其中最简单的规律。总而言之,我们希望能够找到一个规律,既能找到观测的样本,又得出简单的结果。

  如何从纷繁复杂的样本中去抽取规律?做得最好的就是人类的大脑,能够举一反三、不断学习。这个学习中最简单的单元就是神经元,它有很多神经簇,和其它神经元相连,神经元接收到外部的信息输入后,把对信息信号的反应通过神经末梢传到其它神经元。

  这个构造可以用一个简单的数学公式描述:感知机模型,基于单个神经元构造具有学习能力的人工智能系统,它像神经元一样,从外界获得输入后,传递到中央处理的地方,通过简单的运算再向外输出。

  今天,这个简单的模型正向几个维度扩展,也就是从线性的输入输出,发展到深度神经网络,最后形成具备学习功能的人工智能系统。

  深度学习为何应该受到重视?

  我们最近经常听到“深度学习”,在最大规模的互联网公司如谷歌、微软、脸书、百度等等都在运作,并产生巨大的商业价值,它让自动驾驶等过去不可想象的事情变得触手可及。这样的技术为什么应该受到重视?

  1、模拟人类大脑的分层结构以及行为

  我们今天发现了基于视觉的神经网络(科学家在研究过程中受到了大脑内视觉信息分层表述的启发。随着视觉输入流从视网膜传输到初级视皮层,再到下颞叶皮质,在识别物体前,每层都会进行处理,从而准确地识别物体),因此可以用数据训练系统,让系统能够反映出视觉神经网络的结构和行为。为了模拟这一过程,神经网络的设计者们在模型中设计了几层计算,刚开始,最底层的神经元对颜色不敏感,对边界和朝向敏感,它能复原出物体的轮廓,把轮廓提取出来,上面一层的神经元具备一些更有意思的行为,对物体的部位很敏感,更高一层的神经元对物体开始敏感,它是一个逐层的、从局部到整体的敏感过程。这就是从数据开始呈现的视觉网络行为。

  在听觉神经系统里面有类似的现象,我们用数据的深度训练也得到类似的现象结果。

  2、深度学习特别适合大数据

  过去的模型和方法对于大数据的处理是不好的,通常我们衡量一个模型的好坏是用推广误差进行测试。通过推广误差找到原因并得到控制,从而找到一个更好的学习办法。推广误差来自于几个方面:

  来源之一是对模型进行假设,但是模型假设是没有最完美的,所以肯定有误差。在概率统计学有一个著名的说法:你所有的模型都是错的,但有些模型是有用的;

  来源之二是数据的不完美,样本有限,或者有噪声,或者有偏差。这两种不完美都会带来误差,因为典型的统计学范畴忽略了一点:假设了无限的计算资源,这是来源之三。计算机科学做的是实际问题,就会导致计算的不完美,就会导致误差,所以你要尽量让你的假设完美,让你的假设足够宽泛,收集大量的数据,寻求算法处理大数据。

  传统人工智能算法不能处理更大规模的数据,因为如果算法的复杂性和样本是立方的关系,当计算机设备数量和样本成同比立方增长的时候,意味着数据增加了,算法就更难了。这就是为什么深度学习应该受到重视,它特别适应大数据,数据越大,算法越好。

  3、深度学习是一套灵活的建模语言

  怎么写出一篇好文章,和如何做出一个好的人工智能系统,是相通的,就是对语言有足够灵活的驾御能力、需要对所面临的生活和问题有深刻的感悟和思想,灵活的建模语言和内在洞察相结合,才能够做好。

  深度学习是历史上第一次出现的端到端学习,不管是语音识别还是从感知、预处理到预测、判断,过去绝大部分的工作是做最后一个部分,而没有完成前面的几个动作。从计算上面来讲,在没有深度学习之前,上面几个步骤是消耗计算资源的、人工手动的,但是深度学习是一气呵成的,减少人工手动。这个变化是革命性的,今天这已经成为共识了。

  4、深度学习的成功应用

  我们来看看一些成功的应用,比如在计算机领域的图像识别,从最原始的输入图像出发,然后中间不断抽取数据、变换、训练。

  Image Net是是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。从2010年,它的水平在不断提升。最大的进展发生在2012年,因为深度学习的接入带来巨大的提升,但是计算机比人更聪明吗?不是,它是比普通人识别更多,但绝对比不过专业人,它绝对没有比人更聪明,计算机是在某件事情上优化一件事情,但不代表整体上比人更强。

  现在,技术可以识别非常潦草的手写电话号码、任意方向的文字检测、人脸识别(如基于深度学习的人脸识别技术:百度魔图),甚至做一些更严肃的事情,比如自动驾驶。现在很多公司都在做自动驾驶,听起来很科幻的事情,但是业界推进的速度非常快。

  汽车有两大趋势:新能源和智能化。这两个趋势无可阻挡,汽车也变成了机器人,视觉处理显得尤其重要,对于安全而言,最重要的是处理未知,做到全方位的感知,预见情况。

  语音识别也是另外一个应用,目前句子的理解力在75%左右,如果能达到90%就非常可怕。从音速特征、语言特征到最后的文字识别结果,语音识别为什么这几年会快速成长?这是因为在前端植入语音神经网络的小尝试,使语音识别可用,带来革命性的变化。基于深度学习的语音识别,可用于地图导航、输入法、移动搜索。

  怎么去理解自然语言呢?传统的做法是把大问题分解成独立的子问题,然后分别做出分析。现在新的系统是用一个完整的深度学习模型,它可以对句子进行语义的关联阐释,从而训练一个对话系统,我们可以用好莱坞人物的对白进行训练。我们甚至可以把语言和视觉结合在一起,因为我们对世界的认知能力在语言认知和视觉认知能力上,是同步发展的。计算机今天看到图片也可以开始产生语言文本了,做到同时理解图像和自然语言。

  而在有的场景,云端处理是不够的。未来人工智能发展的趋势,它的前端部署是偏感知的,后台偏大数据认知,比如自动驾驶,周围200米范围内的一举一动,都通过前端的传感器感知决策,5公里以外的情况是通过云端的大数据分析来获得认知,于是形成前后端的结合。

  回到一个问题:人类大脑是通用处理器吗?人从猴子到现在的人类,人之所以能够从物种中脱颖而出,是因为大脑对人类所需要特殊能力不断进行优化。除此之外的,是大脑是不擅长的,本质上来说,大脑是专用处理器,并非通用处理器。

  大脑的计算是很慢的,但是人怎么会开车、打乒乓球?是因为对这些问题进行了加速处理。今天我们为什么有一些事情处理得特别好?因为我们在结构上做了专门的优化。

  我们现在做的地平线机器人技术,是为了帮机器人开发专用处理器,我们希望将它的性能提升1000倍,希望硬件可以支撑这样的应用,让效果变得更好。

  智能不等于智慧

  人工智能大规模的应用伴随着互联网的发展,在第一个10年(2000-2009年)是“润物细无声”的时代,最大的应用在于PC互联网,比如搜索、广告、推荐。

  我们当前所处的10年(2010-2019年),语音、图像、语音、机器人操作获得突飞猛进的发展,同时在改造传统行业,越来越多地被人所感知,这是一个于“无声处听惊雷”的时代。

  后面的10年(2020-2029年)是一个很灿烂的时代,是“江山如此多娇”、交互无处不在的时代,人跟机器的操作距离越来越短,生产线的工人一定会被替代,该机器做的事情,让机器做,该人做的事情让人做。简单、重复性的工作需要被解放,从万物互联到万物智能,数据成为商品。我们不需要对机器有太多的担心,2029年的机器没有好奇心、没有情感、没有自我意识。

  我的结论是:智能不等于智慧。我认为在未来,从万物互联到万物智能有三大趋势:所有设备都有智能传感器、所有设备都有云端结合、所有设备都连接人和服务。所有设备最终都成为广义的机器人系:感知、理解、决策。

  伟大的技术不在于让机器更伟大,而在于让每个平凡的人变得更伟大。

  谢谢大家!

组织机构

主管单位
中华人民共和国科学技术部
国家科学技术奖励工作办公室
主办单位
中国人工智能学会

奖励资质