RESEARCH REPORT

研究报告

首页 > 研究报告 > 正文

余凯：计算机比人聪明?千万别这样说

2016年03月14日来源:

3030

我在互联网工作这么长时间，我们来看看互联网到底改变了什么?

　　互联网改变了什么?

　　互联网的本质就像微信App一开启时就显示的图片一样，具有深刻的哲学思辨在里面：在纷繁复杂的世界里面，我们和世界是什么关系呢?就这个问题的解决，孔子提出“仁”，宗教提出“彼岸世界”，互联网提出“人和世界的连接”，连接人和世界的时候，包括连接人和信息(比如百度)、人和商品(比如亚马逊、淘宝)、人和人(比如微信)、人和服务(比如滴滴、Uber)，从而催生大的行业机会，发生了很多伟大的事情，产生了巨大的社会价值。连接才是首要，拥有并不关键，高效连接才是有用的，这也是互联网给世界带来的最大变化。

　　一切的连接都需要通过媒介，互联网是通过PC、手机、智能硬件、汽车等等，它延展你的能力，使人和世界的连接更加紧密。这里有两个关键的问题要解决：人如何用自然的方式和机器交互?机器如何更好地索引世界，成为人的朋友?这两者背后的支撑点都是大数据。

　　交互领域里面诞生了世界上最伟大的公司：苹果，在连接人和世界的链条里面，苹果让人和机器更紧密，依次从键盘、鼠标再到触摸、语音、手势。那么，未来交互的终极形态是什么?是心灵感应、脑机交互。

　　索引领域里面也诞生了世界上最伟大的公司：谷歌，市值5000亿美金。索引的趋势是：从无序到有序，让无结构化的信息变得有序，方便人们获取;从数据到语义，方便人们了解数据背后的内容是什么;从线下到线上，检索虚拟信息、商品信息、线下服务信息。

　　所有的这些都和机器的进化实实在在有关，即：从个人电脑到智能手机时代，再分化出智能硬件，最后的趋势就是“智能助手”概念，它可以帮你完成很多事情，像你的真正助理，打点你的一切。

　　那么，未来是怎样的?连接人和世界，完成交互和索引，人和机器完全融为一体，没有距离，机器变成robot(在计算机控制下具有自主行为的机器)，它完全懂你此刻在想什么，然后自主地完成你想做的事情。当然，这需要无处不在的传感器和强大的计算能力。

　　大家经常问我一个问题：机器变聪明之后，是否会对人类造成威胁?我回答，有可能，它在很多方面可能超出人类，比如对机器而言，学习是瞬间的，只需要光纤网络传输，而我要把我的知识传递给我身边的朋友，需要通过语言、反复的交流以及很长的时间，他才能够真正地理解，机器却可以马上被制造出来并复制知识、交流知识，未来它对人类会真正产生威胁。

　　我认为救赎的方式只有一条，唯一的机会就是在交互上取得突破性的进展，使人和机器的交互是零距离的。如果是这样的情况，那你也可以具有机器的能力，比如把小芯片装在你的身体里面。

　　怎么在交互上取得突破性的进展?我们来看看目前在科技上人类取得的一些成就。

　　关于强人工智能的哲学思辨

　　什么是人工智能技术?人工智能发生到什么程度了?前几天在国家会议中心有一场机器人大会，机器人长得跟人一样，惟妙惟肖。那么，对于人工智能，究竟什么事情是可以实现的?什么是为之过早的?什么是我们不用担心的?今天的人工智能处于萌芽期，处于“润物细无声”、“濛濛细雨”的状态，但我们还是能隐约听到轰隆隆的雷声。

　　我有时在想，人类竟然是唯一登上月球的生命物种，为什么不是别的物种?那是因为我们有非凡的大脑。这就是我们对自身的奥秘那么痴迷的原因，于是我们就在想：是否可以通过数学、技术复制人类非凡的大脑和智力，这也是人工智能的着迷之处。从整个信息技术的发展来看，从信息理论到图灵测试，再到通讯技术的发展，再到计算机信息科学，所有的发展到最后都是为了一件事情：我们能不能通过计算让机器具有智能功能?

　　那么，什么是人工智能?首先，它具有感知的能力，身上装有传感器，能够感知到环境的变化;其次是理解力，从感知阶段上升到对世界的理解;第三是决策，通过从世界获得的信号上升为理解之后做出决策。

　　其实，搜索引擎也是一个人工智能系统，因为它有一个非常精致的结构：

　　它拥有感知能力，借助免费服务，用户都在给搜索引擎提供数据，真实的信息也因此在不断分层，即外显信息(在社交上晒出的)、部分信息(在特定地方分享)、隐私信息。互联网最精巧的商业模式之一就是拿着用户信息实现商业价值，正因为对用户的了解足够正确，就可以推出符合用户当下的广告或商品。这中间就是一个强大的系统，基于大数据的人工智能系统构建了一个桥梁，所以搜索引擎和“瓦力”机器人都具有典型的人工智能的几个方面。

　　讲到人工智能，我们都会看到一个浪漫主义的观点，也就是“强人工智能”，即拥有跟人一样的智能，有强大的学习能力。图灵测试是伟大科学家图灵提出来的，他怎么定义“强人工智能”呢?他说，如果现在搁着一块布，你不知道幕布背后是机器人还是人，如果你无法辨别，对方就具有强人工智能。

　　微软小冰(微软的人工智能伴侣虚拟机器人)做得不错，但是多聊几句话后就会发现，小冰系统更擅长插科打诨，严肃的对话很难进行下去。现在会看到很多通过图灵测试的报道，其实都是胡扯的，我们今天的算法离真正意义上的“强人工智能”还差很远。

　　另外一种观点，即机器人具备部分的人工智能，我们称之为“弱人工智能”，它在某个不确定性的环境下能够做一些事情。具备部分智能的机器人是目前工业界的主流观点，只要能产生实实在在的智能，就有价值了。

　　关于什么是人工智能，大家常常有哲学思辨的热情。历史上有一个著名的讨论，叫做“思想实验”，它讲的是：一个房间里面关着一个英国人，从来不知道中文和中国的任何事情，然后房间的桌子上面有一本书让他认知，这时从门外递进一张英文的条子，让他到神奇的书里面查阅后写出一份中文的翻译，结果他写出来了。这看起来这很智能，但是这个英国人并不懂中文，他写出翻译这个外表的行为是不是他内在真正的智能呢?行为上面表现的智能并不是真正的智能。我个人认可另外一种回答，也就是这个英国人不懂中文，但是“英国人+书+房间”，这个系统是智能的。

　　什么是Robot?我们中文把它翻译成机器人，我认为这个翻译是有误导性的，不够准确。剑桥辞典的翻译是：“在计算机控制下具有自主行为的机器”。我们再看Android(安卓)，它的意义是：“长得像人的robot”，也就是Android才应该翻译成机器人。什么是robot?什么是普通的machine(机器)?

　　按照确定性和固定的程序进行操作，具备一致性的产品是机器，在传感器指引下能够感应、自适应不确定性环境的机器，就是robot，它具有很大的市场，已经有一大批的公司拥有了大市值。工业4.0会讲到C2M(顾客对工厂)，用户的个性化订单直接反映到工厂生产，每个商品背后是具体的用户订单需求，在这种情况需要强大的robot流水线。

　　在大城市，你永远面对不确定性的车况，如果一个机器能够自主地驾驶，在不确定的环境中去捕捉瞬间的变化，然后转化为对路况的理解，然后形成控制的决策，这就是robot，所以robot需要长得像人吗?我们面临的机器人产业是非常宽泛的。

　　1956年，AI这个词汇诞生，当时科技领域的先贤者召开了AI会议，提出了非常有远见的思考：怎么让机器仿真，实现智能?当然，他们的思想不是最早的，更早可以追溯到莱布尼茨，他最早提出通过数据演算出智能能力。

　　这些先贤者不仅有远见，而且还过分乐观，他们认为智能的基本问题可以在一个夏天解决，但是这个问题解决了吗?没有。维基百科词条“AI winter”列出了很多失败案例，为什么在长达的五六十年里面煽起大家那么多的热情，却没有产生我们期待的路径呢?

　　过去绝大部分的AI系统，更多以科学演绎的方式，演绎的概念就是类似“一生二，二生三，三生万物”，从一个基本法则出发，推导出一个纷繁复杂的系统(归纳是从纷繁复杂的世界提炼出简单的规律。以前受自然科学的研究影响，都是以不言自明的公理出发研究，比如认定上帝造人，但是以这样的思维出发会导致人工智能过于简单)。传统基于规则的AI系统没有成果，形成了很多的教训：

　　教训1：这个世界是纷繁的，存在着很多因素和要素，彼此之间有复杂的影响，形成复杂的网络和系统，这难以用一个公式来描述;

　　教训2：有很多因素和参量，你观测不到，所以系统具备不确定性。现实以概率运行，如果你用确定性的规则，没办法掌握这样的复杂系统，我们要采用基于统计的概念;

　　教训3：现实世界纷繁复杂，你很难完整描述，从数据中不断学习、对问题的理解，从而随着数据演化和进化是关键，这也就是我们今天讲的大数据时代的意义所在，本质上数据提供了我们了解世界的可能。随着数据演化，学习能力是一个关键。

　　我认为过去60年AI的一个总结是：基于规则的系统，统治了过去的AI时代。现在需要进入数据驱动的系统，把数据导到机器里面，机器通过消化和吸收生成对世界认知的模型。

　　我们再探讨些本质性的AI问题，归结出最简单的形式：通过观测到的现象、数据、知识，映射成预测、判断。比如，你输入一个图像，然后输出“物体”的名字，这样的映射就是图像识别;你输入一个语音讯号，然后输出“文本序列”，这是语音识别;你输入一段话，然后输出“解析的树状结构”，这是自然云储;你输入车辆行使周边路况的情况，然后输出“控制决策”，这是自动驾驶。

　　我们面临的很多问题是：如何从数据中学习映射函数，形成训练样本?比如把多个图片定义为“长颈鹿”的标签，系统通过训练学习，然后再给出类似的新图片的时候，该图片也能自动打上这个标签。

　　从有限推导无限，是不可能的，除非你提出假设，没有假设，就没办法做出判断。在古代，古人的智慧说“近朱者赤，近墨者黑”，就蕴涵了一个朴素的智慧，就是判断的时候一定隐含了假设：两个在某些方面相似的人，在其它方面具有相似的特征和特性。

　　这就反映到人工智能大数据学习的本质问题：假设的合理性。我们希望从数据得出的结论是简单的、光滑的，而不是复杂的，所以哲学上有一个词汇：剃刀原理，也就是能够同时解释某个现象的几条规律里面，我们喜欢选择其中最简单的规律。总而言之，我们希望能够找到一个规律，既能找到观测的样本，又得出简单的结果。

　　如何从纷繁复杂的样本中去抽取规律?做得最好的就是人类的大脑，能够举一反三、不断学习。这个学习中最简单的单元就是神经元，它有很多神经簇，和其它神经元相连，神经元接收到外部的信息输入后，把对信息信号的反应通过神经末梢传到其它神经元。

　　这个构造可以用一个简单的数学公式描述：感知机模型，基于单个神经元构造具有学习能力的人工智能系统，它像神经元一样，从外界获得输入后，传递到中央处理的地方，通过简单的运算再向外输出。

　　今天，这个简单的模型正向几个维度扩展，也就是从线性的输入输出，发展到深度神经网络，最后形成具备学习功能的人工智能系统。

　　深度学习为何应该受到重视?

　　我们最近经常听到“深度学习”，在最大规模的互联网公司如谷歌、微软、脸书、百度等等都在运作，并产生巨大的商业价值，它让自动驾驶等过去不可想象的事情变得触手可及。这样的技术为什么应该受到重视?

　　1、模拟人类大脑的分层结构以及行为

　　我们今天发现了基于视觉的神经网络(科学家在研究过程中受到了大脑内视觉信息分层表述的启发。随着视觉输入流从视网膜传输到初级视皮层，再到下颞叶皮质，在识别物体前，每层都会进行处理，从而准确地识别物体)，因此可以用数据训练系统，让系统能够反映出视觉神经网络的结构和行为。为了模拟这一过程，神经网络的设计者们在模型中设计了几层计算，刚开始，最底层的神经元对颜色不敏感，对边界和朝向敏感，它能复原出物体的轮廓，把轮廓提取出来，上面一层的神经元具备一些更有意思的行为，对物体的部位很敏感，更高一层的神经元对物体开始敏感，它是一个逐层的、从局部到整体的敏感过程。这就是从数据开始呈现的视觉网络行为。

　　在听觉神经系统里面有类似的现象，我们用数据的深度训练也得到类似的现象结果。

　　2、深度学习特别适合大数据

　　过去的模型和方法对于大数据的处理是不好的，通常我们衡量一个模型的好坏是用推广误差进行测试。通过推广误差找到原因并得到控制，从而找到一个更好的学习办法。推广误差来自于几个方面：

　　来源之一是对模型进行假设，但是模型假设是没有最完美的，所以肯定有误差。在概率统计学有一个著名的说法：你所有的模型都是错的，但有些模型是有用的;

　　来源之二是数据的不完美，样本有限，或者有噪声，或者有偏差。这两种不完美都会带来误差，因为典型的统计学范畴忽略了一点：假设了无限的计算资源，这是来源之三。计算机科学做的是实际问题，就会导致计算的不完美，就会导致误差，所以你要尽量让你的假设完美，让你的假设足够宽泛，收集大量的数据，寻求算法处理大数据。

　　传统人工智能算法不能处理更大规模的数据，因为如果算法的复杂性和样本是立方的关系，当计算机设备数量和样本成同比立方增长的时候，意味着数据增加了，算法就更难了。这就是为什么深度学习应该受到重视，它特别适应大数据，数据越大，算法越好。

　　3、深度学习是一套灵活的建模语言

　　怎么写出一篇好文章，和如何做出一个好的人工智能系统，是相通的，就是对语言有足够灵活的驾御能力、需要对所面临的生活和问题有深刻的感悟和思想，灵活的建模语言和内在洞察相结合，才能够做好。

　　深度学习是历史上第一次出现的端到端学习，不管是语音识别还是从感知、预处理到预测、判断，过去绝大部分的工作是做最后一个部分，而没有完成前面的几个动作。从计算上面来讲，在没有深度学习之前，上面几个步骤是消耗计算资源的、人工手动的，但是深度学习是一气呵成的，减少人工手动。这个变化是革命性的，今天这已经成为共识了。

　　4、深度学习的成功应用

　　我们来看看一些成功的应用，比如在计算机领域的图像识别，从最原始的输入图像出发，然后中间不断抽取数据、变换、训练。

　　Image Net是是一个计算机视觉系统识别项目，是目前世界上图像识别最大的数据库。从2010年，它的水平在不断提升。最大的进展发生在2012年，因为深度学习的接入带来巨大的提升，但是计算机比人更聪明吗?不是，它是比普通人识别更多，但绝对比不过专业人，它绝对没有比人更聪明，计算机是在某件事情上优化一件事情，但不代表整体上比人更强。

　　现在，技术可以识别非常潦草的手写电话号码、任意方向的文字检测、人脸识别(如基于深度学习的人脸识别技术：百度魔图)，甚至做一些更严肃的事情，比如自动驾驶。现在很多公司都在做自动驾驶，听起来很科幻的事情，但是业界推进的速度非常快。

　　汽车有两大趋势：新能源和智能化。这两个趋势无可阻挡，汽车也变成了机器人，视觉处理显得尤其重要，对于安全而言，最重要的是处理未知，做到全方位的感知，预见情况。

　　语音识别也是另外一个应用，目前句子的理解力在75%左右，如果能达到90%就非常可怕。从音速特征、语言特征到最后的文字识别结果，语音识别为什么这几年会快速成长?这是因为在前端植入语音神经网络的小尝试，使语音识别可用，带来革命性的变化。基于深度学习的语音识别，可用于地图导航、输入法、移动搜索。

　　怎么去理解自然语言呢?传统的做法是把大问题分解成独立的子问题，然后分别做出分析。现在新的系统是用一个完整的深度学习模型，它可以对句子进行语义的关联阐释，从而训练一个对话系统，我们可以用好莱坞人物的对白进行训练。我们甚至可以把语言和视觉结合在一起，因为我们对世界的认知能力在语言认知和视觉认知能力上，是同步发展的。计算机今天看到图片也可以开始产生语言文本了，做到同时理解图像和自然语言。

　　而在有的场景，云端处理是不够的。未来人工智能发展的趋势，它的前端部署是偏感知的，后台偏大数据认知，比如自动驾驶，周围200米范围内的一举一动，都通过前端的传感器感知决策，5公里以外的情况是通过云端的大数据分析来获得认知，于是形成前后端的结合。

　　回到一个问题：人类大脑是通用处理器吗?人从猴子到现在的人类，人之所以能够从物种中脱颖而出，是因为大脑对人类所需要特殊能力不断进行优化。除此之外的，是大脑是不擅长的，本质上来说，大脑是专用处理器，并非通用处理器。

　　大脑的计算是很慢的，但是人怎么会开车、打乒乓球?是因为对这些问题进行了加速处理。今天我们为什么有一些事情处理得特别好?因为我们在结构上做了专门的优化。

　　我们现在做的地平线机器人技术，是为了帮机器人开发专用处理器，我们希望将它的性能提升1000倍，希望硬件可以支撑这样的应用，让效果变得更好。

　　智能不等于智慧

　　人工智能大规模的应用伴随着互联网的发展，在第一个10年(2000-2009年)是“润物细无声”的时代，最大的应用在于PC互联网，比如搜索、广告、推荐。

　　我们当前所处的10年(2010-2019年)，语音、图像、语音、机器人操作获得突飞猛进的发展，同时在改造传统行业，越来越多地被人所感知，这是一个于“无声处听惊雷”的时代。

　　后面的10年(2020-2029年)是一个很灿烂的时代，是“江山如此多娇”、交互无处不在的时代，人跟机器的操作距离越来越短，生产线的工人一定会被替代，该机器做的事情，让机器做，该人做的事情让人做。简单、重复性的工作需要被解放，从万物互联到万物智能，数据成为商品。我们不需要对机器有太多的担心，2029年的机器没有好奇心、没有情感、没有自我意识。

　　我的结论是：智能不等于智慧。我认为在未来，从万物互联到万物智能有三大趋势：所有设备都有智能传感器、所有设备都有云端结合、所有设备都连接人和服务。所有设备最终都成为广义的机器人系：感知、理解、决策。

　　伟大的技术不在于让机器更伟大，而在于让每个平凡的人变得更伟大。

　　谢谢大家!

组织机构

主管单位
中华人民共和国科学技术部
国家科学技术奖励工作办公室
主办单位
中国人工智能学会

余凯：计算机比人聪明?千万别这样说

组织机构

奖励资质

下载中心

推荐资讯

热门标签