吴文俊人工智能科学技术奖
RESEARCH REPORT
研究报告
首页 > 研究报告 > 正文

思必驰俞凯:大数据和深度学习不能解决所有难题

2016年12月17日   来源:网易科技     

2386

本次大会以“AI新时代·产业新动能”为主题,会上思必驰信息科技有限公司首席科学家俞凯发表名为“自然语言处理中的认知计算”的主题演讲,他认为语音识别和语音合成等智能语音感知智能领域技术发展相对成熟,思必驰深耕垂直场景的语音交互技术,目前致力于解决理解、决策和表述等认知智能领域问题,使其实现更人性化的人机交互。



  网易科技讯12月17日消息,由中国人工智能学会主办,网易科技与智能君博承办的2016中国人工智能产业大会暨第六届吴文俊人工智能科学技术奖颁奖盛典今日在深圳登喜路国际大酒店举行。

  本次大会以“AI新时代·产业新动能”为主题,会上思必驰信息科技有限公司首席科学家俞凯发表名为“自然语言处理中的认知计算”的主题演讲,他认为语音识别和语音合成等智能语音感知智能领域技术发展相对成熟,思必驰深耕垂直场景的语音交互技术,目前致力于解决理解、决策和表述等认知智能领域问题,使其实现更人性化的人机交互。



  俞凯表示,当我们谈机器人的时候,它的智能一大部分程度是来源于它的脑子,一大部分也是能否跟人进行交互。语音交互的本质是把语音信号转为编码文字,在后端对转成的编码文字进行相应的理解、决策以及相关的表述,这些构成在机器在知识处理层面的认知。

  他认为认知的难点在于机器没有是非之分,如何可观精确的衡量交互决策,这是也是学术界和产业界的难点,目前有三类前沿技术已经在解决这一难题:

  第一,深度学习。深度学习带动了包括语音识别、对话交互在内的一大类的技术进步。在认知系统里,最大的进步就是深度序列学习,把整个文字序列看成学习目标。

  第二,知识与数据双驱动。作为主要的研究方向,在很多研究场所得到了使用,还出现了很多基于规则和统计混合的新技术。

  第三,强化学习。强化学习是在阿尔法狗之后,成为被广泛关注的新型技术,这个在对话交互当中已经成为最前沿的一种方式,其中深度神经网络已经被广泛应用起来。

  然而,俞凯认为大数据和深度学习并不能解决所有的问题。在交互时机产生的异常数据在真实应用场景下回出现目前无法解决的问题,此外,大数据之外仍然会有很多的问题,比如语音理解的范畴延伸,知识库和应用规划的结合,这些都不能通过收集到的原始大数据来完成,还需要有很多的算法加进去,才有可能真正解决。

  林倞最后表示,大数据和深度学习对普世模型以及大一统方案有很大进步,但是真正实际使用过程中,要一些新型技术结合进去才有可能解决,科学上的进步往往是从产业上的问题作为入手点,而提出的解决方案可能会超越现在的想象。(Sherwood)

  以下为演讲实录:

  谢谢各位,我今天的题目更多的是想和大家探讨,我们这个技术的未来。我们所做的事情是什么?叫语音和语言的交互,我特别想提醒大家,很多人说你做什么研究,很多人说是语言识别,这是一个不完整的理解。

  互联网发展本身经过了三个阶段,从原来上个世纪的提出互联网,到现在这个手机无线网,随着屏幕越来越小,人和机器获取信息的方式,从原来的文本搜索变成文本和语音的搜索,到硬件上似乎只能用语音来完成最复杂的信息交互,这也是为什么在近年来采用语音的交互来完成客户任务变成了重要课题。而在这个过程中我们发现,尤其在去年和今年,出现了一大批企业,他们做的叫做doop,说起来是机器人,但是追其源头,这是外国一个咨询公司做的图,绝大部分都是可以做语言和语音交互的类似虚拟机器人,当我们谈机器人的时候,它的智能一大部分程度是来源于它的脑子,一大部分也是能否跟人进行交互。

  我们所做的是语言和语言端到端的交互系统,这个框图大家可以看到,最左侧的识别和合成是始于感知范畴,本质上目标是把语音信号转为编码文字,在后端需要对转成的编码文字进行相应的理解决策以及相关的表述,什么叫理解?我现在说一句话,我是对话交互,大家理解我是搞个方向的,大家可能会问什么叫对话交互,大家可能会好奇你在哪里搞对话交互,你所要提问题的时候,你的决策,我们就叫做反馈决策过程,而提什么样的问题,这是人类智能一个核心表现。到后面当我要回答问题的时候,就需要和相应的知识处理对接起来,这些就构成在知识处理层面的认知。

  我们所做的就是要把感知和认知全部连接在一起,前面讲到了大数据和深度学习,我们探讨一下前沿的数据是哪些,而除了他们之外,还有哪些东西是特别重要的技术,在未来会有很大的用武之地。首先说一下感知智能的技术前沿,左上角的图是前一段时间微软研究院发布的结果,电话语音在全世界做语音识别的测试当中,达到了人类的水平,人类的水平是在5.9,他们达到了5.8,基本上和人类一个水平,也就是语音识别通过大幅度计算达到了人类水平。左下角是我们做的工作,是在一组抗噪的语音识别上面,我们用所谓极深的神经网络,所做出来的结果是7.1,在深度学习产生之前,全世界最好的结果是13.4,到了深度学习产生之后,变成了12多,今年我们做到了7.1,这都是全世界最好的结果,如果能做到5以下,那就是跟人一个水平了。在一些特定场景下,现在的深度学习加上大数据的技术,已经几乎达到人的水平,但是并没有真正完整解决所有的问题,因为语音识别本身是一个相对来说定义得比较好的东西。现在新的问题往往是去解决一些远场或者抗噪或者自适应问题,这些问题都是很好的被定义的,只需要研究者和业界从业者不断研究就可以了,真正比较难的是认知的问题。

  认知的难点在于你并不知道什么是好的,什么是坏的,我们很难去理解在什么程度上是好的,交互决策我用什么样最精确的指标可以客观的衡量它,有很多不同指标提出来,所以在学术界和产业界都会存在很大的难点,这时候就会做区分。整个认知任务在对话的角度上,会在象限里分成四个部分,整个的坐标轴横轴是轮回的次数,纵轴是结构的引进程度,我们看到命令式的交互和闲聊式的交互,本质上都没有引进绝对的结构化信息,而且他们的名字是不一样的,简单的是命令,复杂的闲聊,在问答和任务型这两个层面是使用得比较多的。而对于认知所要解决的是包括静态和动态几个层次,它不是一个很明确的任务,于是这里就有一些问题,现在到底做到什么程度了?我们看到很多实际应用已经有了,但是究其前沿技术大体有这么几项,首先就是深度学习,深度学习是革命新的,带动了包括语音识别、对话交互在内的一大类的技术进步。而在认知系统里,最大的进步就是所谓的深度序列学习,把整个文字序列看成学习目标。第二块比较前沿的就是知识与数据双轮驱动作为主要研究方向,在很多的研究场所得到了使用,这里面出现了很多基于规则和统计混合的新的技术。第三部分是强化学习,这一部分是在阿尔法狗之后,被广泛关注的新型技术,这个在对话交互当中已经成为最前沿的一种方式,其中深度Q网络已经被广泛应用起来了,这些都是一些名词,绝大部分是以大数据和深度学习作为基础的。我们下面想说的是除了这些东西,大数据和深度学习是不是可以解决所有的问题?其实不是这样的。

  我们看一个例子,播放一个视频。这是一个非常简单的例子,在这个例子过程中大家都会说它的语音识别不准,是不是真的这个问题?如果我有一个严重方言的识别器准确率到了95%以上还不错吧?还是不能解决问题,真正问题是在于交互时机,对于错误容忍度没有很好的建模,这些都是认知的范畴。所以我们必须要解决类似于交互时机异常数据,这样几个在真实场景会出现的情况。我们再看现实情况下我们解决的案例是什么样的。这是在限定的拨号任务下给出的解决方案,他所使用的东西不单是深度学习,还包括了其他的。大数据之外我们仍然会有很多的问题,比如语音理解的范畴延伸,知识库和应用规划的结合,这些东西都不完全通过我们收集到的原始大数据,需要有很多的算法加进去,才有可能真正解决好。

  对于今天的报告我希望做一个比较技术层面的分享,我们会看到大数据和深度学习对普世模型以及大一统方案有很大进步,但是真正实际使用过程中,要一些新型技术结合进去才有可能解决,科学上的进步往往是从产业上的问题作为入手点,而提出的解决方案可能会超越大家现在的想象,谢谢各位。

组织机构

主管单位
中华人民共和国科学技术部
国家科学技术奖励工作办公室
主办单位
中国人工智能学会

奖励资质