76509
2016中国人工智能产业大会暨第六届吴文俊人工智能科学技术奖颁奖盛典于2016年12月16-17日在深圳举办,主办单位是中国人工智能学会,网易科技是承办单位,亿欧作为媒体支持单位出席了本次活动。
2016中国人工智能产业大会暨第六届吴文俊人工智能科学技术奖颁奖盛典于2016年12月16-17日在深圳举办,主办单位是中国人工智能学会,网易科技是承办单位,亿欧作为媒体支持单位出席了本次活动。
以下是苏州思必驰信息科技有限公司首席科学家俞凯博士演讲实录(有删减):
俞凯:谢谢各位,我今天的主题是“自然语言处理中的认知计算”,其实更多的是想和大家探讨,语音这个技术的未来。我们所做的事情是什么?叫语音和语言的交互,我特别想提醒大家,很多人说你做什么研究,很多人说是语音识别,这是一个不完整的理解。
互联网发展本身经过了三个阶段,从上个世纪提出互联网,到现在手机无线网普及,随着屏幕越来越小,人和机器获取信息的方式,从原来的文本搜索变成文本和语音的搜索,到硬件上似乎只能用语音来完成最复杂的信息交互,这也是为什么在近年来采用语音的交互来完成客户任务变成了重要课题。
而在这个过程中我们发现,尤其在去年和今年,出现了一大批企业,他们做的叫做聊天机器人(chatbot),说起来是机器人,但是追其源头,是可以做语言和语音交互的虚拟机器人,当我们谈机器人的时候,它的智能一大部分程度是来源于它的脑子,一大部分也是能否跟人进行交互。
我们所做的是语言和语言端到端的交互系统,最基本的识别和合成是始于感知范畴,本质上目标是把语音信号转为编码文字,而认知是在后端需要对转成的编码文字进行相应的理解决策以及相关的表述,那么理解是什么?我现在说一句“我是做对话交互的”,大家理解我是搞个方向的,大家可能会问什么叫对话交互,大家可能会好奇你在哪里搞对话交互,你要提问题的时候,你会有不同的决策,我们叫做反馈决策过程,而提什么样的问题,这是人类智能一个核心表现。到后面当我要回答问题的时候,就需要和相应的知识处理对接起来,这些就构成在知识处理层面的认知。
我们所做的就是要把感知和认知全部连接在一起,前面讲到了大数据和深度学习,我们探讨一下前沿的数据是哪些,而除了他们之外,还有哪些东西是特别重要的技术,在未来会有很大的用武之地。
先说一下感知智能的技术前沿,前一段时间微软研究院发布了结果,公布他们的电话语音在全世界做语音识别的测试当中,达到了人类的水平,人类的水平是在5.9,他们达到了5.8,基本上和人类一个水平,也就是语音识别通过大幅度计算达到了人类水平。而我们专注的工作,是在抗噪的语音识别上面,我们用所谓极深的神经网络,所做出来的结果是7.1,在深度学习产生之前,全世界最好的结果是13.4,到了深度学习产生之后,变成了12多,今年我们做到了7.1,这都是全世界最好的结果,如果能做到5以下,那就是跟人一个水平了。在一些特定场景下,现在的深度学习加上大数据的技术,已经几乎达到人的水平,但是并没有真正完整解决所有的问题,因为语音识别本身是一个相对来说定义得比较宽泛的东西。现在新的问题往往是去解决一些远场或者抗噪或者自适应问题,这些问题都是很好被定义的,只需要研究者和业界从业者不断研究就可以了,真正比较难的是认知的问题。
认知的难点在于你并不知道什么是好的,什么是坏的,我们很难去理解在什么程度上是好的,交互决策我用什么样最精确的指标可以客观的衡量它,有很多不同指标提出来,所以在学术界和产业界都会存在很大的难点,这时候就会做区分。整个认知任务在对话的角度上,会在象限里分成四个部分,整个的坐标轴横轴是交互轮回的次数,纵轴是对话结构的引进程度,我们看到命令式的交互和闲聊式的交互,本质上都没有引进绝对的结构化信息,而且他们的名字是不一样的,简单的是命令,复杂的闲聊,在问答和任务型这两个层面是使用得比较多的。而认知所要解决的是包括静态和动态几个层次,它不是一个很明确的任务。
于是这里就有一些问题,现在到底做到什么程度了?我们看到很多实际应用已经有了,但是究其前沿技术大体有这么几项。
首先就是深度学习,深度学习是革命新的,带动了包括语音识别、对话交互在内的一大类的技术进步。而在认知系统里,最大的进步就是所谓的深度序列学习,把整个文字序列看成学习目标。
第二块比较前沿的就是知识与数据双轮驱动作为主要研究方向,在很多的研究场所得到了使用,这里面出现了很多基于规则和统计混合的新的技术。
第三部分是强化学习,这一部分是在阿尔法狗之后,被广泛关注的新型技术,这个在对话交互当中已经成为最前沿的一种方式,其中深度Q网络已经被广泛应用起来了,这些都是一些名词,绝大部分是以大数据和深度学习作为基础的。
我们下面想说的是除了这些东西,大数据和深度学习是不是可以解决所有的问题?其实不是这样的。
在现实使用语音软件时,大家都会说它的语音识别不准,是不是真的有这个问题?如果我有一口严重方言,识别器准确率还到了95%以上,还不错吧?还是不能解决问题,因为真正问题是在于交互时机,对于错误容忍度没有很好的建模,这些都是认知的范畴。
所以我们必须要解决类似于交互时机的异常数据,这样几个在真实场景会出现的情况。我们再看现实情况下我们解决的案例是什么样的。这是在限定的拨号任务下给出的解决方案,他所使用的东西不单是深度学习,还包括了其他的。大数据之外我们仍然会有很多的问题,比如语音理解的范畴延伸,知识库和应用规划的结合,这些东西都不完全通过我们收集到的原始大数据,需要有很多的算法加进去,才有可能真正解决好。
对于今天的报告我希望做一个比较技术层面的分享,我们会看到大数据和深度学习对普世模型以及大一统方案有很大进步,但是真正实际使用过程中,要一些新型技术结合进去才有可能解决,科学上的进步往往是从产业上的问题作为入手点,而提出的解决方案可能会超越大家现在的想象,谢谢各位。