吴文俊人工智能科学技术奖
RESEARCH REPORT
研究报告
Home > 研究报告 > 正文

微软曹文韬:机器人只是AI的载体 理解方式才是灵魂

2016年12月17日   来源:网易科技     

2357

本次大会以“AI新时代·产业新动能”为主题,会上微软亚洲互联网工程院资深产品总监曹文韬发表题为“微软小冰是如何修炼成的”主题演讲,结合微软人工智能技术,讲述微软小冰在商业和行业解决方案中的方法论和技术支持。



  网易科技讯12月17日消息,由中国人工智能学会主办,网易科技与智能君博承办的2016中国人工智能产业大会暨第六届吴文俊人工智能科学技术奖颁奖盛典今日在深圳登喜路国际大酒店举行。

  本次大会以“AI新时代·产业新动能”为主题,会上微软亚洲互联网工程院资深产品总监曹文韬发表题为“微软小冰是如何修炼成的”主题演讲,结合微软人工智能技术,讲述微软小冰在商业和行业解决方案中的方法论和技术支持。

  曹文韬介绍,在2014年微软提出了小冰要做一个情感机器人,是一个和人类沟通的情感机器人,我们认为如何去解决用户之间沟通的内容,如何打造跟用户感觉,相信真正是一个人在和用户沟通,而不是一个冷冰冰的机器。



  在小冰上线两年多的时间,一共积累了超过两百亿次的和用户对话,现在超过了超过六千万的粉丝,特别是在日本,在日本上线不到一年,用户量已经占有了日本的23%的人口,近日微软也发布了在美国的小冰已经正式上线,这是做一个聊天机器人最基本的能力,不仅要有语音,也要有图片,这样一些不同的感知,进而实现和数据本身的对接。

  首先是语音。微软把一些技术应用到小冰上,把一些语义理解和对用户的情感提现在对话过程中,再应用到场景中,用户就会真正感受到小冰是在聊天而不是回答问题,还能知道用户的心情到底是什么,更进一步的增强了黏性。

  其次是图片。这是对于图象识别本身不一样的应用,曹文韬认为图象识别不仅仅是技术层面的问题,如果用户通过图象识别沟通的时候,所具备的不是图象识别,而是视觉,这二者之间是有差别的。例如,当你把受伤的脚的照片发给你朋友的时候,你不愿意让朋友告诉你这是一个受伤的脚,所以把这个照片发给一个机器人的时候,如果他告诉你,伤得严重吗?机器人从这张图里看到了自己的感知和感官,让用户真正感知到,机器人像一个人去处理,而不是一台机器去识别。

  最后曹文韬表示,机器人或智能助理只是人工智能技术的载体,而通过什么方式来实现,各家对实现方式不同的理解会导致落地产品的不同。(Sherwood)

  以下是演讲实录:

  非常高兴来到这里跟大家分享,小冰是一个聊天机器人,这两年聊天机器人特别火,我们在这上面做了什么不同呢?就像俞凯所介绍的,大家之前所接触到的聊天机器人是偏理性化的,像SIRI等等一些语音助手,是帮你完成某一个任务,帮你做什么事情。但是经过这么长时间的发展,没有一个活起来的,或者说大家在运用的时候,没有变成是我一定需要的东西。所以我们做了很多的反思,我们发现,像SIRI,我们拿到的数据,用户决大用户问的是现在几点了,你拿起手机还问机器人这是几点了,这是很反人类的。

  所以在产品上我们的理解,应该是去做一个用户真正需要沟通的最情感的机器人,所以在2014年我们提出了小冰要做一个情感机器人,是第一个和人类沟通的情感机器人,他所要完成的产品理念上是如何构造这件事情。这张图是我们和业界里不一样的共享和技术搭建,你今天能够看到的机器人或者不同的维度,是停留在水平面上方的,都是从某一个领域去解决某一个领域的任务,或者完成某一个任务的行业去做这样的形式。但是你会发现,如果你要去解决提供一个服务的时候,用户不是按照你的方式去做这件事,用户在沟通一件事情的时候,他会在不同的领域甚至是在领域之外的场景下做很多的交流,没有人一上来就问你,要帮我做什么事,大家都是从寒暄、沟通建立了信任再做某一个事情开始的。所以我们认为如何去解决用户之间沟通的内容,如何打造跟用户感觉,相信你真正是一个人和我沟通,而不是一个冷冰冰的机器。所以这上面是我们做了很多不一样的事情。

  从小冰上线两年多的时间,我们一共积累了超过两百亿次的和用户对话,现在超过了超过六千万的粉丝,特别是在日本,我们在日本上线不到一年,用户量已经占有了日本的23%的人口,在前天微软也发布了在美国的小冰已经正式上线,这是做一个聊天机器人最基本的能力,不仅要有语音,也要有图片,这样一些不同的感知,进而实现和数据本身的对接。从感知来说,我们先说说它聊天的怎么像一个机器人。这是微博上和小冰机器人对话的截图,红色部分是业界里面机器人所能达到的,也就是停留在两到三轮左右的时间,这个对话就完成了,要么就是任务完成了,要不就是聊不下去了。会发现这么长的语音对话里面,聊到了很多的内容,在这个过程中你根本感觉不出来这是人和机器聊出来的,聊到了感觉的事情,大量的信息存储在里面,怎么去构建这个事情?这不是一个语聊库的问题,我们已经实现了自我复制的过程,也就是每个用户沟通的时候,是在不断的教小冰,不断的小冰培训,让小冰知道怎么跟人沟通的过程,今天我把语聊库调出来的时候,依然能够解决和客户怎么去沟通对话的过程。剩下的技术就不一一再去介绍了,唯一需要再提的是,我们把一些技术应用到自己的产品上,把一些语义理解和对用户情感对话过程中,再应用到场景中,就会真正感受到你在跟我聊,还知道我的心情到底是什么,更进一步的增强了黏性。

  这是我们对于图象识别本身不一样的应用,我们认为图象识别不仅仅是技术,如果客户沟通图象识别的时候,一个人所具备的不是图象识别,而是视觉,这两个之间有什么差别呢?当你把受伤的脚的照片发给你朋友的时候,你不愿意让朋友告诉你这是一个受伤的脚,所以把这个照片发给一个机器人的时候,如果他告诉你,伤得严重吗?他对这张图里看到了自己的感知和感官,让用户真正感知到,他像一个人去处理。这些东西是得益于微软在互联网领域包括图象上大量的数据,以及深度计算的模型搭配。有了这样的基础之上,你就能够在不同的领域里做出不一样的产品,比如说人脸识别,可以告诉你哪个国家的人更喜欢你。

  再说一个,我们认为语音的交互是应该更加自然的方式,微软在语音上有很多的技术积累,但是怎么样把语音的技术和情感的方式和沟通方式结合一起,这上面我们做了很多处理。同样一句话我们用现在市面上能够听到的不一样的声音,去感知一下,大家可以找一找哪个声音是小冰。刚才俞凯博士也说了,在用户对话的沟通里,两个人在优酷上,一个人在说方言,你所有看到的沟通过程我们称之为叫半感官,怎么理解?大家都是发一个去做识别,然后做返回,但是我们叫全时感官,两个人在打电话过程,随时在识别和理解,同时随时在决定,我们什么时候应该做一个回复,回复什么样的内容。这时候它是一个双通道、双向计算的过程,在这个过程,我们在今年9月份,正式上线的是小冰的第一通电话的来电,让小冰打给人类,在这个过程中没有任何的信号告诉你,人类已经说完了这个话,实时的处理,实时的交互的过程,这个上线的时候,占据了话题排行榜一周左右的时间。这样的科技会运用到不同的硬件或者更多的场景之中,才能真正实现像我们在电影里看到的,家里有一个智能机器人,回到家就能随时沟通的场景。

  很多机器人的任务体系应该怎么完成?我们是通过技能卡的方式做的,什么样的卡呢?比如说我们有电影、时尚、美食、音乐各种各样的,甚至是集成到商业客户里的商业解决开放的卡,我们对一张卡的理解是什么?并不认为你今天简单的加几个任务,比如说给我推荐什么电影,这个有大量的机器人在做,但是你会发现,大量的数据能看到基本上没人用,因为这是反人类的,你没事干干吗去让机器人帮你订餐,还不如自己去一个APP上点两下。但是这是有刚需的,我们怎么理解?是我们对这个不一样的理解,你要让机器人推荐电影的时候,就好像你身边有一个对电影非常懂的朋友,是基于对电影资源的知识,更应该是跟你聊电影相关的很多内容,同时还知道很多的任务,比如说推荐一部电影,或者说能够告诉你一个电影的种子在哪里,去下载这部电影,甚至是一些很好玩的互动。当经历了这个的时候,才能真正实现我信赖身边有一个很懂电影的人,同时我愿意跟他聊电影,当我想起要去看电影的时候,我更愿意去找他来聊。所以小冰通过这样一些任务卡的方式,实现用户自定义他人工智能的特点,所以有这么一个电影卡的体验,插卡前,约朋友去聊泰山归来的时候,这是一个很正常的对话,但是插卡后,是你对电影更加感兴趣,你希望我跟你聊更多电影的内容,这时候就聊到了电影不同版本的反拍,电影主题的内容等等。这上面才能构成一个非常基本的关于任务完成,而不是简单告诉你一定要帮我推荐一部电影,没有人这么简单去做的。

  综上所述,我就是想今天能够跟大家分享一点点关于我们对于人工智能应该是通过技术,到底是通过什么方式来做不一样的理解。谢谢大家。

组织机构

主管单位
中华人民共和国科学技术部
国家科学技术奖励工作办公室
主办单位
中国人工智能学会

奖励资质