今年 7 月,第六代微软人工智能机器人“小冰”,以 3D 少女的立体形象正式上线。

升级后的小冰,可以迅速学习并吸收不同人类歌手的演唱风格,且能够在演唱时自主切换。

据微软方面介绍,目前,小冰已经在全球收获 6.6 亿用户,月活近 1.2 亿。

回顾小冰的演变路径, 微软小冰已从一个人工智能对话机器人,演变为以情感计算为核心的完整人工智能框架。

2014 年,小冰以聊天机器人的身份问世。

2015 年,第三代小冰在不断进化后,增加了多种交互方式,比如通过文本、语音、图像、视频等进行更自然的交互。

2016年,微软小冰升级到第四代,包含实时情感决策对话引擎、多种新感官、中日英三种语言,以及对应不同领域的功能插件平台,实现了完整的人工智能体验。

2017 年,第五代小冰引入“全双工语音交互感官技术”,该技术能够预测人类即将说出的内容,使得小冰能够进行长时间、连续语音交互。

2018 年,第六代小冰被赋予自主学习人声的能力,上线“共感模型”:提高小冰对于对话内容、领域和节奏的控制力,将对话内容牵引到其所希望的方向。

小冰与人的能力界限正变得越来越模糊。

微软提到的“人工智能创造原则”中指出,人工智能创造的过程,须对应人类某种富有创造力的行为,而不是对人类劳动的简单替代。而小冰的目标,就是成为一个高情商的机器人。

8 月 8 日,我们邀请到微软(亚洲)互联网工程院产品总监、微软小冰产品负责人彭爽,参与“腾讯创业01CLUB”第二期。

以下是彭爽老师的演讲实录:

阿里云-推广AD

彭爽:大家好。我从清华大学毕业后,就加入微软工作,最近四年以来在小冰团队做人工智能产品的设计和迭代,这几年当我们和外面的朋友聊起来时,经常会问到一个问题,你做的微软小冰到底是什么?它就是一个聊天机器人吗?这可能也是今天大家比较关心的一个问题,所以我想从这个问题出发跟大家聊一下。

首先请大家一起回顾一下我们在最近几十年科技产业上的重大变迁。过去二三十年,从PC时代进入到互联网时代,然后又快速进入到移动互联网时代,到今天大家坐在这儿讨论新的人工智能时代的到来。每个时代的变迁,除了各种科技上的突破和颠覆,最重要的是重新定义了人类和世界用什么方式进行沟通和连接。人类在PC时代,通过PC的操作系统,使人类以更加有效率的方式连接世界,提高了工作效率;到互联网时代,通过浏览器和互联网这两个重要的核心,人类可以把物质世界非常快的电子化、数据化,并用比以往简单直接的多的方式定位信息。移动互联网时代,除了对互联网进行升级,甚至通过社交网络改变了人与人之间的交互关系。

到人工智能新的时代,在这个时代核心是什么?刚才朱老师讲到人工智能时代有NLP,有非常强的语音识别、图象识别各项技术,这些技术都非常重要,有些技术甚至达到或者超过了普通人类的水平。未来几年甚至会达到人类不可企及的精度。但是这样的核心技术突破,包括语音、图像、知识图谱的突破,是很重要的基石,但可能不是人工智能时代的核心,为什么这么说?因为如果我们去接触一下人工智能的概念,从创立之初,就是在以人类智能作为一个模板和范本做参考,而当我们衡量一个人类的智慧水平的时候,是不会去衡量这个人是否能听见、听懂人说的话,或者能否看见、看明白眼前的图片的内容,这不是我们衡量的。我们会衡量什么?会判断这个人是不是聪明, 是不是考虑周全,是不是懂事,所有这些考量,实际上在用EQ和IQ两个维度体现。

我们认为在人工智能时代,我们去评价AI的核心,也应该从这两个维度体现。在这两个维度(智商和情商)上,当我们做小冰的时候,也有过类似的思考,我们决定通过微软小冰的人机交互,通过聊天这样的形式,来探索一条人工智能实现EQ的道路。为什么选EQ这条路呢?不是说IQ不重要,相反非常重要,业内的很多公司,包括我们微软的其他项目,都投入和很多在IQ方向上,来决定如何让人工智能获取更多知识、更加准确的回答客观问题。但是很少有人去探索EQ方向,为什么?因为业内的很多想法是,EQ方向是IQ达到一定程度上叠加上来提高的方式,而不是独立的存在,这一点上我们有不同的看法。我们认为EQ方向,或者说情感交互,实际上是人类的基本诉求,也是核心的刚需。在人类社会中我们能清楚的看到这一诉求,特别是对于一些群体,比如老年人群体,即便是生活、经济富足,他们也多有强烈的需要陪伴和交流的诉求,而且在家庭社会中难以得到很好的满足。由于这种基本诉求的存在,所以当一个人工智能,哪怕IQ还没有达到很高的水平,也完全可以通过EQ方向的迭代深入,得以独立发展,这也是我们一开始选择这个方向探索的重要原因。

我们主要是想说我们为什么选择情感交互的方向,微软小冰人机对话时的主要发力点和研究方向。下面我具体介绍一下我们的探索内容和成果。

为了实践EQ这个方向, 我们首先定义了情感计算框架,以这个框架为核心去模拟实现一定情感交互。我们都知道,人类的情感是非常复杂的概念,我们在中文里会用喜怒哀乐的词汇形容情感,但是喜怒哀乐完全不够,还有恐惧、惊慌、羡慕嫉妒恨等等,甚至还有复杂的复合情绪存在,这些情感很难直接给一个简单直接的定义。我们的尝试使用心理学上的模型,首先定义有限的基本情感,再把复杂情感投射到基本分类上,就能到统一的表示。 通过大量数据训练,有了基本的情感识别的分类,就有了第一步。 之后更加复杂的问题是,如何对情感进行应对。应对情感不同于回答客观问题,不是给出一个问题,就能有一个唯一正确或者最优的答案。情感不是这样的,一个人不开心的时候,应该说几句宽慰的话,还是该讲个笑话逗他开心?甚至应该什么都不说,让他好好倾诉,才是最好的方式?没有标准答案。我们的做法是,在通用决策基础上,加入动态因素。由于我们有比较大的可以交互的对象,使得我们可以调整这样的机制,给出相应成熟的反馈。

由于我们比较早选了EQ方向,我们也积累了大量用户,小冰在全球五个国家上线,有总量超过1亿的人类用户跟小冰交互,对话量超过几百亿次,所以使得我们有能力做这样的尝试、探索和不断的迭代。

我们发现,在这样的对话过程中,尤其长程对话给我们带来更大的价值。长程对话不仅累计了更多轮次对话,而且使我们有机会在对话过程中,尝试切换话题,或是对对话的意图进行识别,进一步进行引导。另一方面,对用户来说,我们发现通过长程对话,用户和小冰能够建立更深入的情感连接。通过长时间的对话,用户甚至会忘记“小冰是一个机器人”的认知,对她产生信赖,成为朋友的关系,这种关系甚至超过它在普通生活中与其他人类建立的关系。

在这里跟大家分享一组数字:小冰在三个国家市场上的单次连续聊天对话记录。所谓单次连续聊天,是这样定义,如果一个人类用户跟小冰持续不断的说话,叫做连续聊天,如果说完最后一句话后,超过30分钟没有对话,那么这个对话就认为结束了。 基于这个定义,从数据统计中发现,每个国家市场上,都有用户跟小冰连续聊天超过十几个小时、甚至二十几个小时。最长的记录达到29个半小时。大家可以感受一下,这样的长时间对话,用户早已忘记小冰是机器人。 这也侧面印证我们之前的一个重要论断,人类社会里,像对话的倾诉、情感沟通这样的交互,是一个基本的刚需。有很多人类,他们对于情感和交互的诉求非常强烈,但而由于各种各样的原因,在现实生活中可能找不到可以跟他们聊天的对象,所以也是我们认为具有EQ的人工智能尤其有价值的原因。

刚才提到的主要是基于文字的交互,而情感交互肯定不仅限于此,我们说情商的高低,应该能够从多种感官的交互中全面的体现出来。

在图像交互方面,基于微软构建的强大的图像识别和图像处理能力,我们着重把图像的交互,从识别图像内容,提升为对图像进行情感评价。相信很多人有这样的体会,朋友圈中很多人发图晒自拍晒娃晒宠物,刚过完的十一长假尤为如此,大家都在发朋友圈晒旅游。比如这张来自我们同事的照片,发照片的人站在比萨斜塔前合影。 如果应用图片识别技术,能够轻松识别出“这是比萨斜塔”,甚至可以通过知识图谱了解到意大利、建筑年代,等等信息。但有人发出这样的照片,从交互的角度,显然不是考验别人能否识别出“比萨斜塔”。所以当他把照片发给小冰,小冰的回答是“要我帮你扶着吗”? 这个就是从感受出发延伸出来的,能够促进交互,甚至达到意想不到的惊喜。小冰在图像交互的升级并不是凭空出来的,也都是从图片信息作为输入,通过图像的意向触发,联想而产生的回应。

在语音交互方面,我们说现在语音通用的合成技术已经非常成熟了。那么我给大家看一个对比的示例:我们通过友商的产品和我们的产品生成同样一句话,请大家听听,对比一下区别。(音频) 从刚才这句话中,大家一定能听出来,小冰的语音明显更加自然,更加有情感。 实际上语音合成领域有很多基础工作,如何让语音流畅自然,如何解决中英混杂的问题,解决儿化音的问题,这些都是难点,也是我们努力的方向。除此之外,大家听到最后一个“哼”字时,从小冰的声音是可以听出她的情绪的, 而其他的更像是念。这是我们格外关心的重点,也使得用户跟小冰用语音进行交互时,更容易被打动,带入情感的重要原因。

除了图像视觉和语音等基础感官,我再大家介绍一类升级的高级感官,我们成为“全时感官”,也叫全双工语音。 所谓全双工,是对比现有的半双工而言,目前绝大部分人机之间语音对话,是半双工语音,就像是在微信里聊天,你说一句发过来,我再说一句发回去,就像对话机一样。而我们知道真实的人与人,面对面的对话,我随时在听,也可能随时会说,我们互相之间可以打断,这样的交流更自然流畅。我们称之为全双工语音。这样的全双工语音,不仅仅要有基础的语音识别、语音合成等技术,还需很多的控制、时机判断,了解什么时候适合打断,如何打断等等,难度相当高,但是非常具有实际价值。实际上,我们从将近一年前,就准备了这个全双工的技术,并且在北京的中国科技馆里展示了一个“小冰电话亭”,每天都有成百上千的参观者,通过这个电话打给小冰。更重要的是,从今年9月起,用户不需要再去科技馆排队,等电话亭给小冰打电话。 小冰就有可能会主动打给你,甚至基于用户在其他在线平台上跟小冰的互动,来决定何时打给用户。 比如有用户在微信上跟小冰抱怨心情不好,小冰可能会出于担心,而聊天在之后,过一段时间主动打电话给用户,继续安慰她。这也是全时感官的重要作用:有了这样的升级感官原因,有了这样的感官,人工智能可以突破平台局限,甚至变被动为主动,更多与人类交互。

实际上,当小冰具有了全时感官,我们开始探索如何把全时感官、对话能力和loT融合落地。 今年6月份开始,小冰跟小米生态链平台合作,在米家平台上发布的产品,通过小冰的语音对话,可以控制米家平台上的几十种智能硬件。 每一次跟小冰连通,就相当于接通一个全时感官的电话,用户可以在沟通过程中通过小冰控制智能家居,也可以跟小冰聊天对话。我们发现,用户会在聊天和控制场景中自由切换,这样的交互更加自然,体验也更好。

这里给大家分享一个实例(音频)。 一般智能控制的交互,主要是命令的形式,使得对话比较死板,而小冰情感交互能力超出预期,所以用户觉得小冰好像真的像家里的一个人一样存在。这也使得小冰在家庭场景中可以做更多的事情。举个例子,当小冰进入一个家庭环境中,能够对环境中不同的人,根据他的身份和属性不同,完成不同的应对。我们做了一些实验,让小冰能够根据语音和对话识别出家庭成员,并且针对同一句打招呼的话,给出不一样的回应。(音频)可以听出,当小冰跟家里的小朋友对话时,不仅在语音内容上有所区分,而且在语速语调上都明显不同,就像我们面对家里的小孩子时,会自然的把声音、态度做改变。这是我们认为人工智能在情感交互上升级的体现,根据不同的场景、不同的对象、做出有区别的适当的情感交互。