2019年11月21日,微软(亚洲)互联网工程院在北京举办了科研成果分享会。微软小冰首席科学家宋睿华、首席NLP科学家武威、首席语音科学家栾剑介绍了微软小冰在2019年的研究进展。经过多年来的数次迭代,到2019年,小冰已进化至第七代。第七代微软小冰已经成为全球最大的跨领域人工智能系统之一,其产品形态涵盖社交对话机器人、智能语音助理、人工智能内容创作和生产平台等。
在全球多个国家,微软小冰单一品牌已覆盖6.6亿在线用户、4.5亿台第三方智能设备和9亿内容观众。
在交互场景大幅度拓宽的情况下,微软小冰与用户的单次平均对话轮数(CPS)突破了23轮。宋睿华认为,微软小冰单次平均对话轮数(23轮)这个指标是世界领先的。这一指标可以表征人工智能在自然语言处理上的能力。
因为在对话的过程中,人工智能不但要考虑当下一句话本身的意义,还要联系对话过程的上下文考虑其他对话的意义,这就需要人工智能有很高的智商与情感交互能力,否则用户与人工智能交流的过程中会觉得“无厘头”,也就会快速放弃对话。因此,微软小冰单次平均对话23轮,这证明微软小冰与人类的对话不是“无厘头”的,而是很有吸引力的。
武威在分享会上指出,多轮对话确实是人工智能与人交互中比较难的一部分,因为它涉及到非常复杂的上下文的理解,甚至在对话的过程中还需要一些外部知识的引入。所以,微软小冰研发团队用共感模型去把控整个的对话流程。武威说:“大家一提到多轮对话,往往在想要把上下文理解的更准确,微软小冰也做了这部分工作。
但我个人认为更有趣的地方是怎么组合全流程的对话,我们考虑了整个对话流程的把控,不光是考虑说什么,另外一方面我们更注重的是我们怎么去说、怎么去交流,因为我们始终认为人的交流不是一个简单的你问我答的过程,而是一个有组织、有目的的过程,这是一个有很高情商的人才做到这一点的过程,它是一个交流,而不是一个回复。我觉得在这一方面微软小冰正在给用户带来不一样的体验。”
除了与人对话,微软小冰还很会唱歌,从2016年开始,微软研发团队就开始给微软小冰开发唱歌功能。这在当时来说,还是一个比较冷门的方向。栾剑介绍说,对人工智能来说,唱歌是一个比较有挑战性的课题,其挑战性主要有三个原因:第一,唱歌的门槛比说话高。普通人都会说话,但是不是所有人都会唱歌的,更不是所有人都能唱的好听,唱歌除了发音之外,还有其它要素的要求,所以它在技术上有难点。
第二,唱歌在情感表达上更加丰富一些。唱歌可以表达高兴和悲伤的情感,在一些比较重要、有纪念意义的场合,比如说今年是建国70周年,像《我和我的祖国》这类歌曲也成为表达人们情感的一种形式。第三,唱歌是一个很重要的娱乐形式。从《快乐女生》、《我是歌手》、《中国好声音》等节目红遍大江南北以来,微软(亚洲)互联网工程院的研发团队就觉得唱歌是很有市场前景的应用方向。
微软小冰研发团队通过人声部分检测、音素时刻对齐、音高轨迹提取等方式,通过参数合成的方法,用卷积神经网络与残差连接等人工智能技术成功打造出会唱歌的小冰。目前的微软小冰可以从“抖音神曲”中挖掘现在流行的音乐风格,生成更好听的音乐。
最后,宋睿华分享了微软小冰在人工智能联想方面的进展,现在的微软小冰已经具有联想能力,她可以像人一样能将故事理解成画面。
而且,现在的微软小冰在对话的时候已经可以使用“比喻”这种修辞手法,比如微软小冰已经做出了一些绝妙的比喻,比如“孤独像是空无一人的车站,幸福像是可爱的毛毛虫”。微软小冰由作为一款由微软(亚洲)互联网工程院于2014年5月正式推出的、融合了自然语言处理、计算机语音和计算机视觉等技术的完备的人工智能底层框架和系统。
经过5年多的发展,目前该框架注重拟合人类情商维度的发展,强调人工智能情商,而非任务完成,在人机交互中体现了极高的原创性与情感价值。
另外,在知识产权方面,据微软小冰首席科学家宋睿华介绍,最近几年,微软小冰团队在各大国际会议上发表了48篇论文、获得了72项专利。在本次分享会上主办方还宣布了微软小冰与腾讯、小米、今日头条、vivo和OPPO等合作伙伴的共同项目。
其中绝大部分产品均已随第七代小冰发布上线,包括与国产TOP5手机生产商共同完成的“召唤小冰”产品形态等。得益于在ToB领域的丰富经验,以及丰富的技术产品积累,目前微软小冰商业化进展迅速。目前已落地的商业客户覆盖金融、零售、汽车、地产、纺织等十个领域,客户包括万科、万得资讯、万事利、中国联通等。这表明,微软小冰的研发成果正在快速商业化,她正在走入普通老百姓的日常生活。