2020年是黄学东加入微软的第27年。这位微软语音识别技术领域里的老将,在新年伊始有了新头衔——微软全球人工智能首席技术官,全面负责微软Azure云、人工智能(AI)的工作,包括语音、机器翻译、计算机视觉、自然语言和人工智能认知服务。根据最新任命,黄学东将领导新统一的AI认知服务工程和研究团队。黄学东领导了认知组织的语音和语言团队。
据悉,未来,认知组织中的语音和语言以及计算机视觉团队将移至AI平台并向黄学东汇报,而AI平台组织中现有的Form Recognizer,Personalizer和其他认知服务工程团队也将向黄学东汇报。
从履历上来看,算上大学时期的研究,黄学东在人工智能领域里已经坚持了30多年时间。黄学东祖籍湖南,15岁时,他便参加了高考,考上了湖南大学计算机专业。
湖南大学的本科学习结束后,黄学东北上来到了清华大学念硕士和博士。在清华,黄学东学习了5年时间,完成了硕士学业,但博士没有读完就“跑”了。原因是,当时在自己导师的鼓励下,黄学东提前到了英国的爱丁堡大学学习,并在该校获得了博士学位。
2017年,黄学东被评选为微软技术院士(Technical Fellow),这代表着微软技术人员的最高荣誉,获得这一荣誉的人还包括图灵奖得主Butler W Lampson、Charles P. Thacker等。值得一提的是,黄学东也是微软首位华人技术院士。同时,他也是国际电子电气工程师学会(IEEE)和美国计算机学会(ACM)的双科院士,微软认知工具包CNTK的缔造者之一。
1978年,15岁的黄学东进入湖南大学师资班(后来的电子工程系),成为当时校园里年龄最小的学生之一。他先后获得湖南大学学士学位、清华大学硕士学位和英国爱丁堡大学博士学位。1993年,他作为高级研究员加入了微软研究所并负责组建Microsoft's语音识别技术研究团队。2000年到2004年,他作为Microsoft's语音识别技术研究团队的总经理,负责微软语音技术和产品的研究、开发和市场拓展。
担任微软首席语音科学家期间,黄学东领导的语音和对话研究团队取得了多项里程碑式的成就。他领导微软语音技术的开发和产品的市场行销,包括获奖的Speech Server 2004。在加入微软之前,他在卡内基·梅隆大学致力于发展CMU's Sphinx-II语音识别系统。
在期刊和会议上发表了一百多篇论文,并合著出版了两本非常有影响的专著即:Hidden Markov Models for Speech Recognition (Edinburgh University Press 1990)(语音识别中的隐含马尔可夫模型(爱丁堡大学出版社1990))和Spoken Language Processing (Prentice Hall 2001)(口语处理(普林斯顿出版社2001))。
曾获中国教育部的科技进步奖、IEEE信息论文奖、Allen Newell杰出研究奖章,及SpeechTek的语言领域十大领军人物称号。
2015年以来,黄学东领导着微软在美国、中国、德国、埃及、以色列的团队研发包含语音识别及合成,微软企业人工智能客服对话解决方案、cris.ai以及luis.ai等认知服务、CNTK开源深度学习工具等人工智能产品和技术。
2016年10月18日,由黄学东带领的微软语音团队在产业标准Switchboard语音识别基准测试中,实现了对话语音识别词错率(word error rate,简称WER)低至5.9%的突破,首次达成与专业速记员持平而优于绝大多数人的表现。“这是人工智能领域突破性进展之一,意味着有史以来第一次有计算机能像人类一样,识别对话中的每一个单词。”黄学东说。
2017年,在对话语音转写任务中,微软语音识别系统的词错率降到5.1%,准确率超过专业速记员。“可能表面上这个进展不大,但是在‘最后一英里’上,每0.1个百分点的进步都很艰难,必须保证系统没有任何bug。何况从相对错误率降幅角度,5.9到5.1是一个超过10%的相对进步。”2018年,在汉英新闻机器翻译任务中,微软机器翻译系统达到了可与人工翻译媲美的水平。
2019年,在斯坦福对话式问答任务中,微软机器阅读理解系统刷新记录,成为目前排行榜上唯一一个模型分数超过人类分数的团队。
黄学东在接受采访时曾表示,他的最终梦想是能让机器理解人类的语言,并让机器能够像人一样说话、交流。