嗑《山河令》的cp,还得会读唇语?!

作者: 小毛巾,麦麦

来源: 果壳

发布日期: 2021-03-10

本文讨论了《山河令》剧中的配音与口型不吻合现象,以及嗑cp粉如何通过读唇语来破译演员的台词。文章还探讨了唇语在听觉障碍者交流中的重要性,以及人工智能在唇语识别技术上的进展和应用前景。

要说最近火爆的国产剧,《山河令》必须拥有姓名!这部武侠剧改编自耽美小说,剧中两位男性主角的“兄弟情”醇厚得让人上头。不过,剧中有不少片段,都出现了配音和角色口型明显不吻合的情况。嗑cp上头的嗑学家们,纷纷化身唇语大师,对照原著台词,破译了演员唇语里的“虎狼之词”。

嗑学家读到的却是……再猜猜这个唇语说的啥?我们拿这个截图问了编辑部同事,得到的回答竟然有:不吃翻译?碧池美人?别值班了?(AI:这位同学在想什么???)嗑学家公布结果:上头了上头了!读唇语,已然成为cp粉的必备“嗑学”技能。然而,这项技能一点都不简单。人,当然不能准确地给出完美答卷,就连一向所向披靡的AI也折戟于此。

读唇语,读的不止是唇。嗑cp仅仅是唇读应用的新型场景。

实际上,对于有听觉障碍的朋友来说,唇读是一种重要的交流方式。哪怕有助听器的帮助,视觉辅助也可以让他们“听”得更清楚。听力正常的人也常常会用到唇读——想一想,在嘈杂的餐馆里,为了听清楚别人说的话,你是不是也会不自觉地盯着对方看。唇读要读的并不止是口唇,说话人的肌肉活动和面部表情也会提供许多信息;听者将这些视觉信息与大脑中储存的词语相联系和比较,从而理解说话人的语义。

某综艺节目里,杨幂读符龙飞的唇语:“骑上我心爱的小摩托”说是“理解”,但在实际操作中却可能是“误解”,许多因素都会影响唇读的正确率。例如,以聋校学生为对象的几项研究发现,读出韵母比读出声母更容易;而对于/a/、/i/、/e/这样的不圆唇音,判断正确率则比/o/、/u/、/ü/这样的圆唇音更高。仅仅判断单个声母或韵母已经很难了,研究显示准确率通常仅为50%~70%。

实际场景中的应用更复杂:汉语里的4个声调,无法通过口唇形状判断;上下文的联系,需要读唇语的人靠语言理解能力和判断推理能力自行推测。

唇读是聋校教学的内容之一,需要的不仅是视觉感受能力和语言理解能力,还有培养判断推理能力;而且需要注意力高度集中才能完成。既然人工学习困难重重,那人工智能能不能助一臂之力呢?AI读唇语准确率高达93.4%?在学唇语上,AI确实已经比普通人牛掰不少了。

2016年11月,牛津大学训练了一个AI,叫Lipnet。Lipnet在唇读测试中达到了93.4%的准确度,远远把人类52.3%的成绩甩在身后;而且,它还能几乎实时地将无声视频处理成文本。

AI怎么识别唇语呢?它先从图像中识别出人脸,提取人说话时口型变化的特征,通过嘴型特征来识别音素。音素是最小的语音单位,例如汉语中的韵母/a/就是一个音素,AI可以依据不同的发音动作来分析音素。识别口型对应的发音后,AI可以进一步识别单词、句子,再将这些词句放在大数据里搜索,来判断哪个更可能是人会讲出的话。例如,“我是天才”还是“我是甜菜”,大数据会证明,前者的可能性更大。

Lipnet的表现看起来很不错,但其实,它更像是一个只会一项指定动作的AI。训练Lipnet的数据集有严重的局限性,这个数据集里虽然有成千上万个短视频,但视频高度相似——都是统一由志愿者念的,每个视频只有3秒钟,连打光都差不多。更“作弊”的是,每个句子都遵循以下的模式:命令+颜色+介词+字母+数字+副词。这样的傻瓜句型让AI能快速掌握规律。所以,即便测试的结果很不错,也有很多人不买帐。

仍在进化的唇读AI。在Lipnet面世的不久后,牛津大学(又是它!)和谷歌旗下研究人工智能的Deepmind合作开发,推出了另一个AI。这个AI识别唇语的准确率为46.8%,而在同一项测试里,专业唇读者的准确率只有12.4%。捕捉口型的变化来识别语句|参考文献 [1]。准确率降低了?并不是,相比于温室花朵的Lipnet,这个AI算是野战选手。

训练它的数据集来自BBC上千个小时的政治视频,这里有不同的人、不同的口音和不同的打光,识别难度上了好几个台阶。研究者认为,它是在“野生”环境里摸爬滚打出来的,表现已经非常出色。

谷歌Deepmind联合开发的AI实时识别新闻中的唇语|参考文献 [1]。国内也有类似的读唇语软件。2017年,搜狗推出了可以识别中文唇语的AI。搜狗AI开放平台表示,他们的唇语识别在口语测试集上的准确率超过60%;在车载、智能家居的场景里,可以达到90%的准确率。不过最近两年,国内外关于读唇语AI的研究尚未有突破性的进展。

一只成熟的唇语识别AI,在未来可以有很多应用。

在背景音嘈杂的环境中,它可以准确识别对方在说什么,不管对方有没有发出声音。如果我们想在安静的公共场合用语音交流,或者想偷偷使唤siri定个时、放首歌,甚至为了保密而只动口型,都可以用唇语识别。唇语识别也可以应用在身份认证中。现在的人脸识别系统,可能会被带有人像的图片、视频蒙混过关;如果能将人脸识别和口令密码相结合,并采用唇语识别技术进行检测,安全性将会大为提高。

当然,对于拿着显微镜看剧的cp粉来说,唇语识别AI恐怕还是直达隐晦兄弟情的重要道具。可惜的是,经过一番搜索,我们仍未找到能够给任意视频识别唇语的理想AI。所以,拜托科技公司搞快点,嗑学家们需要你们!不懂唇语,怎么嗑到糖!

UUID: ed8c1a4c-f014-4eb2-bc4c-8825db9b857e

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/果壳公众号-pdf2txt/2021/2021-03-10_嗑《山河令》的cp,还得会读唇语?!.txt

是否为广告: 否

处理费用: 0.0062 元