问题:Youtube直播川普希拉里辩论时,几乎同步的字幕是怎么做出来的?油管是有自动字幕功能的。但是自动字幕当然是不能保证准确的……哪怕有google语音识别技术支持也不行,谁用谁知道。关键场合,还是得靠人。
同步直播字幕实际上是一项很老的技术了,看过美帝电视直播的人应该基本都见过。
原理很简单:由一个速记员一边听一边速记,然后由计算机把速记符号立刻翻译成单词,直接显示在屏幕上——这种玩法是BBC和Ceefax在70年代创立的。起初Ceefax曾经很天真地设计了一套“所见即所得”的设备,然后发现没有人的打字速度抵得上说话速度。后来他们接待了一个议员,发现他虽然聋了但还是可以“听”懂议会辩论——因为他学会了读速记记录,盯着速记员那里就行了。
受此启发,他们开发出了第一个直接翻译速记记录的机器程序。
(速记符号没啥特殊的啦,就是拉丁字母而已,用很少的键来实现……比如stenotype的键盘是这样的:得到的纪录是这样的:这样的字幕往往会比真实的话延迟几秒钟,这很正常,毕竟人需要反应时间……所以这次直播,油管的字幕也就延迟了几秒。
现在直接语音识别也有了很大进步,但得到很高精度的语音识别需要针对一个人训练。
所以BBC后来想了一个办法:找一个人,把识别软件训练好,然后直播的时候别人说什么,他照着读一遍。这样的识别率就会很好,而不受口音啦背景啦之类的干扰了。不过看起来油管还是用的老办法人工敲。证据见下:这是辩论进行到大概50分钟的时候的字幕。这里克林顿想说的词是reputation,但是字幕却先变成Re再变成Re;b。这种错误肯定是以字母为单位出现的,对语音的识别不会识别出这样的玩意儿……