100年前的盲人，怎样读完一本普通印刷书？

拥有正常视觉的人们，看书靠的是光线。白纸比较亮，黑字比较暗，肉眼就在明暗交错之间分辨出了文字。那视觉缺失的人靠什么来阅读？一种是靠触觉，有盲文书可以摸。一种是靠听觉，当一些书没有翻译成盲文版，说不定还能找到有声读物。假如现成的有声书也找不到，盲人要怎样读起一本普通印刷书？

早在1913年，英国伯明翰大学的物理学家埃德蒙·富尼耶·达尔贝（Edmund Fournier d'Albe），就展示过一台帮助盲人听书的扫描仪，取名“Optophone”（光电阅读装置）。几年过后，设备又被一家科学仪器制造商改造成了更实用的版本。当机器从左到右扫过一行字，用户的耳机里便会传出声响。只不过，那声音不是语音，而是一些音符的排列组合。不同的音符组合，代表不同的字形。

比如，字母T有一横一竖，横用一个单音拉长来表示，竖用和弦来表示。这里用到的音符，最高到嗦（SOH），最低到低八度的嗦（SOH）。字母T对应的音符丨Tiffany Chan而音符的高低，体现了墨迹在纸上的位置高低：T的一横在最上面，把最高的音符嗦（SOH）拉长即可，而T的一竖由上到下都有墨迹，可以把嗦（SOH）发（FAH）咪（ME）来（RAY）哆（DOH）五个音同时奏响，就是一个和弦。

那么，字母T出现时，耳机里应当先发出连续的嗦（SOH），中间出现一个短促的和弦，最后再回到连续的嗦（SOH）。一个字母，一个单词或是一段话，都可以用一串音符“写”下来：单词“Type”对应的音符组合丨Tiffany Chan只要提前熟悉字母和音符串的对应关系，盲人就可以听出一本书的内容了。把字形翻译成音符，从规则上看并不复杂，但也只是这台机器的一部分工作。

而在此之前，它总得先看出书上印着怎样的字形，才能开始翻译。所以，自动扫描文字，才是重中之重。硒看得出黑和白开头说到，肉眼是靠光线分辨纸上的文字。从黑字上返回眼里的光很弱，不像白纸的反光那么强。但机器如何做到类似的感知？科学家想到了硒，这种物质的电阻会随着光照强度而变化。

在硒两边连上电池，当光打在墨迹处，再反射到硒表面，硒的电阻会比较大，通过它的电流就小些；光从纸面的空白处反射到硒表面，硒的电阻会比较小，通过它的电流就强些。硒两边连着电源，打光和不打光，电流大小不同丨参考文献[1]光照条件不同，转化出的电信号也不同，这样就可以用硒做光电探测器。当它从左到右扫过一行字，信号强弱会随着黑白交错而变化，这不难理解。

问题是，墨迹位置是高是低，比如T那一横在上还是在下，机器怎么知道？要用不同的光束，扫描不同的位置。假如把一行字分成上下五层，就需要五束不同的光来扫。所谓不同的光，是说每束光打在硒表面，产生一种独有的电信号，区别于另外几束光。这样才能分清，光是从多高的位置打来。把一行字，分为上下五层丨参考文献[1]那如何把一束光分成五束不同的光？这里有个多孔的圆盘，孔一共有五圈。

当圆盘以每秒30转的速度旋转，把一束光打过去，透出圆盘的光就被分成了五束，且是五束断断续续（或者说快速闪烁）的光。多孔圆盘丨Wikimedia Commons、参考文献[1]光断断续续反射到硒表面，通过硒的电流就会出现波动。而这五束光造成的电流波动各不相同：因为五圈的孔数都不一样，孔越多，光被切断得越频繁，电流波动的频率也越高。于是有了五束不同的光。

让它们分别打在高低不同的位置，便可以根据电流波动的频率，判断光是从高处还是低处反射而来。T的一横在上在下，就不难分辨了。圆盘把光线分成五束不同的光丨参考文献[1]用户听到的音符，也是按电流波动频率分配的。至于要用什么工具来感知电流的波动，电话听筒里的传感器便可胜任。以当时的技术，小到10^-6安培的电流波动都能被检测到。

听到的是黑还是白机智的你可能发现，照上文描述的原理，电流信号强的是空白处，信号弱的是墨迹处。所以，用户听到的音符代表的不是墨迹，而是墨迹周围的空隙？1913年的初代产品正是如此，用户没听到的那些音符才表示墨迹的位置。而扫描到单词与单词间的空格时，所有音符还会一起奏响。因此，发明者把它称为“白色发声的光电阅读装置”（White-Sounding Optophone）。

它播放的音符组合太过复杂，以至于用户中的佼佼者玛丽·詹姆森（Mary Jameson）经过训练，平均一分钟也只能读一个单词。但她依然成为了第一个读到普通印刷书的盲人。1918年，科学仪器制造商Barr & Stroud改进了设备，在光电探测器里加入第二枚硒做的感光元件。光线通过圆盘后，一部分光依然去扫描文字，反射到第一枚感光元件；另一部分光没去扫描文字，直接被转向第二枚感光元件。

多加一枚感光元件丨Popular Science把两枚感光元件的信号结合起来，就能抵消掉空白部分的信号。如此，耳机播放的音符便代表墨迹，代表字母形状，而空白部分静音了。这个版本也被称作“黑色发声的光电阅读装置”（Black-Sounding Optophone）。当然，它的优点不止是音符的组合变得简单而已。

初代设备的构造比较脆弱，哪怕只是有人从旁重重地走过，一些元件也可能滑到不对的位置，影响正常扫描。改良后的设备要稳定许多。除此之外，改良后的版本还增加了调节扫描速度的功能，最快5秒、最慢5分钟扫描一行，用户可以根据自己辨识音符的熟练程度来选择快慢。玛丽·詹姆森在读《瓦尔登湖》丨Blind Veterans UK玛丽·詹姆森也用上了这种“黑色发声”的改良版。后来，她的阅读速度达到每分钟60个单词。

玛丽成为了光电阅读装置的重度用户，从学生时代一直用到晚年。但对大部分人来说，音符的组合听起来可能还是太复杂。而且，有些形状相近的字母如“u”和“n”，很容易混淆。除了使用门槛，价格也令人却步。1920年的35英镑，大概相当于今天的1500英镑（约合1.3万人民币）甚至更多。

1920年，伦敦一栋房子的平均价格大约320英镑丨Hillarys另外，当年英国盲人协会正努力向全国普及盲文资源，而光电阅读装置可能给盲文的推广带来威胁，也就得不到协会的支持，销量一直少得可怜。不过，商业上不成功，未必代表技术的失败。谁都可能需要的技术1949年，美国无线电公司（RCA）的工程师们借鉴了光电阅读装置的原理，为盲人群体制造出一种新的阅读机器。

RCA阅读机器，能播放字母的发音，如“A——”丨参考文献[5]它也要把光打在纸面，再反射到光电元件上，由此区分字母的形状；它也有个喇叭，负责喊出相应的声音。不过，发光装置不再是一盏灯加个多孔圆盘，而是阴极射线管；光电元件不再是硒，而是光电管；喇叭喊出的不再是代表字形的音符，而是真真切切的字母。最重要的是，中间多了一个部件叫“电子分析仪”。

它收到光电元件发来的信号之后，要从26个字母里挑出与信号相符的字母，才能指挥喇叭读出来。一种主流观点认为，这就是世界上第一台能完成光学字符识别（Optical Character Recognition，OCR）任务的设备。拍照翻译丨AFP后来，随着计算机技术的发展，OCR算法越来越精密。如今，人工智能/机器学习又为OCR注入了一小撮灵魂。现在OCR的服务对象，早已不止盲人群体。

每个人都可能有那么一刻，需要把图片里的大段文字复制出来，或把外国字符拍下来直接扔给翻译软件。人们甚至会觉得，能用上这样的技术是理所当然的事。但最初让OCR这个概念成为可能的人，也许还是100多年前发明光电阅读装置的埃德蒙·富尼耶·达尔贝博士。