我们马上可以正大光明地复制 “biáng” 了!

作者: 差评君

来源: 差评

发布日期: 2020-03-17

差评君探讨了 biáng 字的Unicode收录情况,解释了计算机文字编码的历史及其对不同语言的影响,并指出尽管Unicode 13已收录该字,但由于拼音输入法的限制,仍无法直接输入。

作为一个自媒体作者,差评君每天的日常少不了接触电脑、键盘、输入法(和奶茶)。而为了能让大家晚上早点儿睡觉,差评君也没少琢磨打字的技巧——为了打字更快,差评君还学会了双拼打字。不过写了这么久文章,差评君也发现了一些问题是打字快解决不了的:比如打一个在电脑里根本不存在的字。

上面这个字可能有差友觉得眼熟,也可能有差友不认识,这个字念 biáng——“biáng biáng 面”里面的那个 biáng。饿了,想吃了▼但由于 biáng 字只用来表示这道著名的陕西面食,用途太少太过生僻,导致电脑的字符编码集迟迟没有收录,所以电脑里迟迟打不出来这个字。不信的话大家可以试下,我保证评论区里打不出这个字~~

然而最近网上突然有个消息说,Unicode 组织已经把 biáng 字收录进了“CJK 统一表意汉字”的扩展 G 区中,从3月4日开始正式生效。所以这下可以在电脑里打出 biáng 字了吗?陕西的小伙伴们可以在微信里教别人写 biáng biáng 面了吗!

小伙伴们先冷静,事情并不是这样的,因为电脑里的文字编码和输入法还不是一回事。换句话说就是,电脑里能看到的,输入法不一定能打出来。不过要想搞明白这件事儿,差评君得先和大家唠唠电脑里的文字编码是怎么回事儿。

我们都知道,现代计算机是美国人造出来的,他们为了处理文字方便,给26个字母在电脑里设置了一套编码标准。简单来说,就相当于规定电脑里的“一号”字符是“A”,“二号”字符是“B”。只不过这个一号和二号是二进制的“0100 0001”。这就是大名鼎鼎的阿斯克(ASCII)码——又叫美国信息交换标准代码。ASCII 码表在当时不亚于现在的九九乘法表,是计算机处理文字的基础。

然而 ASCII 码有个问题:由于当时硬盘比较小,能有个 1 MB 就算不错的了,所以整个 ASCII 表也只能定义256个字符。于是等到电脑飘洋过海进入其他国家之后,那些不说英语的小伙伴们愤怒了——ASCII 表根本就没给其他语言预留足够的空间。如果我们现在还在用 ASCII 表的话,电脑里的中文字就会缺少很多常见字符。

一时间,各个国家都开始制定自己的文字标准,比较著名的有西欧的 ISO-8859 系列标准、微软的 Windows-12xx 系列标准,以及咱们中国的 GB 2312 文字编码标准。虽然大家自己制定的一些文字编码标准解决了不同语言文字在电脑里存储的问题,但经常是在一个牌子的电脑里能正常显示的文档,跑到别的电脑上就成了乱码。

就好像是没有 USB 充电口之前,功能机和山寨机们各自用着五花八门的充电头一样,谁也不兼容谁。

所以就像充电宝上附带了好多种插头的万能线一样,电脑上的排版软件也得集成尽可能多的文字编码规范,才能做到自动识别出来文档的文字编码,让字符正确显示出来。不过总用万能线也不是个办法,要是大家都用一样的 USB 线该多好啊。

于是上世纪 80 年代的时候,万国码(Unicode)组织就在微软、苹果、Adobe、惠普、IBM 等几个科技巨头们的牵头之下成立了。以前 ASCII 码吃亏在了序列位数不足上,搞得只能存 256 个字。所以这次的万国码直接把序列位数拉到了 16 位。如果从“0000 0000 0000 0000”开始,到“1111 1111 1111 1111”结束全都塞满字符的话,能存上 65,536 个字。

这还不算完,后来 Unicode 又把字符编码扩展到了 32 位,40 多亿个字的存储空间别说全世界的文字了,说不定等以后发现了外星文明的时候依旧够用。

手头宽裕了之后,办起事来自然也就大方得多:在过去的 20 年里,Unicode 不但陆续收录了全世界所有主要的文字,还顺带手把古代汉字以及象形字一类的东西全给收录了进去。《康熙字典》和《四库全书》在列。像我们平常用的 Emoji 表情,也属于 Unicode 文字编码的一部分:在 Unicode 内部还专门有一个小组,负责和表情设计师一起讨论下次应该再加点儿什么表情进来。

收录的东西又好又全,操作系统和文字排版工具们自然就不再需要跟文字编码较劲了,反正选 Unicode 编码就对了。而这次所谓收录了 biáng 字的 Unicode 13,实际上就是 Unicode 标准的第 13 版更新——除了 biáng 字之外,还新收录了 4,939 个生僻的汉字。

其实差评君在这段的左上角给大家复制了一个 biáng 字,不过大家现在可能只能看到一个“口”,或者一个黑底的大问号。嗯,虽然从现在开始 Unicode 13 标准已经正式发布了,不过我们还没法马上用到。这是因为文字编码是内置于操作系统当中的,所以今天只是意味着厂商们可以开始着手集成了,距离我们能正式体验到还有一个系统更新的距离。

等哪次大家更新完系统之后,发现上面的那个 biáng 字可以正常显示了,就代表着操作系统已经更新到最新的 13.0 版 Unicode 文字编码了。不过即使是这样,这个 biáng 字依旧是“只可远观,但打不出来”。因为在我们的拼音规范里没有 biáng 的拼音,权威字典里也没有收录这个字。

实际上,biáng 是一个由 bi(读 bai)和 áng 两个音节组合而成的合音,属于关中地区的方言发音,不能单独作为一个拼音来使用,所以无法被拼音输入法打出来。

而 biáng 字的性质也和“招财进宝”类似,属于民间为了这个发音生造出来的一种臆造字(野字)。而且 biáng 字本身更是在陕西的不同地区存在差异较大的不同写法,把谁收录进字典估计其他地区的朋友都不会同意,所以干脆不费这劲,让它继续野着去了。

所以即使以后电脑里可以正常显示 biáng 字了,我们也依旧没法通过拼音输入法正常把它打出来,只能跑到百科一类的地方复制粘贴。不过今年的时候,也有陕西民俗学家在推动 biáng 字进字典的事宜了,有 Unicode 的示例在前,说不定等再过几年这件事也许还真能迎来个大反转。估计到时候我们就能正常的用 biáng 打出“biáng”字了。

UUID: 1803c548-9993-4732-b61e-ccfcf5e05c7e

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/果壳公众号-pdf2txt/2020/2020-03-17_我们马上可以正大光明地复制“”了!.txt

是否为广告: 否

处理费用: 0.0102 元