“验证码”真的是然并卵吗？

说起“验证码”，恐怕大部分人都会流露出不悦的表情。在搜索引擎里输入“验证码”“发明”这两个关键字，搜索页面会弹出成千上万个表达群众不满的结果：“谁发明了万恶的验证码？”“发明验证码的人你出来，我保证不打死你”……

互联网的发展历史不长，验证码当然也很年轻。一开始，网络上是没有验证码的。那时想要在论坛上发帖，只需轻轻敲一下回车键。

然而，那个时代却没有大家以为的那么平静，当时的黑客也十分猖狂：他们编写了一种能够大量、重复编写信息的程序，伪装成人类用户，肆无忌惮地朝网络上倾倒大量的、无意义的“僵尸”信息，垃圾邮件、垃圾广告、垃圾评论到处乱飞。论坛被灌水，有用的信息很快会被淹没，很多网站的正常运营遭到破坏。除此之外，还有数之不尽的程序机器人使用不断尝试的方法恶意破解密码、恶意刷票，从中获取非法的利益。

强而有力的程序机器人如同霸王龙一样横行霸道，网络世界一片狼藉，眼看着就要失控了。

其中，受影响最大的当属电子邮件的提供商：他们的用户每天收到数以百计的垃圾邮件轰炸，严重地影响了正常的工作；更要命的是，这些垃圾邮件还是用他们的免费邮箱发出的。他们不可能一一审查邮件，因为那既不尊重隐私，工作量也太大。难道就没有任何手段约束程序机器人了吗？

当时最有实力的邮件提供商Yahoo（雅虎）公司决定下狠劲改善这个问题。很快，雅虎的负责人联系到了当时卡内基梅陇大学一位21岁的学生，他叫路易斯·冯·安（Luis von Ahn）。

路易斯是一个计算机天才，17岁进入卡内基梅陇大学，在大学时期，他凭借良好的表现获得了导师曼纽尔·布鲁姆（Manuel Blum）的赏识，他的傲人履历也很可能是雅虎向他伸出橄榄枝的原因。

在研究过程序机器人的“工作手法”之后，他给出了一个独特的方案：在用户进行操作之前，就将那些机器人从正常用户里揪出来。大家都知道图灵测试的目的是将机器伪造成人类，而路易斯的方案就是“反”过来：通过简单的方法将试图伪装成人类的程序机器人鉴定出来。

路易斯发现，人类可以用肉眼很轻易地识别图片里的文字信息，而机器就不能。当时的计算机辨识技术还很落后，对于那些镶嵌在图片中的、被扭曲过、污染过的文字无法辨识，而人类只需要稍稍皱眉就可以识别出来。路易斯在导师布鲁姆的帮助下很快设计了一个程序，它先是产生一个随机的字符串，比如smwm，然后对这串字符进行随机的扭曲、重叠、污染，再显示给要进行操作的用户。只要能够识别这个变形了的smwm的，就是人类。

21岁的路易斯·冯·安发明了验证码后真是名利双收，但他享受了掌声和鲜花后冷静了下来，为一件“小事”感到耿耿于怀：全世界的网民每天要输入验证码接近2亿次，假设每次花费10秒，那么算下来每天要花费50万小时。这个时间如果能利用起来，那将会有多大的力量啊。路易斯将目光投向了旧书摊。

信息时代来临之际，很多古旧的书籍报纸需要整理成电子版，但是电脑扫描辨识时常常出错，因为这些旧资料常常不可避免地有着字迹模糊、褪色、污损的情况。路易斯比任何人都清楚电脑在辨识文字上有多笨拙。唯一的方法是人工核对。但这样的工作显然不是一个人或者一个公司可以胜任的，为什么不让网民们来帮忙呢？

说干就干的路易斯很快开工了：他扫描了一些过期的旧报纸，将扫描得到的图片在计算机的分析下拆开成单词片段，再将这些单词作为验证码发送给用户。有人要问了，先前的那些验证码，系统是知道答案的，但这些书籍拆下来的单词，系统自己也搞不清楚答案，那怎么知道用户的判断结果对不对呢？

路易斯用一贯简洁优美的思路解决了这个问题，并将它起名为reCAPTCHA（意思是“二次验证码”）：他让用户一次性辨识两个单词，其中一个是系统生成的真正的验证码，另外一个是从旧报纸上截下来的单词。如果用户输对了第一个验证码，那么输对第二个单词的几率也很高。

为了防止恶意捣乱、提高答案的可信程度，路易斯后来还要对两个验证码进行加工，让它们成为“孪生子”：下面左边的这个morning，就是从旧报纸里截取出来的，是不是跟右边的overlooks长得很像呢？如果用户分不清那个是真验证码，哪个是“假验证码”，他们会更配合工作。路易斯还将同一个未知的单词输送给多个用户，如果所有用户辨识的结果一致，都是“morning”，那么就认为这个单词被“搞掂”了。

我们知道，验证码实际上就是一种人机大战。随着电脑技术的飞速发展，有效的图像识别技术已经被开发出来了，路易斯在世纪初开发的那种简单验证码在尖端的破解手段面前，差不多就像是个拄着拐杖、摇摇晃晃的老头，一推就倒了。先不要惊恐，目前大部分网站使用的文本验证码还是有用的；尖端的图像识别技术需要花费大量时间金钱成本，黑客们是不会用它们来破解你的博客、窥探你中午打算吃什么的。

只有那些涉及机密、金钱利益的网站，比如网上银行、购物网站等受到了较大的威胁。为了防止财产损失，这些网站纷纷推出了各种进化版的验证码。主流的验证码都是静态图片，有些网站推出了动态的验证码，令机器人很难捕捉，同时动画效果能够增加网页的美观程度；很多大型的购物网站要求发送手机短信验证码，确保操作用户是本人；又或者是问用户一个常识性的问题，比如“牛奶和汽油哪个可以喝？

”——总之就是一些机器不会、但是人类可以轻易做到的事。