可以说,我们的整个世界都被数据的洪流淹没,而年仅33岁的计算机科学家Anshumali Shrivastava或许能挽救我们于这股汪洋之中,使我们免于被淹没的命运。每一天,超过10亿张的照片会在网络上发布;每一秒,大型强子对撞机(LHC)就能产生上百万GB的观测数据;大数据的膨胀速度比目前计算机程序分析它的速度还要快。
Shrivastava正在设计的便是一种新一代的人工智能程序,能有效地对海量信息进行处理。MIT的电气工程师和计算机科学家Piotr Indyk认为,Shrivastava在管理庞大数据集的策略上非常具有创造性,它们清晰、漂亮,而且很好用。Shrivastava之所以进入人工智能领域,是因为能用于解决现实问题的数字运算算法,能够让他“看见”数学在发挥作用。
然而,当Shrivastava在康奈尔大学攻读计算机科学博士学位的时候,他才认识到人工神经网络——这个目前最好的人工智能程序是多么低效。神经网络是由被称为人工神经元的代码片段组成的。当人工智能网络要学习一项任务,比如图像识别时,它可能要研究已经分类标记好的图像,让网络中的每个人工神经元获得识别特定图像模式的专业知识。
即使每个神经元都做到了专门化,一个典型神经网络中的所有神经元仍然会持续学习所有的输入信息。在研究生院,Shrivastava找到了一种只激活与输入最相关的神经元的方法。他用到了哈希函数(hash function),这是一种在数据库中组织记录的计算工具。
Shrivastava创建了一组哈希函数,根据网络中的虚拟神经元与给定输入的相关性,来组织并快速定位这些神经元,这样就可以找到所有与猫有关的神经元,而忽略与卡车相关的神经元。这项工作在2014年的神经信息处理系统(NIPS)大会上获得优秀论文奖。从那以后,Shrivastava建立了一个图像分类的神经网络,它的工作效果和标准神经网络差不多同样好,但是使用的计算量减少了95%。
自从2015年加入莱斯大学以来,Shrivastava还发展出了其他简化计算的方法。最近,Shrivastava与来自莱斯大学和杜克大学的同事将哈希算法应用到叙利亚内战受害者的数据库中。为了找到重复记录,所得到的354000条记录需要计算机用时超过一周来进行比对。
然而,当Shrivastava的计算机程序为四个受害者数据库中的每个记录都分配了一个哈希码之后,计算机就能利用这些代码在几分钟之内识别出可能的重复。此外,Shrivastava和同事还开发了一个智能手机应用程序,可以根据一个人周围环境的照片来导航购物中心或其他大型建筑。这个应用程序将用户拍摄的照片提取为哈希码,与参考照片的哈希码进行比较,可以在两秒内确定位置。