随着人工智能的落地,曾经只在科幻电影中出现的人脸识别技术已经被广泛应用。我们早已习惯于往摄像头前一站,就能迅速地穿梭于机场、火车站,还能顺便在商铺里买杯奶茶。但即便当今的AI人脸识别精度已经超越人类的判断力,但我们也不需要特别依赖它来认人。因为我们自己就进化出了专门的脑部区域(枕骨面孔区和梭状回面孔区),用以精确快速地识别人类面孔。然而,人类对动物面孔的识别,可就没这么给力了。
同样是耳朵、鼻子、眼睛,铲屎官却常常认不得自己朝夕相处的猫猫狗狗。对人工智能来说,只要给机器“投喂”足够多且具有一定质量的图像数据,它就很有可能获得比人类更强的识别动物面部的能力。我国科学家团队还就真做了这样一项有趣的研究:一套能够识别金丝猴个体的“猴脸识别”系统,该成果还在2020年成为iScience的封面主题。
不同于以往只能对物种进行分类的技术,我国科学家们研发的“Tri-AI”系统,可以做到迅速从照片或视频中检测识别、甚至追踪到不同的“猴脸”。模型训练的过程,和人的学习过程有些类似。一个未被训练过的模型,好比一个没有吃过苹果的人,他无法判断怎么选好吃的苹果。当他吃了足够多品种、颜色的苹果后,他就能知道什么样的苹果更甜。
对于机器来说,我们可以向它“投喂”许许多多苹果的颜色和酸甜度标签,通过这些数据,机器能够计算已知苹果的颜色和酸甜度的关系,获得根据苹果颜色判断酸甜度的能力,就是一个模型训练的过程。
保质保量地进行猴脸图像数据收集是训练猴脸识别模型的前提。只有收集到数量足够多、质量足够好的猴脸图像样本,才能让机器更准确地学习到它们的面部特征。
尽管野外环境复杂,动物们也不像人类一样会主动看镜头喊“茄子”,我国的科学家们还是顶着重重困难收集到了珍贵而丰富的图像样本库,并同这一研究成果一起慷慨地分享给了全世界。科学家们最终成功地给机器“投喂”了102,399个图像资料,其中包含1040只已知身份灵长类动物。当然,除了这些可以打包放进机器肚子里的图像,还有许多不计其数被淘汰的样本。可见,样本收集这一过程是多么耗时费力。
“Tri-AI”系统一共分为目标检测(确定图像中哪个框框内是猴子脸)和对象识别(区分这张脸到底是哪只猴子的)两大部分。其中,目标检测使用了Faster-RCNN技术,对象识别则采用了深度学习中有名的注意力机制(“Attention”),这二者都是具备神经网络结构的模型。
神经网络的数学模型从结构上有些类似于人类大脑神经元之间连接组成的网络:输入的数据进入处理数据的“神经元”,处理数据的“神经元”之间互相连接。就像是一张打满了结的大网,每一个结就是一个处理中心。
完成这一研究成果的科学家表示,除了金丝猴和灵长类动物之外,更有其他四种食肉动物的图像数据被加入到模型中,而且经过不断的训练和优化,这一技术也有望达成对其他物种的通用识别。
针对动物的面部识别技术不仅仅可以应用于猴子,还具备广阔的落地方向。其中一种,是应用于畜牧业中。此前,养殖场对动物的管理,都是通过编号进行的,不仅需要在动物身上做标记,也需要额外的人力对饲养动物的成长周期、饮食健康等进行管理。目前,已有养牛场、养猪场甚至养鱼场纷纷落地了基于动物面部识别的人工智能管理系统,在节约人力成本的同时还能提升畜牧业管理的精细度。
还有一种,是应用在野生动物保护和科普教育上。成都大熊猫繁育研究基地专门训练了针对熊猫个体的“熊猫脸识别”系统,不仅可以应对追溯熊猫个体之间亲缘关系的濒危物种保护和科研需求,也可以被动物园使用,更好地进行科普教育。此外,动物面部识别在宠物管理、动物进出口等诸多领域也大有可为。随着人工智能相关基础设施的铺开,这一技术的更多落地方向未来可期。