近日,清华大学计算机系与智能产业研究院的机器翻译研究团队发表了一篇关于神经机器翻译技术的最新综述论文,文章对神经机器翻译方法进行回顾,并重点介绍与体系结构、解码和数据增强有关的方法,总结了对研究人员有用的资源和工具。最后,还讨论了该领域未来可能的研究方向。
ResNets王者回归!谷歌、伯克利联合发文:它当初输给EfficientNets不是架构问题。
谷歌大脑和UC伯克利近期联合发表了一篇论文,这篇论文对何恺明等人2015年发表的ResNet为骨干的ResNets系列网络做了重新回顾和研究。在本篇论文中,研究人员提供了两种新策略:1、如果可能过拟合,则缩放模型深度;否则,缩放模型宽度;2、增加图像分辨率的速度比以往的论文中推荐的速度更慢。基于这些想法,研究人员开发了新的架构ResNet-RS。
在GPU上训练的结果比较得出,它比EfficientNets快2.1-3.3倍,同时在ImageNet上达到类似的准确率。在半监督学习中,ResNet-RS达到了86.2%的ImageNet Top-1准确率,同时比EfficientNet-NoisyStudent快了4.7倍。同时,ResNet-RS在下游任务的迁移学习上也提高了性能。
最后,研究人员建议使用这些ResNet-RS作为进一步研究的基准。
全球最大的公开人脸数据集发布 | 清华大学 & 芯翌科技联合发布。人脸识别领域,中国队再次传来捷报。全球最大规模人脸数据集发布,首次包含数百万ID和数亿图片。由芯翌科技与清华大学自动化系智能视觉实验室合作,所推出的WebFace 260M,相关研究已被CVPR 2021接收。
并且,基于其所清洗的数据集WebFace42M,在最具挑战IJBC测试集上,也已经达到了SOTA水平。而它所带来的“全球之最”还不止于此。以这项数据集为基础,芯翌科技在最新一期的NIST-FRVT榜单上,戴口罩人脸识别评测中斩获世界第一。WebFace260M这个数据集,是完全基于全球互联网公开人脸数据。
它的问世,一举打破了此前人脸数据集的规模:不仅规模最大,也是首次在人脸ID数目和图片数,分别达到了400万和2.6亿的规模。此外,研究人员还提出了基于自训练全自动迭代的清洗流程(Cleaning Automatically by Self-Training, CAST)。这种方法的灵感来自于对互联网人脸数据的观察和分析。
同时,针对目前人脸识别的评测问题,研究人员发布了更贴近实际应用的“时间受限人脸识别评测准则”-FRUITS (Face Recognition Under Inference Time conStraint),和分布更广泛、更具挑战性、分类更细致的人脸测试集,这将推动人脸识别评测更靠近真实场景。
AI制药里程碑:仅耗时18个月,花费200万美元,AI成功开发出新药并推进到临床前。
目前,人工智能已经在手机AI、人脸语音识别、围棋等领域大显身手,并且在不断扩大其应用领域。值得注意的是,一直以来“AI+医疗”被人们寄予厚望,它可以在减轻医疗负担的同时,减少误诊漏诊的的发生。新型药物的推出,需要经过药物发现、临床前研究、临床研究和审批上市等多阶段,这往往需要耗费十几年乃至数十年的时间,以及数十亿美元的成本,然而其失败率却高达90%以上。
近年来,人工智能被应用于制药领域,并被寄予厚望,使用人工智能在海量的数据中筛选新的治疗靶点和新药物,有望减少药物发现所需的时间和高昂成本。近日,总部位于中国香港的国际知名AI制药公司Insilico Medicine(英矽智能)宣布,他们通过人工智能发现了治疗肺纤维化的新靶点,然后从无到有设计了一个新的药物分子来靶向这个靶点。这也是全球首次利用人工智能发现新机制特发性肺纤维化药物。
通过多次人体细胞和动物模型实验,证明人工智能研发的新药物靶点和药物分子的有效性和安全性,这一突破标志着业界首次对人工智能发现的药物进行科学验证,并将其用于新药研发,直至候选化合物的临床前研究。而且,整个研发过程只花了不到18个月的时间和大约200万美元,刷新了速度和最低成本记录,在大大加快和推进临床前开发的同时,节约了大量药物发现成本。