NLP 高引论文解读两篇 | BERT 模型、SQuAD 数据集

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

作者：Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

论文出处：Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies

论文链接：https://www.aclweb.org/anthology/N19-1423/

文章介绍一种新的语言表示模型 BERT（Bidirectional Encoder Representations from Transformers），通过联合上下文信息从未标记文本中预训练深层双向表示形式，只需一个额外的输出层，就可以对预训练模型进行调整，在不需要对特定任务的体系结构进行大量修改的前提下，在多种语言相关任务上获得。

模型包含预训练和微调两个步骤：在预训练阶段，对不同训练任务的未标记数据进行训练。在微调阶段，首先用预训练参数初始化 BERT 模型，然后，使用来自下游任务的标记数据对预训练的参数进行微调。BERT 是一个多层的双向 Transformer 模型，输入包括三个部分，分别为词向量、单词所属句子向量和单词的位置向量。

文章提出两种无监督任务来预训练 BERT，分别是屏蔽语言模型（Masked Language Model, MLM）和下句预测模型（Next Sentence Prediction, NSP）。

模型微调测试了 11 个自然语言处理任务上的效果，包括 General Language Understanding Evaluation(GLUE) 基准测试集中的 8 项评测、SQuAD 1.1 和 SQuAD 2.0 两个阅读理解数据集和 Situations With Adversarial Generations (SWAG) 数据集。BERT 均稳定优于基线方法。

文章提出的 BERT 模型在 11 项自然语言处理任务上取得了最先进的效果。

Know What You Don’t Know: Unanswerable Questions for SQuAD

作者：Pranav Rajpurkar, Robin Jia, Percy Liang

论文出处：Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics

文章链接：https://www.aclweb.org/anthology/P18-2124.pdf

阅读理解系统（模型）通常可以在上下文文档中找到问题的正确答案，但对于没有在上下文中说明正确答案的问题，它们给出的答案也不那么可靠。为了弥补这些不足，文章介绍了斯坦福问答数据集 (SQuAD) 的最新版本 ——SQuAD 2.0，它整合了现有的 SQuAD 中可回答的问题和 50000 多个由大众工作者编写的难以回答的问题。数据集：在 Daemo 平台上雇佣了众包工作人员来编写无法回答的问题。

每个任务由来自 SQuAD 1.1 的一整篇文章组成。文章评估了三种现有的模型架构在两个数据集上的表现，让这些模型不仅去学习答案的分布，而且也去预测一个问题是不可回答问题的概率。文章证明了 SQuAD 2.0 是一个具有挑战性的、多样化的、大规模的数据集，它迫使模型去学习什么情况下一个问题在给定的环境中是无法回答的。

我们有理由相信，SQuAD 2.0 将会促进新的阅读理解模型的发展，这些模型能够知道他们不知道的东西是什么，从而能在更深层次上理解语言文字。