将文本建模为关系图用于关系提取

作者: 徐家兴

来源: 学术头条

发布日期: 2019-08-01

本文介绍了一种名为GraphRel的端到端关系提取模型,该模型结合了GCN和Bi-LSTM编码器,能够有效地从文本中提取命名实体及其关系。通过两阶段的预测过程,GraphRel不仅考虑了文本的线性和依赖结构,还优化了实体与关系之间的相互作用,从而在关系提取任务中取得了显著的性能提升。

本文提出了一个端到端的关系提取模型GraphRel,使用GCN和Bi-LSTM编码器学习抽取命名实体及关系,考虑了线性和依赖结构,以及文本的所有单词对之间的隐式特征;通过端到端的实体、关系联合建模,同时对所有实体对进行预测;也考虑到了实体和关系之间的相互作用。

提取实体和语义关系是从非结构化文本构建知识结构的核心任务,传统的流水线方法通常是先进行命名实体识别然后对实体关系进行预测,联合学习实体识别和关系抽取能获得更好的效果,但这些联合模型需要进行大量的特征工程。已有的神经网络方法都不是端到端的联合模型,他们假设已知命名实体并预期现实世界的命名实体识别会导致模型表现显著降低。

GraphRel包括两个阶段的预测,第一个阶段使用Bi-RNN和GCN提取顺序和区域依赖词特征,再通过这些单词特征预测每个单词对的关系和所有单词中的实体。第二个阶段为每一个关系建立一个关系图,再使用GCN使这些关系成为一个整体,从而考虑实体与关系之间的相互作用。本文使用LSTM作为Bi-RNN单元,对于每一个单词,将其词嵌入与POS嵌入结合起来作为初始特征。

由于原始的数据句子没有图结构,本文使用句法依存分析来构建依存关系树,然后使用句子的依存关系树作为输入句子的邻接矩阵,再使用GCN抽取局部依赖特征。

在得到词特征之后就要进行对实体和关系的预测,这里首先移除了依存关系树中的所有边,然后对所有单词对进行预测。

对于每一个关系r,可以学到权重矩阵W^1_r、W^2_r、W^3_r,从而计算出关系得分S,再对每一个S(w1,r,w2)应用softmax,从而得到(w1,w2)每种关系的概率P_r(w1,w2)。第一阶段提取出的实体和关系相互之间没有影响,为了考虑命名实体和关系之间的相互作用,并考虑文本的所有单词对之间的隐含特征,我们提出了一种新的第二阶段关系加权GCN用于进一步提取。

本文在NYT和WebNLG数据及上对GraphRel进行了评估,结果表明,本文提出的的方法优于以前的工作3.2%和5.8%,刷新了关系提取的SOTA。同时,从一些案例也可以看出第二个阶段的GCN的确可以达到抽取出更多信息的目的。

UUID: d04b6ffb-aa13-4a7b-bf8e-6a22d7c299a8

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2019年/2019-08-01_【ACL2019】将文本建模为关系图用于关系提取.txt

是否为广告: 否

处理费用: 0.0033 元