实体分类是知识图谱构建和补全的重要子任务,其中细粒度实体分类为实体提供了更加丰富的语义信息,有助于关系抽取、实体链接、问答系统等下游任务。
传统的命名实体识别(NER)面向粗粒度的类别,比如人物、地点和组织机构等,对实体的刻画不够精确。实际生活中,我们需要更加细粒的类别来刻画实体,提供更加具体的语义信息。以关系抽取为例,细粒度类别的信息能很大程度暗示候选的关系。于是下游应用催生了细粒度这个任务。
FGET定义及问题:Fine-grained Entity Typing,给定候选及其上下文预测可能的集合 (Type)区别 NER vs FGET:识别边界NER从文本序列中识别出类型当作序列标注来处理FGET通常已经给定有层级的多标签分类来处理;类别层级NER面向较少数量因为搜索空间大限制了FGET几十个或者上百个需要考虑subClassOf关系;FGET难点在于远程监督带来的噪音现有的数据集大多数使用distant supervision方法将链接到知识库中的某个并把这个在全部赋予这种做法没有考虑因此会引入噪音包含上下文无关类别的噪音过于具体的噪对于单一的一般保持一致这时可以接受但是对于复杂的尤其像这类实我们需要考虑远程监督带来的问题首先如何得到一个树?
有了之后我们应该如何建模这种也是一个难点相关下表是目前常用的三个数据集FIGEROntoNotesBBN不同的论文训练验证测试划分会有一些差别这里参考ACL-20最新的工作类的数量从几十到上百之间通过subClassOf组织成2-3层的结构1)FIGER数据集中是从Freebase挑选出来把较少的进行了合并提出较早存在一些问题比如较大但只有500多个样本不是所有的都在出现过在使用时通常都会重新划分为该全部加粗黑色字体表示对应方框内的是其子右下角是比较难区分的2)OntoNotes同样从前筛选同样从Freebase筛选层次结构更清晰整个体系包含三层比如person在第一artist第二actor第三并且最顶常用工具使用的集合可以起来3)之前介绍的数据集比较少简单TypeNet超过1900构造时候参考了WordNethierarchy结同样出发首先过滤一些包含较少并且去除API相关的每个剩下的通过字符串匹配的方式产生所有候选人工标注者会判断如果没有调用直到找到合适的由于Hierarchy比较深因此要高于前面的三个4UFET近两年得到了广泛关注特点特别多包括9个粗121特别超过Kmention覆盖范围也不局限于还包括代词名词短语黄色部分前面没有覆盖到的增加了HeAIresearcher这些一般找不到对应的增大带来了更大的挑战在中%都被标记为主要也是因为Other比较多PersonLOCORG占比也比较高而各类分布相对均匀符合实际情况中有6K条人工每条5平均一个得到.剩下的是三种使用维基百科提取中心词表格给出了对比中文虽然规模大还是英文近期也有研究者做了类似构造方式同时使用了的方法合理相信今后更多的a基本框架后续的工作也主要是解决前面提到的两个挑战即降低distant supervision带来影响然后梳理后续工作如何处理之间的b投票法如图所示如果认为ABCD都是某个但是三个都认为是错误最终会将D删除c层次建模的方法标准化过程中模型倾向于那些generalhighlevel如果要具体需要在context中找到强的指示信整数规划CIKM提出的METIC假设我们知道理论上一种融合就可以收集全如图所示假如我们有trump第一个结果政客第二个商人和演员第三个建筑这是导致的结果将检查一下有没有冲突就可红色表示没有通过会被丢弃掉应用针对使用了提升了效果这个模型将所有句子成bag每个计算向量利用别名OpenIE短phrase计算权重向量输入softmax器进行在中表明能够提消歧帮助核心目标在于消除mention歧义性看作属性获得了所有的理论上只要足够小就交定位应该链接下面介绍基于entity typing结果这一只用了足以证明不但能够提供重要的特征相应的也非常好的泛化能力展望未来的方向小现有主要集中在包括常用近期才有被提还有很多缺乏高质量还需要进一步研究借鉴taxonomy induction方法构造合理的分协同往往针对单如果多个用一种可能更zero-shot确实可能会遇到没见过的new type描述memory增强跨语言统一目前主要集中在锚文本其他理论上是可利用共同训练迁移学习domain adaptation最后还是要结合在一起才能最大地发挥其价值整理鸽鸽审稿金海龙直播回放https://www.bilibili.com/video/BV18z4yX7dx点击阅读原文下载PPT!
喜欢本篇内容请分享点赞