当前位置: > 财经>正文

达摩院文档级关系抽取新SOTA和零样本关系抽取新任务 黄金股票跟实体价格的关系图解

2023-09-01 08:06:33 互联网 未知 财经

达摩院文档级关系抽取新SOTA和零样本关系抽取新任务

具体的任务定义为:给定一个文档 D,其中的实体数目为 N,模型需要预测所有实体对之间的关系,总共需要做 N(N-1)个实体对的关系分类。

目前,文档级别的关系抽取依然面临四个方面的挑战:

第一,大部分文档级别的实体关系横跨多个句子,关系抽取模型需要捕捉更长的上下文信息。

第二,同一文档中包含大量实体,文档级别关系抽取需要同时抽取所有实体间的关系,其复杂度与文档中的实体数成平方关系,分类过程中存在大量的负样本。

第三,文档级别关系抽取的样本类别属于长尾分布,以清华大学发布的 DocRED 数据集为例,频率前十的关系占到了所有关系的 60%,而剩下的 86 种关系只占全部关系三元组的 40%。

第四,由于文档级别的数据标注任务较难,现有的数据集中人工标注的训练数据十分有限。大量的训练数据为远程监督 [2]的训练数据,而远程监督的数据中存在大量的噪音,限制模型的训练。

1.2 模型介绍

鉴于以上的挑战,我们提出了一个基于知识蒸馏的半监督学习框架,和一个新的关系抽取的模型。

▲ 图1.1 模型概况

如上图所示,在前人工作 ATLOP 模型 [3]的基础上,我们提出的模型主要提供了三个新的模块,第一,我们利用轴向注意力机制 [4]来提取实体对表示之间的相互关系,如上图所示,图中的红色部分代表实体对(e3,e6)的相关区域,例如假设 e3 为杭州,e6 为亚洲,而中间实体 e8 为中国,那么(e3 杭州, e6 亚洲, 大洲)这一关系可以通过(e3 杭州, e8 中国,国家)这一三元组和(e8 中国,e6 亚洲,大洲)这一三元组联合推理得到。

第二,为了缓解关系抽取数据中的样本不平衡的问题,受 Focal Loss[5]启发,我们提出使用 Adaptive Focal Loss 来提高模型在长尾关系上的表现,具体形式为缩放高频关系的概率输出以及放大一些低频关系的概率输出,详细的方法在文章的章节 2.2.2 中。

第三,我们在训练过程中利用知识蒸馏的机制来过滤远程监督数据中的噪音。DocRED 数据集中包含大量的远程监督的数据,传统的方法仅采用远程监督数据进行预训练,而忽略了远程监督数据中的噪音,我们将这一基准方法记为 Naïve Adaptation(NA),作为对比我们将知识蒸馏 [6]的方法记为 KD,我们首先利用 DocRED 的少量人工标注训练数据训练一个老师模型,再利用这个老师模型,对于所有的远程监督数据进行预测,其输出的概率分布会被作为软标签。

接下来我们会基于这些软标签,和远程监督数据中带有噪音的标签训练一个结构相同学生模型,学生模型的训练过程中有两个损失函数,第一个就是之前提到的 Adaptive Focal Loss,用来学习远程监督数据中的标签。第二个就是基于老师模型输出的软标签计算的均方误差(MSE),这一损失函数可以尽可能让学生模型的输出更接近于老师模型,这两个损失函数将会被相加并共同训练。最后,所训练得到的学生模型会进一步在人工标注的数据中进行微调,得到我们的最终模型。

1.3 实验分析

▲ 表1.1 DocRED以及HacRED数据统计

为了验证我们模型的有效性,我们在 DocRED[1]数据集以及 HacRED [7]数据集(表1.1)上进行了实验。

▲ 表1.2 DocRED实验结果

我们的实验结果如上表所示,其中我们的模型记为 Ours-B-b 和 Rb-l 分别指的是 Bert-base 和 Roberta-large 语言模型。我们的模型相对于之前的基线模型均取得了显著的提升,并且在 DocRED 排行榜上,我们的 KD-Roberta 模型相对于之前的 SOTA-SSAN-NA[8]提高了 1.36 F1 以及 1.46 Ign_F1。

▲ 表1.3 DocRED开发集消融实验

在 DocRED 数据集上,我们针对高频关系(前十种关系)以及长尾关系(剩余 86 种关系)进行了消融实验,从上表(表1.3)可以看到,我们的 AFL 和轴向注意力模块都能有效提高模型在长尾关系上的表现。

▲ 表1.4 HacRED实验

我们同样在 HacRED 数据集上做了对比实验(表1.4),但由于 HacRED 尚未公布测试集,我们只汇报了相同场景下开发集的结果。

1.4 错误分析

▲ 表1.5 错误分析

▲ 图1.2 例子分析

我们对目前最好的模型进行了详实的错误分析,我们首先根据实体对将预测出来的三元组与标注中的三元组进行了比对,其中实体对与关系同时预测正确,记为Correct(C),如果实体对预测正确,而预测出来的关系是错误的,记为 Wrong (W)。如果测试集中标注的关系预测为‘No Relation’,我们将其视作未预测出的三元组,记为 Missed(MS)。最后我们将模型预测出有关系,但测试集中未标注的三元组记为 More(MR)。

这一些错误的统计结果在表 1.5 中有所体现,我们可以看到预测错误(W)的占比相对于 MS 和 MR 较小。而 MS 和 MR 的比例相当,根据我们进一步的分析,我们发现 MR 的三元组中,存在一定数量的正确三元组,如图 1.2 所示,该文章描述了一名挪威的政客,在标注数据中,Hol 是挪威的一个城市,而文中出现的 Vestvågøy 同样也是挪威的一个城市,在同一标准下,Vestvågøy 理应同样被标注。这一发现反映了 DocRED 数据中可能存在漏标的现象,这一发现可以为未来文档级别的关系抽取提供一定的思路和启发。

1.5 总结

综上所述, 我们提出了一个基于知识蒸馏的半监督学习框架,并且基于轴向注意力和自适应聚焦函数提出了一个新的文档级别关系抽取的模型,并且在 DocRED 排行榜显著超过了 SOTA 的表现。

RelationPrompt:通过提示语言模型的数据生成来解决零样本关系三元组抽取任务

本小节工作来自论文:RelationPrompt: Leveraging Prompts to Generate Synthetic Data for Zero-Shot Relation Triplet Extraction, in ACL Findings 2023.

论文

版权声明: 本站仅提供信息存储空间服务,旨在传递更多信息,不拥有所有权,不承担相关法律责任,不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请发送邮件至 举报,一经查实,本站将立刻删除。