2004年12月18日

Coreference Resolution for Information Extraction

论文题目: Coreference Resolution for Information Extraction 针对信息抽取的指代消解
论文出处: ACL2004 workshop on Coreference resolution
发表时间: 2004
论文作者: Dmitry Zelenko, Chinatsu Aone, Jason Tibbetts
作者单位: 美国华盛顿州SRA International, 4300 Fair Lakes Ct.,Faiefax, VA 22033

摘要:
English:
We compare several approaches to coreference resolution in the context of information extraction. We present a loss-based decoding framework for coreference resolution and a greedy algorithm for approximate coreference decoding, in conjunction with Perceptrpn and logistic regression learning algorithms. We experimentally evaluate the presented approaches using the Automatic Content Extraction evaluation methodology, with promising results.


中文:
我们在信息抽取文本上对比了几种指代消解算法。 我们提出了一种基于损失的解码框架用于指代消解,一种用于近似共指解码的贪心算法,其中联合了感知机和对数回归学习算法。我们在ACE评价方法的基础上实验了我们的方法,获得了很好的结果。

为什么要做这个题目:

指代消解是一个传统的研究课题,研究内容在于确定文本中的话语是否指向现实世界中的同一实体。本文将指代消解限制在针对信息抽取的文本上(命名实体都被抽取出来了)。我们不解决所有的指代消解问题,只是将文本中抽取出来的实体进行分类。
基于抽取的指代消解问题来自于ACE评测中的实体检测和跟踪(EDT)任务。EDT要求检测人名、一般代词、代词等entity mentions,然后将指向同一真实实体的entity mentions合并到一个entity里面。我们采用ACE制定的规范将entity mentions合并后的eneity看成是entity mentions的等价类。
本文中的工作在于将已经抽取出来的Entity mentions合并。


别人怎么做的

共指消解综述
指代消解(Anaphpra resolution)问题已经被广泛研究(详见Mitkov的专著Anaphora resolution),共指消解(Coreference resolution)是和指代消解相似的问题。指代体被称为指代词(anaphora),被指代的词语被称为先行词(antecent)。指代消解将问题限定在名词性(nominal)和代词性(pronominal)的指代词,因此忽视了对于信息抽取非常重要的人名的消解。更进一步,指代消解只研究回指现象(指代词在后,先行词在前)而忽视了较为少见的预指现象(指代词在前,先行词在后)。我们认为共指消解(coreference resolution)是包含预指和回指的人名、名词性、代词性的实体消解。
我们定义文档中的一组entity mentions之间的指代关系coref。任何两个entity mentions之间具有关系coref(x,y),当且仅当x和y之间具有指代关系。
根据包含的entity mentions类型的不同将共指关系划分位以下三个子任务常常是有用的。更精确的说,如果x或y是代词性实体,称为代词消解;如果x或y是名词性实体,称为名词短语消解;如果x和y都是名词实体,称为名词消解。
一个信息抽取系统需要解决三方面的问题。但是不同的模型和算法选择或者适用于名称消解、名词短语消解、代词消解。
大多数早期的指代消解和共指消解工作都是在处理代词消解(Lappin and Leass,1994; Kennedy and Boguraev, 1996)。早期的方法对一篇文档中的每个代词寻找最好的先行词。对“最好”的不同定义产生出了基于话语分析理论的不同的复杂的规则集合。
代词和名词短语消解在九十年代中期由于机器学习方法的应用而得到极大的发展,如Aone and Bennett, 1996; McCarthy and Lehnert, 1995; Ng, 2001; Ng and Cardie, 2002。
消解实例是一对entity mentions的特征表示,用于表明候选先行词和指代词之间的属性。这些特征对于确定待考查的指代词和候选先行语之间的指代关系很有用。消解实例有一个表示是否具有指代关系的属性值,一般用-1和+1表示。大多数的基于学习的系统都需要很大规模的手工特征集。(Ng, 2001)
大量的机器学习方法已经在实验上应用到了共指消解问题上。许多发表的文章都采用决策树算法(Aone and Bennett, 1996; Ng, 2001; Ng and Cardie, 2002)。我们提出了一种全局概率模型用于共指消解:通用概率模型(generative probabilistic)(Charniak et al, 1998)和条件随机域模型(conditional random field model)(McCallum and Wellner, 2003)。
基于学习算法的共指消解分类器的输出需要借助于解码算法(deconding algorithm)来用于划分entity mentions的等价类。一个最为流行的解码算法将将指代词指向最近的一个符合条件的先行词(Ng, 2001)。我们称之为最近链接(link-first)解码算法。另一种可选的解码算法是最佳链接(link-best),将每个候选先行词都计算连接概率,然后挑出最高概率的候选先行词作为最终先行词(Ng and Cardie, 2002)。我们将两种方法都加以考虑并采用新的解码框架下的不同实验来进行对比。
我们的解码算法框架很像(McCallum and Wellner, 2003)的条件随机域模型方法。采用条件随机域的共指解码问题产生了一种相关聚类问题(Bansal et al, 2002)。我们也将共指解码问题简化为相关聚类问题,但是采用了不同的近似方法。
由于缺乏训练数据,我们在名词短语的基础上实现共指聚类。换句话说,名词短语的attribute被用于距离函数,在启发式的聚类算法中产生一个对应于共指消解的聚类划分。


作者提出了怎样的新方法

共指消解框架:共指实例和特征表示、共指实例生成、共指分类器的学习算法、将预测共指分类器结合到聚类话语分析中。
共指实例分五种类型来进行特征表示
共指实例采用的方法是从当前entity mention回退,遇到窗口M之内的共指mention就生成正例,不具有共指关系的mention就生成反例。
共指解码算法采用的是link-first 和link-best方法。
机器学习方法采用的是对数回归和感知机。
构造损失函数来表达对数回归和感知机。但是变换之后的损失函数的求解是NP难问题所以将问题转换为贪心解码算法:先分类,再将分类结果转换为聚类结果。

这种方法从理论上分析有何长处

本文的贪心求解方法算法效率很高

为了验证这种方法的优点作者做了那几个实验,实验结果如何
在ACE2003的英文语料上进行了相关的评测,同样的贪心算法,采用了六种方法

实例生成方法 算法 解码算法 ACE评测得分
连续的 对数回归 link-first 75.9
完全的 对数回归 link-best 74.2
完全的 对数回归 greedy 76.4
连续的 投票感知机 link-first 75.8
完全的 投票感知机 link-best 75.4
完全的 投票感知机 greedy 75.8

ACE2003共105篇英文文本,分为训练文本53篇,测试文本52篇。需要指出的是(LDC,2003)中指出人工标注的水平评分大约在85分左右。在ACE的评测规范中比标准entity中的mentions少的惩罚大于多的情况。

实验是否证明了作者的方法的优越性



还存在哪些问题

ACE的评测是外部评测,我们还需要进行一些内部评测。

个人想到的改进方案或者个人的创新观点

可以和其他机器学习算法进行对比,比如决策树、遗传算法等。

没有评论: