2004年12月13日

Multi-Document Person Name Resolution

Author: Michael Ben Fleischman, Eduard Hovy
Conference: Proceedings of the Workshop on Reference Resolution and its Applications. ACL2004
Summary:
English:
Multi-document person name resolution focuses on the problem of determining if two instances with the same name and from different documents refer to the same individual. We present a two-step approach in which a Maximum Entropy model is trained to give the probability that two names refer to the same individual. We then apply a modified agglomerative clustering technique to partition the instances according to their referents.

中文:
多文档人名消解注重解决确定两个不同文档中的人名实例是否指向同一个实体的问题。我们提出了一种分两步的解决方法:采用最大熵模型来训练两个人名指向同一实体的概率,然后聚类方法来分类人名实例。

Reading outline:

为什么要做这个题目:

哲学家和艺术家在很早以前指出具有同样名称的实例指向同一实体。最近,人名的指代消歧变得越来越受计算语言学界的关注。伴随着因特网在数量和覆盖面上的增长,具有相同名称的不在同一网站上的人名实例指向同一实体的可能性越来越小。这个问题在信息检索、自动问答这类依靠小量数据来处理用户查询的问题中遇到巨大挑战。
另一个指代消歧的问题出现在采用实例构建本体(ontology)时。在构建本体时常常在网站上抽取概念/实例对(如 Paul Simon/Pop star)并添加到数据库中。加入时必须要保证与原来的概念/实例库属于同一个实体。常常出现具有同一名称不同实例的对指向不同的实体(如, Paul Simon/pop star 和 Paul Simon/politician).


别人怎么做的:

Mann and Yarowsky(2003)将多文档人名消解问题看成一个聚类问题,将原文中抽取得到的特征组合看成是词袋,然后采用聚类算法聚出两个类别。他们的工作中采用了两种评测方法:在真实搜索的基础上对人工标注的数据集上评测的精确率/召回率为0.88/0.73,采用伪名(将任何两个名字组合在一起看成一个名称的具有两种实体)达到了86.4%的精确率。
Bagga and Baldwin(1998)另外一种方法。他们首先在单篇文档中进行人名的指代消解,标出全部的指代链信息,然后抽取指代链上每个节点附近的文本构成单片文档中该指代链实体的摘要,然后采用词袋模型来构建每篇文档中每个指代链的向量,再用聚类算法来完成多文档中的人名消解。经过在173篇纽约时报上11个名叫John Smith的实例进行消解,最终达到了0.846的F值。


问题在哪里:

Mann and Yarowsky(2003)提出了许多有用的特征,但是聚类类别收到预先确定的限制;采用伪名的方法来评测很难确定这种方法对真实世界中的问题的泛化能力。
Bagga and Baldwin(1998)虽然他们的方法可以发现可变数量的指代实体,但是由于采用的是简单的词袋模型用于聚类,这就从本质上限制了他们方法的应用。还有一点是他们仅仅是对单人称进行了测试,很难保证对真实世界中的情况有很好的效果。

作者提出了怎样的新方法:

作者提出的方法分为两步:第一步采用最大熵模型来获得任何两个概念/实例对之间具有指代关系的概率,第二步采用了一个改进的聚类算法来合并可能的概念/实例对。
为了完成实验,准备工作如下:
数据:
在ACL数据集上抽取并标注出了2675个概念/实例对,分为训练集(1875个)、开发集(400个)、测试集(400个)。
特征:
名称特征(人口普查词典词频、ACL语料词频、Google上的检索返回条目数)
网页特征(将概念词语分为head1和head2,然后在google中构建query name+head1+head2,abs((name+head1)-(name+head2),(name+head1+head2)/((name+head1)+(name+head2)))
重叠特征(句子范围内查看重叠率)
语义特征(利用wordnet的本体之间查询任何两个词项之间的语义相似度)
统计特征(利用四个条件概率 p(i1=i2|i1->A,i2->B),p(i1->A,i2->B|i1=i2),p(i1->A|i2->B)+p(i2->B|i1->A),p(i1->A,i2->B)/(p(i1->A)+p(i2->B))
模型:采用YASMET Max.Ent package,Gaussian prior with mean 0的平滑方法。
聚类时采用了O(n平方)的算法

这种方法从理论上分析有何长处:
糅合大量特征,很多是网络中的特征,可以很好的完成任务


为了验证这种方法的优点作者做了那几个实验以及结果如何:
最大熵训练任何两个概念/实例对的指代概率,baseline方法(同概念及同指代)达到了83.5%的正确率,最大熵达到了90.75的准确率。聚类时采用了大量的T.Mitchell的机器学习中提到的假设检验的方法来判断实验效果。

实验是否证明了作者的方法的优越性:




还存在哪些问题:

最大熵可以实现特征之间的有机组合,体现在一些权值的设定上,但是这种设定是否达到最佳,还需要和其他方法进行比对。

个人想到的改进方案或者个人的创新观点:

采用遗传算法和最大熵进行比较。特征的选择方法可以借鉴Soon的研究方法中提到的特征来融入更多的特征,并进行更加有效的特征选择。

没有评论: