2004年12月27日

Applying Coreference to Improve Name Recognition

论文题目: Applying Coreference to Improve Name Recognition利用共指来提高名称识别

论文出处: ACL2004 workshop on Coreference resolution

发表时间:2004年7月25日

论文作者:Heng JI and Ralph GRISHMAN

作者单位:纽约大学计算机系

摘要:
English:
We present a novel method of applying the results of coreference resolution to improve Name Recognition for Chinese. We consider first some methods for gauging the confidence of individual tags assigned by a statistical name tagger. For names with low confidence, we show how these names can be filtered using coreference features to improve accuracy. In addition, we present rules which use coreference information to correct some name tagging errors. Finally, we show how these gains can be magnified by clustering documents and using cross-document coreference in these cluters. These combined methods yield an absolute improvement of about 3.1% in tagger F score.

中文:
我们提出了一种新颖的利用共指消解结果来提高中文名称识别的方法。首先,我们采用一个统计名称识别器来进行标注,然后采用一些方法来计算每个单独标记的可信度。对于可信度较低的名称,我们展示了如何利用共指特征来过滤并提高名称识别的准确率。然后,我们提出了一些规则来利用共指信息校正名称识别的错误。最后,我们利用文本聚类和跨文档共指消解来考察名称识别效果的提高。这种结合在标注F值上产生了3.1%的提高。




为什么要做这个题目:为了提高名称识别的准确率

别人怎么做的:

在做NE识别方面,有人利用HMM(Bikel et al, 1997),最大熵(Borthwick et al, 1998, Chieu and Ng 2002),决策树(Sekine at al, 1998),条件随机域(McCallum and Li, 2003),基于类别的语言模型(Sun et al. 2002),基于Agent的方法(Ye et al, 2002)和支持向量机。

问题在哪里

这些机器学习方法应用在名称识别上时效果的好坏都会依赖于标注语料库的大小和使用特征的范围。更为特殊的是,多数方法都是采用规模很小的上下文信息,例如当前词的前一个或两个词语以及跟随的名称。如果测试时遇到一个没有见过的词语,并且出现在一个信息量很少的上下文,那么就会很难进行识别。


作者提出了怎样的新方法

作者利用共指消解的结果来挖掘全局信息从而增加识别的准确率。在一篇文档中进行共指消解可以很好的用于名称识别,在多篇文档中的共指消解可以更好的用于名称识别。本文中采用的共指消解算法是基于一些启发式规则的方法,规则如下
-----------------------------------------------
Rule Type Rule Description

Name & Name
----All
--------Ident(i, j) Mentioni and Mentionj are identical
--------Abbrev(i, j) Mentioni is an abbreviation of Mentionj
--------Modifier(i, j) Mentionj = Modifier + “de” + Mentioni
--------Formal(i, j) Formal and informal ways of referring to the same entity(Ex. “美国国防部 / American Defense Dept. & 五角大楼/ Pentagon”)
----PER
--------Substring(i, j) Mentioni is a substring of Mentionj
--------Title(i, j) Mentionj = Mentioni + title word; or Mentionj = LastName + title word
----ORG
--------Head(i, j) Mentioni and Mentionj have the same head
----GPE
--------Head(i, j) Mentioni and Mentionj have the same head
--------Capital(i, j) Mentioni: country name;Mentionj: name of the capital of this country Applied in restricted context.
--------Country(i, j) Mentioni and Mentionj are different names referring to the same country.(Ex. “中国 / China & 华夏 / Huaxia & 共和国 / Republic”)

Name & Nominal
----All
--------RSub(i, j) Namei is a right substring of Nominalj
--------Apposition(i, j) Nominalj is the apposite of Namei
--------Modifier2(i, j) Nominalj = Determiner/Modifier + Namei/ head
----GPE
--------Ref(i, j) Nominalj = Namei + GPE Ref Word (examples of GPE Ref Word: “方面 / Side”, “政府/Government”, “共和国 / Republic”, “自治政府/ Municipality”)

Nominal & Nominal
----All
--------IdentN(i, j) Nominali and Nominalj are identical
--------Modifier3(i, j) Nominalj = Determiner/Modifier + Nominali
-----------------------------------------------

这些规则不包含代词的消解问题。
采用MUC的评测机制,在人工标注生成的mentions语料上评测的结果是R=82.7%,p=95.1%,F=88.47%
在机器自动生成mentions上进行的评测结果是R=74。3%,p=84.5%,F=79.07%


这种方法从理论上分析有何长处

对于名称识别:增加了特征的来源。并且很好的利用了全局信息。
对于共指消解:简单、快速。

还存在哪些问题

正如规则中的说明一样,很多规则是很难用机器自动进行的,比如Formal(i,j)。这些模块的实现还需要一些技术。

个人想到的改进方案或者个人的创新观点

规则加上一些统计的方法来完成任务。

没有评论: