2004年5月19日

指代消解的进一步理解

经过这一段时间的学习、思考和忙碌,我思考了一些,随便在此写写:

本质上指代消解是一个判别分类问题。因为只要找出了文章中的所有名词、代词、基本名词短语,那么任何两个对象都可能构成共指链,每一对对象的判定范围就是是或否的二值判定。当然如果A与B有共指关系,同时B与C也有共指关系,那么自然A与C也就有了共指关系,那么就自然可以将A、B、C看成一个共指类,该共指类中所有元素都指向同一个实体。这样一来,共指消解也就成了转换为了一个聚类问题。关于这种共指消解的解释已经有人给出了详细的说明(参见: C Cardie, K Wagstaff, Noun Phrase Coreference as Clustering . In proc of the Joint Conf on Empirical Methods in NLP and Very Large Corpora. Maryland, USA, 1999. 82~89)


那么在这种聚类的观点下,我们能够采用什么方法来更加有效的完成我们的工作呢? 很显然,我们会马上想到各种各样的聚类算法。那么让我们考虑一下都有哪些聚类算法可以作为候选应用算法呢? 翻了一下,主要有:

聚类算法主要分为两大类:层次聚类和非层次聚类。层次聚类又包含单连接和全连接聚类以及组平均聚类; 非层次聚类包含K-均值和EM算法。

类的相似度度量主要三种方法: 单连接(两个最近成员的相似度)、全连接(两个最远成员的相似度)、组平均(类成员的平均相似度)。

非层次聚类的一般过程是:随机选择种子,然后进行样本划分、通过迭代将样本进行重新分配直到模型参数估计不再上升或呈下降趋势。


其实反过来想想,共指消解其实也是一个分类问题,就是判别任意一组候选共指对象的类别是共指对呢还是不是共指对,那么这样一来共指消解就又变成了一个分类问题。

常见的分类方法有:决策树、贝叶斯、最大熵模型、K近邻、神经网络等。

现在看来能够在指代消解上应用的方法有很多。

但是现在却存在一个严重限制这些算法使用的因素。那就是现在没有一个值得依赖的基本名词短语识别器。基本名词短语的识别是构成共指候选对的第一先决条件。为此,我这几天和金山师兄讨论了几次,答案是现在他正在进行的最长名词短语效果不是很理想,而现在实验室也没有一个可以使用的基本名词短语分析器。

为了解决这个瓶颈问题,今天我查看了几篇论文,其中查到的中文基本名词短语识别方面的文章只有上海交通大学的黄萱菁、吴立德等人撰写的《基于最大熵方法的中英文基本名词短语识别》。到目前为止还没有发现有BaseNP的公开识别器。 金山师兄说他现在也有想要完成这个任务的打算,但是还没有想到好方法。

这个瓶颈是一个很严重的问题,至少我现在是这么认为的。因为别人已经证实了BaseNP的识别准确率直接关系着共指消解正确率的提高。

路将何从?明日定夺。

Let me begin!!

没有评论: