2004年12月17日

Event Clustering on Streaming News Using Co-refernece Chains and Event Words

论文题目:Event Clustering on Streaming News Using Co-refernece Chains and Event Words 利用指代链和事件词的新闻流事件聚类
论文出处 :ACL2004 workshop on coreference resolution
发表时间 :2004
论文作者 :June-Jei Kuo, Hsin-Hsi Chen
作者单位 :Department of Computer Science and Information Engineering,National Taiwan University, Taipei, Taiwan台湾国立大学计算机科学与信息工程系

摘要
English:
Event clustering on streaming news aims to group documents by events automatically. This paper employs co-reference chains to extract the most representative sentences, and then uses them to select the most informative features for clustering. Due to the long span of events, a fixed threshold approach prohibits the latter documents to be clustered and thus decreases the performance. A dynamic threshold using time decay function and spanning window is proposed. Besides the noun phrases in co-reference chains, event words in each sentence are also introduced to improve the related performance. Two models are proposed. The experimental results show that both event words and co-reference chains are useful on event clustering.

中文:
新闻流上的事件聚类目的在于自动根据事件文本聚类。本文利用共指链抽取表示性最强的句子,然后利用这些句子选择最好的信息特征用于聚类。由于事件之间跨度较大,固定阈值的聚类算法限制了后来文档被聚类从而降低了聚类的效果。提出了采用基于时间衰退函数和跨度窗口的动态阈值聚类方法。除去指代链中的名次短语外,每个句子中的事件词也被用于提高相关的效能。提出了两个模型。实验结果显示事件词和指代链对聚类都很有用。



为什么要做这个题目

新闻在网上到处散布,在瞬息万变的网络时代,发现和跟踪新闻事件对于决策的制定非常有用。事件聚类就是要对指定的文档进行有效的聚类。
事件聚类背后需要解决的问题有五个:
多少特征可以用于事件聚类?
对于新来的文档哪个线索模板可以用于指定类别?
各种聚类策略如何影响历史数据和在线数据的聚类效果?
时间因素是怎么影响聚类效果的?
怎样实现多语数据的聚类?

别人怎么做的

Chen and Ku(2002) 将命名实体、其他名词、动词看成是描述同一事件的文档的线索模板。提出了一种二次阈值的中心聚类方法来计算新文档和旧类之间的关联程度。其中采用考虑时间因素的的最小最近使用移除模型用于排除过旧和不重要的术语对聚类的影响。
Chen and Su(2003)将事件聚类看成是多语的多文档自动文摘。他们证明先聚类后翻译比先翻译后聚类的效果好。聚类之后的翻译可以减少翻译的错误。
Fukumoto and Suzuki(2000)提出将主题词和事件词用于事件跟踪。在特征提取方面,他们提出比词性方法更加偏重语义的方法。
Wong, Kuo and Chen(2001)利用这些方法来选取信息丰富的词语用于文本首行的生成,和多文档文摘的抽取句子的排序(Kuo, Wong, Lin and Chen, 2002)。
Bagga and Baldwin(1998)提出基于命名实体的跨文档共指消解,采用每个文档中的指代链来生成当前文档的摘要,然后利用摘要而不是全文来抽取信息词作为文档的特征。
Azzam, Humphreys, and Gaizauskas(1999)提出一种利用指代链生成文摘的简单模型。
Silber and McCoy(2002)提出一种采用词汇链的文摘模型,指出代词和指代消解都是不可缺少的特征。


作者提出了怎样的新方法

在某种程度上指代链和事件词是互相补充的基于语义特征选择的方法。指代链可以看成名词短语的等价类,事件词考虑多文档中的名词和动词术语特征。
本文将指代链和事件词都用于事件聚类。


本文中指代消解方法

由于本文仅仅是应用了指代消解的结果,没有给出指代消解的一些算法和程序。这里将文中对指代消解的讨论部分摘要如下。
Cardie and Wagstaff(1999)指出文档中的指代链列出了名词短语的等价类。指代消解算法的第一步是找出全部的可能的名词短语作为候选。这个过程包括分词、命名实体识别、词性标注、名词短语Chunking化。利用诸如词/短语自身、短语首词词性、命名实体、在文档中的位置、数(单数、复数、未知),代词、性别(男、女、未知)、首词语义等属性来进行分类。在MUC-7(1998)中对英文文档的自动指代消解最好的F值是61.8%。评测中采用了一个手工标注命名实体和指代链的语料。

利用指代链的方法

一个句子包含一条指代链中的任何节点成为改句子覆盖这条指代链。一个句子覆盖的指代链越多其重要性越大。

没有评论:

发表评论