2004年5月20日

基本名词短语识别问题

根据上周实验室例会上金山师兄对最长名词短语的讲解,我大致了解到如下内容。

名词短语(Noun Phrase,NP)是指以名词或在功能上相当于名词的词为核心词的短语,其长度大于1。名词短语具有嵌套性,如“[一个于[[半个世纪]之后]重新聚集在[[“[西南联大]”旗帜]下]的奉献活动]开始了!”按照名词短语的结构进行划分,有基本名词短语、一般名词短语、最长名词短语三种类型。

基本名词短语举例如:一 个 于 [半 个 世纪 ]之后 重新 聚集 在 “[西南 联大]” 旗帜 下 的 [奉献 活动] 开始 了!

一般名词短语举例如:一 个 于 [半 个 世纪 之后 ]重新 聚集 在 “[西南 联大” 旗帜 下 的 奉献 活动] 开始 了!

最长名词短语举例如:[一 个 于 半 个 世纪 之后 重新 聚集 在 “西南 联大” 旗帜 下 的 奉献 活动] 开始 了!

在这些名词短语的不同类别中,我们的指代消解需要哪一种类型呢?我感觉基本名词短语就可以了。因为就拿上面的最长名词短语的例子来说吧,如此长的一个名词短语无非是在“活动”的前面加上了许多的修饰成分。这些修饰成分的作用也就是要在读者心中留下“活动”的一些描述而已,这些描述的作用就是要强化“活动”在读者心目中的印象。这样一来,当读者在下文中读到有关“活动”的指代语时会想到“活动”的场景,而仔细说来,无非也是完成对“活动”的指代。最长名词短语比起基本名词短语多出的部分是指代消解不需要的。因而可以说,指代消解需要解决的关于名词短语的类属问题就可以直接定义在基本名词短语阶段。

那么,究竟什么是基本名词短语呢?上海交通大学的钱伟、郭以昆、黄萱菁、吴立德等人撰写的《基于最大熵方法的中英文基本名词短语识别》(以下简称《短语识别》)中提到基本名词短语是指非嵌套的名词短语,包括单个名词、没有任何修饰成分的名词短语、难以确定修饰关系的一串名词、并列名词性成分、专有名词、时间、地点等,占语料中所有基本短语的60.8%(用Chinese Treebank作统计)。

那么我们需要采用的名词短语的识别方法究竟应该怎样设计呢?这个问题解决的好坏直接关系到了下一步的工作。我预计的方法是这样的。借用《短语识别》中的定义,我们可以在北大人明日报标注语料的基础上进行基本名词短语的识别,我们需要的基本名词短语包括:

一般独立名词(周围的词语都不能和其连成名词短语)、一串名词构成的短语(争取局部名词范围的最大化)、并列名词性短语(连接词为“和”、“与”或“、”)(仅要这两个就足以)、人名、地名、机构名、时间词。

作为指代消解的指代对候选集的构建,我们先要识别出全部的基本名词短语和代词。大致思路如下:

第一步:识别出全部独立名词短语(词性与名词有关的都算)、代词短语和时间词短语(当然这是在北大语料中的机构名nt的基础上),包含:

--------一般名词组-------------------------------
an 名形词 具有名词功能的形容词
Ng 名语素 名词性语素
n 名词
nx 英语等其他外语的字母或字符串
nz 其他专名
vn 名动词 指具有名词功能的动词
----------------------------------------------

----人名组----------------------------------
nr 人名
---------------------------------------------

----地名组---------------------------------
ns 地名
--------------------------------------------

----机构名组------------------------------
nt 机构团体
---------------------------------------------

----代词组----------------------------------
r 代词
---------------------------------------------

----时间词组-------------------------------
Tg 时语素 时间词性语素
t 时间词
--------------------------------------------

第二步:同组短语局部最大化,亦即如果两个相邻的标出的短语的组别相同,那么就合并。

第三步:并列名词性短语合并。出现在“和”、“与”或“、”两侧的组别相同,则将两侧组别连带“和”、“与”或“、”两侧一起合并为一个组别。(这里排除代词组的情况)

经过以上三步,我设想的指代消解的瓶颈问题应该可以得到解决。

算法已经确定,亟待实现。

没有评论: