2005年4月4日

指代消歧

准备周五的FSNLP第五章的报告的过程中想到了一个关于指代消歧的问题。

第五章主要内容是搭配。章末提到了专有名词的识别,对于专有名词的识别存在一些很大的挑战:指代( coreference)(怎样才能说IBM和International Bussiness Machines是指向同一个实体),消歧(disambiguation)(AMEX什么时候指的是American Exchange,什么时候指的是Americam Express)?

看到这里不禁想到了卢老师昨天在实验室报告会上的一个缩略语--TCL。大家刚看到这个词的时候最先想到的就是“王牌高频电子有限公司”,而卢老师的报告中的TCL是Thai Computaional Linguistic(泰国语言学研究所)的简称。这里的TCL就像FSNLP书中提到的AMEX那样。

我对这个问题仔细思考了一下。对于某些人未曾听说过TCL能指代“泰国语言学研究所”之前,他会认为TCL就是指代“王牌高频电子有限公司”。纯粹就是指代消解需要解决的问题,细化一下就是缩略型的共指消解。但是在听说TCL能指代“泰国语言学研究所”之后再谈这个问题那就不一样了。按照FSNLP书中的说法,这个问题是消歧的问题。但是究竟是什么消歧呢?我开始以为是指代消歧的问题。因为这里其实是共指上有两种可能。再网上查证自己的想法(输入“指代消歧”或者“coreference disambiguation”或者"anaphora disambiguation")结果找到的我需要的信息一点也没有。我认为指代消歧应该是指代消解研究体系下的一个较为深入的题目。

我把我的想法和实验室专做词义消歧的卢老师讨论了一下。卢老师说在上下文中确定“他”的指向问题的时候,备选答案可能就是几个人名。确定“他”的指向问题的时候,和我所说的TCL指向的问题本身就是很类似的。

我认为按照卢老师的提示问题确实是一致的。但是,正如FSNLP书中所说的那样,AMEX有两个意思(缩略对象也可以看成是意思):American Exchange和Americam Express。如果是在上下文中确定AMEX是什么意思时那就是一个词义消歧的问题。

这个问题还需要深入考虑。待续。

没有评论: