2007年4月24日
混沌-格物致之
按照学校的规定,进来面临了博士开题的问题。这个问题一直让我很头疼的。因为,我一直没有完全确定究竟应该做什么。我时常询问自己,“你的博士方向究竟是什么?有什么过硬的创新点么?”每当这时,我的脑袋里就是嗡嗡作响的。
原本,我是热爱机器学习的,曾经想在机器学习的理论领域有所创新。那时的我,激动不已的和几位志同道合的朋友一起组织了几次全校范围的机器学习讨论活动。毕竟人的精力是有限的,随着我在原先确定的指代消解问题上理解的深入,我开始远离自己曾经的想法。
什么是指代消解呢?广义上说,就是在篇章中确定代词指向哪个名词短语的问题。按照指向,可以分为回指和预指。回指就是代词的先行语在代词前面,预指就是代词的先行语在代词后面。按照指代的类型可以分为三类:人称代词、指示代词、有定描述、省略、部分-整体指代、普通名词短语。这些类别中前四个都是和语言学息息相关的,目前国内外的研究人员主要是偏向语言学领域的,对于不同的语言需要深入了解这种语言的机制,很难实现语言无关的方法和算法。对于我曾经尝试过的人称代词消解,感觉需要借助一些高级而且准确的语言分析工具,同时还需要多向中文系的师生请教。这个问题的研究让我感觉很难深入的完成创造性的工作。部分-整体指代在英文中成为Bridge-anaphora,主要消解一些整体-部分关系的指代,例如门和房间。这是一种上下位关系的指代。这个问题在英文中大有研究人员,但是对于中文却很少有从指代消解的角度来进行研究。因为,这个更像实体关系抽取。而实体关系抽取现在是信息抽取领域研究的一个热点问题。剩下的普通名词短语的消解。这个问题仔细阅读论文发现,就是coreference resolution(共指消解)问题。
那什么是共指消解呢?通常认为,共指消解就是将现实世界中同一实体的不同描述归并到一起。共指消解和指代消解的区别和联系是什么呢?指代消解偏重语言学中篇章理论的分析和研究,对于代词有深入的研究。共指消解偏重将各种描述合并,在篇章内主要是解决别名的问题,在篇章之间主要是解决重名的问题,代词消解在其中不考虑的重点。共指消解研究主要分为两大类:篇章内部和篇章之间。篇章内部的共指消解现在由ACE大规模引导,篇章之间的共指消解目前主要的研究点是数字图书馆中参考文献标题、作者的重名和别名消解,以及搜索引擎检索人名、地名、机构名的结果的归并问题。篇章内部的研究的经典思路是对各个实体进行相关的特征抽取,然后采用分类、聚类算法来进行,这种思路是基于局部上下文信息的特征抽取;目前的趋势是采用全局域的实体特征抽取从而实现更好的分类和聚类。具体思路又有两种:先按就有思路两两判别给出相关度数值,然后采用聚类或者图模型来进行相关的归并;另外一种是同时对多个实体进行特征抽取,然后判断多个实体间的关系,最后统计每个实体在多组实体间的关系,从而得到最终的归并结果。篇章之间的共指消解在数字图书馆领域主要是采用图的相关理论和方法来进行解决,有大量的相关论文。目前采用较多的是Social Network的方法。检索结果聚类方面,主要借助无导词义消歧的方法,通过构建实体向量的方式实现聚类;也有一些是基于实体信息通过搜索引擎扩展后进行相关操作的。
综合上面的分析可以发现,共指消解是一个更符合我的研究方向。其中有大量值得研究的问题。而且对于图方法上的工作,存在一定的理论难度。具体的应用前景可以考虑人物、地理、机构等的社会化网络结构的建立、分析和挖掘。那么对于具体的研究问题是限定在篇章内或者篇章之间呢,还是二者都做;篇章之间是在数字图书馆领域呢,还是普通的Web?这两个问题又需要进一步的思索。
面临开题,我有点紧张。因为到目前为止还没有任何让人眼前一亮的研究成果。呵呵,有句古话叫十年磨一剑。看来还真的下苦功夫才行的。早上来到实验室,脑子里还是有点混乱。随便翻翻桌上的一大堆论文时,忽然想到了自己以前的一种体验:问渠哪得清如许,唯有源头活水来。就是说当思路混乱,不知所措时应该阅读一些优秀的相关论文来填补。
我的第一个想法就是把手头的论文重新分类。经过一个多小时的整理,我的一大堆论文呗分成了五类:指代消解、篇章内共指消解、跨篇章共指消解、具有启发性的相关领域论文、近期内不会考虑的论文。整理完毕后发现,前四种类型的论文数量差不多。整理过程中倒是发现一些论文值得重读了。
现在的一个决定是,放弃指代消解的研究,彻底进入共指消解的研究场景。(待续)
Comment's author: Lou
回复删除04/24/2007 10:41:11 PM
同命相连啊。推荐用MindManager整理思路并阅读《六顶思考帽》^_^goodluck!
Comment's author: Bill_Lang
回复删除04/25/2007 09:23:42 AM
MindManager很不错的,想不到Lou也在使用哦,而且还用得那么好啊!
开始整理思路咯!
Comment's author: magic
回复删除04/25/2007 03:20:48 PM
add oil~