2007年6月24日

自然语言处理的变相和相变

随机的往图中添加边。从这点出发,爱多士建立了很多相变的简单模型。相变是很多的自然现象。对了“自然”的自然语言处理,是否也存在类似的机制导致出现相变呢?我们先来回顾一下自然语言处理研究的变相。

传统意义上,自然语言处理的研究人员都认为自然语言处理的研究开始于基于规则的方法,后来引入大规模语料库出现了基于统计的潮流,可以说近20年来,统计方法在自然语言处理中占据了统治地位,而且统计方法的性能越来越超出基于规则的方法。但是,随着研究的深入,又有越来越多的研究人员意识到纯粹的统计方法是有瓶颈的。这个瓶颈的解决必须依靠基于规则的方法或者基于知识库的方法来进行解决。于是又开始出现了越来越多的所谓的统计和规则相结合的策略。不外乎有如下两种结合方式:过滤筛选、融入到统计中。前者是在统计方法的前处理阶段以及后处理阶段将很多不适合的样本进行剔除,从而保证最终结果的准确率。这种策略适当的牺牲了召回率,但是却大幅提高了精确率,总体看来,还是使得F值得到了提高。但是这种策略本质上没有完美而简练的体现规则和统计的深层结合。第二种融合方式就是将所谓的规则知识融入到统计过程中。本质上就是将知识信息转变未统计方法能够覆盖的“属性-值”形式的规范化数据。这种形式的早期引入确实产生了很好的效果,但是不久又出现了新的瓶颈。原因在于这种能被统计覆盖的“属性-值”表示方式使得知识没有被充分得使用。总之,现在再次出现了新的瓶颈。那么如何解决这个瓶颈呢?无数的研究者正在思考着。新近看到的ACL2007主会议的一篇论文“Learning Expressive Models for Word Sense Disambiguation”提出了一种新的方案:Inductive Logic Programming。这种方法能够很好的将需要利用的知识之间的关系。更具体的思想,等仔细研读后和大家分享。

仔细考察自然语言处理的研究策略变化,那什么东西已经或者可能导致自然语言处理研究的相变呢?统计的引入?Inductive Logic Programming? 我不得而知。

联想共指消解的研究,存在这种导致相变的机制么?我想肯定是存在的。具体的需要我们不断的思考和探索。

没有评论: