2008年4月24日

NLP的数学基础?

马克思曾指出:“一门科学只有成功地应用了数学时,才算真正达到了完善的地步。”

那么对于我所在的NLP,究竟什么才是其能够或者值得应用的数学呢?

个人感觉NLP的最深层、最本质的问题之一是句法分析,这里面大量运用了数学。另外一个基本问题是序列标注,例如sentence detection, tokenize, word segmentation, named entity recognition, chunking, mention detection等等。

剩下的问题我感觉都是句法和序列两个问题基础上衍生出来的。对于这些衍生出来的问题,什么是其数学基础呢?

统计学?统计学只能针对大量的事实现象进行归纳,但是不能进行演绎。统计出来的规律往往会在一些例外情形下显得苍白无力。

目前大量的NLP问题都是在考虑context。的确,观其伴而知其意。但是如何结合,如何在数学层面上更好的结合context是个难点。

很多时候单单有context是不够的,还需要外部的背景知识来对问题进行支撑。作为人工智能分支的NLP或许永远没有完善的解决之道。

 

难道除了Engineering外,NLP的问题就没有统一的数学理论了么?谁来总结一个像E=mc**2那样的基本公式呢?

 

看来这是一个值得深入考虑的问题,否则就会在瓶颈的地方永远无法前进。Hal Daume III当年的思考还是很有意义的 :)

5 条评论:

astro 说...

说到外部知识,很多人都想把世界上所有的知识形式化地表示出来,但是困难可想而知,首先我们连人脑中知识的表示结构都不清楚,何况错综复杂的知识内容了。
不过现在有人把互联网当作一个巨大的知识库却也不失为一种思路,通过研究复杂网络的结构,设法从互联网中挖掘外部知识也许是未来的发展方向。
其实信息检索不正是上面这个过程吗?只不过现在信息检索面向的用户是人,为什么不能做一个面向NLP的信息检索系统呢?现在的Web Mining技术都比较简单,仅仅是从搜索引擎的返回结果中找一些简单的信息,如果针对NLP需求对引擎进行优化,比如输出一些统计信息或许对现在的NLP帮助更大。

Bill Lang 说...

嗯,有道理啊。经常有人说,互联网上什么都有,google知道一切 :)

NLP需要的搜索种类繁多,精细程度各有不同,其难度可想而知,目前世界上存在的各种ontology再辅以目前的各种通用、垂直搜索引擎,应该算是一种折中的解决方案了。但是具体如何做还得细细思索 :)

匿名 说...

很好奇,你一天怎么会有那么多时间来写blog?而且每篇都巨长,呵呵,我的blog总是不断地被我荒废 :(

Bill Lang 说...

哈哈,我的新blog终于有了偶像的踪迹。

我写blog常常是有感而发的,也不像最早那样每天撰写了。

你的blog倒是引用率和访问量巨大啊 :)

匿名 说...

天哪,我那个还算巨大啊,呵呵~~

不过争取把它搞大吧哈哈 :)