马克思曾指出:“一门科学只有成功地应用了数学时,才算真正达到了完善的地步。”
那么对于我所在的NLP,究竟什么才是其能够或者值得应用的数学呢?
个人感觉NLP的最深层、最本质的问题之一是句法分析,这里面大量运用了数学。另外一个基本问题是序列标注,例如sentence detection, tokenize, word segmentation, named entity recognition, chunking, mention detection等等。
剩下的问题我感觉都是句法和序列两个问题基础上衍生出来的。对于这些衍生出来的问题,什么是其数学基础呢?
统计学?统计学只能针对大量的事实现象进行归纳,但是不能进行演绎。统计出来的规律往往会在一些例外情形下显得苍白无力。
目前大量的NLP问题都是在考虑context。的确,观其伴而知其意。但是如何结合,如何在数学层面上更好的结合context是个难点。
很多时候单单有context是不够的,还需要外部的背景知识来对问题进行支撑。作为人工智能分支的NLP或许永远没有完善的解决之道。
难道除了Engineering外,NLP的问题就没有统一的数学理论了么?谁来总结一个像E=mc**2那样的基本公式呢?
看来这是一个值得深入考虑的问题,否则就会在瓶颈的地方永远无法前进。Hal Daume III当年的思考还是很有意义的 :)
说到外部知识,很多人都想把世界上所有的知识形式化地表示出来,但是困难可想而知,首先我们连人脑中知识的表示结构都不清楚,何况错综复杂的知识内容了。
回复删除不过现在有人把互联网当作一个巨大的知识库却也不失为一种思路,通过研究复杂网络的结构,设法从互联网中挖掘外部知识也许是未来的发展方向。
其实信息检索不正是上面这个过程吗?只不过现在信息检索面向的用户是人,为什么不能做一个面向NLP的信息检索系统呢?现在的Web Mining技术都比较简单,仅仅是从搜索引擎的返回结果中找一些简单的信息,如果针对NLP需求对引擎进行优化,比如输出一些统计信息或许对现在的NLP帮助更大。
嗯,有道理啊。经常有人说,互联网上什么都有,google知道一切 :)
回复删除NLP需要的搜索种类繁多,精细程度各有不同,其难度可想而知,目前世界上存在的各种ontology再辅以目前的各种通用、垂直搜索引擎,应该算是一种折中的解决方案了。但是具体如何做还得细细思索 :)
很好奇,你一天怎么会有那么多时间来写blog?而且每篇都巨长,呵呵,我的blog总是不断地被我荒废 :(
回复删除哈哈,我的新blog终于有了偶像的踪迹。
回复删除我写blog常常是有感而发的,也不像最早那样每天撰写了。
你的blog倒是引用率和访问量巨大啊 :)
天哪,我那个还算巨大啊,呵呵~~
回复删除不过争取把它搞大吧哈哈 :)