近来,Google黑板报(http://googlechinablog.com/)推出了研究员吴军撰写的“数学之美 系列”。现在能够看到的文章有如下几篇:
数学之美 系列一 -- 统计语言模型
数学之美 系列二 -- 谈谈中文分词
数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用
数学之美系列 4 -- 怎样度量信息?
数学之美系列五 -- 简单之美:布尔代数和搜索引擎的索引
数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)
数学之美 系列七 -- 信息论在信息处理中的应用
昨天和今天,我把这几篇文章从头到尾认真的阅读了一遍。其中领会到了很多的东西。比如信息熵计算公式的来由,网络爬虫的原理和基本方法。现在我感觉自觉哦非常喜欢这个系列的文章,期待出现更多的相关文章。推荐大家也学习一下。
学习别人的东西,要抱着批判的眼光。在学习这几篇文章的时候我发现了一个问题。那就是“数学之美 系列一 -- 统计语言模型”在估计P(wi|wi-1)时的那段说明。帖子中的这段描述原文如下:
接下来的问题就是如何估计 P (wi|wi-1)。现在有了大量机读文本后,这个问题变得很简单,只要数一数这对词(wi-1,wi) 在统计的文本中出现了多少次,以及 wi-1 本身在同样的文本中前后相邻出现了多少次,然后用两个数一除就可以了,(P(wi|wi-1) = P (wi)/[P(wi-1,wi)]。
结合自己学习NLP时候的感觉,这段描述好像存在一些问题。我觉得应该修改为如下内容:
接下来的问题就是如何估计 P (wi|wi-1)。现在有了大量机读文本后,这个问题变得很简单,只要数一数这对词(wi-1,wi) 按照wi-1wi形式在统计的文本中出现了多少次,以及 wi-1 本身在同样的文本中出现了多少次,然后用两个数一除就可以了,(P(wi|wi-1) = C (wi-1wi)/C (wi-1),C表示计数)。
原文中的概率公式P(wi|wi-1) = P (wi)/[P(wi-1,wi)]好像也写错了。
呵呵,可能算是有点较真了,不过,扣除这点瑕疵,我还是非常喜欢Google的黑板报的。从这里了解到了很多Google中国的情况,但愿自己有一天能够到那里实习一下,也好体验一下那种Google的文化和自由。
Comment's author: xyz
回复删除06/03/2006 05:16:00 AM
C (wi-1wi)/C (wi-1) should be called reletive frequency, ususally written as f(wi| wi-1) instead of probability. The difference between f and P is very fine but exists. Smoothing methods need using to complete P while not for f.