2008年1月27日

Bayes学习体会(1)

近日明白一个道理,一定要非常认真的判断你即将做的事情是否值得做,千万不要凭着一时的冲动浪费大量的时间,以至于无法集中注意力完成主要的事情。按照80-20原则,我们只有20%的事情是非常重要的。事情一旦选定那就要全身心的投入并且完成。

数日前听朱慕华介绍Hal Daume III,说他原先初学统计和机器学习的时候非常痛苦,经历了这段痛苦之后他才进入了一个长期的发展阶段。现在想来,自己仿佛也需要经历一段这样的痛苦。当然,不能说经历这种痛苦是科研有所成果的必要条件,只能看成是一种充分条件吧。

我首先开始学习Hal收集的Bayesian Method for NLP资料中推荐的Books中的第一本“James O. Berger. Statistical Decision Theory and Bayesian Analysis. Springer, 1985.”。本想到NUS图书馆借阅这本书,不想居然被人借走了。好在经过深度挖掘,终于找到了这本书的第二版的中文版电子版。现在正在进行的就是每天学习10页,不求多,只求精和深入。预计70天才能看完这本书。

下面来说说我这几日来学习Bayesian的感受吧。

第一感受,Bayesian方法很神奇,真的!这个观点Andrew McCallum也曾经说过。

第二感受就是学习Bayesian确实需要投入大量的时间。

在前30页的学习体会到如下一些个人认为比较新颖的观点或者概念:

  1. (p1)经典统计学在进行推断的时候直接利用样本信息(数据来自统计调查),这些经典推断大都不考虑所作的推断将被应用的领域。而决策论则试图将样本信息与问题的其他相关性质结合起来考虑,从而可以做出一个最好的决策。个人猜想面向问题的自然语言处理本质上就是一种应用机器学习方法的决策论。从这个层面考虑,我正在研究的共指消解以及其他一些相关自然语言处理问题,在结合背景知识以及与问题结合的时候都是需要从决策论的角度来思考的。
  2. (p2)损失函数是描述对决策带来的可能值所造成的损失,主要是统计学家采用的术语。经济界或者商界的术语是“所得”(效用)。其实,所得就是负的损失,两者并没有实质的区别。我第一次听说损失函数是在2004年北京语言文化大学第二届学生计算语言会议后的自然语言处理学习班上李航老师介绍机器学习方法的讲座上。当时感觉这个术语比较有趣。后来才发现,这个函数的定义以及处理居然是机器学习里面非常重要的一个问题。本来重要的概念,居然在自己的研究工作中从未直接采用过。看来的确需要好好学学统计学的。
  3. (p2)对于统计决策,除了损失函数,另外一种非样本信息就是先验信息。这是关于统计参数的信息,但并非来自统计调查,一般来自类似情况包含类似的变量的过去的经验。个人认为就是训练语料上获得的信息。
  4. (p3)将先验信息正式的纳入统计学中去并探索如何利用这种信息的方法被称为贝叶斯分析(名称来自Bares(1763))。贝叶斯分析与决策论走到一起是很自然的,部分原因是它们都要利用非试验信息源的共同目标,另一部分原因是深层次的理论把它们联结起来。
  5. (p7)在很多问题中都没有明确的损失函数和明显的先验信息,这些量很含糊不清,甚至不唯一,其中最重要的例子就是统计推断问题。在统计推断中,目的并不是做一个决策,而是提供统计论证的一个“概要”,以便将来的各种“应用者”可以很容易的把这种论证用到它们自己的决策过程中去。个人认为,如果自然语言处理研究人员拥有类似的统计推断框架的话,他们的工作就能得到极大的推进,只是到目前为止我还没有看到的辅助于自然语言处理的统计推断框架。
  6. (p11)对于具体问题,常常存在一大类不能找到更优结果的损失函数,也就是说它们是交叉的,再换句话说就是它们各自在不同的地方比其它的好。这种情形使得我们的学习问题变得比较困难。不知道近年流行的SVM是不是在理论框架上解决了这个问题。
  7. (p17)条件贝叶斯原理:选择一行为equation(3)使贝叶斯期望损失equation(4) 最小(假设最小值是可以达到的)。这样的行为被称为贝叶斯行为,记为equation(5) 。个人感觉这是一个直观的概念,但是平时在我的研究工作中还真的很难做出这样的提炼。数学的抽象能力在统计决策理论中表现得还是淋漓尽致的。
  8. (p21)不变性原理基本上是说:如果两个问题具有同样的形式结构(即具有相同的样本空间、参数空间、密度和损失函数),则在每个问题中都应该采取同样的决策。当只有一个具体问题时,此原理用于考虑问题的变换(度量单位尺度的改变),变换后,问题仍有相同的结构。原来问题与变换后问题的决策法则限定为相同,这就产生所谓的“不变的”决策法则。
  9. (p30)似然原理:有了观测值equation(6)后,在做关于equation(7) 的推断或决策时,所有与试验有关的信息均被包含在equation(6)的似然函数之中,而且,如果两个似然函数(作为equation(7)的函数)是成正比例的,则它们关于equation(7)含有相同的信息。称为“似然函数”的直观原因是,使equation(8)大的equation(7)比使equation(8)小的equation(7)更“像是”equation(7)的真值。因为,如果equation(8)大,equation(6)的出现就更有道理。(这里对“似然”的意思就是“像真的”。自此,我终于弄懂了什么叫似然函数^-^)。

这种学习体会还真是不好写,不过写完再重读一下,感觉自己对这30页的内容理解得深入了一些。以后采用的方式就是每个周末写一个本周的Bayesian学习体会吧。争取弄个学习系列 :)

4 条评论:

匿名 说...

这个帖子要继续啊

匿名 说...

你好,能告诉我下载电子版的网址吗?或者给我传一下,谢谢啦!!
我的邮箱是:xiesongyang@126.com
谢谢!!

COKI 说...

能告诉我电子版的下载地址吗?希望我们一起交流学习。我的email:ckzhang@hitsz.edu.cn

匿名 说...

你好,能告诉我下载电子版的网址吗?或者给我传一下,谢谢啦!!
我的邮箱是:daizhengjia@163.com 谢谢啊,希望以后能多多交流心得