2004年9月9日

《模式分类》第一章学习体会

刚才学习完毕《模式分类》的第一章《绪论》,现在不得不说这本书是到目前为止我见到过的关于机器学习最好的教材之一。第一章《绪论》中列出了许多模式分类同时也是机器学习中存在的问题。现列举并讨论如下:

模式分类的最终目的和处理方法就是,首先将模型分为几类,然后对感知到的数据进行处理,以滤除干扰(由采样引起而非模型引起)。然后,选择出与感知数据最接近的模型类别。

在模式分类的过程中往往需要看绿一个分类的“总体代价”函数。我们真正的任务是要确定一种决策(decision),使该函数最小。这是决策理论的中心任务,而模式分类可能是其中最重要的一个子领域。

模式分类需要抽取待分类模式的各种特征,特征选择的多少和如何选择特征是一个非常重要的问题。以往我的观点和做法是将能够抽取到的所有特征都送给决策树使用,这样得到的分类器的封闭测试的效果非常好,但是往往“推广能力”(就是开放测试时正确区分模式的能力,亦称“泛化能力”)会较差(这种现象叫做“过度拟合”)。同时特征选取过多可能会给将来在非常高维德空间中进行分类操作埋下了“祸根”。“推广能力”和“复杂度”需要进行折中,二者互为矛盾,但是折中到什么程度需要进一步的讨论。

从根本上说分类判决任务实面向特定任务或特定代价的。例如,假如我们的目的是销售鱼子(酱)的话,我们很可能试图按照鱼的性别进行分类,把雄的和雌的分开。或者,我们想把受损的鱼筛选出(以制备猫食)等等。不同的判决任务将需要不同的特征,其判别边界也与鱼分类问题很不相同。因此,建造一个通用的,能够精确的执行各种各样的分类任务的人工模式分类器将是一个极端困难的任务。这使得我们对人类能在各种模式分类任务中迅速和灵活的切换更加增加了几分赞美和敬佩之心。

模式分类的目标是寻找这样一种分类器,使得对于同一类别的样本尽可能认为一致,对于不同类的样本的区分尽可能明显。其中如何选择特征是至关重要的一步。在选择或设计特征的过程中,很明显,我们希望发现那些容易提取、对不相关变形保持不变、对噪声不敏感,以及对区分不同类别模式很有效的特征集。

本章小结中提到,模式识别的进展至少从以下三重意义上传达出积极的信息:(1)问题一定可以解决,因为人和生物体的识别能力是最好的“存在性证明”;(2)解决其中很多问题的数学理论已被发展起来;(3)还存在许多吸引人的未解决问题为进一步的研究发展提供了丰富的机遇。对比于自然语言处理,我认为同样可以得到三条积极信息:(1)人的自然语言的处理能力是自然语言处理中问题可解的强有力证明;(2)自然语言处理借助其他学科的成果和语言学特有的规律已经取得了长足的发展,但是现在自然语言处理的能力还非常有限,公认的理论基础建立的还不很完备;(3)自然语言处理中仍然存在大量的未解决的问题使得该领域中存在无数的机遇。可以说自然语言处理是一个不断摸索的领域,其中伴随着各种理论和方法的诞生必将推动其发展。

本书中最难部分是第九章《独立于算法的机器学习》。许多很微妙,而又至关重要的具有理论和实践意义的结论将被讨论。这其中包括偏差-方差关系、自由度问题、设计“简单”分类器的必要性,以及计算复杂度等问题。在某种意义上,只有懂得了本章的结论,才可能透彻的理解和更好的运用其他章节的知识。

如此好书,难求也。唯以踏实学习之!

没有评论: