Bill_Lang: 看《计算机学会通讯》4卷8期有想

这期通讯主要介绍中国的人工智能研究情况，几篇文章都很让人受益。看完后摘录加瞎想记录如下，有空时再多多消化一下：

蚁群算法能用于聚类算法

OpenCYC

神经网络用于模式识别、联想记忆和形象思维

以获得尽可能高的互信息熵

Hownet for RE and CR

指代歧义消解属于仍未能得到彻底有效解决的问题

综观整个自然语言处理领域，尚未建立起一套完整的、系统的理论框架体系，许多理论研究甚至处于盲目的摸索阶段，如尝试一些新的机器学习方法或未曾使用的数学模型，这些尝试和实验带有很强的主观性和盲目性

相对而言，我们学者主要是跟踪国外技术潮流，缺少原创性理论、模型或算法。

背景知识和数据特有的性质可能是决定机器学习成败的关键

支持向量机存在以下几个问题：
1. 基于边缘的繁华界不能很好的解释Adaboost
2. 对实际问题，边缘的上界太松
3. 在噪音条件下，无论大样本还是小样本集合，边缘的界不能很好的预测未来实例
4. 边缘将偏差、方差混合在一起，不能清楚的表示边缘成功的贡献是哪个方面，更不能描述不同损失函数带来的影响和分析解凸优化问题得到的分类器和贝叶斯分类器时间的逼近程度。
5. 很多损失函数具有贝叶斯一致的性质。支撑向量机使用Hnge损失，但成功的关键不是因为边缘，而是因为使用了具有贝叶斯一致性质的Hinge损失函数。

沙皮尔证明了概率近似理论提出的另一个命题，即概念是弱可学习的，当且仅当它是强可学习的（弱可学习是指在多项式复杂度算法下，学习的正确率略好于随机猜测的结果（50%），而强可学习的概率是略小于100%。但沙皮尔正迷宫了可以找到复杂度可以接受的算法，使弱可学习的概念类变为强可学习的。）这意味着，如果我们可以建造一组精度大于50%的模型，并使用适当的规则集群它们，就可以获得具有高精度的模型。，目前这种学习称为集群学习（Essemble）。从算法设计角度，可以将学习问题考虑为在所有这些弱分类器为基张成的空间上的优化问题。这就是目前流行的提升（Boosting）算法的基础。

关系学习是指有些样本的变量之间存在某些关系。这个和共指消解问题非常接近。目前解决该问题的方法是归纳逻辑，其本质是根据背景知识将数据打碎，让各个碎片满足属性-值形式，并采用统计学习的方法将这些碎片建立模型，然后再根据背景知识将它们拼接起来。这是一类非常困难但是对实际应用又有重要意义的学习形式。

罗生门(Rashomon)问题指明Feature Selection的必要性。

Bill_Lang

2008年9月11日

看《计算机学会通讯》4卷8期有想

没有评论:

发表评论