2004年9月24日

智能科学大餐

2004年9月10 – 12日,由国家自然科学基金委员会信息科学部主办、中国人工智能学会和燕山大学承办的《智能科学技术基础理论重大问题研讨会》在燕山大学举行。来自智能科学、脑科学、认知科学、逻辑、哲学等学科交叉领域的代表50多人参加了会议,作了27个专题报告。

部分会议报告如下,仅供参考:

李衍达: 对智能研究的一些设想(ppt)
钟义信: 智能科学-世纪挑战,百年良机(ppt)
陆汝钤: 研究知识科学,发展知识工程,推进知识产业(ppt)

史忠植: 智能科学的基本问题(ppt)
王守觉: 仿生模式识别与机器形象思维(ppt)
郭爱克: 抉择的自然计算(ppt)
李德毅: 不确定性人工智能(ppt)
许卓群: Web of Distributed ntologies(ppt)
王飞耀: 词计算和语言动力学系统的计算理论框架(ppt)
周志华: 普适机器学习(ppt)
王珏: 机器学习研究回顾(ppt)
林方真: Many uses of classical logic(pdf)
何华灿: 广义智能科学的逻辑基础探讨(ppt)
童天湘: 智能化是信息化的必然趋势(doc)

经过逐之一学习,我感觉从中学习到了一些新的东西。学习体会如下:

1。云模型是新兴的一种理论[1]。我们在统计数学和模糊数学的基础上,用云模型来统一刻画语言原子和数值之间的随机性和模糊性,正向云发生器[2]是用语言值描述的某个基本概念与其数值表示之间的不确定性转换模型。云的数字特征用期望值Ex、熵En和超熵He三个数值表示。它把模糊性和随机性完全集成在一起,构成定性和定量相互间的映射,作为知识表示的基础。因为自然现象中的云也有着不确定的性质,我们就借用“云”来命名数据--概念之间的转换模型。云由许多云滴组成,每个云滴就是这个定性概念映射到数域空间的一个点,即一次带有不确定性的具体实现。模型同时给出这个云滴能代表该定性概念的确定程度。模型可以生成任意多个云滴。

反过来,我们用逆向云模型实现数值和语言值之间的随时转换。数据开采的一个基本问题是先有数据,然后才形成概念;先有连续的数据量,然后才有离散的符号量。

2。中心极限定理从理论上阐述了正态分布的条件,中心极限定理的简单直观说明:
如果决定某一随机事件结果的是大量微小独立的随机因素之和,并且每一因素的单独作用相对均匀的小,没有一种因素起到主导作用,那么这个随机变量服从正态分布。

正态分布是许多重要概率分布的极限分布,许多非正态的随机变量是正态随机变量的函数,正态分布的密度函数和分布函数有各种良好的性质和比较简单的数学形式,这些都使得正态分布在理论和实际中应用分布非广泛。在学习模式识别的数学基础[4]时了解到:“在所有的连续概率密度函数中,如果均值u和方差s(暂用s代替)都取已知的固定值,则使熵达到最大值的将是高斯分布(即正态分布),此时最大熵为H=0.5+log2(sqre(2*pi*s))(比特).”熵具有描述信息含量的特征,正态分布的这种最大熵特性决定了正态分布在自然界的广泛存在。

事实上现实世界中各种因素的单独作用并不是相对均匀的小。许多随机现象不能用正态分布来描绘。如果决定随机现象的因素单独作用不是均匀的小,相互之间并不独立,有一定程度的相互依赖,就不符合正态分布的产生条件,不构成正态分布,或者只能用正态分布来近似处理。概率论用联合分布来处理这类情况,但是通常联合概率分布的确定非常复杂,难以实际应用。李德毅院士提出用云模型来描述这类随机性,将正态分布拓展为泛正态,用一个新的独立参数---超熵,来衡量偏离正态分布的程度,这种处理方法比单纯用正态条件分布更为宽松,同时比联合概率分布简单,易于表示和操作。

3 。不确定性人工智能在研究人类认知活动的切入层次是自然语言层次。无疑这是对自然语言处理研究的一种肯定,也是给与了自然语言处理信心。

4。现在机器学习的研究出现了很多机遇和挑战。下面将以医疗和金融为代表来举几个例子:

例子1:代价敏感
医疗:以乳腺癌诊断为例,“将病人误诊为健康人的代价”与“将健康人误诊为病人的代价”是不同的
金融:以信用卡盗用检测为例,“将盗用误认为正常使用的代价”与“将正常使用误认为盗用的代价”是不同的
传统的ML技术基本上只考虑同一代价
如何处理代价敏感性?
在教科书中找不到现成的答案,例如:
Tom Mitchell, Machine Learning, McGraw-Hill, 1997
Nils J. Nilsson, Introduction to Machine Learning, draft 1996 - 2004

例子2:不平衡数据
医疗:以乳腺癌诊断为例,“健康人”样本远远多于“病人”样本
金融:以信用卡盗用检测为例,“正常使用”样本远远多于“被盗用”样本
传统的ML技术基本上只考虑平衡数据
如何处理数据不平衡性?
在教科书中找不到现成的答案

例子3:可理解
医疗:以乳腺癌诊断为例,需要向病人解释“为什么做出这样的诊断”
金融:以信用卡盗用检测为例,需要向保安部门解释“为什么这是正在被盗用的卡”
传统的ML技术基本上只考虑泛化不考虑理解
如何处理可理解性?
在教科书中找不到现成的答案

个人认为这些挑战的存在是机器学习存在和发展的动力之一。需要大家的努力和解决。三个问题中,我曾经遇到过的是第三个--数据的不平衡性。曾经采用过的方法是将不平衡通过适当裁减变成平衡的数据,但是这样一来会丢失很多的信息。采用决策树算法的时候没有进行裁减,同样可以学习,但是学习得到的结果需要仔细分析。

5。统计机器学习需要满足独立同分布条件,严厉。
对于这个独立同分布的前提条件,我自己的体会并不深刻。在采用神经网络、决策树完成一些任务时前提条件中并没有考察过这个条件满足与否。看到这个提示开始以为是机器学习算法中通常的各个特征之间相互独立的约束条件,后来仔细一想在用决策树的目的不就是要挖掘各种特征之间的相关性吗。 所以这里的不相关性是指前后数据的不相关。每次采样时不受到以往或者以后数据的影响。

写到这里我又想到了正态云模型分析实例中经常提到的评判射击运动员打靶成绩的标准的问题。通常的统计方法都会认为运动员的各次打靶之间是相互独立的,没有任何关系,但是实际上运动员的每次射击都受到前几次打靶成绩的影响,采用正态云模型中的超熵来分析这个问题时,超熵越小,则运动员各次射击之间的影响越小,运动员的心理素质越好,反之亦然。

因此我们在采用机器学习算法来完成一些任务的时候需要仔细分析这个前提假设,如过本来这个假设都布满足,那么随后出现的问题以及解决方案的出现都存在一些偶然因素。

参考文献
1 吕辉军,王晔,李德毅,刘常昱. 逆向云在定性评价中的应用. 计算机学报. 2003,26(8):1009~1014
2 李德毅,孟海军,史雪梅. 隶属云和隶属云发生器. 计算机研究与发展, 1995, 32(6):16~21
3 李德毅,刘常昱.论正态云模型的普适性. 中国工程科学.2004,6(8):28~34
4 Richard O.Duda 等著,李宏东 姚天翔 译. 模式分类. 北京:机械工业出版社.2003.9

没有评论:

发表评论