2005年3月1日

[collection]Comparision kinds of machine learning methods

当前流行的数据挖掘的基本方法主要有:
[1] 统计分析方法
[2] 遗传算法
[3] 粗集方法
[4] 决策数方法
[5] 神经网络方法
[6] 聚类方法
[7] 可视化技术

各种方法的适用性分析如下:

数据挖掘是知识发现的全部过程中的一个特定步骤,也是核心的步骤。一般来说,不存在一个普遍适用的数据挖掘算法。一个算法再某个领域非常有效,但是在另一个领域却可能不太适用。例如,决策树在问题维树高的领域可以得到比较好的分类结果,但对数据类之间的决策分界采用二次多项式描述的分类问题却不太适用。任何一个数据挖掘算法都有其优点和缺点。事实上不存在评判算法优劣的确切标准,因为不同的目标的情况需要的方法也不相同,而且每种技术方法都有其内在局限性,不加判断地应用是毫无意义的。因此,选择方法要由具体应用的目标和情况决定,不能仅仅由算法的性能判断。

在上述数据挖掘算法中,统计分析方法是目前最成熟的数据挖掘技术,主要用来进行分类挖掘、聚类挖掘和关联分析。神经网络法具有对非线性数据快速拟合的能力,对于复杂情况仍能得到精确的预测结果,可处理类别和连续变量;缺点是无法解释结果,对输入数据类型有要求,容易受过度训练的影响,计算量大,不适合处理高维变量,可以用于聚类、分类和序列模式。决策树产生直观、易于理解的规则,分类不需要太多计算时间,且计算容易,处理类别、连续变量,可清楚指明对预测和分类最重要的域;缺点是数据越复杂,决策树分支越多,越难管理,对缺失数据的处理不太有效。适于对记录分类或结果的预测,尤其当目标是生成易理解、解释和可翻译成SQL或自然语言的规则,可用于聚类、分类及序列模式等方面的挖掘。遗传算法可处理许多数据类型,可并行处理,常用于优化神经元网络等技术;缺点是需要参数太多,对许多问题编码比较困难,得到的是满意解而非最优解,计算量大。遗传算法常与其他技术集成,可用于分类、聚类及序列模式分析等挖掘。在现实中,粗集是普遍存在的现象,粗集和其他方法的结合,能够提高数据挖掘能力。具体说来,粗集方法具有如下优点:首先是提供一套数学方法,从数量上严格处理数据分类问题,尤其是当数据具有噪声、不完全性或不精确性时;其次,粗集仅仅分析隐藏在数据中的事实,并没有校正数据中所表现的不一致性,一般将所生成的规则分为确定与可能的规则再次,粗集理论包括了知识的一种形式模型,这种模型将知识定义为不可区分关系的一个集,这就使知识具有一种清晰定义的数学意义,并且可适用数学方法来分析处理;最后,粗集不需要关于数据的任何附加信息。粗集方法可以用于聚类、偏差分析等挖掘任务。聚类方法和可视化技术也可以用于多个方面。在网络信息的知识发现中,对内容的挖掘可以采用关联分析、神经网络法、分类挖掘等方法;对结构的挖掘可以采用关联分析、分类挖掘、聚类挖掘、可视化技术等方法;对使用记录的挖掘可以采用关联分析、分类挖掘、遗传算法等。由于每种方法都有它的长处和不足,应考虑如何结合起来,互相取长补短,从而取得更好的效果。

没有评论: