当前流行的数据挖掘的基本方法及其特点
[1] 统计分析方法
统计分析方法使利用统计、概率的原理对关系中各属性进行统计分析,从而找出他们之间的关系和规律。统计分析方法使数据挖掘最基本的技术方法之一。常用的统计分析方法有判别分析、因子分析、相关分析、回归分析等。判别分析是建立一个或多个判别函数,并确定一个判别标准,然后对未知属性的对象,根据测定的观测值,将其划归已知类别中的一类。因子分析是用较少的综合变量来表达多个观察变量。根据相关性大小把变量分组,使得各组内的变量之间相关性较高,不同组变量间的相关性较低,相关分析是用相关系数来度量变量之间的相关程度。回归分析是用数学方程来表示变量间的数量关系,方法有线性回归和非线性回归。
[2] 遗传算法
遗传算法是一种优化技术,它利用生物进化的一系列概念进行问题的搜索,最终达到优化的目的。在遗传算法的实施中,首先要对求解的问题进行编码(染色体),产生初始群体;然后计算个体的适应度,再进行染色体的复制、交换、突变等操作,便产生新的个体。重复以上操作,直到求得最佳或较佳的个体。遗传算子主要有繁殖(选择)算子。交叉(重组)算子和变异(突变)算子。遗传算法可起到产生优良后代的作用,经过若干代遗传。将会得到满足要求的后代(问题的解)。在数据挖掘中,为了适应遗传算法,往往把数据挖掘任务表达为一种搜索问题,发挥遗传算法的优化搜索能力。遗传算法往往具有计算简单、优化效果好的特点,它在处理组合优化问题方面也有一定的优势,是一种应用遗传学原理和自然选择机制来搜索最优解的方法。这种方法先产生一组解法,然后用重组、突变和选择等进化过程来得到下一代解法,随着进化过程的继续,较差解法被抛弃,从而逐步得到最优解法。
[3] 粗集方法
粗集方法是模拟人类的抽象的逻辑思维,它以各种更接近人们对事物的描述方式的定性、定量或者混合信息为输入,输入空间与输出空间的映射关系是通过简单的决策表简化得到的,它通过考察知识表达中不同属性的重要性,来确定哪些知识是冗余的,哪些知识是有用的,进行简化知识表达的空间是基于不可分辨关系的思想和知识简化的方法,从数据中推理逻辑规则作为知识系统的模型。它以对观察和测量所得数据进行分类的能力为基础,从中发现、推理知识和分辨系统的某些特点、过程、对象等,特别适合与数据简化、数据相关性的发现、发现数据的相似或差别、发现数据模式、数据的近似分类等。粗集方法被广泛应用于不精确、不确定、不完全的信息的分类、差异性分析和因果关系挖掘等。
[4] 决策数方法
决策树利用树型结构来表示决策集合,这些决策集合通过对数据集的分类产生规则。首先,利用训练集生成一个测试函数,根据不同取值建立树的分支;在每个分支子集中建立下层节点和分支,这样便生成一棵决策树。然后对决策树进行剪枝处理,最后把决策树转换为规则,利用这些规则可以对新事例进行分类。
[5] 神经网络方法
神经网络是模拟人类的形象直觉思维,在生物神经网络研究的基础上,根据生物神经元和神经网络的特点,通过简化、归纳,提炼总结出来的一类并行处理网络。利用非线性映射的思想和并行处理的方法,神经网络本身结构可以表达输出与输入的关联知识。输入空间与输出空间的映射关系,是通过网络结构的不断学习、调整,最后以网络的特定结构来表达的。神经网络法是在计算机上模拟神经元及其链接的方法。神经网络实际上是从已知数据项到目标数据项的一种复杂的非线性映射,它获取的知识就存在于网络结构中。神经网络主要用来进行分类、估计和预测等有向数据挖掘,也可以用于聚集等无向数据挖掘,如自组织图。
[6] 聚类方法
聚类算法是通过对变量的比较,把具有相似性特征的数据归为一类。因此,通过聚类以后,数据集就转化为类集,在类集中,同一类数据具有相似的变量值,不同类数据的变量值不具有相似性。聚类用于描述和发现数据库中以前未知的数据类别。其中,样本数据中不包含类别变量,数据挖掘将具有共同趋势和模式的数据元组聚集为一类,使类别内各元组相似程度最高,类间差异最大。区分不同的类是属于数据挖掘过程的一部分,这些类不是事先定义好的,而是通过聚类算法采用全自动方式获得。聚类算法是按数据的相似性和差异性,将数据划分为若干子集,子集还可以再分为若干个子集。聚类与分类不同,分类的类别是按应用的要求事先给定的,根据表示的事物特征的数据,可以识别其类别。而聚类的类型不是事先指定的,而是分析数据的结果。通过比较数据的相似性和差异性,发现其特征及分布,从而抽象出聚类的规律。聚类法大致可以分为两种类型:a.分层聚类。分层聚类是基于数学的标准,对数据进行细分或聚类。这种类型适合于数值数据。B.概念聚类。概念聚类是基于数据的非数值属性,对数据进行细分或聚合。
[7] 可视化技术
可视化技术是通过直观的手段来交互的分析数据关系,采用图形方式将信息模式、数据的关联或趋势呈现给用户。例如,把数据库中的多维数据编程多种图形,揭示数据的状况、内在本质及规律。可视化技术主要包括数据、模型和过程3个方面。其中,数据可视化主要有直方图和散点图等;模型可视化的具体方法则与数据挖掘采用的算法有关,例如,决策树算法采用树型表示;过程可视化则采用数据流图来描述知识发现的过程。数据可视化采用比较直观的图形图表方式将挖掘出来的模式表现出来,大大扩展了数据的表达和理解能力。数据可视化正受到日益广泛的重视。可视化技术拓宽了传统的图表功能,可以交互的分析数据关系,使用户对数据的剖析更清楚,改善了数据挖掘的速度和深度。
各种方法的适用性分析如下:
数据挖掘是知识发现的全部过程中的一个特定步骤,也是核心的步骤。一般来说,不存在一个普遍适用的数据挖掘算法。一个算法再某个领域非常有效,但是在另一个领域却可能不太适用。例如,决策树在问题维树高的领域可以得到比较好的分类结果,但对数据类之间的决策分界采用二次多项式描述的分类问题却不太适用。任何一个数据挖掘算法都有其优点和缺点。事实上不存在评判算法优劣的确切标准,因为不同的目标的情况需要的方法也不相同,而且每种技术方法都有其内在局限性,不加判断地应用是毫无意义的。因此,选择方法要由具体应用的目标和情况决定,不能仅仅由算法的性能判断。
在上述数据挖掘算法中,统计分析方法是目前最成熟的数据挖掘技术,主要用来进行分类挖掘、聚类挖掘和关联分析。神经网络法具有对非线性数据快速拟合的能力,对于复杂情况仍能得到精确的预测结果,可处理类别和连续变量;缺点是无法解释结果,对输入数据类型有要求,容易受过度训练的影响,计算量大,不适合处理高维变量,可以用于聚类、分类和序列模式。决策树产生直观、易于理解的规则,分类不需要太多计算时间,且计算容易,处理类别、连续变量,可清楚指明对预测和分类最重要的域;缺点是数据越复杂,决策树分支越多,越难管理,对缺失数据的处理不太有效。适于对记录分类或结果的预测,尤其当目标是生成易理解、解释和可翻译成SQL或自然语言的规则,可用于聚类、分类及序列模式等方面的挖掘。遗传算法可处理许多数据类型,可并行处理,常用于优化神经元网络等技术;缺点是需要参数太多,对许多问题编码比较困难,得到的是满意解而非最优解,计算量大。遗传算法常与其他技术集成,可用于分类、聚类及序列模式分析等挖掘。在现实中,粗集是普遍存在的现象,粗集和其他方法的结合,能够提高数据挖掘能力。具体说来,粗集方法具有如下优点:首先是提供一套数学方法,从数量上严格处理数据分类问题,尤其是当数据具有噪声、不完全性或不精确性时;其次,粗集仅仅分析隐藏在数据中的事实,并没有校正数据中所表现的不一致性,一般将所生成的规则分为确定与可能的规则再次,粗集理论包括了知识的一种形式模型,这种模型将知识定义为不可区分关系的一个集,这就使知识具有一种清晰定义的数学意义,并且可适用数学方法来分析处理;最后,粗集不需要关于数据的任何附加信息。粗集方法可以用于聚类、偏差分析等挖掘任务。聚类方法和可视化技术也可以用于多个方面。在网络信息的知识发现中,对内容的挖掘可以采用关联分析、神经网络法、分类挖掘等方法;对结构的挖掘可以采用关联分析、分类挖掘、聚类挖掘、可视化技术等方法;对使用记录的挖掘可以采用关联分析、分类挖掘、遗传算法等。由于每种方法都有它的长处和不足,应考虑如何结合起来,互相取长补短,从而取得更好的效果。
没有评论:
发表评论