Bill_Lang: 数据挖掘技术特写

2006-11-02 13:37:46

张承东
导语：
“我们把世界看成数学，并且把你也看成数学”--用这句话来说明数据挖掘技术的复合性和应用的广泛性似乎再好不过。如今，虽然一些行业在应用这一技术上仍然缺乏足够的主动，但一个不能阻挡的趋势是：已
经有越来越多的人在快乐而有效地使用这一技术并且不由自主地成为它的“挖掘”对象。

引子：
禽流感该如何更好地监控？今天你写Blog了吗？
你是否觉得这两个问题连在一起问很无厘头？
事实上，美国一家公司正在试图让这两个事件之间的关系日渐明了。
这家公司目前正在通过从全球的Blog网页中作挖掘出和禽流感相关的信息，从而建立一个预警机制。这一项目考虑到Blog已经成为新闻传播的重要途径，先从网上抓取有关禽流感的网页，存入到公司的数据仓库，再指定“国家”为关键目标词，然后利用关联分析技术，即可得到和禽流感关联最大的国家，由此可以判定该国的禽流感传染可能比较严重。
就在此前，已经有很多人在抱怨，网上多如牛毛的Blog除去浪费了人们数以十万年的阅读时间之外，还有多少用处？如今，商业智能领域中的数据挖掘技术正在力图从这些爆炸式增长的Blog中“挖”出更有价值的东西，同时它也正在更多领域中展示其非凡的力量。

工具篇：前方是岔路口

数据挖掘其实并非单纯的IT技术，而是数学家和计算机科学家之间的合作产物。在过去十年中，高等数学和计算机建模的联姻改变了科学和工程技术，以至于有人认为这一合作已经开创了一个全新的商业领域。
有关数据挖掘技术的定义有很多版本，综其要点，主要在于应用一系列统计与人工智能技术来发现以前并不了解的数据规律，并解决实际业务问题。如今，数据挖掘技术已经从最开始的一个简单的算法包，发展出通用挖掘平台和专业挖掘工具两大种类。其中，像IBM、NCR、SAS、微软、SPSS、StatSoft等厂商的数据挖掘产品（模块）基本都是通用型工具平台；而像美国的 Unica 公司、费尔艾萨克公司（Fair Isaac Corporation）则主要专注于诸如营销自动化、信用卡积分等细分领域，属于后一种工具。
具体来看，目前在数据挖掘领域声势颇大的大多是通用型工具平台，像IBM、NCR、SAS、微软、Oracle 、SPSS、StatSoft等都是如此。

“现在IBM更侧重的是平台优势。”在采访中，IBM软件部中国区DB2信息管理技术经理刘晶炜明确表示。目前，IBM的DB2中包含Intelligent Miner for Data和Intelligent Miner for Text两个数据挖掘模块，将数据挖掘和数据仓库整合到一个平台之上。其中，前者主要针对结构化信息，主要分为建模、浏览、Scoring Service三个部分；后者则是针对文本的挖掘模块，其主要功能是特征抽取、文档聚集、文档分类和检索。

NCR Teradata的数据挖掘工具同样也是与其数据仓库整合在一起。具体来说，其数据挖掘工具可以按照挖掘的步骤主要分成Profiler、ADS Generator、Warehouse Miner和模型管理器四块。目前Teradata最新版的数据挖掘方案是Teradata Warehouse Miner 4.1。

SAS 公司和SPSS公司作为两家从传统的统计分析技术发展而来的数据挖掘厂商，二者在业内的影响力可谓有目共睹。其中，SAS 公司提供了SAS Enterprise Miner 、SAS ETS(时间序列预测)、SAS OR(运筹学)、SAS STAT(统计分析)、SAS QC(质量控制)等一系列工具；SPSS公司也提供了Clementine和AnswerTree两项产品。

微软在SQL Server 2005中在数据挖掘方面的突破与创新曾被人看作最令人惊艳的地方。Microsoft SQL Server 2005 Data Mining 平台的确引入了大量的数据挖掘功能，其本身就是一个开发智能应用程序的平台，而非一个独立应用程序。而且，这一平台与所有 SQL Server 产品实现了集成，包括 SQL Server、SQL Server Integration Services 和 Analysis Services。据称，SQL Server 2005 中最重要的数据挖掘功能就是其处理大型数据集的能力，它允许模型对整个数据集运行，从而消除了采样方面的挑战。

总起来看，像IBM、NCR、Oracle、微软这些平台工具厂商基本上都是以提供“整车”为己任。一句话，只要用户不是很挑剔，基本上都可以在某一家那里即可买全包括数据挖掘工具在内的全套商业智能产品。而像SAS、SPSS、StatSoft等公司虽然也宣称提供工具平台，但提供“整车”的实力有限，主要在统计分析和数据挖掘领域延伸提供尽可能多的工具组件。

相对于这些挖掘工具平台，专业挖掘工具可能在市场的声势并不大，但是像Fair Isaac 公司、Unica 公司的发展却也相当不错。比如像Fair Isaac 公司就已经占据了全球信用卡积分市场70%－80%的份额，几乎达到垄断。该公司的创始人发明了一个信用评分卡（即费寇分数，FICO score），由此可以预测人的未来偿付行为，为消费者信用行业提供一个有效的预测工具。同样，美国 Unica 公司的 Affinium Model 则是一款专注于市场营销自动化的数据挖掘工具软件。

那么，面对这两种工具，用户该如何选择？换句话讲，哪种工具才是未来的发展方向呢？
中国传媒大学调查统计研究所副所长、数据挖掘研究室主任沈浩认为，平台化肯定是将来的一个发展方向，而且，中国的市场足够广阔，也可以容得下一批这样的平台厂商。IBM软件部中国区DB2信息管理技术经理刘晶炜也表示，正与SAS进行更多的合作，以便进一步统一数据挖掘领域的技术标准。而Teradata数据仓库专家盛秋戬博士则认为，目前的平台工具虽多，但从根本上讲，都是在用横向的数据挖掘工具解决纵向的行业业务问题。他表示，如果从用户出发，用户应该更欢迎那些专业挖掘工具。

北京瑞斯泰得数据技术开发公司苏立民总经理从事数据挖掘行业已有六年之久，他在采访中表示，现在数据挖掘领域的确存在平台化趋势，但专业工具也占领了一些市场。比如Unica 公司就是只选出并优化某些算法，再加上行业经验，就可以使建模过程更加优化。另据SYBASE商务智能总监廖钢城介绍，其实在日本，就有公司专门销售一种类似“黑匣子”的专业工具，银行积累的数据在里面跑一遍，就直接出来结果。这种工具用得也很好。而在另一方面，他也认为，提供平台的厂商会越来越少。

如此看来，业界对于工具的发展方向似乎并无太大异议，即平台工具会保持在一个适当的数量，而专业工具显然更得用户的宠爱。而现在，数据挖掘技术的发展刚好到了一个岔路口，一边指向通用型，一边指向专业型，就看企业要往哪个方向走了。

技术篇：算法与模型

一，机关可曾“算”尽？

之所以说数据挖掘是高等数学和计算机科学联姻的产物，其中一大原因就在于，对各种算法的支持程度是衡量数据挖掘工具的一大标准。在前期采访中，笔者曾设想通过对比各种数据挖掘工具对算法的支持程度来分出高低。但在采访之后，笔者发现这一对比实无必要，因为目前的算法技术已经相当成熟，而主流工具也基本上都提供了对主流算法的支持。

从算法上看，业界公认主要有决策树、分类、聚类、回归、关联分析等几大主流算法。对于这些算法，IBM、NCR、Oracle等主流工具基本上都已经支持，而像微软的Microsoft SQL Server 2005 Data Mining ，它作为一个开发智能应用程序的平台，可以允许第三方添加自定义算法以支持特定的挖掘需求。
在支持的算法种类和数量上，SAS、SPSS等传统的统计分析厂商要比IBM、NCR、微软、Oracle 等厂商更多一些。比如SAS Enterprise Miner就提供了决策树、神经网络、自动神经网络、基于记忆的推理(MBR)、线性和对数回归、聚类、关联分析等很多算法。

Spss公司在其AnswerTree工具中就提供了CHAID、Exhaustive CHAID、Classification & Regression Tree、Quest等四种计算法则。在采访中，无论厂商还是业内专家大都认为，目前的算法技术已臻成熟。北京瑞斯泰得数据技术开发公司苏立民总经理就表示，近年来统计学领域新出现的新算法很有限，大多是对旧算法的完善。而对于现存的算法而言，除了一些独有的算法之外，主流算法都可以互相拷贝，并不存在太高的技术壁垒。

或许正是因为作为数据挖掘技术基石的算法技术已经比较成熟，这也造成厂商开始纷纷在其他领域开拓新的技术亮点。比如NCR Teradata就认为，除了算法指标，体系架构也非常重要。相对于算法上的难分伯仲， NCR更强调通过其“库内挖掘”的优势，来解决数据量、效率和质量的难题。此外，苏立民总经理认为，在算法成熟之后，更重要的工作就是在数据准备阶段。而商智通公司咨询总监匡宏波则认为，虽然算法的速度业已越来越快，但更关键的是怎么用。无疑，这些都是需要业界跳出单纯的算法技术并及早关注的重点。

二，从模型看未来
美国《商业周刊》在今年的一篇文章中指出，人类将数学建模应用于现实生活与工作肯定将是21世纪最伟大的事件之一。事实上，建构模型也正是数据挖掘技术的重要内容，正是通过建模，数据挖掘工具才可以准确地告诉用户那些隐藏在数据库深处的重要信息，同时又对未来做出预测的。
那么，何为建模？简单来讲，就是综合运用数学思想方法和IT技术建立一个适合当前问题的模型，用以解释之前发生的事情并预测未来发生的事情。
“算法是刀，建模是刀法，而模型就是用刀切出来的东西。”北京瑞斯泰得数据技术开发公司苏立民总经理如此形容算法、建模和模型三者之间的关系。简单来讲，如果算法是“y＝a+bx”，那么模型就是“y＝5+3x”。区别就在于已经带入了常变量。目前，业界探讨较多的技术内容主要有自动建模和模型转换两点。
其一，自动建模。
自动建模是考查数据挖掘工具是否能够自我优化，从而方便一般用户使用的重要功能指标。在这项功能的帮助下，用户无需深刻了解算法的优缺点，即可利用其灵活的参数设置及其帮助从而增强建模的效率。
目前，诸多主流工具都在自动建模方面有着较好表现。比如NCR就尤其强调其模型的并行性。据Teradata数据仓库专家盛秋戬博士介绍， NCR的并行处理优势就在于：比如用两台服务器（集群）来作挖掘，可能需要1分钟的反应时间；而如果再加两台服务器，则只需要半分钟的反应时间。这一优势当然是基于NCR自身的硬件设备。
SAS Enterprise Miner（EM）的自动建模主要体现在自导向（SEMMA）数据挖掘进程上。SEMMA为执行数据挖掘的核心任务提供了一个灵活的框架，这些任务包括五个主要的步骤，亦即采样(S)，探索(E)，修改(M)，建模(M)和评估(A)。此外，专业工具厂商美国 Unica 公司的 Affinium Model 的最大优点也是体现在最大限度地将数学建模过程自动化，使得那些数学基础不好的业务人员可以方便地使用这个工具。
需要注意的是，虽然自动建模被人们寄予厚望，但是还远未达到让用户手到擒来的地步。之所以这样说，一方面是因为工具本身的技术实现不够，苏立民就认为，在这方面，专业型工具做得要比通用型工具相对较好；另一方面，自动化本身并不能取代一切。中国传媒大学调查统计研究所副所长、数据挖掘研究室主任沈浩也解释说，做好自动建模，同样需要对业务有深刻的了解，才能选择更好的变量。比如在知道一批女孩的身高、体重数据之后，要分析出女孩的漂亮程度，那么，选定“身高除以体重”来分析无疑还是要靠脑子想出来的。

其二，模型转换。

数据挖掘工具的多样性造成模型种类也很多，这种情况下，不同工具生成的模型是否能够共享或转换就成为一大难题。目前，业界正通过对预测模型标记语言（Predictive Model Markup Language ，PMML）的应用来解决这一问题。这一语言在1997年7月由DMG(the Data Mining Group)发布，它利用XML描述和存储数据挖掘模型，已是一种已经被W3C组织接受的标准。现在来看，IBM、SAS和SPSS等厂商已经在使用PMML标准导入数据挖掘模型，但也有些厂商仍未采用此种标准，而从标准本身看，对数据仍然具有一定的依赖性，还未真正实现模型与数据的分离。

热点篇：文本挖掘与网络挖掘

算法和建模作为数据挖掘工具的核心技术从它诞生之日起就在得到不断完善，而在最近两年，也有一些新的技术和应用热点开始引起人们的关注，比如文本挖掘、网络挖掘和可视化挖掘就是其中比较重要的三种。
“文本挖掘是个太恐怖的事情。”中国传媒大学调查统计研究所副所长、数据挖掘研究室主任沈浩如此形容文本挖掘的威力。文本挖掘（Text mining），顾名思义，就是从非结构化的文本中发现潜在的概念以及概念间的相互关系。在这项技术中，最关键的是分词技术，建立词典。只有让计算机依据词典完成正确断词之后，才可以实现将非结构化信息转化为结构化信息，然后就可以进一步研究文本之间的关系。比如本文开头提到的通过分析Blog网页来建立禽流感预警机制的例子，其实既利用了文本挖掘技术，也是一个网络挖掘案例。
到目前为止，像IBM、微软等主流挖掘工具以及google和SNS网站都已经在使用文本挖掘技术。但遗憾的是，目前这些工具大多只支持英文，还不支持中文挖掘。
如果说文本挖掘是一项技术热点的话，那么网络挖掘可以称得上是数据挖掘领域中的一大应用热点了。具体来讲，网络挖掘还可以细分为三种挖掘，一是前文提到的文本挖掘，二是结构挖掘（Structure mining），主要解决网页与网页之间的链接关系，三是点击挖掘（Hit mining），是针对点击率的挖掘分析。总体而言，要实现网络挖掘，从技术上讲并没有难度，大部分的问题都可以用成熟方法来解决。
在采访中，无论厂商、集成商还是学界都肯定了网络挖掘的美好发展前景。“我个人比较看好Web下的网络挖掘。”盛秋戬博士这样说。他认为，网络挖掘是施展数据挖掘技术的很好的舞台，同时也会给挖掘工具厂商带来不少商机。沈浩同样也认为，当电子商务发展起来之后，网络挖掘肯定大有可为。
但是业内人士也指出，网络挖掘目前尚存在一些瓶颈。
首先，一个关键问题是电子商务的评估指标（e-Metrics）还没有形成一个完整的体系。所谓指标体系就要设定几个维度来衡量电子商务网站生意的好坏。目前，有些电子商务网站已经开始定义像潜在顾客率（reach）、招揽时间（Acquisition）、潜在顾客转化率（Conversion）等一些评估指标，美国的一些技术会议也已经开始做一些整合工作，但是要形成体系还需要一段时间。
其次，缺钱。在采访中，商智通公司咨询总监匡宏波表示，曾经有一家医药类电子商务网站主动找上门，提出要求想知道平台的某类药品（比如盘尼西林）主要销往哪里。但盛秋戬博士也指出，就电子商务领域的总体而言，除了像亚马逊、eBay等一些国外大型电子商务网站开始自己买工具进行挖掘之外，国内少数注意到数据挖掘技术的网站大多是自己开发做此类工作，舍得掏钱的人还不多。
在文本挖掘和网络挖掘之外，可视化挖掘（Visual Data Mining）因为和工具的易用性联系在一起，因而也颇为重要。简单来讲，可视化包括了数据预处理和结果呈现两个方面。比如StatSoft一直强调的完整的图表工具库以及高质量的图表呈现效果就是其优势所在。但是总体情况来看，可视化的内含和标准近几年一直没有更新的内容，而且，即便工具厂商自认为做得再“可视化”，对于用户来说，仍有难以理解和掌握的地方。苏立民介绍说，虽然现在挖掘结果呈现已经相当易用，但是他接触到的一些用户依然会抱怨说，每回总是打印出案例那么多表格到底有什么用？其中的问题就在于：工具的易用性是一回事，有没有既懂业务又懂技术的人来用却是另一回事。

应用篇：瓜熟蒂不落？
在采访中，笔者发现，无论厂商、集成商还是学术界，基本上都认同一个观点，即：数据挖掘在技术已经趋于成熟，现在更重要的就是如何拓展行业应用。 IBM软件部中国区DB2信息管理技术经理刘晶炜表示说，数据挖掘技术已经到了一个普及化的阶段，现在关键是要让数据挖掘从神坛上走下来。商智通公司咨询总监匡宏波也表示，现在数据挖掘领域的问题都不是技术问题，也不是工具问题，而是应用问题。那么，现在，数据挖掘工具在国内的实际应用处于什么阶段呢？
从行业应用来看，目前大多数的用户来自都来自电信、银行、保险、税务等领域，比如南京地税、四川移动两个案例就做得相当成功；应用主题则主要包含：消费者行为分析、信用评分与风险管理、欺诈行为侦测、购物篮分析等方面。综合国内外的发展趋势，可以看到的是，大型连锁商店和高科技制造产业也将成为应用数据挖掘技术的重要领域。前者的记账质量之好为业内公认，一旦开始数据挖掘方面的应用则前景不可限量；而在后一个领域，国外已经开始陆续导入数据挖掘技术，类似做法相信会很快为国内制造业大厂所借鉴。
从应用层次上看，大体可以分为三个层次，第一层次是把挖掘工具当作单独的工具来用，偶尔用一下出具一个报告，不用建设系统；第二层次则是把数据挖掘模块嵌入到系统中，称为部门级应用；第三层次是企业级应用，相当于把挖掘系统作为整个企业运营的CPU。目前，国内的数据挖掘的应用是本来数量就比较少，即便是做了的，也有很多只是处于第一层次，偶尔某些用户能够做到第二层次。
如此一来，问题出现了：既然数据挖掘技术已经趋于成熟，为什么在应用上却迟迟跟不上呢？笔者在采访了几家主流厂商和集成商以及业内专家后发现，问题主要集中在以下几个方面。
其一，工具易用性强则是否用户就会运用呢？答案是否定的。
现在很多厂家都在强调工具的易用性，但是却忽视了一个问题，即工具易用性强和用户会运用完全是两码事。SYBASE商务智能总监廖钢城表示，这两者的关系，就像用word写文章一样，即便输入法、界面等再友好，但是和使用者能否写出流畅的文章关系并无关系。换句话讲，工具再易用，前提也得是用户脑袋要清楚。即便面对同一个工具，统计学家和普通人使用后得到的结果也不一样。因为选用的数据不一样，选择的变量也不一样，结果的准确性自然也不一样。
“用户总是想像使用傻瓜相机一样使用挖掘工具，事实上这是不可能的。”盛秋戬博士表示说。据他介绍，目前很多号称已经做完的项目，其实大部分工作仍然还都是由厂商代替客户操作使用。
其二，复合型人才一将难求。
要成功完成一次数据挖掘过程，用户首先要业务熟悉，其次还要对算法和模型熟悉。两者不可偏废，才能知道拿来的数据代表什么，算出来的结果又代表了什么。然而，从目前电信、金融行业的人才结构来看，如今主导建设数据挖掘系统的大都是工科出身，不但业务不熟悉，即便是对于数学领域中的统计学也都过于生疏。客观的讲，这种复合型人才的缺乏也在很大程度上造成了目前数据挖掘市场还不够成熟。
那么，如何解决这个问题？答案似乎很简单，没有那就只有培养了。比如现在一些电信用户就在日常培训之外，还高薪聘请一些乙方（数据仓库解决方案供应商）的咨询师和顾问，专职负责自己的数据仓库和挖掘项目，试图由此培养一批既懂业务又懂技术的专业人才。当然，一开始说的是培养，最后实在忙不过来，用户挖厂商墙角的事也不是没有。
问题是，同样是培养人才，那到底是让业务人员学技术好呢，还是让技术人员学业务好呢？苏立民和廖钢城都表示，更赞成是业务人员去学习技术。因为业务人员是为了应用而学习，可以实现很好的结合。目前，像中国人民大学已经开始招收有计算机专业背景的统计博士，而中国传媒大学的数据研发中心也是文理兼收，可以想见，未来三四年内，人才缺乏的问题将逐步得到缓解。
其三，转变意识，端正心态。从意识上，主要是用户要转变；而心态上，则厂商和用户都需要端正。
首先，从意识上看，与国外长期的精细化管理相比，国内用户有些时候还不太习惯迅速走向精细化。沈浩就表示，国内零售企业的记账是最好的，也是被认为最值得作数据挖掘的行业，但至今为止还没有哪家开始做，原因就在于没有这方面的意识。
其次，从心态上看，用户和厂商的心态显得都过于着急。从用户来讲，总想找个可以替代决策的工具。不做长线，只想作短线，总以为项目上线就行了。像国内某电信公司，从一开始其实就没想清楚需求是什么，结果火急火燎的把工具买来，现在根本就用不起来。从厂商来讲，问题在于不太想培育市场，只想赚快钱。苏立民认为，数据挖掘是一个需要慢慢雕琢的东西，需要精耕细作才能做成功，但是目前一些厂商却更愿意采取狩猎型，作一个单纯的产品销售型公司，这种做法本身似乎就不太适合这一行业。廖钢城也表示，Sybase正是看到这种情况，所以就更愿意和和瑞斯泰得这样的集成商合作实施，而不只是销售产品。

编看编想：
从一锤子的买卖到沿途下蛋

生意人都知道，一锤子的买卖做不得。但笔者却发现，在数据挖掘领域里，敲一锤子换个地方的现象却似乎并不鲜见。为什么非要这样做呢？答案是，全因心里太着急。很多厂商总认为，自己怀里揣着的是好产品，面前的中国又是一个大市场。如此一想，就感觉不赶快搂下几个大单简直没天理了。
于是，搞售前的着急让用户签单，拿到钱后又着急从用户那里撤退。结果如何呢？还真像那句俏皮话说的：有困难要上，没有困难创造困难也要上。活活把一些简单问题复杂化。有些买完工具的用户其实需求都没想明白，何谈成功运用；而那些能在忽悠中挺过来的用户索性就不再理这茬。
问题出在哪里？其实厂商看得清楚，不外乎市场需要培育、人才也需要培养而已，而他们只是懒得下手去做，甚至不愿去说。
厂商着急，其实用户也着急。厂商着急卖产品，而用户却在着急花大价钱买来的产品早日上线出效益。这种想法虽然也有问题，但是可以理解。你想，谁不担心几十万打了水漂儿，谁又不想让领导说这几十万花得值、花得好呢？！
那么，如何才能做到既能保证项目按周期实施、又不让用户心急火燎得难受呢？上海证券交易所信息网络有限公司董事长赵小平提出了“沿途下蛋”的理论。简单讲，就是不要到最后才给用户下一个大金蛋，很可能这个大金蛋还没下来，用户就已经下了逐客令。正确的办法就是不断出成果，这样用户才会安心等待并且积极配合。
无疑，从“一锤子的买卖”到“沿途下蛋”这条路上还需要厂商和用户慢慢琢磨。(ccw-cnw)

Bill_Lang

2006年11月3日

数据挖掘技术特写

没有评论:

发表评论