Bill_Lang: 韩家炜老师的演讲

早上有一个关于数据挖掘的讲座，主讲人是大名鼎鼎的韩家炜老师。我第一次听说韩老师的大名那是在研究生课程中学习数据挖掘的时候，我们的主讲老师对韩老师推崇有佳。终于今天有幸目睹了大师的风采。

韩老师现在是华人里面作数据挖掘最出色的研究人员。他现在是美国伊利诺斯大学计算机系数据与信息系统实验室数据挖掘组的教授。韩老师给我们介绍了他带领的研究小组。他的组员大约有8人，除了有两名来自希腊和韩国的学生外全是中国留学生。半个月前新到的一批VS培训的时候我见到的陈红同学就是他的学生，现在利用暑假在这里作VS。很高兴的是在韩老师现在的组员里面有一位是来自哈工大的学生。这让我感到很亲切。

上午报告的主题是“Data Mining: Moving Towards the New Frontiers”。报告内容主要是他领导的研究小组完成的相关研究。刚开始，韩老师就向我们简述了一下DM的发展情况，还指出想要做好DM必须有Data Base, Machine Learning, Information Retrieval, Statistics的基础，这样才有可能在DM中作出东西出来。

韩老师的报告内容就像一个DM的综述一样，首先从Data warehouse 中的Data Cube 开始，介绍了很多OLAP，Efficient Cubing, Indexing的技术。韩老师的介绍又一个特点，那就是每个相关的点都有至少一篇他们研究小组的论文列出。介绍过程中我非常感兴趣的有以下几点：

1。Classification中比C45好的技术有很多，其中韩老师组里的研究成果CMAR 和CPAR都非常好。这些比C45好的技术对于我来说非常的有用。因为到目前为止我在分类问题上的理解大多还是停留在C45的水平上。曾经对C45有过深入的学习，现在整个思路和想法都觉得C45非常好，一直想跳出这种想法但是苦于没有找到可以拜读的论文。现在可以借助于阅读相关论文来完成这个工作。

2。Data stream的Clustering中可以借助于Micro-clusters来完成最终的Clustering。这样可以克服大类中突现出来的小类的分离过程。

3。Scalable Web and Text Mining中存在着大量的有很多正例儿反例非常少的情况。比如在分类Professors的主页时大家一般都不指着这个Professor的主页说这个不是另外一个Professor的主页。这种情形在我们的NLP中非常常见。比如我们做过的文本分类。以往的做法是随便将一个正例改为反例。这样一来确实可以得到很多的训练样本，但是这样得到的反例和正例之间的距离或者说相反的程度可能会很小。试想，如果我们把数据空间中相距很近的两堆相反样本区分开，这本身就是一件非常困难的事情。这里韩老师的方法我觉得很只得借鉴。那就是在正例样本空间中依靠一些特征来找出那些相差非常大的样本来构成负例。然后利用SVM来找到支持向量，然后在两组支持向量之间的空白部分再完成相似的工作，直到边界很小为止。这就像在北京地区先区分出紫禁城以内和五环以外，然后在分出四环和二环。这个方法我感觉非常好，但是有一点需要深究，那就是如何有效方便的找出那些相差比较大的反例。针对这个问题，在听众提问的时候我举手向韩老师请教了一下。答案是要针对具体类别寻找有效的特征。

4。感到最新鲜的是韩老师介绍的程序自动探测BUG的工作。原先有人研究这个采用的方法是软件工程的角度。而他指导的一名学生采用的方法是DM。也就是将程序中的语句是不是BUG看成是一个分类问题。实验数据也很好获得。一般的想想这个问题非常的有意思，采用的解决思想就是分析大量的测试结果，找出那些程序运行过程中发生数据突变的那些部分，从而完成bug语句的定位。据说这个研究已经开始了很长时间。现在有专门的研究机构开展了这项研究。其实这个工作也是非常有意义的。因为这个一旦做好将会极大的推动软件行业的发展。这个例子也说明了实际生活中的一些问题可以换一个角度去看，那样往往会得到意想不到的方法和结果。

5。韩老师在介绍每项研究成果或者说是研究论文的时候提到的都是一些非常有趣而简短的idea。这让我想到了作研究的一种模式。那就是彻底了解别人的工作，结合自己的情况想到一些改进的方案从而完成研究。一篇论文不需要太多的创新点，一个就行。加上充分的理论和实践的论证，那就是出色的研究。

6。最后一个听众提问是询问大家一直可能都比较模糊的问题。那就是DM和ML的区别。韩老师回答时先是提到了一个以前他在欧洲出席一个国际会议时一位搞统计的研究人员询问他的问题。那位搞统计的说DM和Stat有什么重大区别么，研究的问题其实都是差不多的，统计专门的机构已经有上百年历史，DM只有三十年的历史；作统计的在研究分类部分已经有三十年的历史，而DM只有不到十年的历史。韩老师说这其中涉及到的DM、ML和Stat都是很相关的。首先DM是一个非常交叉的学科。需要学习很多的东西。但是本质上和ML以及Stat的区别就是DM遇到的问题是海量的数据，以往在ML和Stat好使的方法在DM就不一定好使。比如Decision Trees 和Cluster的研究。我想，其实在进行DM的相关研究时如果带着需要处理大量数据的“有色眼镜”来重新审视那些ML和Stat的方法往往获得到很多的研究内容，这其中蕴涵着大量的研究空间。

韩老师的报告结束了，从中了解到了很多的东西。我想，对我来说现在需要学习的东西还有很多很多。虽然我的研究方向不是DM、ML或者Stat，但是我所学习的NLP也是多学科交叉的。其中需要掌握大量的知识。联想到昨日那位中年校友代表的“厚”。我需要好好的扎实的去学习这些东西。现在还是“儿童团”员的我需要更加努力的学习。

Bill_Lang

2005年6月6日

韩家炜老师的演讲

2 条评论: