Bill_Lang: 李航老师来访哈工大

《从人工智能到统计机器学习》这是李航老师今天上午在我们学校A22教室里报告的题目。在这个报告之中，李航老师非常幽默而又不失严谨的介绍了人工智能的综述和目前统计机器学习理论的内容。其中提到了下面几个人物我非常感兴趣。

Karl Popper: 他的反正不可能（refutability）哲学对于很多的科学的存在性和合理性给出了很好的判据。
Wittgenstein: 他的游戏分类(game taxonomy)研究过程中发现所有现在流行的游戏没有一个共同的属性。
Hanson: 他试图寻找人们作出科学发现的模板（Pattern of discovery）。

以上三位哲学家在国外都非常的有名，他们的思想俺在有空的时候定会好好的学习一下。先留在这里备份啦。

上午报告中统计机器学习部分，我又一次听到了李航老师介绍统计学习三要素的问题。这个话题在2004年8月北京语言文化大学召开学生计算语言学会议的时候俺就听李航老师讲过一次了。现在说来惭愧，这部分内容俺没有理解深刻。对于每一种机器学习方法，李航老师用三要素来概括：模型，策略，算法。结合他分析决策树算法的例子，我发觉决策树的整个方法在这三个要素的列举面前变得是那么的清晰。这让我有了一种冲动，那就是用这种分析方法把机器学习里面现在主流的方法全部学习一遍。这件事情需要好好的筹划一下，或者在俺正在酝酿的机器学习小组活动中举行一下。

在上午课堂上的提问环节，俺向老师询问了他对于Graphical Model的理解和认识。原来这部分老师也正在起步阶段，还有很多的事情需要弄明白。哈哈，看来这个点上可以作出很多的文章呀，机会呀，机不可失哦：）

李航老师在回答一个学生的问题的时候提到目前主流的三种分类方法包括SVM, Boosting( 主要是Ada boost)，和Logistic regression。李老师在黑板上快速的写出了三种模型的损失函数，而且将三种方法进行和很好的比较分析。看来牛人都是是需要把基础打得牢牢才行的。俺又一次惭愧了，虽然担任实验室论坛机器学习版已经有接近三年，但是对于这些基础的问题，俺还处在朦胧状态，真是愧对父老乡亲呀 :(

听到李航老师的一个新颖的观点如下。传统的机器学习方法分类两类：分类和聚类。但是现在出现一种新的类别，那就是排序（ranking）。ranking里面需要解决的问题是多个对象的排序问题，原本存在的对象之间两两的排序在最终的排序之中需要得到最大限度的吻合，如何排出最好的序也就成为一个非常重要的问题。这种问题在搜索引擎中非常的突出。ranking也是目前李航老师主要研究的两大问题之一。（另外一个是Graphical Model）最近的SIGIR 2006上李航老师有一篇关于优化RankSVM的文章。呵呵，也不知道是不是就是南开小牛徐君的那篇。有时间要拜读一下的。

在下午的语音语言技术中心座谈会上，李航老师和我们三个自然语言和搜索研究相关的三个实验室的部分博士生进行了座谈。其中我们了解到了李航老师现在主要的项目和研究工作。我提到的搜索引擎检索结果按照人物聚类的问题得到了李航老师的认可。李航老师也给出了几条建设性的建议。俺询问的第二个问题多叉树上寻找n-best路径，我们没有得到很好的结果。

按照Tim老师的说法，李航老师是机器学习的大牛，俺们需要好好的向他学习和交流。感谢李航老师的指导。下午座谈会之后李航老师参观了我们实验室，我最近完成的XML项目也得到了李航老师的认可。呵呵，牛人来了，真是学到不少。

Bill_Lang

2006年4月22日

李航老师来访哈工大

2 条评论: