2005年10月27日

第二界全国信息检索与内容安全学术会议

下午有幸来到融科大厦参加了这次学术会议。会议是上午开始的。我们IR实验室到会的共有7人,三位老师,四位同学。主要过来就是想见见我的老师和师兄们。下午就算是我蹭听了一下午的报告了。好在这边参加会议的人都能够领到论文集。

下午两点在信息检索的会场遇到了张刚师兄,他给了我一本论文集。报告开始之前我和志昌师兄坐在一起,我右手边的是百度公司的人员,和他们聊了一会儿之后后面有位与会者询问了我的名字,原来他就是前一阵子在和我用mail讨论WSD的那位沈阳的同学,他还说我们刘老师前几天在他们那边做了一个精彩的报告。嗯,我也像在邮件中说的那样等到实习结束回到学校后就给他发送那篇他需要的WSD的博士论文。呵呵,感觉这个世界真是小呀。这感觉就像刚到MSRA的第一天就遇到以前经常讨论问题而未曾谋面的小崔一样。

在信息检索会场我听到了四个精彩的报告,主要了解到了一些比较新的ideas。比如《一种基于潜在语义的Markov网络信息检索模型》中采用了LSI和Markov结合起来做Query扩展。这个Idea巧妙之处在于很好的应用了现在比较流行的Graphical Model来实现Query的扩展推理。这也反应了国外最近几年比较流行的Graphical Model在国内也开始应用起来,想必这个东西在国内的检索研究中会出现越来越热的情形。这个报告结束后的讨论出现了一个有趣的现象,那就是提问题的都是咱们实验室的人,志昌师兄最先发问,我也问了一个关于词义的问题,晓光问了两个问题,洪宇师兄也问了一个。

张刚师兄主讲的《基于链接的分布式信息检索文档划分的研究》中主要采用了虚拟页面的方式来对一个网页集合进行建模,将集合中所有的入链和出链都合并成虚拟网页的入链和出链。基于这种建模方法在网页入链和出链的基础上完成大规模网页聚类任务,其中的一个需求是要聚出100个数目固定的类别,其中采用的一个技巧是将暂时不能放入固有中心的网页放回网页链表的末尾,等到其它网页结束后再次使用这个网页来放入其它中心从而完成聚类。这个技巧确实能够在速度上实现加快的作用,但是我对此置疑会否出现聚类的顺序不同会导致生成的最终类别不同。

《关于广义向量空间模型中布尔运算的修正》中提到一个很有意思的idea.那就是Wong提出的GVSM(Generalized Vector Space Model)出现了不满足布尔运算的情况。作者将GVSM其中的一个定义修改之后就出现了满足布尔运算全部定律的情形。这是我在IR&NLP领域看到的第一篇没有任何试验,只有相关数学证明的论文。嗯,这个很有意思。看来在咱们的领域里面也需要一些纯理论上的证明。后来一位老师指出其中存在着数据稀疏的问题,本来VSM模型是一个n维的空间,现在GVSM把它变成了一个2的n次方的空间,在这种环境下更容易出现数据稀疏的问题。这个问题需要详细的研究下去。

最后一个报告是清华大学张敏老师下面的一个博士生完成的《面向信息检索需要的网络信息数据清理研究》。这篇文章从问题分析,问题解决,特征抽取和选择,以及最后的实验,我感觉都是比较好的。颇有国外比较好的会议论文的风格。其中提到的思想就是将网络上的网页分类为高质量网页和其它网页。然后对高质量网页进行索引检索,这样在TREC数据集上预处理过后就能实现索引量接近50%节省的基础上损失一点点的检索准确率。这个方法我觉得很像前几天在研究院听到的那位日本学者讲述的句法分析是采用动态规划的方法大幅度提高分析速度而只牺牲一点点的准确率的情形。感觉这种做法在IR&NLP领域非常值得推广,这其实就是一个速度与质量的取舍问题,如果牺牲一点点的准确率而得到速度的大幅度提升的话,那样会产生非常好的效果,特别是对于超大规模的信息检索问题。

四点左右我和实验室的老师同学们一起转到了另外一个文本分类、聚类及过滤的分会场。这里也听到了四个精彩的报告。最先主将的是文勖的《类别主特征结合句法特征的中文问题层次分类》。其中的核心思想就是利用依存句法分析来自动抽取问题分类需要的特征,然后放入SVM完成分类任务。在提到句法分析时一位TRS的吕学强老师提到了一个问题就是关于汉语句子都能用一颗树来进行表示吗?由于时间比较短,这个问题没有讨论下去。会后我找到吕老师向他询问了这个问题。因为我以前也遇到过这个问题,就是“我和张华分别去吃饭和睡觉”能否用句法分析成一棵树的问题。吕老师和我的讨论结果是这个句子中主要是并列成分的分析。吕老师提到的汉语句子不一定能被分析成一个树状结构的原因是,汉语不像英语的语法那样严谨可以用句法分析来很好的实现。汉语中存在很多的连动结构之类的特殊句法。我又问“那么能否对于连动结构,我们将前面短句的主语放到后面连动子句中作为主语继续采用句法分析呢?”吕老师说我说的只是连动句的一个应用上的解决方案,对于汉语而言其中还存在了太多的问题,这个问题在北大那边也有人开始重视起来。嗯,我感觉这个里面可能存在很多值得研究的东西。就是能够为汉语单独建立一个句子级的分析方式呢?

后面的一个报告是我在MSRA的同学朱慕华的《面向支持向量机的降维方法比较分析》。其中的核心思想是采用LSI来对文本向量进行维度预处理级的约简,然后再放入SVM进行应用。这个idea确实不错。

之后的报告是北京大学一位博士生的《中文文本聚类的特征单元比较》。其中的Contribution就是在文本聚类时分别比较1-gram,2-gram,3-gram,word级别的文本向量表示基元,得到最后的结论是在不同的语料上表示方法的效能没有统一的结论。我提出的意见是不能一刀切,必须要针对具体的词性采用具体的表示形式,不能一刀切。这个想法作者还没有很好的想到解决方案。我觉得以后有时间可以想想这个问题。对于我自己进行的研究也需要解决这个问题。

最后一个报告是《一个改进的中文文本过滤系统的设计与实现》。洪宇师兄对于篇文章提出了很好的问题,那就是作者的体系结构里面有明显的反馈机制,但是在具体实现中根本没有体现这个。我的问题是其中的正例词集和负例词集有没有交集,线性组合中的几个系数如何确定。结果是有交集,参数人为确定。我感觉那个交集应该取消,参数也不能人工设置。


整个会议我只能参加一个下午的,但是从中我发现了一些趋势性的东西。那就是LSI得到了很到的应用,由于LSI良好的数据稀疏解决能力,使得它能够在表示文本的时候可以起到很好的效果。这个表示方法我觉得还是存在许多的问题,比如如何选定最后生成的主对角矩阵排序后需要选取的元素的个数,有没有关注到词义级别的建模方法。嗯,有空俺要好好研究一下这个东西。因为对我的研究工作也是非常有用的。

还有一个想法就是我前一阵子琢磨过的图模型以及小波分析的东西不能丢下,其中蕴藏了巨大的研究价值和应用价值。

今天参会收获颇丰,也结识了几位朋友。晚上实验室所有在京的毕业生以及到会的老师同学们一起在会场附近的郭林饭店聚餐了一次,其间大家回忆了以前一起度过的美好时光,度过了一个开心的夜晚。

2 条评论:

匿名 说...

庆祝解封,可以看到你的精彩总结了

Bill Lang 说...

哈哈,欢迎师兄多多批评指正啊 :)