2004年8月27日

会议第二天

上午有两个特邀报告:IBM研究中心的攀越博士的《业务语义和信息集成》和富士通公司的孟遥博士的《内容理解与信息服务》。接下来的报告中很多是文本主题跟踪的。本质上文本主题发现和跟踪就是文本聚类,采用各种加权方法来对文档中的特征进行加权和聚类。有一个关于语言生成的报告非常有意思,报告题目是《基于短语本位语法体系的混合模板汉语生成》。其中提到的一些语言生成的背景知识有趣。现在的自然语言生成的主要策略有四种:封装文本(也就是设置好一些句子的触发条件,一旦条件满足就生成句子。这种方法生成的句子流畅度高,但是通用性差,而且很难移植。),基于模板的方法,基于短语的方法和基于特征的方法。本文的作者采用的是一种混合模板的方法,首先依据一些触发条件按照模板生成短语,然后将生成的短语依据一些触发条件按照句子模板生成句子。本文的工作只是一种试探,模板制作困难,而且可移植性非常差,采用的人工评价方法是人认为满意就可以。但是本文的工作可以说是确定了一种语言生成的体系结构,如果能在模板生成时采用统计学习的方法在大量文本中学习获得从而解决移植性和通用性的问题,那么前途还是不可限量的。

相对而言,下午的内容让我收获颇多。首先是微软研究院的研究院高剑峰博士介绍了一下他们在刚结束的ACL上发表的一篇关于自适应分词系统的构建策略。主要背景是现在什么是词语在自然语言处理界还没有达成统一认识,不同的语料库的有不同的处理方法。通常在某个语料库上训练好的分词系统换一个评测语料就会效果很差。采用的方法是将基本的贝叶斯模型按照线性加权的思想来修改,通过训练出更加精细的适应语料的模型来完成分词任务。这种方法实验结果显示可以大大改良统一系统在不同训练语料上的评测结果。另一位负责信息抽取的博士展示了微软研究院的信息抽取方面的工作。现阶段微软研究院的信息抽取工具建立在SQL Server2003的基础上,将来会提供一些API接口来供用户进行信息抽取基础上的研发。主要抽取思路是在Chunk的基础上抽取一些关系,采用可视图的方式来进行展示。还有一位今天上午刚刚达完辨的博士给我们展示了他在中文Chunk识别方面的工作。具体的思路也是在用线性加权的方法来构建精细的Chunk识别模型。微软研究院讲座的最后是中文信息处理领域的老前辈黄昌宁博士的一点评论。黄昌宁老师简单说了一下中文信息处理领域的前景和介绍了一些高剑峰博士在微软亚洲研究院工作期间取得的成绩。原来高剑峰博士短短4年左右时间里已经在ACL上发表了7篇文章。真是牛人呀。这也更加说明了这个领域是一个年轻人的时代,只要多多努力,多多思考就会有成绩。

最为精彩的就是讲座后在北京语言大学会展大厅的几家单位的演示。演示单位有北京语言大学的分词标注系统、语料库检索系统、汉字教学系统,车万翔师兄演示我们实验室的集成好的Demo,清华大学周强博士演示的句法树库和句法分析,微软亚洲研究院高剑峰博士演示的分词系统,TRS公司的企业信息采集系统、图像检索系统,中科院的信息抽取系统等等。各家单位的演示都很精彩。就在演示场地的旁边一堆学生将黄昌宁老师围坐在中间。黄老师非常高兴的细致耐心的向大家解答各种问题。我想黄老师请教了指代的难度和指代消解的研究方法。黄老师同意我的研究方法。后来我又询问了知识库在中文信息处理中的用处。黄老师很认真地说我的这个问题在十年前是自然语言学界广泛探讨的问题,人们梦想通过构建知识库来解决大量的自然语言处理中存在的问题,进而推动人工智能的发展;日本当年投资了好几亿美元来构建了许多知识库,但是到目前为止真正用上的很少很少。还有人问到一些关于如何进行自然语言处理研究的问题。有一位四川师范大学的同学问黄老师如何在他们师范院校的环境下进行研究。黄老师给了一个很好的提示,那就是通过对大规模语料库的分析和理解来研究一些语言现象,可以读一下最新出版的《语料库语言学》。

没有评论: