2004年8月26日

会议第一天

早上8:30,在北京语言大学的逸夫楼一楼报告厅举行第二届全国学生计算语言学研讨会的开幕式。开幕式由北京语言大学的罗智勇主持,北京语言大学的副校长崔希亮致了开幕词。北京语言大学有个很独特的地方,那就是外国学生和中国学生的数量是1:1。整个学校以对外汉语教学为主,不是简单的像教中国小学生那样来教外国人学习汉语,而是借助外国学生的母语来学习。北京语言大学在促进中外交流方面做出了突出贡献。TRS公司董事长施水才代表中文信息处理学会和TRS公司做了一个简短的报告。主要内容是中文信息学会是一个很好的学会,公司和研究机构协作可以快速将实验室的研究成果转换为产品服务于社会并产生效益,现在国内外的各种NLP相关评测对中文信息处理的促进很大,中文信息处理很有前途。东芝公司、富士通公司也都有代表发言。

开幕式上的特邀嘉宾是北京大学俞士汶教授,主讲内容是大规模知识库的构建。北京大学计算语言所在这方面已经积累了很多的成果。报告开始提到报告中提到了现代汉语的诸多特点:
1)书面汉语的语言单位不清晰;
2)词缺乏形态;
3)虚词的词性以及用法灵活多变;
4)句法结构嵌套无标记;
5)时态、语态、语气多变。

现在NLP的研究领域中出现了一些新课题,比如:歧义、指代、省略、篇章级隐喻等。指代作为一个较新的领域,也存在很大的难度。

接下来就是正式的会议,上午报告在北京语言大学教学二楼的301和401同时举行,301主题是分词,401主题是机器翻译。根据我自己的兴趣我挑选了一些报告来听。机器翻译的第一个报告题目是Fuzzy Matching in Machine Translation Evaluation,其中对于自动文摘评价有价值的思想是将机器翻译生成的结果与标准翻译结果进行对比,对比的方法是看出现的n-gram的重叠率。这个思想对于自动文摘评价的启发就是对于那种非机械文摘可以比较重叠的n-gram(n可以取多种情况),对于机械文摘可以借助这种方法来对比流畅度。上午的报告有一些没有报告人,所以两个会场结束得都比较早。

下午的两个会场的主题分别是语言学研究、基于语料库的语言分析技术和机器翻译。我主要听的是前一个主题。此次会议中词义消歧的报告有三个。他们采用的都是无指导的方法。这也充分体现了词义消歧的研究趋势。本次会议的论文中仅有三篇是与指代消解相关的“基于语料分析的‘这/那+NP’的指代消解算法”、“采用优先选择策略的中文人称代词的指代消解”和我的“基于决策树的中文名词短语指代消解”。第一篇文章没有相关报告,第二篇文章的作者是山西大学计算机系的罗云飞。他采用的方法和我的方法本质上是一样的,但是他完成的是单一的代词的指代消解,而且实验比我多了一些单个特征对最终结果的影响效果分析,主体方法上加入了一个指代相似度的概念。但是他的名词短语是人工标出的。我提问的训练语料标注过程、样本数量分布也没有得到答案。对比他的文章和我的文章,我开始领悟到一点如何写好文章的门道(就是要分析多一些,突出创新点,共知的东西简单描述,实验也要充分一些。以后的实验可以将问题集中到指代消解上,其他底层的工作如果现在没有好的解决方案就手工标注。)

没有评论: