2004年8月29日

首期全国计算语言学讲习班

上午八点半,首期全国计算语言学讲习班正是开幕。上午的主讲人是微软亚洲研究院的李航博士,主讲内容是《统计机器学习指南》。李航博士在这个领域很有造诣,他的演讲覆盖了整个机器学习领域的主要内容,首先介绍了统计机器学习的概况,然后逐一介绍EM算法、最小描述长度准则、最大熵、超平面分类器等方面。统计机器学习的三要素是模型、策略和算法。每个层次都有很多变化,即使面对同一个模型、策略,可以采用的算法也会有很多种,当把模型确定以后剩下的其实本质上是一个优化的问题。讲座中每种方法李航博士都会首先介绍一下该方法的历史,然后采用数学公式来描述问题,并在介绍的末尾部分给出进一步学习的内容和参考文献。

下午的讲座是厦门大学的史晓东博士主讲的《机器翻译系统的快速构建》。讲座中,史晓东教授讲述了机器翻译系统的快速构建的方法和基本使用的资源和工具。其中提到了许多著名的机器翻译系统。采用的模型有Bayes模型、EM算法等等。提到一个重要的思路就是在机器翻译过程中翻译生成的句子中有些词语与源语句中的任何词语都不匹配,这个时候描述方法是假设源语句开头有一个NULL,出现这种对应不上的情况时就认为是从NULL得到的。这样就可以描述这种情况并给出相应的概率模型。词对齐在机器翻译中用处非常大。

两位学者都是中文信息处理届的著名专家,从他们的讲座中,深深地感受到统计和机器学习在NLP领域中的重要性。

没有评论: