2004年8月30日

首期全国计算语言学讲习班(2)

上午还是李航博士的讲座,今天的主要内容最小长描述原理、最大熵方法和超平面分类器。讲课方式和昨天的一样。讲完所有内容后李航博士将他和他的同事的一些学习统计机器学习的经验向我们进行了介绍。大致思想是机器学习的三要素模型、策略和算法的各种组合变化无穷,针对某一种具体问题需要具体的分析。如果问哪种方法适用于那种应用,答案是没有固定结论。针对具体应用需要多多对比。机器学习博大精深,方法模型更是不胜枚举,没有必要将每种方法都学习一遍。与其泛泛的学习很多方法,不如将少数的几种扎深扎透。其实机器学习方法之间是相同的,学透了少数的几种就可以触类旁通。李航博士介绍的那些参考书籍和文章都很有价值,应该抽出时间来好好研读。

下午的讲座是北京语言大学的荀恩东博士的《Perl语言与自然语言处理》。荀恩东老师是咱们哈工大毕业的博士,还是校友亚! Perl 语言以前就听说过非常适合于文本处理,曾经也自学过一阵子,但是一直没有真正用上。今天荀老师介绍后方知其强大功能和作用。讲座内容中主要介绍了Perl语言的一些基本的数据结构和基本的流程控制等语句。Perl中功能最为强大的是其模式匹配功能,也就是正则表达式的应用。荀恩东老师在介绍完Perl的基本特点后介绍了Perl 在自然语言处理中的英勇,主要有以下几个实例:查词典、词频统计、汉语分词、词性标注、简繁转换、网络机器人、连接数据库、调用Google API等。看着那些短短的数行代码就可以完成C++里面需要数倍行数代码才能实现的操作,心里不禁很激动,回学校后一定要好好学习并使用Perl。其中有一个演示非常有提示作用,在利用Perl来完成简繁转换的时候,采用的方法是在Word里面利用记录的宏操作的代码来嫁接到Perl中进行操作。Office中集成了大量的多种功能的Com组件,我们可以利用录制宏这一功能在嫁接出许多特殊的功能应用。

听完荀恩东老师的讲座后,我们为期两天的计算语言学讲习班也就结束了。晚上11:00我们乘上K39列车回哈。

没有评论: