2006年9月23日

东芝、北语、沈航专家来访

上午新技术楼618,北语的荀恩东老师和东芝的王海峰老师分别做了报告《应用二叉树剪枝识别韵律短语》、《东芝的自然语言、语音技术研究》。两位老师都是咱们哈工大计算机学院自然语言处理方向毕业的博士生。聆听同一方向上的校友报告,自然是一件分外高兴的事情。两个报告内容都非常精彩。除了学术上的报告外,我们还看到了很多非常有意思的Demo。高兴之余,深深佩服两位老师的科研和工程水平。

这里来说一下,我在两个报告中学习到的三点重要体会。

1。完成文语转换的时候可以先用语言学模型的方法来寻找可能的切分点。语言模型P(w) = a * Pg(w) + (1-a) * Pd(w)中前者是经典的三元语言模型,在正常的大规模语料中进行训练即可;后者是针对韵律切分的二元语言模型。两个模型融合到一起后可以对即将转换的句子采用二叉树的方法来简历树形结构的韵律切分。二叉树的建立方法是在树的建立过程中,每次对当前的语块求出最大概率的切分点,然后二分迭代。事实上,这样得到的二叉树和层次句法分析的方法类似。可以得到很好的效果。在二叉树的基础上,再进行文语合成时的可以很好的减少搜索空间,在最后的最大熵模型中应用效果也非常的显著。

这给我一个提示,可以借助一些很好的方法来实现搜索空间的优化,从而提高最终的效果。这个需要多多接触一些好的方法。恩,多读优秀论文是正道呀 :)


2。Word Alignment的时候在句对较少的情况下可以考虑用其它资源来进行增强。具体情况是这样的的。东芝公司在完成中日句对对齐的时候,中日句对比较少,很难达到好的效果。但是他们手头上有很多的中英句对,中英对齐上也达到了非常好的效果。为了解决中日对齐的问题,他们采用的策略是借助中英语料来实现。在词对齐模型中加入了一些新的特征,整合模型后得到了最终的中日对齐模型。事实上,最后的效果比只使用那些少量的中日句对的好得多。这个方法的相关论文发表在ACL2006上了。

提示:当一个问题很难解决的时候,可以绕绕道而行,从而最终解决这个问题。当然,其中如何绕道不是三两日可以学会的。还是那句话,需要多多学习优秀的论文。博览论文是正道!

3。作研究的工程化
王海峰老师的报告最后部分介绍了如何作研究。他们的步骤和策略如下:
1。选题--面向应用
2。综述--全面深入:包括方法、论文、专利、工具、评测、语料、存在问题
3。方法--切实有效
4。实验--量力而行
5。分析--自圆其说
6。撰写--深入浅出:对于中国人写英文论文要达到这一点很困难,需要不断的锻炼和提高。

提示:感觉这个过程总结得非常不错!其中的每个步骤又都需要深入的实现。对于热爱研究的我,需要好好的领会其中的含义。


两位老师昨天和机器翻译实验室的师生进行了亲切的交流,今天下午是和我们实验室的9位博士生进行交流的时候。我的报告是倒数第二个,主题是介绍我准备投入精力的四个共指消解方法。由于3月博士入学以来,我一直在忙于语言技术平台的开发,今天的报告只是结合自己本科和硕士阶段的些许工作和近10日来对共指消解的调查想到的几个粗浅的想法。荀恩东老师和吴华老师给予了一些建议。荀老师的建议是做这个工作需要结合语言的特点来完成。吴华老师对于我提到的术语共指消解的应用性有些疑问。的确,两位老师对于术语共指都感觉偏向工程,研究味儿不是很足。

刘老师最后给我们的一个指点是好好回想一下诸位老师对大家的指点,领会一下专家们的思维方式,然后好好的深入到自己的课题研究中。回顾今天的全部内容,我觉得最大的体会是需要好好阅读各种相关和不相关的国际优秀论文,从论文中戏曲营养,然后到论文中去。呵呵,这个观点有点向毛主席的从群众中来,到群众中去。还句话说就是从运动中来,到运动中去。哈哈,我自己也被绕糊涂了 :)

没有评论: