2006年9月14日

承诺之语言技术平台

何谓“承诺”?我不知道标准的定义是什么,只是知道做不到的事情不会答应别人,答应了别人的事情一定要做到,如果答应了突然做不到的话要及时告诉对方原因和建议的解决方案。回想自己半年来的工作,就是在兑现一个承诺:基于XML的自然语言处理平台,也就是现在的语言技术平台LTP(http://ltp.ir-lab.org)。

回想LTP的研发,经历了一个曲折的过程。

2003年8月,我加入了信息检索研究室,开始的一个月里在全力完成自己在学校申请的科技创新课题《基于灰色系统的大气污染预测》。紧随其后是大四的科研实习,我的课题被确立为实验室车师兄负责的中文理解平台的搜索策略的探讨。从那时起,我开始渐渐了解了实验室的各种底层处理技术,开始尝试各种搜索算法来实现快速高效的树型结构的精确路径的发现。完成科研实习后我被调往词义消歧小组,之后有过路路续续的几次工作调换。等到2004年4月调研信息抽取的时候偶然发现XML是个好东西,而且已经有很多国际人士在研究XML和NLP的关系,在尝试基于XML来提升NLP研究和开发的能力。

2005年3月,忘了怎么辗转的,我又开始负责基于XML来将实验室的各个模块串连起来。不过,基础的表示方法和程序链接方式的尝试还没有完全建立起来,我就到微软亚洲研究院去实习了。等到半年后的12月初回到实验室,发现张会鹏已经在当初我交接给他基础工作的基础上实现了基于TinyXML的一个可以串连实验室各个模块的函数接口库。随后的几个月时间里,我们一起合作解决了各个层面处理结果的可视化的工作。由于2006年3月初,会鹏被派往腾讯实习。于是整个儿工作又都重新扛到了我的肩上。说实话,我起初对这个任务是有些排斥的,因为,我知道完成这件工作是需要耗费大量的时间的,因为需要学习的东西实在太多太多了,而且我正准备全身心的开展自己的指代消解博士课题。刘老师给我做了两次思想工作后,我开始全身心的投入到其中。在3、4两个月里,忘了经历了多少次的挫折和熬了多少个半夜,终于解决了一路上遇到的各种问题,当然其中也得到了非常多的师兄、师弟&朋友的鼎立帮助。

2006年4月22日,那是一个让我难以忘怀的日子。因为那一天,我向刘老师汇报语言技术平台可以在线演示了。记得当时刘老师非常的高兴,鼓励一番后发现了其中还存在很多的问题。为了赶在紧随的五一前的最后一次实验室全体例会上发布语言技术平台,那7天里我快忙疯了。因为又遇到了很多的困难。不过,天公作美,在4月28日,一个格外晴朗的日子,实验室例会上和实验室的网站上,以及刘老师的blog上,我的blog上,都看到了我们语言技术平台的身影。是的,那天是让人兴奋的!事实上,到今天为止,在线演示的体系框架仍然是那几天确定下来的。后来的日子里,尝试了一些方法来提高在线演示的速度,但是失败了很多次后找到了在线演示的socket访问方法来进行架构的重新设计。不过Socket模式没有最终成功,因为其中还有几个问题一直没有解决。回想当初自己揣摩Socket模式的经过,我找不到对应的人询问,一切都只能依靠google和baidu来查找。因为我设计的技术框架别人没有遇到过。现在想来,自己实现的这个框架还真有些奇特的。随后的5月22日,是学生计算语言学会议的截稿日。在最后的两天内,我和刘老师密切合作,终于完成了《LTP:语言技术平台》的文章。回想那两天,又是一段快要忙疯的日子。论文后来被录用了,紧接着就是8月中旬到沈阳参加学生会议,在其中正是对外宣传和推广LTP。为了赶在这个会议之前实现刘老师规划的完整的语言技术平台,去沈阳前的一周我天天都在实验室里面泡着,完善LTML的DTD,LTML化实验室的各种对外共享语料,统一LTP函数库的调用接口和详细文档的撰写。一切事情都排在了我的日程表上。还好,在熬了大概三个通宵的基础上,我全部完成了这些工作。去沈阳的火车上,我好好睡了一觉。在学生计算语言学会议上,我完成了预期的工作:宣讲论文,对外演示,推广共享计划。记得我的报告结尾时向在座的几十位老师同学承诺,我们的共享计划从2006年9月5日开始。等回到学校,为了这个承诺,我又开始马不停蹄的去撰写很多的文档和打包各种资源和程序,以及建立邮件列表和论坛,对外发出新闻邮件等等。终于等到了2006年9月5日,我的承诺兑现了,对外共享如期发布。随后又是大量的整理需要发送共享包下载地址和解压密码的邮件。嗯,现在看来这次对外共享还不错。

基本的一些数据如下:
截至2006年9月14日
LTP在线演示从4月28日到现在测试次数:15808次
LTP在线演示从4月28日到现在测试文本容量:32.8M,折合共16,400,000汉字
LTP完全共享包自9月8日对外以来下载地址和解压密码发出:50份
LTP完全共享包自9月8日对外依赖下载次数:73
LTP-Users邮件列表自9月8日发布以来加入用户:63
发布后得到有效反馈:2条(都是台湾用户Aska 发现的,已经提供解决方案)

今天下午实验室召开了一个LTP的交接例会,交接时间是一个月。这段时间开始,我会全身心的投入到自己最热爱的研究工作:Coreference Resolution! 目标:ACL2007。

以上便是我当初对xml工作的承诺。实现这个承诺花了前前后后接近两年的时间。现在想来,我不后悔。正如simply师姐在刘老师blog里留言说的那样:


舍得舍得,有“舍”才有“得”,小“舍”则小“得”,大“舍”则大“得”,敢“舍”才敢“得”。

当大“得”之时,看当初之大“舍”,有何不可“舍”?
当需大“舍”之时,何妨想想将来之大“得”,则又有何不可“舍”?


没有评论: