有幸参加了中国中文信息学会二十五周年学术会议,见闻颇丰,主要分为以下几个方面,和大家分享如下。
大纲
1。精彩的成果展览
2。见到数位中文信息处理的前辈
3。聆听了几场精彩的邀请报告
4。了解到的关于指代消解方面的信息
5。对于LTP的推广
6。总体感受
1。精彩的成果展览
年会共有三天,第一天是各家公司和学术单位的成果展览以及中文信息处理学会的一些事务的讨论。由于我不是中文信息处理学会的成员,所以第一天只需要负责我们实验室的成果展览以及参观其他单位的展览。
这次展览,是我接触中文信息处理领域以来看到的最大规模的一次。数了一下,大概有5个大学,10多家公司。各家单位的展板都非常的精美。宣传册的制作方面,各家公司几乎都很漂亮,其中TRS公司的最为精美。展览中看到北京大正语言知识处理研究院的展台。他们的产品是基于HNC理论的,主要有HNC信息智能过滤器,HNC只能信息检索系统,HNC文本分类系统,“花季护航”上网管理软件。该公司以HNC理论为核心技术。另外一个吸引我注意的是“平方智能搜索引擎”。说是能够自动识别用户兴趣,并在用户的使用过程中不断校正、维护、完善用户兴趣,而且可以根据用户的兴趣自动实现智能代理和信息推送。感觉这个功能非常的有趣,我猜测后台是用贝叶斯网络来实现这种功能的。遗憾的是没有当场得到参展人员的解答。
输入法现在仍然有些公司在研发。这次展览上除了ITNLP实验室的句子级手机输入法展示外,还有一家数码技术有限公司的S9手机输入法,以及一家韩语兼容的汉语电脑键盘输入法。S9输入法的一个感觉最好的功能是可以实现各种输入法的自动切换,比如输入“我的电话号码是”后随即按键都被视为数字。还有一些类似的其他自动切换。感觉这种功能除了常规的语言模型的训练外,还需要引入Name Entity的训练。倒是一种不错的延伸。
我们实验室展台旁是香港城市大学语言资讯科学研究中心的展台。由于是邻居,和他们的交流多一些。他们的主要工作是LIVAC汉语共时语料库。这个语料库和台湾中央研究院黄居仁老师带领的超大规模语料库建设的一个不同点是,他们同时包含了北京。上海、广州、深圳、香港、澳门、台北以及新加坡的中文报纸,并且保持动态更新。这项工作已经开展了11年,是到目前为止收集时间最长的一个中文语料。感觉他们的工作非常的细致,手工进行了大量的处理。他们展示了“贝克汉姆”在各个地方的不同称谓,已经很多同义词的列表。这些手工工作为实现自动处理打下了坚实的基础。
有幸在展览中看到了科大讯飞的展示。我看到了很多语音方面的演示。感觉非常的不错。现在看来语音处理是信息处理中一块非常不错的领域。听说科大讯飞的研究人员中胡国平也到场了。胡国平在决策树方面造诣颇深,一直是我学习的目标。但遗憾的是没有见到他。
当然,在展台前,我们展示的LTP和三个预先准备的录像也受到了很多参观人员的关注。带到现场的实验室论文集也很快被取光了。总之,这次参展增加了很多见识。
2。见到数位中文信息处理的前辈
什么叫前辈?这个概念比较模糊。我的定义就是满头白发的那种吧。记得以前有位朋友说过,当你看到以为满头白发的老者在工作或者讲课的时候,心底会有一种默默的尊敬。
这次年会上,我有幸见到了素来敬仰的黄昌宁老师。黄老师的特邀报告中展示了一种分词的新思路,而且效果非常的好。回想去年教师节那天,我们几位小辈陪着黄老师在北京植物园闲逛的场景历历在目的。黄老师是我非常尊敬的学者。他的故事任何人听了都会肃然起敬的。
从山西大学的刘开瑛老师那里,我感受到了一种对研究的热情和执着。刘老师在做特邀报告的时候,讲到了他正在领导进行的CFN的一个知识库工程。略带口音的普通话加上慈祥的笑容,给人的是一种亲切和尊敬的感觉。听说美国和加拿大的教授都是终身制的,不用做任何工作都能保证薪金不变的。但是美国和加拿大的很多教授都在主动的从事着很多的研究工作。那种发自内心的研究是格外有意义的。看着刘老师在台上演讲时,我彷佛看到了他那种发自心里的研究热情。这一点黄老师身上也体现得非常明显的。
另一位满头白发的前辈是冯志伟老师。虽然没有直接听到冯老师的报告。但是在孙茂松报告汉字极限熵的时候,冯老师的发言中也让人感受到了一种对研究的执着、热爱和严谨。
还有一位老者就是92岁高龄的唐亚伟老师。他从事了一辈子的汉语速录研究。结合他75年的研究成果,亚伟速录技术获得了这次颁发的首届“钱伟长中文信息处理科学技术进步一等奖”。唐老师的获奖感言,展现了他的风采。
会场中还有一些前辈,恕不能一一列举。
3。聆听了几场精彩的邀请报告
这次大会共有12个特邀报告,我有幸聆听了全部内容。可以说,每个报告都是那么的精彩。每位主讲人在演讲台上都是热情洋溢的。报告列表和我的一些体会如下:
8:30-9:10 中文为核心的多语言信息处理——挑战与机遇 徐波
由于前两个报告在大会的论文集中没有文章,所以只能记录一些当时的零星感受。徐波老师的报告中提到的一种常见的企业模式基础是一招鲜,吃遍天,以汉王和科大讯飞为例。“一招鲜,吃遍天”已经不是什么新鲜的术语,曾经俺也听到过很多次。在科研方法中就有这种情况。也就是所谓的一把好锤子砸遍各个研究点的方法。这次被用来比喻开公司,感觉也是一个理儿。看来世间很多事情是相通的。作研究和开公司有很多类似之处的。
中文信息处理国际化,多语信息处理是核心。这个观点是徐老师他们单位的一个重点项目的背景概述。确实,现在看来很多中文信息处理的研究中都在涉及多语的处理,或者引入多语资源的分析。例如,借助多语信息的词义消歧、NE识别、指代消解、文摘、文本分类等。在国际化的处理中,徐老师提到三个研究点:语音识别前景巨大,应用多,市场前景巨大;机器翻译是多语处理中非常重要的一步,其中自动评测是机器翻译研究工作中的里程碑;新一代搜索引擎的主流是垂直搜索以及跨媒体搜索。
其中的关键点是海量资源的建设和共享,技术评测和重大应用的集成带动。这些关键点我感觉都是非常正确的。现在各种自然语言处理任务的主流方法都要依赖于大规模的语料资源。可以说现在的NLP的实用技术在某种意义上就是在比谁的资源多,谁的资源好。目前我个人感觉国内的现状是很多人都有资源,但是资源间的互通比较少。加入能够整合多家单位的人力物力一起加工统一语料的话,对于中文信息处理将会是一件意义深远的事情。但是这种情形出现的概率非常之小。
在徐老师报告的拓展部分,提到了他们正在完成一个Semantic Graph大规模语义网络。感觉这个工作非常的有意思,估计是Semantic Web下的一个重要推动。
最后,徐老师提到了现在NLP的主流已经从最早的规则演变到后续的统计以及现在的统计和规则的结合上了。如何演义统计与规则之道将是今后NLP研究的重点。
9:10-9:50 汉王文字识别技术研发与产业化 刘昌平
汉王是国内中文信息处理的一面旗帜,他们公司大量使用的是模式识别技术。从刘老师的报告中我了解到了两个主要的方面:汉字编码的国家推动情况以及各种机器学习技术在汉王公司中的应用情况。
躲在互联网的边缘很长时间之后,显然我已经脱离了汉字编码的国家标准计划。刘老师提到汉字编码从原先的以及汉字3千多个到GB2312的6千多个,以及随后的GBK1万多个,以及现在国家正在强制执行的GB18030 2万3千多字。
另外一个很大的方面,也是俺本次会议收获最大的是了解到了各种机器学习方法在公司产品中的使用情况。到目前为止,各种学习方法用到的地方最多还是手写体识别和语音识别。在汉王的手写体识别产品中,很多机器学习方法都得到了应用。如动态规划、LVQ4优化、SVM用于语言分类、遗传算法用于权值生成、决策树用于表格识别、曲线拟合归一化、MCE优化、3次动态规划、Bayes用于函数名分析等。汉王的各种应用,我个人感觉主要技术核心在于各种特征抽取工作和算法的集成方面。看到汉王使用了大量的机器学习算法在实际的产品应用中,我感受到了机器学习的力量。以后别人再问我机器学习有什么用,我就能举出丰富的例子了 :)
刘老师在介绍汉王识别的产业化是提到了汉王的策略,其中有两条我感觉非常值得学习:
1、以战养战,长期投入,持续攻关
2、以软件作为主导,软硬结合。
10:20-10:50 TRS中文信息检索技术的发展(摘要) 施水才
这是我第二次聆听施老师的报告。第一次是在2004年第二届学生计算语言学会议上施老师作为TRS代表的简短介绍。当时觉得施老师是牛人,把好多自然语言处理技术都产业化了。这次报告中我有幸近距离的聆听了施老师的报告。报告中我主要感受到如下三点:
1、施老师反对把搜索引擎划分为第一代、第二代、第三代。事实上,他认为关键词搜索永远不会在搜索引擎中过时。事实上,关键词搜索会长期在搜索中发挥巨大的作用。
2、搜索引擎发展到现在的这个阶段需要很多强有力的技术,其中可以借助的一项重要技术是社会搜索。结合互联网社会的集体智慧和集体劳动,会创造出意想不到的效果。
3、网格技术可以用于IR。施老师认为Google之所以成功的一个关键原因是Google同时管理数千台的服务器并行工作的能力。事实上,我个人也感觉,这种能力相当的惊人。因为,每天都会有服务器宕机,还会经常性的加入新的服务器。如何管理这些看起来比人笨拙但是能力超强的机器,确实是一件了不起的事情。
10:50-11:20 信息检索研究:过去三十年中我们走了多远 马少平
马少平老师在台上演讲的时候,我感觉到他是一位谦虚而且踏实的学者。在翻看这个报告的论文的时候,我开始被吓了一跳。他们居然仔细阅读了SIGIR1971年以来所有的论文,并且做出了非常不错的分析。这个工作不是一班人能作的。后面的工作一定是大量的,而且让人感觉烦闷的。事实上,我当前正在起步阅读大量的指代消解方面的论文。首当其冲,我遇到了这个问题,读完并整理这么多论文太麻烦了。
在马老师的论文和报告面前,我折服了。作研究就得下苦功夫,只要功夫深,铁棒磨成针。为了深入开展我的研究,我必须向马老师他们学习这种不厌其烦的阅读和整理论文精神。只有这样做了,我才能看得更清楚,才能看得更远。
11:20-11:50 互联网挖掘和检索的研究进展 刘悦,程学旗
程学旗老师的报告内容我记不清了,好像是中科院的一些相关工作的介绍。当时我被他们的论文深深吸引了。从论文内容看来,程老师他们跟踪了很多的前沿杂志,例如麻省理工的Technology Review。文章中总结到,一般的文本挖掘不仅指单独的文档中的信息提取,同时也包括分析文档集合的模式和趋势。文本挖掘包括文本的分类/归类,涉及到决策树等算法。
在基于语言模型的信息检索理论中,一些原本用于自然语言处理领域的方法,如最大熵、隐马尔可夫模型、马尔可夫随机场模型等纷纷用于信息检索。
卡内基梅隆大学的Tom Mitchell(经典著作Machine Learning)最近在Technology Review上撰文指出:第一代搜索引擎是基于关键词的搜索;第二代搜索引擎是基于文档主题的文档分类。Mitchell指出目前Web内容挖掘的主要算法有三种:
1)Naive Bayes模型。它是计算基于主题词频率来匹配目标文档概率的基本方法。
2)Maximum Entropy算法是对Bayesian算法的改进,它可以计算词和词的组合在文档中出现概率。这种方法需要正面和负面的训练样本。
3)Co-Training。协作训练法是最新的挖掘算法,它只需要较少的训练就可以抽取无标签数据,它利用了超链接信息和文本内容的组合。这实际上是Web内容挖掘和Web结构挖掘的组合。
中科院实现了PerSou人物追踪系统。其中实现了同名的判断,并且能生成各自的履历表和活动报道专辑。查看对应的博士论文后发现,他们的系统还能生成名人的热点指数曲线图。这个PerSou非常有趣,有空需要好好研究一下。
14:00-14:30 基于语篇的机器翻译前瞻 史晓东
史老师在机器翻译界史很有名的。2004年的学生计算语言学会后的讲习班上,史老师为我们介绍了如何快速搭建机器翻译系统。在今年沈阳的学生会议上从他的学生那里了解到,史老师的编程相当厉害,工作也非常的勤奋,是那种坐在那里工作一整天不知道累的学者。我非常的敬佩史老师。
这次史老师的报告感觉分量很重。因为其中提到了机器翻译研究中比较超前的话题:语篇翻译。在报告中我了解到如下有用的信息:
1、现在机器翻译已经从早先的基于单词的系统,以及随后的基于短语的系统,发展到现在最新的基于句法分析的系统。基于这种发展趋势,史老师才做了这样一个报告的。个人感觉非常具有前瞻性,是值得重点学习的文章。
2、由于汉语句法的灵活性以及在标点(主要是逗号)用法方面的不严格,如果以句号作为断句的单位,显然不很合适。这让我想到我们实验室的断句模块。其实一个汉语句子究竟应该从哪里分开是值得研究的。或许有时间的时候,我们可以尝试一下用机器学习的方法来完成这项工作。试想如果采用目前在序列标注上最好的方法CRF来完成这项工作,可能会得到很好的效果。
3、史老师的文章中提到:从语篇语言学的观点,汉语是主题型语言,大量采用省略,比英语是更加面向语篇的。要理解一个汉语句子,常常需要比单句更大的上下文。
4、在语篇理解方面,国内外有相当多的研究,如指代消解,中心理论,隐喻(metaphora)、借代(metonymy)等各种修辞格(figure of speech)的计算。从这个叙述,我联想到一个我的指代消解研究工作中存在的一个非常严重的问题:对需要研究问题的分类非常不清楚,没有清晰指出什么该做,什么不该做。看来等自己静下心来后需要非常认真的思考这个问题。首先要弄清楚,我要做什么,然后才能马不停蹄的开工。否则就是无头苍蝇瞎转一气的。
5、今年ACL会议在语篇标注方面有一个Tutorial称为Discourse Annotation: Discourse Connectives and DIscourse Relations,说明语篇标注已经相对成熟。
6、黄曾阳老师曾经指出在一个句群之内的句子存在这省略和照应等形式现象,并且不同语言的形式标志不同,“英语偏好照应,汉语偏好共享。”汉语是一种意合型语言,句群提供了更多的上下文,可望在词义消歧,指代生成,时态计算方面为机器翻译提供新的思路。
7、在语篇的语义理解方面,最多的工作是第一节中指出的诸如指代消解之类的孤立的语篇理解工作。
14:30-15:00 多策略的机器翻译 王海峰
由于王老师的报告我在哈尔滨听过一次,感觉这次报告很类似。于是没有仔细听,当时翻看了一些论文集中的其他论文。王老师的报告中有一点是非常新颖的。那就是采用树串映射的树匹配方法。在词对齐方面,他们也展开了非常深入的研究。
15:00-15:30 由字构词——中文分词新方法 黄昌宁
这个报告是我今天深受启发的精彩报告之一。黄老师的演讲内容清晰,让人一听就明白。他们采用了一种新的方法来进行分词。并且在Bakeoff2006 国际汉语分词评测上6项评测中取得了四项第一两项第三。
这个新方法采用的是一种新的策略:将汉语分词看成是序列标注问题。两个汉字之间的标签(词语开始,词语内部,单个词,词语结束)看成是一种标签的序列标注问题之后,就可以采用目前在序列标注上最为流行的CRF来完成。对于SVM和ME来说,需要设计独立的状态转移特征来表达词位的转换。但是对于一阶线性链CRF来说,这一转移过程将被自动集成到系统中来,而无需专门的指定。这样,对于基于CRF建模的分词系统而言,需要考虑的仅仅是字特征。
我觉得这种把问题换个视角来处理的思路非常的好。我们可以借鉴过来完成很多的工作。例如可以借助CRF来实现指代消解的序列标注问题。
一个好的想法是需要很好的实现的。在黄老师的论文中采用了很多的辅助技术和技巧来提高最终算法的效果。例如,他们统计了很多的语料库来确定分词应该采用的数学模型,以及需要的参数设置情况。个人感觉这种工作也是非常非常重要的。我们也可以尝试一下这种方法来进行实验室内分词模块的提升。
15:30-16:00 汉语框架语义知识库构建工程 刘开瑛
这是我第一次接触刘开瑛老师。在前文提到的中文信息处理前辈中,刘老师是其中一位。整个报告过程中,刘老师向我们展示了他正在进行的Chinese FrameNet的建设工作。个人感觉这个工作意义重大。刘老师的年纪估计在60岁以上,但是对于研究还保持着高度的热情,对于国外相关的科研动向掌握得也非常清楚。刘老师的这种对科研的热情,是我这样的小辈需要好好学习的。
在这个报告中我了解到两点关于XML的常识。
2000年,国际万维网联盟W3C总裁Tim Berners-Lee提出下一代万维网--“语义Web”的理念,成为人们讨论与研究的热点。XML,RDF和Ontology是语义Web的关键层,用于表示Web信息的定义。2006年5月,Tim Berners-Lee宣布,W3C已发布推荐标准80于份,语义Web已经具备了成功所需要的所有标准和技术,包括作为数据语言的RDF、本体语言,以及查询和规则语言。这些国际标准和技术方面的准备为我们的研究提供了可靠的基础。
16:20-16:50 文学语言与自然语言理解研究 俞士汶
俞老师在报告中的其中一个观点是自然语言处理就是一个歧义消除的过程。确实如此,自然语言处理的各种任务都可以看成是歧义消解的过程。其中省略与指代也算是歧义消解。
16;50-17:20 中文聊天语言的奇异性与动态性研究 黄锦辉
黄老师的报告中我得到的两条信息是:Opinion Mining和Social Network现在在国外的研究工作很火;Web2.0就是一个人民拥有,人民建设、人民享受的平台。呵呵,第二个观点有点像三民主义,这是carl说的 :)
17:20-17:50 藏语文本信息处理的历程与进展 江荻
江老师提到藏语中没有确定数目的词汇,而且自动藏语分词非常困难。现在藏语的研究中多数文章中作者都有江老师的名字。江老师开玩笑的说现在藏语的研究比较单一,多数论文都看到同一个名字,这种现象不好 :)
4。了解到的关于指代消解方面的信息
这次会议中一共有下面几个报告提到了指代消解:
《互联网挖掘和搜索的研究进展》:其中的PerSou部分提到了同名识别。有对应的博士论文《面向人物追踪的知识挖掘研究》可以查看。
《基于语篇的机器翻译前瞻》:指出指代消解是语篇方面经典的研究课题,可以在句群范围内更好的考虑指代生成的方法。
《文学语言与自然语言理解研究》:认为指代消解也是一种歧义消解
《一个用于汉语汽车评论的意见挖掘系统》:提到意见挖掘系统中包含了指代消解和省略恢复模块算法。指代消解主要依靠在依存句法分析的基础上完成各种权值的设定;省略回复部分也是在依存句法分析上进行的。看到这里,我感觉有点不好意思。因为依存句法分析是我们实验室的技术,专门研究指代消解的我没有能用上依存分析来实现指代消解系统,反倒是其他大学的研究人员实现了。呵呵,blush //
个人感觉指代消解在自然语言处理中的研究不是很多。通观这两年来国内外在指代消解方面的研究动向,我似乎觉得指代消解的研究热潮已经开始变冷了 :) 呵呵,这是一个危险的想法,因为我的指代消解研究到目前为止还没有实质性的进展(是指撰写论文方面)。看来自己需要不断的加油了!
5。对于LTP的推广
总体来说,这次推广效果不如沈阳学生会议上。在会议的第一天上午,有个IBM的笔记本可以演示LTP。当天有很多的人进行了现场的演示。随后的一天半里,没有了IBM笔记本,只能在三星笔记本上不断的播放预先录制好的三个录像。似乎有点影响宣传效果。
我的LTP的报告是在正式正常报告的第一天上午11:10分的,我在博苑厅分会场。当时的主席是周国栋老师。等到我前面校友方高林讲完后,本该是我做报告的,可是突然之间一位老师对主席说他的包丢了,本来是下午2:30的报告,但是为了更好的寻找包,需要在上午做报告。考虑到这种特殊情况,主席同意了他插到我的前面进行报告。这种情形下,我也只能同意了。由于这个插曲,一些在场的听众不知道出了什么问题,以为我的报告不做了,就有些人离开第4分会场了。
不过,万幸的是,他的报告只有10分钟。然后我就开始了我的演讲。由于旁边坐着黄老师,而且他是专门到这个会场来听我的报告的,开场白我有点紧张,不过一会儿就进入状态了。由于只有20分钟,主席也提醒了我一次已经超时,我的报告有些部分没有展开。但是总体来说还是各个部分都介绍到了。我的PPT中大量采用的网页嵌入技巧取得了很好的效果,避免了在沈阳会议上的演示困难的处境。
会有有两家单位向我询问了如何共享我们的LTP,以及如何使用LTP来进行表主号分词、词性信息的文件进行依存句法分析标注。还有以为清华大学的老师向我详细询问了如何用LTP来进行口语语料的标注。
总体来说,这次大会上,对LTP的推广还是比较成功的,起到了预想的效果。
6。总体感受
有幸在大会中见到了很多前辈和一些熟悉的面孔。经过交流,学习和领会到了很多新事物。在分词方面,黄老师的由字到词的方法在方高林的报告中也有所体现。感觉现在在分词领域这种方法已经出现了独霸一方的景象。机器学习方法在中文信息处理中得到了大量的应用,但是现在的趋势是统计加规则的结合之道。领悟这个结合之道,我等还需要下很多的功夫。对于研究,热情是非常重要的。只有发自心底的热爱才能做出真正有意义而且严谨的研究成果。总体来说,收获颇丰。简记如上,以备记录。
Comment's author: zhu
回复删除11/26/2006 07:56:37 PM
More,more.
Comment's author: steven
回复删除11/28/2006 09:38:04 PM
黄昌宁老师现在是不是退休了,MSRA NLP组里都没他的名字了
Comment's author: Bill_Lang
回复删除11/29/2006 09:59:42 AM
没有退休。黄老师是每天MSRA最早上班的人。
Comment's author: Zhu
回复删除11/29/2006 04:31:03 PM
Quite good, Bill Lang. I agree with some analysis you did. To my best knowledge, syntactic Analysis based MT is the trend. And the discouse annotation you mentioned really inspired me. I will check whether I can use it or not.
Comment's author: Bill_Lang
回复删除11/29/2006 05:00:45 PM
Aha~! Lao Zhu, I am glad that this blog gives some hints to you. Looking forward your wonderful research result.
Comment's author: Guoping HU
回复删除12/01/2006 04:17:27 PM
写得很不错哦,自然语言研究确实需要热情和合作
Comment's author: Bill_Lang
回复删除12/02/2006 12:07:01 PM
谢谢胡国平师兄!相信以后一定有机会能见到你哦 :)