2006年4月30日

拉拉啦~,拉票啦!

最近我们学校举行了一个Blog展示大赛,我的Blog也光荣登场。呵呵,主委会要求每个参赛队员撰写一段自己Blog的介绍,我的内容如下:


Bill_Lang's Study & Life,这里有我的生活、学习,我对研究的激情、对机器学习的热爱,还有我对很多事情的看法。

2003年9月17日,我的blog诞生了,除了过年回家的时候不方便上网外,每天都会在我的blog上看到我的更新,到今天(2006年4月18日)为止,现在一共有881篇文章,550个评论,从2004年5月20日到今天为止,总共有7709次访问。

每天晚上的blog时段现在成了我的一种生活习惯。有人问我,你的Blog为什么能够保持每天更新呢,你怎么有这么多的时间呢?我的答案是,如果一样东西成为了像吃饭睡觉一样的习以为常,你会觉得它很难做到吗?事实上,现在撰写Blog已经成为了我的生命的一部分。在我的Blog里面,除了很多朋友能够看到我的学习、生活、工作和研究外,还有很多朋友对我的留言。这种交互是那么的直接,每每看到朋友们热情洋溢的留言,我的心里都是热乎乎的。是的,我爱我的Blog,我喜欢朋友们的留言!

来吧,欢迎光临我的世界,一个属于Bill_Lang和你的世界。没有绚烂的色彩,没有精彩的布局;仅有,朴实的文字。这一切,是我献给大家的最真诚的礼物~!



欢迎大家帮我投上一票哦。投票地址:http://www.hitren.com/blog/more.asp?name=2004cs5&id=12375


我的Blog是这个页面中的第二个Blog,截图和内容简介后是一个投票框,拜托大家了哦。呵呵,忘了说明一点,好像使用firefox或opera等非IE内核浏览器可能会遇到未知错误。

感谢大家了哦,我的朋友们~!

2006年4月29日

实验室ACL战报

真是兴奋呀~!今天自然语言处理界顶级国际会议ACL发布了它2006年的论文录用通知,由于是电子邮件通知的,我们只能打听到很少的一些消息。但是,我们信息检索研究室这次有两篇论文被录用了。整个实验室沉浸在一篇快乐之中,我们实验室的网站上也有如下新闻:


信息检索研究室两篇论文被ACL’2006录用

ACL(Association of Computational Linguistics)是国际自然语言处理领域最高级别会议,ACL’2006即将与Coling等顶级会议一起在澳大利亚悉尼召开。哈工大信息检索研究室今年有两篇文章被ACL录用,一篇是卢志茂老师和东芝中国研发中心王海峰老师合作的“Equivalent Pseudoword for Unsupervised Chinese Word Sense Disambiguation”,被录用为regular paper;另一篇是车万翔老师和新加坡I2R研究所张民老师合作的“Hybrid Convolution Tree Kernel for Semantic Role Labeling”,被录用为poster paper。这是我实验室在学术论文发表方面的一个突破。

信息检索研究室从外延式发展向内涵式发展转型,今后将更加注重提高研究水平,发表高质量的论文,并切实提高技术指标,以“论文引用率”和“技术转让率”为最终的评价尺度,用自己的才智服务社会。



真的非常高兴!哈哈,在这里我也定下今年的目标:ACL2007论文一篇~!我还是喜欢做研究写论文的 ^_^

2006年4月28日

发布成功

哈哈,俺们的语言技术平台今天算是正式对外发布第一版了。我撰写了一条新闻在我们实验室的网站上,内容如下:


信息检索研究室发布“语言技术平台”

历时一年的信息检索研究室“语言技术平台”(LTP, Language Technology Platform)在2006年4月28日完成第一版。

整个平台基于XML的统一数据表示,采用模块级连的方式将实验室五年以来积累的各种自然语言处理技术连为一体。现在连入平台的模块有断句、词法分析(分词和词性标注)、命名实体(Name Entity)识别、词义消歧(Word Sense Disambiguation)、依存句法分析(Dependency Parser)、浅层语义标注(Semantic Role Labelling)、指代消解(Ananphora resolution)、单文档自动文摘(Single Document Summarization)、文本分类(Document Classification)。

整个平台主要成果包括如下内容:
1. 推动实验室各个自然语言处理模块的研发,现在各个层面的模块均可单独抽取出来联入新的应用;
2. 基于XML数据表示方式和操作函数库,将各个层面的自然语言处理模块连为一体;
3. 采用网页显示任意文档的各个层面的自然语言处理结果,是自然语言处理变得更加可视化,为深入理解各个处理阶段存在的问题以及各个处理模块之间的关系提供了方便的手段。
4. 制定了一套采用XML的统一的自然语言处理结果表示方法,构建“语言技术描述语言”(LTML,Language Technology Markup Language);
5. 按照LTML,实验室已有资源的XML化。

语言技术平台的地址:http://ltp.ir-lab.org





实验室上午的全体大会上,我向大家演示了一下这个平台目前的状态,尚存在的一些问题,以及下一步的计划。我们会把这个平台打造得更加完美的 :)
目前这个平台还处于演示阶段,速度上不是很快,五一之后我们会下大力气来完善整个平台的。

欢迎大家测试!

2006年4月27日

明天发布,事情一打一打的

Tim老师建议俺们的语言技术平台明天正式完成第一版并且对外发布。所以,这段时间俺是非常非常的忙碌,每天对平台的更新都很多。在这里也非常感谢实验室的很多的老师同学,以及已经毕业的师兄师姐们对这个平台的支持,建议和意见。

今天主要的一个工作就是设计平台首页的Logo。哈哈,这种类似的设计俺是外行,没有什么经验和技巧,没有办法只能自己逐渐揣摩了。开始用Word设计了很多的格式,但是总是不能达到理想的状态。一不小心想起我的机器里面安装过Photo Shop,打开这个设计图标最强的工具,俺的心情非常的激动,因为在我的不断实验之下,越来越漂亮的图标诞生出来。最终我们定下的图标是下面的这个样子。


这里要感谢胡宇轩和Carl对俺的帮助,他们指导了我设计这个图标中的很多细节。

2006年4月26日

熬夜的感觉

夜又深了,又在台灯下,我继续着我的研究工作计划,为了明天上午的报告。MindManager是个好东西,一切的操作都在里面完成。现在俺操作这个东东已经比较熟练了。今晚完成的主要工作是将论文部分的Related Works部分完成。呼呼,仔细研究别人的论文后居然发现了很多和俺进行的研究非常相关的工作。哈哈,还算好呀!

今晚的感觉比昨晚还好~!那就像老子提到那样,人要“希言”。那就不多说了!

2006年4月25日

找回科技创新时的感觉

在我的经历之中,我一直回味这2003年完成科技创新时的那种感觉。那是一种科研的激情。到目前为止,我感觉那段时光是我在科研上最有感觉的时段。时经三年,我一直想再次回到那种感觉!今天可以说,我似乎找到了那种感觉。

近段时间,一直忙着完成实验室的语言技术平台的开发任务,相关的事情非常的零碎和繁杂,一直没有时间去撰写自己完成的指代消解方面的研究结果。构后天的小组例会需要我也讲一下论文的计划。没有办法,只有熬夜了。熬夜的事情已经很久没有在我的身上发生了,呵呵,不要紧,就把它当成是另外一次数学建模竞赛的流程吧。

台灯下,我翻阅着很多的参考文献,每篇论文的中和我的研究相关部分的闪光点一一呈现在俺的眼前。临近半夜一点,今晚的任务终于完成,心中也想好了明晚的工作计划。夜,已深;揉揉眼睛,感觉不错~!加油!

2006年4月24日

人法地,地法天,天法道,道法自然!
道生一,一生二,二生三,三生无穷!

这是中国古代最伟大的哲人老子《道德经》中两个非常经典的句子。它们经常出现在我们的日常用语之中,但是我想真正理解它们涵义的人不是很多。

晚上在Tim老师的带领下,Carl, Gold和我,一行四人来到新楼101大教室聆听了一场精彩的报告。报告人是我们学校人文学院的杨涯人老师,主题是道家思想介绍。据Tim老师说这个报告昨天晚上就有过一场。今天的报告是昨天晚上报告的延续。报告的内容非常的不错,主讲人对于道的理解已经达到了一个很高的高度。偌大一个101大教室座无虚席,大家都在安静的聆听杨老师的精彩讲演。

这是我第一次听到杨涯人老师的报告。据Gold讲,这位老师的课非常的不错,很多学生会大老远的跑到他的课堂来仔细的聆听。短短三个小时的报告,让我们俨然回荡在老子的学说里面,我们看到了老子其人其貌。

听罢报告,心中荡起一股崇敬~!

2006年4月23日

快乐的周末

你快乐么?快乐究竟是什么?各有答案吧。哈哈,不管这个行而上的东西,俺就是过了一个快乐的周末。

下午和亚杰一起到黑大游泳完后,我们在黑大旁边的中央红超市买到了很多的半成品,有半斤多的饺子,六个小巧的肉粽子,二两小咸鱼,半斤辣猪蹄。嘿嘿,买回这些的时候我们非常的开心。也是因为我们已经有三周没有做过东西吃了。回来一路上嘴里就是一个劲儿的流口水呀!嘿嘿,不许批评俺们馋哦,等你看到下文可能你也会流口水的哦 :)

回来学校后,烧上半锅水,依次煮好饺子和肉粽后,我们已经迫不及待的“开吃”了。饺子的味道还不错,有猪肉白菜馅儿的,三鲜馅的,蘑菇肉末馅的。配好调料后,我们的第一口饺子都是那么的幸福,嘿嘿,真的很好吃。这是俺第一次吃从超市买回来的冻好的饺子,味道比起食堂的确实要好吃些。Hoho,或许是因为调料的原因吧。饺子之后便是俺精心挑选和煮好凉了一会儿的肉粽了。六个小巧的粽子好像是很害羞似的从大饭盒里面探出脸来。嘿嘿,模样还不错,味道也和俺们家乡的一样。随后的是我们买回的辣猪蹄。呵呵,现在亚杰吃辣的能力比我强很多,看起来她更像四川人了 :)

一个快乐的周末,不需要纷繁的事物,只因美丽的心情和品尝劳动成果的幸福!祝愿大家每个周末都快快乐乐!

2006年4月22日

李航老师来访哈工大

《从人工智能到统计机器学习》这是李航老师今天上午在我们学校A22教室里报告的题目。在这个报告之中,李航老师非常幽默而又不失严谨的介绍了人工智能的综述和目前统计机器学习理论的内容。其中提到了下面几个人物我非常感兴趣。

Karl Popper: 他的反正不可能(refutability)哲学对于很多的科学的存在性和合理性给出了很好的判据。
Wittgenstein: 他的游戏分类(game taxonomy)研究过程中发现所有现在流行的游戏没有一个共同的属性。
Hanson: 他试图寻找人们作出科学发现的模板(Pattern of discovery)。

以上三位哲学家在国外都非常的有名,他们的思想俺在有空的时候定会好好的学习一下。先留在这里备份啦。

上午报告中统计机器学习部分,我又一次听到了李航老师介绍统计学习三要素的问题。这个话题在2004年8月北京语言文化大学召开学生计算语言学会议的时候俺就听李航老师讲过一次了。现在说来惭愧,这部分内容俺没有理解深刻。对于每一种机器学习方法,李航老师用三要素来概括:模型,策略,算法。结合他分析决策树算法的例子,我发觉决策树的整个方法在这三个要素的列举面前变得是那么的清晰。这让我有了一种冲动,那就是用这种分析方法把机器学习里面现在主流的方法全部学习一遍。这件事情需要好好的筹划一下,或者在俺正在酝酿的机器学习小组活动中举行一下。

在上午课堂上的提问环节,俺向老师询问了他对于Graphical Model的理解和认识。原来这部分老师也正在起步阶段,还有很多的事情需要弄明白。哈哈,看来这个点上可以作出很多的文章呀,机会呀,机不可失哦:)

李航老师在回答一个学生的问题的时候提到目前主流的三种分类方法包括SVM, Boosting( 主要是Ada boost),和Logistic regression。李老师在黑板上快速的写出了三种模型的损失函数,而且将三种方法进行和很好的比较分析。看来牛人都是是需要把基础打得牢牢才行的。俺又一次惭愧了,虽然担任实验室论坛机器学习版已经有接近三年,但是对于这些基础的问题,俺还处在朦胧状态,真是愧对父老乡亲呀 :(

听到李航老师的一个新颖的观点如下。传统的机器学习方法分类两类:分类和聚类。但是现在出现一种新的类别,那就是排序(ranking)。ranking里面需要解决的问题是多个对象的排序问题,原本存在的对象之间两两的排序在最终的排序之中需要得到最大限度的吻合,如何排出最好的序也就成为一个非常重要的问题。这种问题在搜索引擎中非常的突出。ranking也是目前李航老师主要研究的两大问题之一。(另外一个是Graphical Model)最近的SIGIR 2006上李航老师有一篇关于优化RankSVM的文章。呵呵,也不知道是不是就是南开小牛徐君的那篇。有时间要拜读一下的。

在下午的语音语言技术中心座谈会上,李航老师和我们三个自然语言和搜索研究相关的三个实验室的部分博士生进行了座谈。其中我们了解到了李航老师现在主要的项目和研究工作。我提到的搜索引擎检索结果按照人物聚类的问题得到了李航老师的认可。李航老师也给出了几条建设性的建议。俺询问的第二个问题多叉树上寻找n-best路径,我们没有得到很好的结果。

按照Tim老师的说法,李航老师是机器学习的大牛,俺们需要好好的向他学习和交流。感谢李航老师的指导。下午座谈会之后李航老师参观了我们实验室,我最近完成的XML项目也得到了李航老师的认可。呵呵,牛人来了,真是学到不少。

2006年4月21日

网上发布LTP系统,欢迎测试

大家好~!

经过实验室诸位成员的辛勤努力,现在XML系统v0.2版正式在发布,外部也可以访问。

系统名称:HIT IR-Lab LTP

地址如下: http://ir.hit.edu.cn/ltp
系统输入页面如下:


下面有留言版,地址:http://ir.hit.edu.cn/ltp/MessageBoard/index.asp
留言版页面如下:


欢迎大家测试和留言!感谢各个模块的人员的大力帮助!

2006年4月20日

ASP的留言版

由于截止日期临近,最近在紧张完成的实验室XML系统。现在这个系统的基本功能已经实现,但是还有一些附加功能正在紧急完成之中,其中最大的一个功能就是留言版功能。

昨天在网上发出了俺的Python下基于XML的留言版的r+的问题,今天得到了很多朋友的热情帮助,这里特别感谢我的偶像Cr999和Python大牛limodou的鼎立帮助。Python大牛limodou的blog地址是http://www.donews.net/limodou。但是最后还是没有找到问题在哪里。但是我们能够确定的是肯定在哪里有个权限没有被打开。

人在无奈的时候应该把自己的无奈向周围的朋友随意提起一下。下午在实验室小牛momouse的帮助下找到了一个基于ASP的留言版,经过安装调试和试运行后,俺成功的把它装到俺的XML系统上了,哈哈,现在XML系统具有留言功能了。俺觉得这个功能相当的重要,因为没有这个无法收集和反馈大家使用这个系统的体验就、建议和意见。没有这个咱们的系统也就不能继续更新了。这也是俺撇开了一些其其它重要的功能来实现这个的原因。哈哈,这个算是时间管理技巧中的一个原则吧,紧急而不重要的事情必须先完成,否则会成为萦绕在你头顶的一个乌云。

哈哈,明天俺们的XML系统就能对外发布啦~!Perfect feeling~!

2006年4月19日

求助:Python Web 下文件 r+ 问题

近日按照《Python编程金典》16.2节 一个XML论坛的例子写好了论坛的代码(参见肥肥世家《Python编程金典》读书笔记16章)。

在IIS6.0下这个论文可以很好的运行起来,但是在运行到addForums.py和addPost.py的时候都出现了如下错误:

The page cannot be found
The page you are looking for might have been removed, had its name changed, or is temporarily unavailable.

--------------------------------------------------------------------------------

Please try the following:

If you typed the page address in the Address bar, make sure that it is spelled correctly.

Open the localhost home page, and then look for links to the information you want.
Click the Back button to try another link.
HTTP 404 - File not found
Internet Information Services


经过仔细分析后发现是代两个py文件中都有一个 r+
forumFile = open( "../htdocs/XML/" + filename, "r+" ) # 在addPost.py中
forumsFile = open( "XML/forums.xml","r+" ) # 在addForums.py中

原因好像是在访问Web的时候不能采用r+来打开对应的文件。后来我把web对应的虚拟目录全部的权限都打开,结果还是不能解决这个问题。

不知道各位大虾们有人解决过这个问题么?小弟很着急,特向大家求助!先谢谢啦~!

2006年4月18日

If there are Smart Drugs?

This morning, I presented my topic on smart drugs in our Ph.D. Candidate English class. I have prepared it for several days. The topic is from the artile on Scientific American: Where is the smart durgs? My content is as following:

2006年4月17日

机器翻译咸鱼翻身

你曾经使用翻译软件,结果让你啼笑皆非?有人说,过去50多年机器翻译进展缓慢,但这种结论可能已经过时:IBM、微软、Google等巨头在这一领域的争斗日趋白热化。科学家们更乐观地断言:机器翻译前途不可限量,最终将赶上人类的翻译水平。

以上这段文字是最新一期《科学美国人》中文版《环球科学》上的文章《机器翻译咸鱼翻身》的介绍。读完这篇文章,让人激动不已。因为我已经很久没有在《科学美国人》上看到NLP相关的资讯了。机器翻译曾经是无数人的梦想,早先的机器翻译都是基于规则的。而今基于统计的机器翻译让大规模的数据集上的学习成为可能。这篇文章中提到了现在Google的在线翻译功能,看看下面这个网页翻译的结果你可能会大吃一惊。



BEIJING, China (AP) -- Google Inc. CEO Eric Schmidt on Wednesday defended the search engine's cooperation with Chinese censorship as he announced the creation of a Beijing research center and unveiled a Chinese-language brand name.

中国北京(AP)--Google公司总裁EricSchmidt周三捍卫搜索引擎的检查与中国合作,因为他宣布成立一个研究中心和北京推出中文品牌.

Google is trying to raise its profile in China after waiting until January to launch its Chinese-language site Google.cn. Activists have criticized the company for blocking searches for material about Taiwan, Tibet, democracy and other sensitive issues on the site.

Google着力提高中国的形象,等到一月后推出中文网站Google.cn. 分子阻挠批评寻找材料公司对台湾、西藏、民主等敏感问题的网站.

"We believe that the decision that we made to follow the law in China was absolutely the right one," Schmidt said at a news conference.

"我们相信,决定我们对中国采取的法律是绝对正确的,"施密特说,在记者招待会上.

He said Google had to accept restrictions in order to serve China, which has the world's second-largest population of Internet users after the United States, with more than 111 million people online.

他说,Google已经接受服务的限制,以便与中国的传统友谊,是世界上人口第二大互联网用户,仅次于美国,超过111万人上网.

Schmidt also announced the creation of a research center in Beijing that he said should have 150 employees by mid-2006 and "eventually thousands of people." He said the center is meant to create products for markets worldwide, though he said planning was still in such an early stage that he didn't know what they might be.

施密特还宣布在北京成立一个研究中心,他说,有150名职工要年年和2006年"万人最终" 他说,这个中心的目的是创造产品的世界市场,但他说,这项计划仍处于初期阶段,他不知道他们是谁.



为什么Google把这个传统的难题完成得这么好!在报摊读完这篇文章以及结合我自己的了解,我发现Google达到这种水平在于三个关键因素。
1。Google已经在全球范围内网罗了大量的NLP顶级研究人员,现在我就知道至少三个研究人员。
2。统计机器翻译的世界级的牛人奥克现在在Google工作。
3。奥克使用了大量的双语资源,例如完成英汉的双语翻译,他们使用了超过100万本的电子书籍的资料。

仔细想想,Google的全球资料爬行能力,以及在美国很多大学的图书馆里扫描得到的电子版的图书,以及世界级的NLP牛人门的加盟,使得很多以前很难大规模进行的实验和激动人心的想法都可以得到很好的实现。这种能力有时候让人激动不不已,有时候又可能出现一种顶端优势,即Google引领世界NLP研究的潮流。

哈哈,一个伟大的公司对世界造成的影响就应该是伟大的,比如Google~!

2006年4月16日

如何写论文

近来想要好好的学习一下怎么写论文,但是一下子之间竟然不知道该如何写论文了。哈哈,或许这个就叫“短路”吧~!

在网上随便找了一下,哈哈,居然找到一堆一堆的相关资料。列个提纲如下:

Davis, Judith M. "How to Write Your Best Paper: Discovering and Refining Your Writing Process." 2002.
Seminar, Arctic StudiesProgramResearch. "How to Write a Research Paper and Proposal." 2002.
Kulmala, Markku. "How to Write Publications Proposals." 2002.
Hon, Hsiao -Wuen. "How to Pulish a (Good) Paper." 2003.
Walter A. Zin, MD, DSc. "How to Write a Scientific Paper." 2003.
Ge, Hong. "Introduction to Writing Papers in English." Harbin Institute of Technology, 2004.
Bansal, Promilla. "How to Write a Research Paper." 2004.
Covington, Michael A. "How to Write More Clearly,think More Clearly, and Learn Complex Material More Easily." 2005.

这下子有得学了~!

2006年4月15日

修订文章翻译

这个周末我的一项额外的任务是完成实验室的一篇中文论文翻译稿的校对工作。记得两年前,在这个月份附近的几天里,我完成过类似的一个任务,当时是翻译一篇中文论文为英文。记得当时动用了我所知道的所有方法和资源。一周的时间翻译出来的那篇论文还好最终被一个国际会议录用了,虽然作者中没有我,但是我还是非常的高兴。

现在的这项任务和上次的那个任务不同之处在于我不是第一翻译人员,而是校稿和术语翻译。这个任务其实比起直接翻译来看也是有很多工作的。首先你需要充分理解原来的中文稿件,然后要读懂第一翻译人员翻译的内容,然后再结合自己的知识来判断翻译的内容是否正确,一些专有术语是否翻译正确。当然,这个过程中我学习到了很多的东西。首先,我学习到了第一翻译人员的英文翻译,坦率的说,第一翻译人员的英文水平比我高出很多。一些句法结构的使用确实用得不错,一些关键性的英文单词也翻译得很准确。

嗯,很好的锻炼机会,一天下来感觉自己的英文语感好出了很多。谢谢这样的机会。

2006年4月14日

什么时候可以撰写论文

在走廊踱步思考下一步如何办?实验进展到什么程度算是结束

走廊里,我的脚步声很轻,但是很明显,我是在踱步思考问题。我已经很长时间没有这样思考问题了。在这种情况下脑子里快速飞驰的是很多很多的想法,踱步的时候往往能够很好的梳理他们。我想起来邓小平在一生的三起三落的非常时代,他经常在家里院子里踱步。

哈哈,言归正传,究竟是什么问题在让我这么认真的思考呢?概括一下,那就是一个想法需要进展到什么程度才算可以收尾呢,相关的实验需要实现多少才能很好的验证想法呢?这个问题我以前一直没有很好的思考过。三年前的这个时候我在完成学校的科技创新项目,主要的想法是将灰色系统理论用来进行大气污染指数的预测。当时的想法很实际,一直等到暑假才有了很好的创新点,那就是结合灰色系统的预测能力和神经网络的拟合能力来建立一种有机灰色神经网络模型,从而获得很好的预测能力。实践证明,这个想法是很好的,而且是有效的。在此基础上完成的成果也得到了很好的认可。回想当时最兴奋的时刻就是暑假在实验室泡着脑子里冒出这个想法的那一刻,后来围绕这个想法进行的基础灰色系统开发包以及相关模块设计和最后的应用编程都是那么的让人激动不已。想想当时本没有写论文发表的想法,但是我当时的指导老师苏小红(恭喜苏老师几天前刚评上博导)指导我在我科技创新结题报告的基础上发表一到两篇科技论文。随后的一个月里我开始认真的总结自己的想法和相关的实验,并且最后在苏老师的指导和帮助下完成的了相关的论文,最后也如愿发表在了《哈工大学报》上。非常高兴的是一年以后这篇论文被EI索引了。

回想当时的这种创新和写作经历,我得到的启发是一个好的想法做完实验后验证了最初的想法就可以撰写论文了。之后出现的一些想法可以完成新的实验然后再完成相关的论文。

总结到此,我忽然发现我现在可以好好的去撰写自己最近的那个很好的性别识别的想法以及相关实验的论文了。That is good for me~!

2006年4月13日

Windows Server 2003

实验室大力支持俺现在负责的开发项目,几经协商,今天买回来了一台配置精良的服务器。哈哈,配置相当的好,内存1个G,硬盘160G,CPU是奔4 3.0的。哈哈,这个机器是俺用过的最好的服务器了。面对这样一个精良的服务器,俺一定要把现在我负责的XML项目做到perfect状态。那样才对得起实验室,对得起这台机器呀~!

以前只是在MSRA使用过Windows Server 2003,当时觉得这中操作系统很好,能够很好的完成一些相关的任务。我即将完成的XML项目过一段时间需要对外开放访问,所以需要将现在的工作从我的机器上放置的一台服务器上。原本打算放置的16服务器由于cpu实在跟不上俺的程序的需求,这才买回这台顶级配置的机器回来。

原先实验室只有一台Windows服务器,但是使用的操作系统是五年前安装的Windows Server 2000。现在俺决定用上比较新而且功能更加完备的Windows Server 2003。由于是第一次安装Server服务器,俺是一个门外汉,在网上找了半天也只有一些很简单的文章零散的介绍一些Windows Server 2003的文章,这些文章虽然不是俺需要的,但是从它们之中,我感觉选择Windows Server 2003是俺的一个明智之举。

好不容易才在网上找到了一个《Windows Server 2003宝典》,但是已经很晚了,今天装机器和安装切换器花了不少时间,俺觉得有点点累了,加上今天和秦老师讨论的试验计划明天还需要好好的完成,俺打算早些回去了。哈哈,一看表,现在10点了,也不算早了。不过也算俺近几天来最早的一天了。

加油吧,新机器很爽的~!

2006年4月12日

继续推进实验室的xml进展

实验室的XML项目终于在俺的一段时间的学习和推动下,出现了小小雏形。俺还需要好好努力,争取按时完成定好的任务。

现在遇到的问题也真是越来越多,俺觉得各个模块之间存在的一个最大的问题就是一些模块的输入有些基本的假设,一旦出现一些异常的输入就会出现程序死掉的现象。好在现在俺做的程序能够准确的定位到出现错误的模块和出现错误的句子。但是现在出现了一个新的问题,那就是前面一位同学完成的那个包装库没有很好的容错能力,现在程序不能定位的那些错误全部来自这个库的问题。哼哼,等俺把这段时间过去好一定要重写这个库。

最近一段时间流行一时的《代码大全2》好像能够帮俺解决这个问题。俺先好好的学习一下自己已经下载下来的前六章吧,如果真的好了,我倒是建议实验室买回来一本。

2006年4月11日

当年我离家

今天英语课上,我们的视听环节学习的《新世纪走遍美国》时,主人公Robaca今天开着爸爸给她买的新车独自一人离家到San Francisco去求学了。在离家之前,爸爸,弟弟,还有最好的朋友一起送别了她。Robaca开车离开波士顿之前还到她的妈妈的墓地去了一趟,希望她的妈妈能够帮她看望在家年事已高的爸爸和刚刚高中毕业的弟弟。整个离家的场景非常的感人,不知为什么,我的心里不知不觉之间想到了

2000年9月2日晚上7点的时候,在火车站,我告别了来送我上火车的爸爸、妈妈、舅舅、舅妈和舅舅家的妹妹。当时的场景在我的脑海里面是那么的深刻,以至于一看到类似的场景我都能马上回想起来。是呀,当时的离家一晃过去了五年半,时间飞驶着让人无法使之停住。记得学校里面冬天的时候公寓门口的挡风棚上的那句话:家,是严冬下那一份温暖的感觉。出门在外的我每年只能回家一次,虽然每次回家都很辛苦,但是我的心里总是充满了兴奋和激动。因为,家里的爸爸妈妈总是在盼望着身在远方的儿子能够回到家里过年。

想起了那首歌曲《回家的我》:

回家的我长大的我
满怀著感动带著笑容
慢慢迎著风
现在的我单纯握在手中
有一种不知名的感动
结束一段旅程
放下行囊卸下了疲惫
站在故乡街头跟流浪告别
火车带走时光沿著铁轨
拉长了思念我近乡情怯
我感触万千我无语无言
回忆过了几年伤感微微
抬头天上月站在夜的尽头
跟无知告别火车带来希望
那浓烈激动不能眠
我不曾後悔我藏著喜悦
我思念著谁
离家的我迷路的我
像一颗任性红色气球
盲目追著风多数时候
只懂得向前走受了伤不说话低著头

2006年4月10日

新的一周,继续性别识别

新的一周,这是!至少对于病痛10天之久的我来说是的。本周的工作从今天开始,细细数来这周我需要完成的事情还真是大大的多呢。当时间比较紧,而事情又比较多的时候就需要采用时间管理的技巧啦。首先选择紧急而重要的事情来完成,当然之前需要完成一些重要而不紧急的事情,否则它会成为一个萦绕在你头上的恶魔,不断的缠绕你。

上学期期末就开始完成的性别识别在上次博士生例会上老师提醒我应该把它彻底完成了,然后去进行新的研究工作。对于俺的指代消解研究大计来说,这就是一件紧急而不是最重要的事情。所以,俺打算花上一段完整的时间来了解了它,把这个问题做“死”。

基本的实验计划就是要在上学期没有使用任何上下文的基础上借助上下文来实现人名的性别识别。哈哈,又是上下文。上下文的建模和应用我越来越觉得它非常的重要。我想借着这次基于上下文的性别识别把这个问题好好的琢磨一下,争取完成一些基本的模块,然后方便以后一段时间的使用。

哈哈,不用废话,那就开始吧。当然,需要说明的是俺现在写程序遵守尽量python原则!

2006年4月9日

文本文件的计数问题

好一段时间没有写一些关于编写程序的blog了。今天我们来谈谈文本文件中的一个特殊问题--字符计数。

参加过ACE中文评测竞赛的都知道,ACE的语料是UTF-8编码的,其中的原文文件中包含一些英文的标签和大段的中文字符。标注结果文件中有一种数值表示的是词语在原文文件中的绝对位置。基本的计算方法是删除原文文件中的标签内部的内容后从头到尾计数,每个汉字和每个英文字符都算一个字符。

比如下面的文件:
-------------------------------------


CBS20001006.1000.0074

NEWS STORY

10/06/2000 10:01:14.24







继续播报详细的新闻内容。 行政院长张俊雄今天在立法院参加跨
党派大陆台商权益促进会成立大会时表示,他的理念是以合 作代
替对抗,因为过去对抗、对立的政治文化让人们付出很多的代价。
他也希望对敏感的大陆政 策能够找到共同点,两岸能够建构正常
、和平的关系。请听记者宫能惠的报导。


-------------------------------------
其中的计数就是从文件头开始,数到的字符的个数就是当前的位置计数。

这个小任务里面存在一个很大的问题就是在计算位置的时候汉字和英文字符占的字节数不一样,每个英文占一个字节,而汉字占三个字节。我们在参加ACE2004的时候,处理方法是将UTF-8编码转换尾gb2312编码,然后查看每个字节的16进制编码,出现负数的就是汉字的开头,否则就是英文字符。当时的这个位置计数程序虽然也能够完成任务,但是现在想来比较麻烦。

今天在用python来解决这个问题的时候,经过多次的实验,我终于找到了一种非常方便的计数方法。这里和大家分享一下。

try:
fileContent = codecs.open( resultFile, encoding = 'utf-8' ).read()
except IOError:
print >> sys.stderr, 'File could not be opened'
sys.exit(1)

上面得到fileCOntent后设置断点就能发现,fileContent中英文字符内容不便,汉字采用的是\x开头的编码,也就是每个汉字一个\x开头的字符。这种情况下的常见的字符串中的查找(find,index),截取子串(fileContent[a:b])在fileContent下面就是正确的答案了。这样得到的字符串不论是计数还是查找后得到的位置都是绝对准确的。
这里面的关键计数就是codecs的使用,这个包具有强大的功能,能够很好的解决汉字编码的问题。当然,在使用之前不要忘了import codecs一下。

哈哈,祝你使用codecs愉快,嘿嘿,像俺一样愉快哦!

2006年4月8日

点滴结束,值得庆祝

连续六天的点滴,终于在今天上午10点结束了。回来之前我又在工大医院复查了一下,医生说不用点滴了,回去好好主要保养就行的,随后又开给我一些需要院长签字才能拿到的好药。这两次在工大医院感觉到态度非常的好。我想原因可能是工大医院的医生不给我点滴,我到医大二院三天点滴的原因吧。哎!当初第一天就给我点滴不就一切顺利了么。

六天来我的学习和工作耽误了很多。亚杰这几天陪着我,也耽误了不少她的学习时间。感谢亚杰!

2006年4月7日

和偶像的交流

我编程的偶像--Cr。今晚我们聊了很多的东西。主要集中在python编程和自然语言处理方面。偶像知道我现在在用python完成一个文本可视化的工作。他推荐我参加NLTK的编程活动。因为那个开源项目就是用python实现的自然语言处理功能。

偶像的这个建议非常的好。首先,这个开源项目完全用python开发,非常符合我现在对于python的学习兴趣。通过我的了解, 我发现这个项目现在已经停止开发了,目前在进行的是一个它的下一个版本:NLTK-LITE。这是一个轻量级的NLTK。版本切换的主要原因是原先的NLTK在进行NLP的教学的时候,初学者需要掌握很多的标记,在进行演练的时候不是很方便。而这个轻量级的版本就是要简化教学过程中的学习工作,实现一个更见简便的版本。

在网上找到资料后,我准备先好好的看看他们已经完成的工作,最后再决定是否要加入这个项目的开发。因为,毕竟需要投入很多的时间。当然,还是要感谢偶像对我的支持和信任。

2006年4月6日

转到工大医院

上午时刻,我们来到工大医院,说是要进行一下复查。幸亏亚杰强烈要求我来复查,医生说我还需要再打三天点滴。这次的医生对我的病情非常的负责,没有说像前两次来工大医院那样不让点滴开点消炎药就拉倒了。本质上的原因是因为我到内科的时候医生说急性咽唊炎需要到五官科去检查。

我询问了医生为什么上次那个医生不让我打点滴。答复是内科的医生对这个症状不了解。看来求医也需要对症的。

2006年4月5日

医大二院点滴的最后一天

点滴的最后一天,心里既是兴奋,因为快要完事了,毕竟生病期间很折腾人的,又是着急,因为嗓子似乎没有想象的那样痊愈,还需要进一步的检查和治疗的。

一件很高兴的事情是亚杰的第一篇论文已经发表,亚杰怀揣两本发表了论文的期刊到医院来看望我的时候,我高兴得快要跳起来。那种兴奋劲头一点不亚于我的那篇03年发表在哈工大学报上的论文。因为亚杰的这篇论文是我们还没有正式交往的时候完成的,我也帮她看过一点的。真是替亚杰高兴呀~!祝贺亚杰!

带着好的心情,病情好得很快的!

2006年4月4日

“唠叨”的病人

早上给英语老师请假后匆匆来到医大二院,继续俺的点滴。躺下之后一会儿听到两位女病人在谈论现在的小孩的教育问题。她们谈论的焦点是要不要在必要的时刻打一下孩子。

她们显然都是孩子的母亲。这边这位说她女儿上补习数学课时不认真,数123总是数不清楚。她一急之下把孩子揍了一顿。之后孩子进步神速,成为班里第一个数完100的孩子。她们的结论是孩子实在不听话的时候就得揍。

这个话题我想家长们更有发言权。前一段时间一次偶然和学校的一位老师聊到这个话题,老师认为应该在鼓励式教育的基础上加上适当的棍棒。这样才能教育好孩子。哈哈,教育孩子的理论很多,但是如何教育好却是一个很难的问题。因为哪个家长真的愿意鞭打自己的孩子呢,那个家长又有足够的耐心不断去鼓励孩子呢。我觉得应该尽早教会孩子什么是对的,什么是错的,然后让孩子自己去主动的了解世界认识世界,家长在适当的时候帮助孩子一把。

呵呵,“唠叨”的病人那里也有很多值得学习的地方。

2006年4月3日

医大二院

三天前,我的嗓子急速变质,非常的疼,不能吃饭,说话都很疼。去我们学校医院两次都说不让打点滴。无奈之下,我今天没有到实验室,而是到医大二院来了。

这是我第一次来医大二院,在这里我见识到了什么叫做病患如山。这里的挂号处拍着长队,整个一楼大厅里面水泄不通。如果不是预先知道这里是医院,我真的以为这里是人才交流市场,或者是菜市场。此刻才领会了为什么医疗事业永远都是挣钱的行业。

由于第一次来,没有经验,我十点多到了咽喉科排队,刚写上排队号,我就被告知要等到下午一点,因为上午的病人数量已经满了。看来现在真是咽喉发炎的高峰期。

等到一点多,我终于被医生检查了一下,被诊断为急性咽唊炎。半个小时候我乖乖的躺在静点室的病床上开始点滴。医生说,先点三天然后再看看吧。我像一致任人宰割的羔羊,没有一点挣扎的被剥削了两百多元。点滴的时候几位病人也在议论医大二院的费用很高。

哈哈,先不管这些了。按照妈妈的话,身体是一切,治好病比什么都重要。但愿能够三天之后康复起来。

2006年4月2日

推荐好书《代码大全2》

这是前一段时间一位记者在Google北京公司里面拍到的一张照片。最左侧下面的两个格里都是英文版的《代码大全2》。



现在这本书已经在国内发行,dearbook上有专门的网页介绍,也可以下载到前六章的样章。

请见dearbook的链接 http://www.dearbook.com.cn/2006/cc2e/index.htm

2006年4月1日

愚人节被愚

去年的愚人节,我指导的李正华同学正式在实验室参加常规活动了。那天他主讲了《遗传算法简介》。当时作为本科三年级的同学,他对于机器学习的热情鼓舞和感染了我。这一天完全没有愚人节的样子哦,因为没有“被愚”的。

今天上午,我被愚了一把。亚杰快到中午的时候发短信告诉我到楼下去找她取回一些好吃的东东。我很兴奋的跑到楼下,结果没有人影儿。生怕亚杰出了什么事情,赶紧电话。她说恭喜我今天过节了。她正在教化广场,刚才被她弟弟给愚到那里干等了很长时间,马上就到我们楼下来找我。哈哈,愚人节被愚一把,在我们眼里成了一件幸福的事情。

这也是我今天唯一被愚的一次,感谢亚杰妹妹^_^

文本三维可视化的结果

辛苦了几日的文本可视化“工程”终于成了一个小小正果。看到生成的那个图形,感觉非常的漂亮。朋友们看到我的演示也都在“哇!真酷呀!”。呵呵,看到这个我的心里自然也是非常的高兴。
下面简单介绍一下输入输出吧。

输入一篇文本,输出一副三维立体图。举例如下:


输入:
编者按:歼-10战斗机是近年来流传在广大军事爱好者中的"不灭传说"。
近日又有消息称,歼-10战斗机将在11月4日第四届珠海航展上亮相,但是主办方并未证实,歼-10战斗机何时揭开神秘面纱仍是问号。
卧薪尝胆,奋起直追
20世纪七八十年代以来,中国相继研发出歼-7、歼-8等战机,走出自行研发第一步,缩短了与先进国家间的技术差距。
但应世界局势和国家发展的需要,现役战机不能完全满足要求,必须发展一种看齐世界先进水平的战机。
在将航空工业列入国家863高科技发展计划背景下,中国航空工业挑起重担,研发新机,这就是外界议论颇多的歼-10新型战机。
西方按其划分战机的方法,将歼-10划分为典型的第三代战机,认为它将是中国第一种装备部队的国产第三代战机、第一种真正兼有空优/对地双重作战能力的国产战机,预计2010年以前投入现役。
当今世界,空军战机配置先进合理的国家,均采用高低搭配的方式,如法国的“阵风”和“幻影”、瑞典的“雷”和“鹰狮”、俄罗斯的苏-27和米格-29等。
其中美国F-15加F-16的高低配置方案,也为中国所接受,歼-10就扮演了低的角色,当然也或多或少地瞄准了F-16的设计。


输出:



其中的关键技术难题有如下几点:

1.生成三维矩阵数据。主要使用实验室的NLP XML底层模块在Python中来调用实现
2.绘制Gnuplot的三维图形。主要采用pGnuplot调用脚本来实现图形的绘制,其中的一个非常关键的技术点是set dgrid3d的数据网点的实现


哈哈,欢迎交流哦。目前实现的这个版本还存在一些问题,等修改好了,俺会发布下一个版本的。