2007年5月29日

[生活帮助]哈尔滨城市通

  在哈尔滨市区内的每个公交站牌的公告栏里都有着这样一句话:城市通伴您在出行的路上!当您要去哈尔滨市区的某一个地方却不知道路该怎么走,也不知道该怎样换乘公交车时,请拨打城市通24小时公益服务热线:10109998(热线只收市话费)。
  这是哈尔滨市公共交通管理处特设的服务百姓的公益热线。随着现代化城市建设步伐的日益加快,交通信息变化频繁,给人们出行带来了诸多不便,诸如公交换乘困难、道路咨询困难等等,而“城市通”的出现及时解决了这些出行难题。
  “城市通”汇集了哈尔滨市20万余条地址信息,共设64个图层。信息全部由人工实地沿街采集,即使是小型食杂店、理发厅等场所都在系统的查询范围之内,是查询信息快捷的智能化信息处理平台。在后期维护方面,做到每45天更新一次数据,保证人们及时、准确地获取信息。
  用户拨打城市通服务热线:10109998(1)可以询问某单位的具体地址以及到达该目的地的最佳乘坐公交车或开车路线;(2)可以查询公交车途经站点和首、末班车时间;(3)还可以查询某地的周围信息,如:饭店、银行、医院、加油站、商服网点……
  众多在公交站牌旁徘徊的人们通过10109998获得了及时的帮助,充分显示了“城市通”的实用价值以及哈尔滨市公共交通管理处服务百姓、服务交通的宗旨。总之,出行有麻烦,求助城市通,拨通10109998,畅通冰城走四方。

2007年5月28日

[收藏]放下身段,路会越走越宽

  说来也许你不信,我有一位大学同学,在校时成绩很好,大家对他的期望也很高,认为他必将有一番了不起的成就。
  
  也是有成就,但不是在政府机关或大公司里有成就,他是卖蚵仔面线卖出了成就。
  
  原来他是在退伍后不久,得知家乡附近的夜市有一个摊子要转让,他那时还没找到工作,就向家人[借钱],把它顶了下来。因为他对烹饪很有兴趣,便自己当老板,卖起呵仔面线来。他的大学生身份曾招来很多不以为然的眼光,但却也为他招来不少生意。他自己倒从未对自己学非所用及高学低用怀疑过。
  
  [要放下身段!]这是我那位同学的口头禅和座右铭:[放下身段,路会越走越宽。]
  
  人的[身段]是一种[自我认同],并不是什么不好的事,但这种[自我认同]也是一种[自我限制],也就是说,[因为我是这种人,所以我不能去做那种事],而自我认同越强的人,自我限制也越厉害,所以,千金小姐不愿意和下女同桌吃饭,博士不愿意当基层业务员,高级主管不愿意主动去找下级职员,知识份子不愿意去做[不用知识]的工作……。他们认为,如果那样做,就有损他的身份!
  
  其实这种[身段]只会让人路越走越窄,我并不是说有[身段]的人就不能有得意的人生,但我相信,在非常时刻,如果还放不下身段,那么会让自己无路可走!像博士如果找不到工作,又不愿意当业务员,那只有挨饿了;如果能放下身段,那么路就越走越宽,也没有走不通的路!
  
  你如果想在社会上走出一条路来,那么就要放下身段,也就是:放下你的学历、放下你的家庭背景、放下你的身份,让自己回归到[普通人]!同时,也要不在乎别人的眼光和批评,做你认为值得做的事,走你认为你值得走的路!
  
  [放下身段]比放不下身段的人在竞争上多了几个优势:
  
  ——能放下身段的人,他的思考富有高度的弹性,不会有刻板的观念,而能吸收各种资讯,形成一个庞大而多样的资讯库,这将是他的本钱。
  
  ——能放下身段的人能比别人早一步抓到好机会,也能比别人抓到更多的机会;因为他没有身段的顾虑!
  
  有一则这样的故事:一千金小姐随着婢女在饥饿中逃难,干粮吃尽后,婢女要小姐一起去乞讨,千金小姐说:[我是小姐也!]不愿意去。
  
  结果会怎么样呢?你自己猜吧!

[收藏]UltraEdit + LaTeX

CTEX套装自带的LaTeX编辑器是WinEdt。除了对中文spellcheck、自动换行支持不好外,还有很多“智能”的毛病,比如经常一回车,刚敲过的两行就被WinEdt自动排版了。UltraEdit实在是令人叹为观止的一款文本编辑器,我一直使用其编辑文本文件,如果能用它来编辑LaTeX就好了。事实上,UE早已为我们准备好这种功能了,拿出来共享一下。

1. LaTeX关键字的自动着色。
到UltraEdit的官方网站下载Wordfile,具体在
http://www.ultraedit.com/downloads/additional.html
打开UltraEdit目录下的wordfile.txt文件,把你下载下来的wordfile附加在末尾,用copy/paste就行了。另外wordfile.txt中是以 "/L*"来作为一种语言的开始标记,其中"*"代表数字序号,注意latex的序号不要和原先的语言(如C、Perl、HTML等)冲突就行了。
这时候你再打开一个.tex文件看看,是不是耳目一新?

2. LaTeX Tag的自动插入。还是在
http://www.ultraedit.com/downloads/additional.html
下载latextag.txt,按照对应格式copy/paste到UE目录下的taglist.txt文件中。 记得要在最后的[Group List]里加上对应项目。 然后打开UE,按Ctrl+F8,下面的用法就不用我多说了。

3. 不脱离UltraEdit环境即对TeX文件进行编译和预览。
这部分实现WinEdt的部分功能,通过几个工具栏按钮来编译、预览LaTex。

3.1 编译LaTeX
在UE的菜单项,选择Advanced->Tool Configurations,
Command Line: Latex "%p%n.tex"
Working Directory: %p
Menu Item Name: LaTeX
Save Active File: 选中
Show Dos Box: 选中
Capture Output: 选中
然后点Insert,这样就加入了一个菜单项。这时用UE打开一个Tex文件,然后在Advanced菜单的最下面多了个菜单项:Latex,点它,就可以编译LaTeX文件了!还可以用UE的自定义工具栏功能,把自定义的菜单项加到工具栏上。
(补充:在这里,可以通过对话框的ADVANCE选项,添加工具的图表,下同)

3.2 用YAP预览
其他的就大同小异了。
Command Line: yap "%p%n.dvi"
Working Directory: %p
Menu Item Name: View with YAP
Windows Program: 选中
注,其他皆不选。

3.3 编译成ps文件
Command Line: dvips "%p%n.dvi"
Working Directory: %p
Menu Item Name: DVIPS
Windows Program: 不选
Save Active File: 不选
Show Dos Box: 选中
Capture Output: 不选

3.4 用GSView预览
Command Line: "gsview32" "%p%n.ps"
Working Directory: %p
Menu Item Name: View with GSView
Windows Program: 选中
Save Active File: 不选
Show Dos Box: 不选
Capture Output: 不选

3.5 制作 PDF 文件
Command Line: ps2pdf "%p%n.ps"
Working Directory: %p
Menu Item Name: PS2PDF
Windows Program: 不选
Save Active File: 不选
Show Dos Box: 选中
Capture Output: 不选

3.6 用Acrobat Reader预览生成的PDF文件
Command Line: "AcroRd32.exe" "%p%n.pdf"
Working Directory: %p
Menu Item Name: View with Acrobat
Windows Program: 选中
Save Active File: 不选
Show Dos Box: 不选
Capture Output: 不选

体验一下UltraEdit和LaTeX的完美组合吧 :)

2007年5月27日

查新

查新,对于科研是必备的,了解别人的工作可以避免重复性建设,也可以广泛获取新鲜的营养来完成更加高水平的研究。如果把科研看成无国界的战争的化,就如兵法有云,“知己知彼,百战不殆”,也就是这个道理。

我知道很多科研牛人都经常查新的,根据我的观察,较为常见的是每月查新一次。查新内容包括最新出现的相关论文,最新召开的相关会议,相关研究人员的最新动态等等。在浏览一些科研牛人的Publications的时候,经常看到他们有很多精彩的idea。我想这和他们经常查新有关系吧。查新,也就是“问渠哪得清如许,唯有源头活水来”的根本所在。以往自己也经常查新,但是每次几乎都是胡乱查找的。我想从现在开始我需要养成每月一次查新的习惯了。

根据我自己的情况,我的查新主要包括两类:相关研究人员的个人网站,和主流会议的召开情况。

今日开始第一次常规性的查新。啊哈!了解到了很多新鲜的内容,列举如下:

王厚峰老师在2007年春季主讲了Advanced NLP课程,其中有很多同比很新的内容,例如Graphical Model、Ensemble Learning等。

2007年5月26日

更新个人网站

我的个人网站已经建立三年多了,最早采用的是“东方网页王”来进行制作的,当时觉得生成一个新的网页或者修改既有的网页都是很方便的。后来由于一次重装机器,“东方网页王”重装后不能继续维护原来的个人网站了,每次更新我只能是手动修改那些复杂的HTML代码,而且增加页面也非常的困难。前几天感觉我的个人网站不是很好,不具备良好的维护性能。为此,我准备重新制作我的个人网站。

首先,我定下了新版个人网站的几个原则:
1、导航页必须能够灵活的进行配置,不用每个页面修改;
2、增加一个页面、删除一个页面等操作要比较容易;
3、必须手动撰写所有的网页代码,只有这样才能具有完全的细节部分的掌控能力;
4、全部采用HTML实现,便于将来转移或者升级。

基于这几个原则,经过寻觅,我采用了嵌入式css文件来控制整个网站的风格,采用iframe来实现导航条、页脚的单独页面,采用CSS Tab Designer制作导航条风格。在旧版网站内容的基础上,完成了新版的个人网站。几个原则都已经实现。欢迎大家拍砖哦 :) Jun Lang's Website

呵呵,这个工作花费了两天时间,算是自己一个新的开始!继续努力。正如astronautguo的签名“每天进步一点点” :)

2007年5月25日

告别不能坚持:我的1001

为什么写Blog,记得2003年9月初,得知实验室有很多人在写Blog,我知道的第一批Blogger有Victor,Carl,Stream,Bert,Lee,Simply。看着他们记下的内容,我感触很深,在Carl的帮助下,我写下了第一篇Blog 感动于此。从那时起,我成为一位Blogger。每天晚上都会写下一段自己的文字。

写Blog比起写日记有很多优势,我感觉最好的一点是方便回顾,不受地域的限制。缺点是有一些比较私秘的东西不能写上来,毕竟中国人都是比较含蓄的。撰写Blog需要注意的就是备份,因为随着时间的推移Blog撰写成为一种习惯后,一旦出现Blog系统崩溃就会非常的难受,感觉丢失了自己的过去似的。前一阵子“酷歪”Blog系统出现的问题就让很多朋友感受到了这一点。所以,一种较好方案是Blog有自己的域名和空间,经常备份,安全系数高。回想自己的Blog系统,就满足这种需求的。

现在经常听到有人说,“Hi! Bill_Lang,你的blog写的不错啊?想不到坚持写了那么长时间,而且内容很多都不错啊!” 通过我的Blog,我学习到了很多,最大的一个感触就是体会到了交流的重要性。在现在这样一个人与人之间当面交流越来越希罕的时代,Blog成为了一种朋友之间相互了解的工具,也成了一种和别人分享喜悦和分担悲伤的工具。我的Blog名字叫做“Bill_Lang's Study&Life”,目的是为了延续自己在写Blog以前五本大学日记本的内容。今天一不小心,发现自己的Blog刚好已经撰写了1000篇。今日的这篇算是1001篇了。

回想自己维护的机器学习论坛在第1001篇帖子中写过“1000贴1000梦”,自己的Blog也是这样的。我有一个梦想,“那就是长大以后当一位科学家”。儿时稚嫩的想法,现在看来是非常模糊和不确定的。喜爱研究的我常常被各种问题所吸引,随着年岁的增加,我开始进入了一个富有意义的研究领域--“共指消解”。是的,作研究需要专注,你能想到的别人也能想到。那为什么不是别人也能完成类似的工作呢?因为,坚持!随着社会的发展,人与人之间的天生差别越来越少,后期的努力成为一种差异化的必然因素。有了想法需要坚持。坚持是苦的。有句老话“受了苦中苦,方为人上人”。无数的例子证明,想要获得成功,必须坚持。机会只给予那些有准备的人。准备是一个长期的过程,需要坚持不懈的。

我发现了自己的一个弱点,一个很大的弱点:不能坚持。我有很多很好的想法,但是经常是半途而废。为什么呢?因为自己常常给自己寻找借口来开脱。是的,有人说过,完成一次很容易,难的是长期坚持。在高中时代,我的“坚持”是在公寓楼长大爷每天的清晨的口哨声中锻炼起来的,进入本科时代,这种习惯还在坚持。但是随着自己进入研究生、博士生阶段以来,我的这种习惯没有了。现在的我变得很懒散。

找到了问题所在,我如何纠正呢?我想还是从晨练开始吧,一日之际在于晨,一年之际在于春。明日从学习太极开始吧。这次不能再半途而废了。

仅以此文纪念我的第1001。仅以此文督促自己改正缺点,发扬优点,在博士生涯中继续前进。

2007年5月22日

你健康么?大家注意啊

怎样才是真正的健康

  世界卫生组织世界卫生组织在1985年提出健康应包括三个方面:
  
  1、身体健康
  
  2、心理健康
  
  3、社会适应良好
  
  世界卫生组织规定健康的表现标志是;一、有足够充沛的精力,能从容不迫地应付日常生活和工作的压力,而不感到过分紧张;二、态度积极,乐于承担责任,不论事情大小都不挑剔;三、善干休息,睡眠良好;四、能适应外界环境的各种变化,应变能力强;五、能够抵抗一般性的感冒和传染病;六、体重得当,身材均匀;站立时,头、肩、臂的位置协调;七、反应敏锐,眼睛明亮,眼睑不发炎;八、牙齿清洁,无空洞,无痛感,无出血现象,齿龈颜色正常;九、头发有光泽,无头屑对;肌肉和皮肤富有弹性,走路轻松匀称。

2007年5月20日

你正在发散么?Focus!: 冲动之“基于二元句对主干检索的聊天机器人”

这个句子是一个贴在我显示器下面的提示语。目的是为了不断提醒自己不要发散。人总是有缺点的,我的缺点就是太发散,经常会被一些东西分散注意力。这不,今天晚上险些又被拉入了自己曾经的一个梦想--聊天机器人。

自己最早接触聊天机器人是2004年在微软俱乐部担任VB技术小组组长的时候,和组员许楠一起申请了一个聊天机器人的项目。当时的技术非常的简单,就是对每个输入的句子在库中找最接近的句子后随的话来输出,找不到就随意的输出一个转移话题或者模棱两可的句子。

随后2005年在微软亚洲研究院实习的前四个月在和际洲一起研究Alice等聊天机器人的机制,并且完成了一个简单的聊天机器人,自己还手工撰写了好几百条聊天知识。

聊天机器人现在算是自己的一个梦想,每每看到这方面的消息都会非常的集中注意力。晚上看到了一段“两个聊天机器人的对话记录”,又开始迸发做一个聊天机器人的想法。原先自己涉及过的聊天机器人以及Alice的原理,都是在寻找最接近的回复。这种可以看成二元句对模型。如果能够扩展成三元句组模型,相信能够会使聊天机器人的性能得到提高。

具体想法是:将聊天(或者对话)语料库中的每个句子进行适当的主干提取操作,在进行实际聊天过程中,每次对最近的两个句子提取主干,然后在语料库中进行检索,找出最接近的二元对,从而抽取紧随的句子作为回复。

这个方案简单易行。其中涉及到三个关键问题:1、语料的采集;2、句子主干如何设定;3、如何高效检索二元句对。我的粗浅想法是:1、语料可以收集大家的聊天语料库(但是存在难度,没有人愿意公开);2、句子主干可以采用句法分析的技术来删除一些不相关的节点,可以采用依存句法分析器或者结构句法分析器实现;3、对二元句对建立索引,然后采用Lucene等工具实现快速检索。

呵呵,一种冲动。但是看到显示器下的话“你正在发散么?Focus!”我刚才停住了调研分析。简短记下这个冲动的想法吧。等完成自己现在的主要任务后再继续前进吧。留做备份。

其实自己经常出现类似的冲动想法,这种情况以后自己一定要经常性的记录下来,以备将来回顾,同时也是为了使自己更加关注!