2011年9月27日

9月27,而立?!

今天是个特殊的日子,查了一下,居然发现历史上的今天居然这么多事情:

1961年9月27日――刘德华出生。
1971年9月27日――李亚鹏,中国男演员
1974年9月27日――许美静,新加坡歌手
1979年9月27日,世界旅游组织第3次代表大会确定每年的9月27日为世界旅游日
1991年9月27日,微软研究院成立。
1998年9月Google公司成立。Google官方确认的生日是9月27日。


补充几条:
1981年9月27日,俺出生了,感谢父母赐予我生命并养育我成人;还有我的两位好友(方天、姜晓飞)也是这一天出生的。
2011年9月27日,俺而立之年的开始,感谢诸位朋友(Paul, Devi, Wenliang, Xiangyu, Xinyan, Nancy, Yufeng)中午为我准备的生日Party,也感谢中华从南京带来的盐水鸭(中华是我指导的第一位实习生,今早初次见面)。还要感谢一大堆在网上送来生日祝福的朋友们。还要感谢我的太太,早上传统的生日煮鸡蛋和长寿面还是那么的美味。

人生步入了新的阶段,为了心中的梦想,为了新的十年,努力!

2011年9月24日

机器学习的特征工程应该是领域知识转换的过程

脚趾甲动完手术,今天上午最后一次去诊所。我告诉医生,因为走路包扎的纱布完全脱落过一次。医生说对于我这种小手术,他最喜欢听到这样的事情发生,因为那就意味着伤口附近的肿痛消失了。

这让我想到了机器学习里的特征抽取,很多时候特征不能乱想,应该有实际的意义,就像"纱布完全脱落"可以作为肿痛消失的特征。说到底,特征工程应该是个领域知识转换的过程,这样的机器学习才会有效有意义。

针对我正在做的机器翻译,我得学些人工翻译方面的书籍了。

2011年9月23日

冰糖蒸梨--润喉止咳化痰养生

冰糖蒸梨具有润喉止咳化痰之养生食疗功效,对于经常说话的人,例如教师,具有很好的滋养作用。

一、最简便的加工方法:将梨去核切块,冰糖撒于其上,隔水蒸5-8分钟。

二、最传统的加工方法:将生梨从中间一剖二,去核;将冰糖(加川贝粉效果更佳)放入 半个生梨心中,用牙签将两个半个生梨"恢复"原样;隔水蒸约一个小时。

三、最时尚的加工方法:川贝舂碎,雪梨去芯,切成两半。将所有材料放入炖盅,以慢火炖一个小时。注意,这个方法最时尚的地方在于,不是隔水炖,而是隔着红酒炖。在川贝和冰糖的渗透下,梨原本晶莹剔透的玉色会一点点地在红酒和火力的熏染下变成暗红,房间里慢慢地弥漫出混合着果香的红酒味儿,打开炖盅时,冰糖和川贝已经就着蒸汽和梨汁化了,里面一定是一汪稠稠的羹,那种烹饪的感觉是如此奇妙。

2011年9月19日

不弄清程序的上下文环境容易出错:针对Moses的tunning解决一个重要Bug

最近发现我在服务器上运行的moses的tunning偶尔会出现不能得到结果的现象,居然两次发现moses tunning出来的moses-tunned.ini缺少参数。这个问题似乎从来没有出现过,仔细的检查的moses的参数处理的perl脚本,居然发现原因是moses的tunning出来的weight可能有科学计数法,例如-6.62728e-05。但是reuse-weight.perl中在识别这些weight时都是默认为纯小数的,例如-6.62728。在不能匹配科学计数法的数字时自然就会丢掉某些weight,导致后续的测试程序出现问题。

这个Bug较为隐蔽,似乎接触moses的两年多来都没有遇到过,仔细想想,肯定是以前tunning的结果的weight都是纯小数,最近的一些语料上的运行才出现了这个对极小数采用科学计数法的问题。

通过修改Perl匹配小数的正则表达式,这个Bug解决掉了,程序终于能畅快的继续运行了。

这个小事,让我想到一个问题,那就是写程序的时候往往会出现对输入输出数据的相关假设,编程人员务必需要仔细对各种输入情况进行考虑,最好的方法就是编写各种各样的测试用例来保证结果的正确性。