2008年6月25日

如何自动确定聚类的最佳类别数?

这是个很热门的研究点,有空弄弄看。

现在知道的有四种方案(无任何先验知识):

Spectral Graph Clustering 中可以使用Modularity(Newman, 2004)

k-means and agglomerative hierarchical clustering中可用Elbow criterion(http://en.wikipedia.org/wiki/Cluster_analysis

还有人建议"gap method" or "l-method"。

 

有点意思,备份一下。

2008年6月24日

倒时差真累

从米国回来已经两整天了,我的生物钟还是没倒顺。昨晚12点睡,3点多就醒过来再也睡不着了,折腾了半天5点就到了实验室。先是煮面、煮鸡蛋、泡燕麦,饱餐了一顿。因为之前一天睡觉混乱,24小时只吃了一顿饭。随后开始继续我的实验和写作。虽说论文八股的想法不错,但是要真正写好还真是不容易。到了下午3点多,我已经彻底困的不能工作了,拉着和我一样困倦的Boxing到楼顶,加上xiaofeng闲聊了一趟,这才缓过一点来。后来到了下午5点多,实在是困不行了,在桌上趴着小睡了一觉,醒来时又错过了饭点。

 

哎!倒时差真是累啊!也算是第一次倒时差吧。估计今晚能睡的时间长些了。

2008年6月22日

第一次参加ACL

非常巧合,我参加了ACL2008。这是自然语言处理届的国际顶级会议。

最大的感受是ACL的论文并不神秘,其中有很多的技巧,也就是所谓的“论文八股”。当然,最为重要的还是你的new and better idea。感觉中国人的优点在于做,不在于写。现在所谓的华人里的著名researcher几乎个个都是论文写作高手。要成为这样的高手,必须经历很多的锻炼的。

另外一个感受是,交流很重要。之所以参加会议很重要,是因为可以在会场上相会老朋友,结识新朋友,在各种各样的学术报告、随意闲谈中你能体会到学术的乐趣,能够迸发出各种各样的新想法。在会场听报告以及和别人交谈获得的信息远大于只看论文得到的启发。如果还能在会场作报告,那样就会有更大的收获,因为你的工作可以被世界各地的研究人员“审查”,各种背景的参会人员会提出你完全意想不到的问题。最为关键的环节就是听众提问环节。这个阶段往往会受到各种各样的质问、意见、建议和请教。

感觉顶级会议的存在是构成学术生态系统的重要驱动力。以后还得多多参加类似的国际会议。当然前提是得多写论文。

感谢我的老师们以及ACL主办方提供的资助。

相关照片如下:


2008年6月8日

第三次零纪录钓鱼

想必钓鱼的最大乐趣在于鱼儿上钩的那一刻。今天是来新的第三次钓鱼,也是再次保持了零纪录 :)

好在在小桂林水库向旁边一位大哥借鱼饵时,被送给两条小金鱼。被告知用小金鱼做饵能钓着大鱼。看着活泼泼的金鱼儿,硬是没舍得用来钓大鱼,最终被老刘和我带了回来。在jurong east碰到shanshan时,她硬是相信了我们钓到了两条金鱼 :)

 

教训:

1. 钓鱼前一定要准备好无数蚯蚓才能出发,或者无数虾米也行

2. 水库一定要选择那些不带有禁止钓鱼标记的

3. 钓鱼的时间一定要选在大清早或者傍晚

4. 一定要带好mp3、小说、论文、扑克、啤酒+花生,之类消遣的事物

 

准备下周末到老刘在新唯一一次钓上来鱼的河里钓鱼 :)

 

BTW: 赞一下老刘的耐心! 期待下次能突破零纪录!

2008年6月6日

明日校庆

明天是88周年校庆了,在此遥祝我的母校生日快乐。忽然发现自己只有身在外地时才对校庆有所感觉。这或许就是那种拥有时不觉如何,一旦失去才知道珍惜吧。试想世间万物,何尝不是如此?

 

一切事物最无法重现的就是时间了。抓紧时间,踏实做事,人生是短暂的,青春更是短暂的!以后要多读书,少说多做。

2008年6月5日

遭遇编码问题

        编写文本处理相关的程序,编码问题向来是一个非常容易出现问题的区域。这不,今天我就又一次被“折腾”了 :)

        前几天写好的Stanford Parser的Wrapper在进行Tokenize后和原文进行alignment以获取对应各元素的begin和end。但是今天出现一篇文档,在Upali那里出现问题,我这里也出现问题,Xiaofeng那里却一点问题没有。高兴的是总算还有一个好使的,沮丧的是同样的程序同样的文本,结果怎么就会不一样呢?一度无奈时我开始怀疑自己的rp了。但一想不对啊,upali的也不行啊,这位斯里兰卡大哥人很好的,编程绝对的高手,linux方面更是无人能及。

        最后最后,和xiangfeng详细对比了他的机器和我的机器的各种配置,发现居然是系统默认的编码格式不一样。系统默认语言是英文时对应的是Cp1252,默认为中文时对应编码为GBK。据查实,Java虚拟机就是根据默认编码来处理相关文本的,最终导致了处理一个Ascii不能显示的字符处xiaofeng的可以,我的不行。我在将系统默认语言改为英文后这个问题不再存在。Submit SVN后在Upali那里运行,结果还是不行,这可真是大跌眼镜啊。经过仔细盘查,终于发现Upali大哥是自己写的编码转换程序,分别采用过utf8和ISO-8859-1,经过俺修改为Cp1252后,程序终于运行起来了。正确运行那一刻upali大哥也高兴的惊呼一声。

    由此知道了为什么xiaofeng的机器好使,我和upali的都不行。

    这Java虚拟机还真霸道啊,改明儿个有空了,好好学习一下如何解决摆脱系统默认语言的限制。

2008年6月4日

独处

前几天ZH回到了厦门,今天中午kimi也飞机到家了,他们回去都是一个月左右的度假,想来真是羡慕啊。从昨晚开始我就一人住了,忽然间早晚没人聊天还真的有点不适应了。记得Car在这边实习的时候,他也说过这边比较寂寞,随着自己的独处,开始越发感觉如此。

        6个多月来每个周末的两天以及每个工作日的晚上,我都享有研究所所长级别的待遇——独处一间25平米的办公室。一人呆得无聊,我就会听听评书,上网查查一些菜肴的做法,试着回住处用煤气锅做做。随着半个月前在vivo city买到微波炉炊具,我又开始周末在研究所做菜煮饭了。回想上周末用微波炉做的榨菜烟肉、鸡蛋糕和大米饭,真是香啊。现在很向往这个周末端午节的钓鱼和晚上几个人动手的聚餐咯~~

       独处是件好事,有更多自由的空间和时间。刚才得知哈尔滨的实验室楼下换了门卫,又开始晚上10点清楼了。我也假定10:30清楼,准备回去睡觉咯。呵呵,早睡仍旧是很幸福的 :)