2008年12月29日

[转载]写给正在痛苦中煎熬的博士

不在其中不知其味,看到后感觉很亲切,转与此!

发信人: hallpetch (大肚博博@||轻吻落额头,玉手抚胸口), 信区: Graduate
标 题: 写给正在痛苦中煎熬的博士
发信站: 紫丁香社区 (Tue Dec 16 15:29:54 2008), 站内
昨 天晚上,一个博士和我聊天,心情非常郁闷,说他终于体会到为什么有那么多博士要自杀,觉得读博士一点意义都没有,不能毕业,毕了业又找不到合适的工作,纯 粹浪费这几年时间,没有任何收获。他的心情我完全理解,因为我和他是同一届博士,也是第四年了,费尽千辛万苦,刚刚答辩完,当然现在的心情可能会轻松些, 但是论文送审之前的那些个日日夜夜,我现在都不愿意去想它,精神上承受了常人难以想象的压力,迷茫,徘徊,痛苦,挣扎,努力,坚持,终于熬出来了。但看到 还有那么多和我一届的或比我还早的博士,觉得自己也是幸运的,同时为他们捏把汗,希望他们能够早点毕业,遂写此文,以资鼓励!
当博士进入第三、第四个年头的时候,是压力最大,最痛苦的时候,许多人已经无退路可选,真的跟上了贼船一样,后悔已经来不及了。因为在第一年的时候,觉得 自己没有勇气坚持读完博士,那么后悔还来的及,赶快退学,找个工作,也不失为一种好的选择。但是到了博三博四,论文已经作了大部分工作,几年的努力即将出 成果的时候,决不能因此而打退堂鼓。这个时候博士生的主要压力来自于这几个方面:
1、虽然论文已经完成了大部分内容,但还是看不到毕业的希望。因 为即使自己付出了很大的努力,但是最后能不能出成果,或者最后的结果能不能像自己预期的那样?心里一点底都没有,因为博士论文要求创新,不是说你做出来就 可以了,而是你的创新点在哪里?你必须比别人做的好才行。
2、经济上的压力。许多脱产博士生,大部分都是应届的,国家每个月只给两百多块钱,那简 直是杯水车薪,如果碰上个好导师,可能会再资助点,那也少的可怜,仅仅解决温饱问题。但是大部分应届博士生,年龄都将而立之年,有些是有家有口的,有的是 正在谈恋爱或已经结婚的,正是需要钱的时候,而这个时候,自己不能挣钱养家糊口,却要忍受清贫,忍受孤独,潜下心来搞学问,压力之大,可想而知。
3、 毕业后的出路。即使自己忍受清贫,忍受孤独,潜下心来搞学问,也需要动力。或者毕业后会前途光明,飞黄腾达;或者毕业后会有一份高薪工作得以补偿。但是目 前的形势已经完全变了,我们根本看不到这些。三年前,像我们这一届或更早一点的,那个时候读博士,充满了美好的幻想:因为当时博士的待遇很好,一般去高 校,都会给一套不错的房子,并且解决家属问题,还有相当丰厚的科研启动费和安家费。三四年后,情况发生了翻天覆地的变化,房价暴涨,博士生也扩招了,别说 什么待遇,能进高校就不错了。当然,有人说,为什么非要进高校呢?我个人认为,高校对于博士来说应该是一个好的选择,毕竟高校需要博士这个学历,能够发挥 自己特长。如果去企业,没有必要读博士,进去了也和其他的非博士学历差不很远。
4、家人亲戚朋友的期望。读博士的人毕竟是少数,一个地方,尤其是 农村,方圆几十里,能够读博士的人也是非常少的。如果你恰巧是这为数不多一员,家人亲戚都会把它作为一种荣耀,他们宁愿受再大的苦,再大的累,也觉得很值 得,他们这一辈子不图什么,或许这点荣耀对他们来说就是最大的安慰。但是他们不知道读博士有多难,要经历多大痛苦,而我们这些“天之骄子",能够半途而 废,忍心看着家人亲戚朋友们一双双充满了希望的眼神变成失望的眼神吗?不能,真的不能,除非你承认自己是懦夫,否则必须坚持下去,以不辜负他们的期望。
5、 退一万步讲,就算你现在不能坚持下去,放弃读博士,以硕士的身份去找工作,那么你能够找到三年前同样好的工作吗?恐怕很难,博士的待遇差了,同样,硕士生 的就业更加困难,也大不如以前。没有办法,也不要抱怨,因为抱怨没有任何作用,环境如此,社会如此,非你我的能力所能改变的。
所以,对于正处在博三博四的博士们,你们的心情我非常理解,请你们一定坚持下去。当时,我在毕业一再延期,看不到任何毕业的曙光的情况下,心中只有一个信 念,坚持下去,不管四年五年,一定要坚持下去,而且时时刻刻提醒自己,因为我已经无路可退,只有沿着这条充满了坎坷的荆棘之路向前走,而且必须走出来。现 在终于走出来了,回想起来,真的是很难很难,不管以后如何,这段经历,一生刻骨铭心!
--

2008年12月23日

Latex经验之label必须跟随caption

晚上又被折腾了一把,最后发现表格和图片的label必须紧随caption,否则就会被篡改为对应subsection的章节号。

出现这个问题是临时按照style规定将caption放到表格底部,但是没有同时移动label。

想想latex的原理,也确实该将label紧随caption。

备份与此。

2008年12月19日

Google抵制QQ?

昨晚发生了一件非常奇怪的事情,在google group的页面里面一旦加入QQ的邮箱地址就会导致整个页面的内容变成空白,非管理员就会发现该页面不存在。

这个规律是经过一个小时的折腾才发现的。猜想是Google抵制QQ的一种方法。

如果真是这样的话,似乎有点小气了 :)

2008年12月16日

2008年12月21日机器学习小组第四次活动

Title: 机器学习小组第四次活动
时间:12月21日(周日)下午两点
地点:正心楼109

报告人:(按拼音排序)
贺惠新:流形学习理论概述
胡清华:混合数据粗糙集模型和算法
纪荣嵘:视觉辞典: 以文喻景
郎君: Inductive Logic Programming in a nutshell
邹权: 样本类别不平衡的分类算法及其在生物信息学中的应用

参加人:欢迎哈尔滨各大院校的机器学习爱好者参与

随后进行所有与会者讨论: “Machine Learning for you”

这将是一次交流的盛宴,期待大家的支持和参与,会上咱们还会进一步讨论以后的组织形式。


您的热情和参与是咱们前进的动力!
让交流成为习惯,让共享创造价值!

为了便于讨论会后更好的给大家发送本次活动的相关资料,请准备参加的同学在下面的链接里留下个人信息:
http://groups.google.com/group/hit-machine-learning-group/web/%E7%AC%AC%E5%9B%9B%E6%AC%A1%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E8%AE%A8%E8%AE%BA%E6%B4%BB%E5%8A%A8%E6%8A%A5%E5%90%8D


-------------------------------------------------------------------------
参考:
南京大学的第六届机器学习及其应用研讨会
http://lamda.nju.edu.cn/conf/mla08/

机器学习小组第一次活动: SVM review 2005.03.12 HIT-NewTech Building 618
http://ir.hit.edu.cn/~bill_lang/My_Free_Resource/Machine_Learning/HIT_Machine_Learning_Group_1_SVM_Review.rar

机器学习小组第二次活动: Tools Experience 2005.04.16 HIT-NewTech Building 618
http://ir.hit.edu.cn/~bill_lang/My_Free_Resource/Machine_Learning/HIT_Machine_Learning_Group_2_Tools_Experience.rar

机器学习小组第三次活动: Rough Set Survey 2006.08.05 HIT Building for Power Department 620
http://ir.hit.edu.cn/~bill_lang/My_Free_Resource/Machine_Learning/HIT_Machine_Learning_Group_3_Rough_Set_Survey.rar

2008年12月14日

拒绝网络上瘾


网络给咱们带来了信息爆炸的感觉,我们每天都在网上四处行走着。面对网络,我们得到了很多,也失去了很多。

前一阵子,“每天超过6 小时上网=精神病”引起了大家的广泛关注。当时只是付之一笑,近来感觉,似乎这个说法是正确的。出门没带手机,你一定会跑回家里赶紧带上;忽然不能上网 了,你肯定会想尽办法去解决。面对手机和网络,我们害怕失去,害怕失去对信息的掌控。如果有一天你能潇洒的不带手机,拒绝网络,甚至不用电脑的生活一天, 那将是什么感觉。

虽然我们很多人都不会承认自己网络上瘾,但是拒绝网络上瘾还是非常重要的。就像下面这幅漫画,哈哈,上瘾真可怕!

2008年12月4日

火花性格

近来一段时间,出现一些火花急躁时刻。得罪了很多人。不应当啊!好在有女友和老师的不断提醒。

戒骄戒躁,放低自己。Actually I am nothing!I should keep everything as low-key as possible!

2008年11月29日

重温《功夫熊猫》

昨晚和女友一起在影院重温了《功夫熊猫》,除了全场的啼笑皆非,还有几句有点意思的话值得思考。

Master Wugui said to Po, "Yesterday is history, tomorrow is mystery, but today is a gift!"
Master Wugui said to Shifu, "you just need to believe."
The secret ingredient is ... nothing.

相信和信心非常重要。它们能引导你完成看似不可能的事情!

2008年11月28日

想起数学建模的日子,转载《数模十大常用算法及说明~》

数模十大常用算法及说明~

Link: http://www.madio.cn/home/space-131883-do-blog-id-6.html

1. 蒙特卡罗算法。该算法又称随机性模拟算法,是通过计算机仿真来解决问题的算法,同时可以通过模拟来检验自己模型的正确性,几乎是比赛时必用的方法
  2. 数据拟合、参数估计、插值等数据处理算法。比赛中通常会遇到大量的数据需要处理,而处理数据的关键就在于这些算法,通常使用 MATLAB 作为工具。
  3 . 线性规划、整数规划、多元规划、二次规划等规划类算法。建模竞赛大多数问题属于最优化问题,很多时候这些问题可以用数学规划算法来描述,通常使用 Lindo 、 Lingo 软件求解。
  4. 图论算法。这类算法可以分为很多种,包括最短路、网络流、二分图等算法,涉及到图论的问题可以用这些方法解决,需要认真准备。
  5. 动态规划、回溯搜索、分治算法、分支定界等计算机算法。这些算法是算法设计中比较常用的方法,竞赛中很多场合会用到。  
 6. 最优化理论的三大非经典算法:模拟退火算法、神经网络算法、遗传算法。这些问题是用来解决一些较困难的最优化问题的,对于有些问题非常有帮助,但是算法的实现比较困难,需慎重使用。
  7. 网格算法和穷举法。两者都是暴力搜索最优点的算法,在很多竞赛题中有应用,当重点讨论模型本身而轻视算法的时候,可以使用这种暴力方案,最好使用一些高级语言作为编程工具。
  8. 一些连续数据离散化方法。很多问题都是实际来的,数据可以是连续的,而计算机只能处理离散的数据,因此将其离散化后进行差分代替微分、求和代替积分等思想是非常重要的。
  9. 数值分析算法。如果在比赛中采用高级语言进行编程的话,那些数值分析中常用的算法比如方程组 求解、矩阵运算、函数积分等算法就需要额外编写库函数进行调用。
  10. 图象处理算法。赛题中有一类问题与图形有关,即使问题与图形无关,论文中也会需要图片来说明问题,这些图形如何展示以及如何处理就是需要解决的问题,通常使用 MATLAB 进行处理。
以下将结合历年的竞赛题,对这十类算法进行详细地说明。
  2 十类算法的详细说明
  2.1 蒙特卡罗算法

  大多数建模赛题中都离不开计算机仿真,随机性模拟是非常常见的算法之一。

   举个例子就是 97 年的 A 题,每个零件都有自己的标定值,也都有自己的容差等级,而求解最优的组合方案将要面对着的是一个极其复杂的公式和 108 种容差选取方案,根本不可能去求解析解,那如何去找到最优的方案呢?随机性模拟搜索最优方案就是其中的一种方法,在每个零件可行的区间中按照正态分布随机 的选取一个标定值和选取一个容差值作为一种方案,然后通过蒙特卡罗算法仿真出大量的方案,从中选取一个最佳的。另一个例子就是去年 y 的彩票第二问,要求设计一种更好的方案,首先方案的优劣取决于很多复杂的因素,同样不可能刻画出一个模型进行求解,只能靠随机仿真模拟。
  2.2 数据拟合、参数估计、插值等算法
   数据拟合在很多赛题中有应用,与图形处理有关的问题很多与拟合有关系,一个例子就是 98 年美国赛 A 题,生物组织切片的三维插值处理, 94 年 A 题逢山开路,山体海拔高度的插值计算,还有吵的沸沸扬扬可能会考的“非典”问题也要用到数据拟合算法,观察数据的走向进行处理。此类问题在 MATLAB 中有很多现成的函数可以调用,熟悉 MATLAB ,这些方法都能游刃有余的用好。
  2.3 规划类问题算法
  竞赛中 很多问题都和数学规划有关,可以说不少的模型都可以归结为一组不等式作为约束条件、几个函数表达式作为目标函数的问题,遇到这类问题,求解就是关键了,比 如 98 年 B 题,用很多不等式完全可以把问题刻画清楚,因此列举出规划后用 Lindo 、 Lingo 等软件来进行解决比较方便,所以还需要熟悉这两个软件。
  2.4 图论问题
  98 年 B 题、 00 年 B 题、 95 年锁具装箱等问题体现了图论问题的重要性,这类问题算法有很多,包括: Dijkstra 、 Floyd 、 Prim 、 Bellman-Ford ,最大流,二分匹配等问题。每一个算法都应该实现一遍,否则到比赛时再写就晚了。
  2.5 计算机算法设计中的问题

   计算机算法设计包括很多内容:动态规划、回溯搜索、分治算法、分支定界。比如 92 年 B 题用分枝定界法, 97 年 B 题是典型的动态规划问题,此外 98 年 B 题体现了分治算法。这方面问题和 ACM 程序设计竞赛中的问题类似,推荐看一下《计算机算法设计与分析》(电子工业出版社)等与计算机算法有关的书。

  2.6 最优化理论的三大非经典算法

   这十几年来最优化理论有了飞速发展,模拟退火法、神经网络、遗传算法这三类算法发展很快。近几年的赛题越来越复杂,很多问题没有什么很好的模型可以借 鉴,于是这三类算法很多时候可以派上用场,比如: 97 年 A 题的模拟退火算法, 00 年 B 题的神经网络分类算法,象 01 年 B 题这种难题也可以使用神经网络,还有美国竞赛 89 年 A 题也和 BP 算法有关系,当时是 86 年刚提出 BP 算法, 89 年就考了,说明赛题可能是当今前沿科技的抽象体现。 03 年 B 题伽马刀问题也是目前研究的课题,目前算法最佳的是遗传算法。

  2.7 网格算法和穷举算法 ;

   网格算法和穷举法一样,只是网格法是连续问题的穷举。比如要求在 N 个变量情况下的最优化问题,那么对这些变量可取的空间进行采点,比如在 [ a; b ] 区间内取 M +1 个点,就是 a; a +( b ? a ) =M; a +2 ¢ ( b ? a ) =M ; …; b 那 , 么这样循环就需要进行 ( M + 1) N 次运算,所以计算量很大。
  比如 97 年 A 题、 99 年 B 题都可以用网格法搜索,这种方法最好在运算速度较快的计算机中进行,还有要用高级语言来做,最好不要用 MATLAB 做网格,否则会算很久的。

  穷举法大家都熟悉,就不说了。
  2.8 一些连续数据离散化的方法

  大部分物理问题的编程解决,都和这种方法有一定的联系。物理问题是反映我们生活在一个连续的世界中,计算机只能处理离散的量,所以需要对连续量进行离散处理。这种方法应用很广,而且和上面的很多算法有关。事实上,网格算法、蒙特卡罗算法、模拟退火都用了这个思想。

  2.9 数值分析算法
  这类算法是针对高级语言而专门设的,如果你用的是 MATLAB 、 Mathematica ,大可不必准备,因为象数值分析中有很多函数一般的数学软件是具备的。

  2.10 图象处理算法

  01 年 A 题中需要你会读 BMP 图象、美国赛 98 年 A 题需要你知道三维插值计算, 03 年 B 题要求更高,不但需要编程计算还要进行处理,而数模论文中也有很多图片需要展示,因此图象处理就是关键。

2008年11月26日

[转载]语义网模式:语义技术概论

值得关注的技术,同时让我不禁联想到Collective Intelligence。

原文链接:http://www.yeeyan.com/articles/view/16804/18658

简介: 本文将分析语义网的趋势与技术,包括一些正在涌现的模式,对不同趋势的分类等等。

本文将分析语义网的趋势与技术,包括一些正在涌现的模式,对不同趋势的分类等等。

支 持语义网的基础技术都已经就绪了,同时很多创业公司和大型公司都在努力地利用这些技术以实现更好的客户价值。对于不同的人来说,语义网有着不同的意义。对 于一些人来说,语义网是一个数据的网络,其中数据被表示为RDF与OWL,又或者是Microformats格式。另外有人认为语义网是与网络服务相关的 一个概念。也有人认为它更多地与人工智能相关。而商家则总是会试图通过终端用户的价值来重新定义这个问题,他们认为不管怎样,一个实在的、方便的应用对于 消费者与企业来说才是重要的。这种不一致并非偶然,因为它的技术与概念涉及面甚广,有一些是可以实现的,有一些则只能猜测。

1、 自底向上与自顶向下

语义网的方法主要可分为两类:经典的自底向上和新兴的自顶向下的方式。自底向上的方法关注于标注好的信息,使用RDF表示,所以这些信息是机器可读的。自顶向下则着重于利用现成的页面信息,从中自动抽取出有意义的信息。近年来每一种方法都有一定的发展。

自 底向上的方法的一个喜讯来自于Yahoo搜索引擎支持RDF与microformats的声明。这是一个对于内容发布者、Yahoo和消费者来说三赢的举 措:发布者有了标注自己信息的激励,Yahoo可以更有效地利用这些信息,用户可以得到更好、更精确的结果。另一个喜讯来自于Dapper关于提供语义网 络服务的声明,这项服务可以让内容发布者给现有的网页添加语义标注。可以期待的是,这种语义工具越多,发布者标注网页就会越容易。自动标注工具的发展与标 注激励的增多,会使得自底向上的方法更加引人注目。

尽管工具与激励都有了,但要使得自底向上的方法流行起来还是有相当的难度。事实上, 今天google的技术已经可以在一定程度上理解那些非结构化的网页信息。类似地,自顶向下的语义工具关注点在于怎样处理现有的非完美的信息。这些方法主 要是利用自然语言处理的技术来进行实体的抽取,这些方法包括识别文档中特定实体(与人名、公司、地点等)的文本分析技术,以及能获取特定领域信息的垂直搜 索引擎。

自顶向下的技术关注于从非结构化的信息中获得知识,但它同样可以处理结构化的信息,自底向上的标注技术越多,自顶向下方法的性能就越能得到提高。

2、 标注技术:RDF,Microformats与Meta信息

在 自底向上的标注方法中,有几种候选的标注技术,它们都很强大,对它们的选择需要在简单性及完全性之间作一个权衡。最完备的方法是RDF:一种强大的基于图 的语言,用于表示事物、属性及事物间的关系。简单地来说,你可以认为RDF是这样的一种语言,它通过这样的方式来表达事实:Alex IS human (类型表达), Alex HAS a brain (属性表达), and Alex IS the father of Alice, Lilly, and Sofia (关系表达)。RDF很强大,但因为它是以高度递归、精确与数学化而著称的,同时它也是很复杂的。

当 前,大多RDF的使用都是为了解决数据的互通性。例如,医学组织使用RDF来表述染色体组数据库。因为信息被标准化了,所以,原来孤立的数据库就可以被一 起查询并相互比较了。一般说来,除了语义方面的意义,RDF最主要的好处在于实现互通性与标准化,特别是对于企业来说(下文有论述)。

Microfomats 提供了一个简单的方法――CSS风格-―来给现有的HTML文档添加语义标记,简洁的meta数据被嵌入到原有的HTML文档中。比较流行的 Microformats标签包括hCard:描述个人及公司联系信息;hReview:添加到评论页的meta信息;与hCalendar:描述事件的 标签。

Microformats因它的简单而得到流行,但它的能力仍然是很有限的。例如被传统的语义团体认为是很必要的层次结构的描 述,它就做不到。此外,为了使得标记集最小化,难免地它们表达的意思就显得比较模糊。这就引出了另外一个问题:把标签嵌入到HTML文档中是不是一种合适 的做法?然而,虽然仍存在很多的问题,Microformats还是因为它的简单而广受青睐,像Flickr, Eventful, LinkediIn及其它很多公司都在采用microformats,特别在是Yahoo的搜索声明发布之后。

还有一种更为简单的方法 就是把meta数据放在meta头中。这种方法已经在一定程度上被使用,可惜的是使用得还不是十分广泛。纽约时报最近为他们的新闻页面启动了一个标注扩 展,这种方法的好处已经在那些主题或事件页面中显现出来。例如,一个新闻页面可以通过一组关键词来标识:地点、日期、时间、人物与类别。另一个例子是关于 书的页面,O’Reilly.com已经在页面的meta头里加入了书本的信息:作者、ISBN与书的类别。

尽管所有这些方法不尽相同,但相同之处是它们都是很管用的。越多的网页被标注,就会有越多的标准会被实现,同时信息也会变得更为强大与更易于得到。

3、 消费者与企业

关 于语义网的讨论中,在用户与企业的关注点是不一样的。从消费者的立场来说,我们需要一个杀手级的应用(killer app),可以给用户传递实在而简单的价值。因为用户只会关注产品的实用性,而不会在乎它建立在什么技术之上。问题在于,直到目前为止,语义网的关注点更 多的都还停留在理论层面,如标注信息以使得机器可读。我们可以给出这样的承诺:一但信息都被标注,网络就会变成一个大型的RDF数据库,大量激动人心的应 用也会应运而生。但也有怀疑者指出,首先你必须得达成那样的假设。

已经有很多基于语义网的应用,如通用及垂直搜索引擎、文本助理工具、 个人信息管理系统、语义浏览工具等等,但在它们为大众所接受之前,还有很长的路要走。即便这些技术成功了,用户也不会有兴趣知道那背后使用了些什么技术。 所以说在用户层面推广语义网技术是没什么前景的。

企业就不一样了,第一,企业比较习惯于技术方面的论调,对于它们来说,利用语义技术可以增加产品的智能程度,从而形成市场价值。“我们的产品更好更聪明,因为我们使用语义网”,听起来这对企业来说是一个很不错的宣传。

从 企业层面来说,RDF解决了数据的互通性标准的问题。这个问题其实在软件行业的早期便已出现,你可以忘掉语义网,只把它看作是一个标准协议,一个使得两个 程序可以互通信息的标准。这对企业来说无疑是极具价值的。RDF提供了一个基于XML的通讯方案,它所描述的前景使得企业并不在乎它的复杂性。但还存在着 一个扩展性的问题,跟已经普及优化的关系型数据库不同,基于XML的数据库并没有普及,这归咎于其可扩展性与查询能力。就像九十年代末的对象数据库一样, 基于XML的数据库承载了太多的期望,让我们拭目以待。

4、 语义API

语义API是随着语义网的发展而发展的, 这类网络服务以非结构化的文本作为输入,输出一些实体与关系。例如路透社的Open Calais API,这项服务接受原始文本的输入,返回文本中的人名、地点、公司等信息,并在原文中加以标注。另一个例子是TextWise的 SemanticHacker API,该公司还提供了一百万美元的悬赏,以奖励基于它的API的最好的商业语义网应用。这个API可以把文档中的信息分为不同的类别(称为语义指纹), 输出文档中的实体与主题。这点和Calais的很相似,但它还提供了一个主题的层次结构,文档中的实际对象是结构中的叶节点。再一个例子来自于 Dapper,那是一个有助于从无结构的HTML页面提取结构化信息的网络服务。Dapper的工作依赖于用户在页面上为对象定义一些属性,比如,一个图 片出版商会定义作者、ISBN和页数的信息在哪里,然后Dapper应用就可以为该站点创建一个识别器,之后就可以通过API来读取它的信息。从技术的角 度来看,这似乎是个倒退,但实际上Dapper的技术在实际当中非常有用。举个典型的情景为例,对于一个并没有专门API可以读取其信息的网站,即便是一 个不懂得技术的人都可以在短时间内用Dapper来构造一个API。这是最强大、最快捷的把网站变为网络服务的途径。

5、 搜索技术

可 能语义网发展的最初动机就是因为很久以来搜索的质量都已经很难再得到提升。关于对页面语义的理解能提高搜索质量这一点假设也已经被证实。语义网搜索两个主 要的竞争者Hakia与PowerSet都已经做出不少的进步,但仍然不足够。因为,基于统计的google算法,在处理人物、城市与公司等实体时表现得 与语义技术同样的好。当你提问“法国总统是谁”时,它能返回一个足够好的答案。

越来越多人意识到对搜索技术边缘化的改进是很难击败 google的,因而转向寻找语义网的杀手级应用。很有可能,理解语义对于搜索引擎是有帮助的,但就此并不足以构建一个更好的搜索引擎。充分结合语义、新 颖的展示方式与对用户的识别能提升下一代搜索引擎的搜索体验。另有一些方法试图在搜索结果上应用语义。Google也在尝试把搜索结果分为不同的类别,用 户可以决定他们对哪些类别感兴趣。

搜索是一场竞赛,很多语义公司都在追逐其中。也许会有另一种提高搜索质量的可能:文本处理技术与语义数据库的结合。下面我们即将谈到。

6、 文本处理技术

我们已经看到越来越多的文本处理工具进入消费市场。像Snap、Yahoo Shortcuts或SmartLinks那样的文本导航应用可以“理解”文本与链接中的对象,并附加相应的信息于其上。其结果是用户根本不需要搜索就可以得到对信息的理解。

让 我们想得更远一些,文本工具使用语义的方式可以更为有趣。文本工具不再解析用户在搜索框里输入的关键词,而是依赖于对网络文档的分析。这样对语义的理解会 更为精确,或者说减少猜测性。随后文本工具给用户提供几类相关的结果供选择。这种方式从根本上不同于传统的把大量文档中得到的正确结果一起堆放在用户面前 的方式。

同样有越来越多的文本处理工具跟浏览器结合起来。自顶向下的语义技术不需要发布者做任何事情,因而可以想像上下文、文本工具可 以结合在浏览器里。Firefox的推荐扩展页里提供了很多的文本浏览解决方案,如Interclue, ThumbStrips, Cooliris与BlueOrganizer等。

7、 语义数据库

语义数据库是标注型语义网应用的一个发展方 向。Twine正在beta测试阶段,它着眼于建立一个关于人物、公司、事件、地点的私人知识库,数据来源为各类论坛的非结构化内容,这些内容可通过书 签、邮件或手工的方式进行提交。这项技术仍有待成熟,但它所能带来的好处显而易见。可以意想的一个基于Twine的应用为个性化的搜索,通过个人的知识库 来对搜索结果进行过滤。Twine底层的数据表示方式是RDF,可以开放给其它的语义网络服务所采用,但其核心的算法,如实体提取是通过语义API的方式 商业化的。路透社也提供了类似的API接口。

另外一个语义数据库的先行者是一家叫Metaweb的公司,它的产品的Freebase。 从它所展现的形式来看,Freebase只是一个基于RDF的更结构化的wikipedia翻版。但是Freebase的目标是建立一个像 wikipedia那样的世界信息库,这个信息库的强大之处在于它可以进行精确的查询(就像关系型数据库那样)。所以它的前景依然是更好的搜索。但问题在 于,Freebase怎样保持与世界信息同步俱进?google每天对网络文档进行索引,可以随着网络发展而发展。Freebase现在的信息仅来自于个 人编辑及从wikipedia或其它数据库中抓回的数据。如果要扩展这个产品,就必须完善从全网络获取非结构化信息、解析并更新数据库这一处理流程。

保持与世界同步这一问题对所有数据库方法都是一种挑战。对于Twine来说,需要有不断的用户数据加入,而对于Freebase来说,则需要有来自不断的来自网络的数据加入。这些问题解决起来并不简单,在真正实用之前都必须要有一个妥善的处理。

8、 结论

所 有新技术的出现都需要定义一些概念和得到一些类别。语义网提供了一个很激动人心的前景:提高信息的可发现性,实现复杂的搜索,新颖的网络浏览方式。此外语 义网对不同的人有不同的意义,它对于企业和对于消费者的定义是不同的,在自顶向下VS自底向上,microformats VS RDF等不同类型中也有不同的含义。除了这些模式,我们也看到了语义API与文本浏览工具的发展。所有的这些都还处于其早期发展阶段,但都承载着改变我们 与网络信息交互方式的期望。

感《腾讯十年》

刚读完这本介绍腾讯起家至今的书,感触很多,值得借鉴的东西也有很多。这里首先感谢Gold师兄免费提供了本书的阅读权,遗憾的是未能按时归还师兄。在腾讯北京的大楼里,非常有幸看到了这本书,也感受到一点点腾讯的企业文化。再次感谢两位师兄的接待 :)

书中展示了腾讯的历史,也理清了腾讯的发展战略的变化历程。有几点我觉得非常值得创业人士或者团队建设借鉴。

1. 定位:企业或者团队的目标一定要明确,需要完成的宏观业务也需要有自身的特色,同时还需要有相当的技术深度。当然,这需要一个过程,正如书中提到的“南坡”和“北坡”的对比。

2. 盈利模式:或者叫生存的依赖。刚创立时不必太考虑这个问题。一种好的模式是,好东西大家都会喜爱,大家喜爱的东西自然会有生存下来的渠道,这似乎是水到渠 成的原理。反过来,如果起初就过于关注如何挣钱,如何获得利益,很可能最终会把整个公司或者团队拖垮。一句话,先做有用的东西,不必考虑太多,名利最终都 会主动找上你。

3. 关注文化:精神的力量是无穷的。一个团队的文化建设尤其重要,因为人是社会性的动物,只有大家形成默契并适当放松后才能取得更大的成绩。文化也是团队的灵魂。好的文化让人引以为豪,让人动力十足。

4. 不断提升:发展到一定阶段肯定会遇到困难也会取得成绩,一定要适时的总结和吸取经验教训,并不断开拓新的局面,当然一个非常重要的因素就是要不断适时的调整战略。

5. 公益:纵观当今,但凡有所成就的企业或者个人,都会特别关注这一点。日行一善,终能让人心里舒坦。取之于民,用之于民,这样才能不断发展。

这本书适合一口气读完,那样能体会更深一些。本书的不足之处我只能找到一点,那就是书里有一处文字错误:第116页第7行。多了一个英文字母"g"。

2008年11月25日

第六届机器学习及其应用研讨会见闻

今年有幸没有错过南京大学的这次机器学习及应用研讨会,感谢朱同学、李同学以及各路好友的接洽和帮助。做了一个思维导图,但是苦于转成图片后不容易看清,采用下面的方式来报道这一路的见闻














南京之行的经历
1 行程及经历
1.1 哈尔滨
1.1.1 早起早市早到
1.2 沈阳
1.2.1 老朱胖了些
1.3 上海
1.3.1 行路匆匆,雨天赶路
1.4 苏州
1.4.1 夜半三更到苏州,混沌好吃
1.4.2 游玩拙政园
1.4.3 第一次坐动车
1.5 南京
1.5.1 雨夜遭遇无出租车
1.5.2 半夜踩点
1.5.2.1 遇到贺惠新
1.5.3 上午的盛会
1.5.4 上午中场遇到很多熟人和新朋友
1.5.4.1 周俊生
1.5.4.2 黄书剑
1.5.5 中午的聚餐
1.5.6 晚上聚餐南京论剑
1.5.6.1 碰到刘未鹏
1.5.7 夜半参观南大NLP实验室
1.5.8 中午的西餐
1.5.9 下午遇到许元直
1.5.10 最精彩的部分会议回顾
1.5.11 夜逛夫子庙
1.5.12 赶往火车站
2 游览的两个地方
2.1 苏州拙政园
2.1.1 苏州园林的美景
2.1.2 植物、楼阁、美景
2.1.3 游玩最好的季节
2.2 南京夫子庙
2.2.1 秦淮河畔
2.2.2 南京小吃
2.2.3 美丽古都
3 机器学习研讨会
3.1 一群大牛
3.1.1 牛棚里的聚会,牛仔们的膜拜
3.2 相关的新东西
3.2.1 泛化
3.2.2 盲人摸象
3.2.3 LDA
3.2.3.1 Latent Directlet Allocation优于LSI
3.2.3.2 层次化降维
3.2.3.3 Unsupervised + Ontology
3.2.3.4 Supervised LDA David Blei
3.2.4 MapReduce
3.2.4.1 将同一机器的任务分摊
3.2.4.2 多个机器的通讯会成为最终瓶颈
3.2.4.3 这里的多个机器没有限制,普通机器就可以实现
3.2.4.4 百度正在采用开源软件来搭建底层的文件平台,从而实现mapreduce
3.2.5 BrowseRank
3.2.5.1 李航的SIGIR best student paper
3.2.5.2 挖掘用户浏览器上的浏览行为
3.2.5.3 包括对URL输入的学习
3.2.6 MultiLabel MultiInstance
3.2.6.1 周志华
3.2.6.2 如何用到NLP上
3.2.6.3 子概念发现只对复杂的大量数据才有效
3.2.6.4 问题表示很重要
3.2.7 不平衡样本处理
3.2.7.1 将Margin偏向少的类别即可
3.2.8 Transfer Learning
3.2.8.1 Qiang Yang
3.2.8.2 Text Categorization with Knowledge Transfer from Heterogeneous Data Source
3.2.9 Manifold
3.2.9.1 流行学习的主要方法是映射到三维空间中进行
3.2.9.2 CVPR的New Topics: Computing on Manifold
3.2.9.3 zhaotuo
3.2.9.3.1 k-nearest neighborhood在manifold的论文有没有最新或者适合扫盲的啊
3.2.9.3.2 tourzhao: ISOMAP
3.2.9.3.3 还有一个LLE
3.2.9.3.4 这两个看完,看Locality Preserving Projection
3.2.9.3.5 你去scholar.google.com直接搜
3.2.9.3.6 就是引用率最高的
3.2.10 两大最好算法
3.2.10.1 SVM
3.2.10.2 Boosting
3.2.11 目前最好的学习框架
3.2.11.1 AdaBoost + Decision Tree
3.2.11.2 AdaBoost不会过拟合
3.2.11.3 选择多个分类器时需要考虑到分散性
3.2.12 Decision Stump
3.2.12.1 只有一层的决策树
3.2.13 参数敏感性测试分析方法
3.2.13.1 4个参数固定其中的三个,随机化另一个1000次,得到结果曲线
3.2.14 因果挖掘
3.2.14.1 数据集上最大化分类相关数据集,求出条件独立的所有组合,随后进行分析
3.2.14.2 贝叶斯网络
3.2.14.3 因果网络
3.2.15 Principal Component Analysis
3.2.15.1 主成份分析
3.2.16 CVM
3.2.16.1 大数据集上的SVM算法
3.2.16.2 保证分类性能的基础上最大化运行速度
3.2.17 学习一些运筹学和凸优化算法,例如MIT的课程
3.2.18 Feature Map
3.2.19 Tom Mitchell
3.2.19.1 大脑研究,备受关注,AAAI最后一个Science报告
3.2.20 Social Network
3.2.20.1 在AAAI以及NIPS上都非常重视
3.2.20.2 Generating Useful Network-based Features for Analyzing Social Networks
3.2.21 Markov Logic Network
3.2.21.1 ICML08的一个热点
3.2.22 Online Learning
3.2.23 Deep Belief Nets新东西,NIPS2007有workshop
3.2.24 Semantic Web
3.2.25 Collective Intelligence
3.2.26 弱可学习理论
3.2.27 LASSO
3.2.28 特征选择
3.2.28.1 特征选择的目的是提高计算效率,转为发现自然模型的真实变量。 和重采样结合暗示一种有趣的路线:不必精心选择子模型, 使用变量选择挑选需要的子模型。
3.2.28.2 Feature Selection for Activity Recognition in Multi-Robot Domains
3.2.29 数据表示
3.2.29.1 Importance of Semantic Representation: Dataless Classification
3.2.30 Deep Learning
3.2.30.1 ICML08的一个热点
3.2.31 http://videolectures.net
3.2.32 Markov Chain Monte Carlo with People
3.3 顶级会议回顾
3.3.1 会议形式
3.3.1.1 参加过牛会的牛人介绍
3.3.1.2 简介
3.3.1.3 最新趋势
3.3.1.4 有趣的论文
3.3.2 AAAI08
3.3.2.1 杨强
3.3.2.1.1 香港科技大学
3.3.2.1.2 教授
3.3.2.2 集中在传统AI上
3.3.2.3 有趣的话题
3.3.2.3.1 Social Network
3.3.2.3.2 Transfer Learning
3.3.2.3.3 Markov Logic Network
3.3.2.4 Tom Mitchell的脑研究备受关注
3.3.2.5 有专门的NLP Track
3.3.3 COLT08
3.3.3.1 王立威
3.3.3.1.1 北大信息科技学院
3.3.3.1.2 博士
3.3.3.2 Online Learning有点火
3.3.3.3 论文技巧
3.3.3.3.1 新模型
3.3.3.3.2 各种模型的关系
3.3.3.3.3 解决了一些Open Problem
3.3.4 CVPR08
3.3.4.1 林宙辰
3.3.4.1.1 MSRA
3.3.4.1.2 博士
3.3.4.2 Best Paper的评选很随机也没有意思
3.3.4.3 图像方面的传统研究
3.3.4.4 开始转向机器学习,因为学习问题是图像问题的出路
3.3.5 ICML08
3.3.5.1 James Kwok
3.3.5.1.1 香港科技大学
3.3.5.1.2 教授
3.3.5.2 从统计期刊上找东西用到ML上
3.3.5.3 类似的可以从ML期刊上找东西用到NLP上
3.3.5.4 应验三流的数学家做机器学习,三流的机器学习专家做NLP 三流的NLP专家做推广
3.3.5.5 DeepLearning是新的事物
3.3.6 NIPS2007
3.3.6.1 Irwin King
3.3.6.1.1 香港中文大学
3.3.6.1.2 教授
3.3.6.2 每年12月初召开,由于VISA问题改在加拿大召开
3.3.6.3 审稿双盲,可以Argue,通常没用,还可能降低分数
3.3.6.4 每天早上7:30-8:30早餐,上午Oral,晚上Poster到12点,很累,Poster很精彩
3.3.6.5 Social Network研究很多
3.3.6.6 Human Computation开始流行
3.3.6.7 Deep Belief Net
3.3.6.7.1 新事物
3.3.6.8 启发
3.3.6.8.1 看大会的workshop很重要,可能两三年后会成为单独的会议
3.3.6.8.2 NIPS07有workshop deep belief net,很多大牛参会
3.3.7 WWW08
3.3.7.1 李航
3.3.7.1.1 MSRA
3.3.7.1.2 主任研究员
3.3.7.2 www喜欢新的idea,基础研究学术强不适合
3.3.7.3 论文先写Good Story,数学公式多些较好
3.3.7.4 三个Track
3.3.7.4.1 Semantic Web
3.3.7.4.2 Search Track
3.3.7.4.3 Data Mining Track
3.3.7.5 论文录用率
3.3.7.5.1 12%
3.3.7.5.2 至少444才能
3.3.7.5.3 论文不好写,一定要有趣
3.3.8 SIGIR08
3.3.8.1 李航
3.3.8.2 喜欢New Scientific Finding
3.3.8.2.1 偏学术
3.3.8.2.2 现实中用不上
3.3.8.2.3 注重实验
3.3.8.2.4 越来越理论化
3.3.8.3 一定要使用Trec数据
3.3.8.4 可以从会议的Best Paper看会议的风格
3.3.8.5 Collective Intelligence有用
3.3.8.6 Document Analysis
3.3.9 UAI08
3.3.9.1 张长水
3.3.9.1.1 清华大学自动化系
3.3.9.1.2 教授
3.3.9.2 小会
3.3.9.3 与COLT并行举行
4 总体感受
4.1 行万里路,读万卷书
4.2 交流成为习惯

致谢:
感谢templer纠正3.2.3.4应该是david blei
感谢浙朱纠正3.2.3.1的LDA为Latent Directlet Allocation

2008年11月23日

纪念李小龙

看完了《李小龙传奇》,我的心情久久不能平静。我深深的被李小龙的精神感动了。一个重要的感受是:

让交流成为习惯!在和别人交流时 是真心实意的,绝对坦诚的那种。最终他赢得了所有人的尊重和一大批人的追随,并最终在26种武术和中国古代哲学的基础长创立了截拳道!坚持自己的理想,最 终实现了他人生的三个目标。李小龙创立截拳道的过程值得我们搞科研的人深思。可是他的一点不足是忽略了适当的休息,并最终为世人留下了遗憾。

纪念这位伟大的中国人,Bruce Lee!


2008年11月4日

练武不练功,到老一场空

近日《李小龙传奇》正在热播,偷闲看了一点。领悟有两点:“练武不练功,到老一场空”,“什么对练武有用就学习什么”。

第 一句话对于我经历过的所谓的学了很多种机器学习方法算种警示。记得一位师弟说过,很多我们正在学习的机器学习方法都是花架子。因为我们都未能真正学会。相 反,对于正在进行的研究却没有进行深入的思考。眼看读博第三年快要结束了,应该算是“老人”了,真有一点“一场空”的感觉。还是那句话,只要现在开始,那 就不算晚。好好学习数学咯。

第二句对于我们做计算机应用的人来说至关重要。因为本质上计算机应用没有自身的理论体系,都是在弄一些所谓交叉学科相关的东西。只有兼容并包、从善如流才能保持前进的脚步。

李小龙每天都是在基本功的练习中开始新的一天的。反观自己,想想实际情况,还是学点数学较好。

翻过来再说说这几日看《统计学》这本书的一些感触吧。

说 来也怪,看的东西以前自己都曾经学过,只是时间长了,在脑子里便没有了时常的提醒。这两天看的是相关性和回归分析两部分。在进行统计时,我们很容易被一些 统计量蒙混了双眼。因为很可能正在被计算的两个统计量之间的强相关性是由第三个变量导致的。在没有任何先验知识的情况下,计算机能够发现这种特殊性么?如 果能的话,那就是人工智能了吧 :) 。 相关性分析是特征选择里非常重要的一个东西。这样看来,特征选择也是有改进的余地的。

今天看 到一个有趣的例子。说幼儿园入学时平均智商高的小朋友毕业时平均智商降低了,反倒是入学时智商低的毕业时智商变高了。难道是幼儿园起到了让孩子们智商平均 化的作用么?看到这个例子,我先也是一惊。后来得知,这个叫回归谬论。在回归分析里,第一次统计时很好和很差的结果,往往在第二次统计时会变得次好和次 差。这是因为统计得到的结果是观测值,包含真实值和随机值两部分。先后两次测量的随机部分运气上往往会出现交换。结果就出现了这种回归效应。

这本数学书很不错,那就是几乎不用数学公式,复杂的原理和计算用通俗的文字就能展现。好书一本!

2008年10月28日

I like it here!

近几日的工作主要是在领略PPT07的精彩,闲暇时不经意间师弟Astro推荐给俺一个很不错的Web 2.0网站Lang-8。这里主要是语言学习和交流。师弟说他的英语在这里得到了提高。抱着试试看的心理,我也注册了一个帐号并写了俺的第一篇Diary,如下:
===============================================
Title: Nice website~! - 2008年10月28日 09:08
Content: With the introduction from astro, I knew this website. In my viewpoint, it is wonderful for our language learning and communications. Best to you. I like here!
===============================================

没想到几个小时后我被告知有人修改了我的日记,修改稿如下:
===============================================
With the introduction from astro, I knew this website.
(I was introduced to this website by Astro.)

In my viewpoint, it is wonderful for our language learning and communications.
(In my view, it is wonderful for our language learning and communications.)

*Best to you.

I like here!
(I like it here!)
===============================================

真是惨不忍睹啊,写了四句,有三句有错。最没想到的就是最后一句需要加一个it。询问了一下Google大师,得知如下结论:
===============================================
I like here. 我喜欢这里。
Do you like here? Yes, I like here.你喜欢这里吗?是的,我喜欢这里。
乍一看这个句子没有任何毛病,但其实是有毛病的。like是一个及物动词,它应该有宾语,而here是副词,不能作宾语。所以这个句子是不对的。
正 确的说法应该是I like it here,也就是在like和here之间加一个it, 这里的it就指当地的自然环境和文化氛围。当然你也可以直接说成I like this place.这样就有宾语了。所以如果你在北京的街上遇到一个外国人,你问他喜欢北京吗?就有三种问法:Do you like Beijing? Do you like it here? 或者Do you like this place? 但就是不能说成Do you like here?
===============================================

这个网站不错,继续练习英语写作!差点忘了网站链接如下:

http://www.lang-8.com

2008年10月21日

一位优秀的师弟

开始指导这位师弟时就感觉到他身上有一种特殊的素质,今天才知道他完整的本科经历。向这位师弟学习!

source:http://today.hit.edu.cn/articles/2008/10-20/10155029.htm

时间:2008-10-20 15:50:29 阅读: 511 标签: 计算机学院 访谈 丁效

让无悔的青春闪光

——访计算机学院科协主席丁效

(李博/文)丁效,哈尔滨工业大学计算机学院05级学生。现任计算机学院科协主席,曾任计算机学院学生会主席,腾讯创新俱乐部行政总监、营销总监,曾获全美大学生数学建模竞赛二等奖、全国大学生数学建模竞赛国家级一等奖、黑龙江省三好学生、哈尔滨工业大学自强之星、哈尔滨工业大学优秀团干部、哈尔滨工业大学优秀学生干部、哈尔滨工业大学优秀团员、哈尔滨工业大学暑期社会实践团先进个人等荣誉称号。在这些耀眼的成绩背后,又隐藏着怎样的汗水与感动,让我们一起走近丁效。

与想象的不同,丁效给人的感觉很平和,在平时的生活中,他也和我们大家一样,喜欢看书,动漫,玩些球类的运动。即使是在大四,并且作为学生会的主席,工作和学习的压力确实很大,但他也会合理的分配自己的时间。对于学习与工作的平衡,经验就是白天课程一定要全神贯注的听,同学上自习的时候他可能就在做学生工作,那么就在晚上同学休息的时候抓紧学习。初入大学之时丁效感觉自己在很多方面存在着欠缺:不擅长交际,甚至连在众人面前发表一下看法的勇气都没有。意识到这点不足之后,他便想尽各种办法来提高自己在这方面的能力。在工作和生活中尽量多接触不同的人,并在与人接触的过程中不断告诫自己,要学会欣赏、学会理解、更要学会宽容。“学生工作对人的影响是潜在的,也许大家会觉得浪费了宝贵的学习时间,但是要想更好的适应这个社会还是应该更加全面的发展一些。”这是他对学弟学妹们的劝告。他是一个很有理想的人,很多人都会有自己的目标和理想,可大多数人缺乏一种恒心与毅力。但他却能坚持下来,他戏言自己是一个慢热型的人,在大学之初他并没有一个很清晰的计划,也没有想过自己应该发展成一个什么样的人,成绩也不算理想,但是经过了开始的惨痛教训后他意识到自己应该有一个规划和目标,并且为此奋斗,从而有了今天骄人的成绩。熟悉他的人都会知道,他总是提到这样一句话:“人生的成功不过是在紧要处多一份坚持,人生的失败往往是在关键时刻少了坚持”。这就是他的座右铭,而且他也正是这样去做的。

本来怀着一颗紧张的心,但主席的和蔼让我们打消了顾虑,丁效随和、理性而又稳重,这也促使他顺利地进入学生会并且成功地成为学院的学生会主席。其实在他的身上,还有很多鲜为人知的故事。为了不给家里增加经济负担,他选择了打工,曾利用晚上熄灯前这段时间做发报纸的兼职工作,同时,还在学校网络中心做兼职工作。因为学院、班级、社团、兼职的工作任务量已经是一般人无法承受的了,所以为了在学业上不被其他同学拉下,他毅然地决定坚持利用晚上的时间来弥补白天欠缺的学习时间,这样的学习工作方式一直伴随着他走过了大学的三年时光。我们还从学院老师那里了解到,在一次评选学生标兵竞争中,以他的条件可以毫无悬念的被选上,但是丁效主动和老师提出把评优的资格让给其他更需要的同学。不仅在学习和生活上认真,他更加注重自己思想上的进步,大二上学期他参加了党课培训班,并且担任大班长一职,党课的学习让他相信:只要坚持不懈地热心帮助学校和社会上那些需要他帮助的人,他也会成为一名优秀的共产党员。丁效是一个很懂得感恩的人,他时常说:是感恩成就了他的辉煌。因为感恩,因为不想让别人失望,他坚持不懈,勇往直前。他觉得别人的肯定是对他最大的支持和鼓励。没错,在他的周围,在这个社会,有太多值得他去铭记、去感激、去报答的人们。一个优秀的人就是这样,值得学习,让人感动。很感谢他,感谢他的真诚相对。

2008年10月20日

实验设计的偏性

早上开始学习第一本数学基础书籍《统计学》,(参见前几日的数学书籍列表)。我争取这次我是认真的开始学习数学了。

本书开篇就是介绍统计学里面的实验设计,而且阐述原理是没有用任何数学公式。这和我以前本科时学习的统计学课本真是大不一样的风格,顿时就感觉这本书很有意思了:)

看完第一章“对照实验”和第二章“观察研究”的前两节。有两点收获。

1. 实验结果的可靠性需要深思。例如在进行新药物对疾病的有效性实验设计时,需要考虑到那些主动愿意接种疫苗的病人往往具有更良好的教育背景以及生活习惯,从 而更容易使得疫苗的有效性得以发挥。另外一个例子是一种新药在长达数年的实验过程中,是否坚持服新药也是一个非常重要的因素。如果在服新药实验的群体,整 体死亡率是20%,其中坚持者的死亡率是15%,不坚持者的死亡率是25%;而服旧药的群体的整体死亡率是21%,其中坚持服用者的死亡率是15%,不坚 持服用者是28%。在这组数据中,不能因为服用新药的群体中坚持服用的15%优于不坚持服用者的25%而认为新药是有效的。因为旧药也就有类似的规律。这 反映了坚持服药的人往往更加注重个人生活的质量和平时的保养。
2. 对照研究是实验者决定实验对象采用哪种方案,例如新药的服用与否。观察研究是实验者安排他们自己到不同的组中去,而实验者只是观察所发生的情况,例如观察吸烟10年以上人群的规律。

实验设计是一个非常值得重视的环节,个人感觉在NLP的研究里,一些实验设计是在有不经意间的偏性的。这里有两点值得以后注意:

a. 完全随机的双盲实验:研究者和被观察者都不知道方案和对象的匹配情况,而且这种匹配情况也是完全随机的
b. 观察研究实验结果往往混杂着各种因素,对这些因素进行研究的一种方法就是对较小和较均匀的组分开来比较。例如吸烟者和不吸烟者与死亡率的统计时就需要考虑 到男人比女人更容易得心脏病,需要对吸烟男性与不吸烟男性进行比较,对吸烟女性与不吸烟女性进行比较。年龄是另外一个复杂变量,因为老年人有不同程度的吸 烟习惯,并且他们患肺癌的风险较大。对已在吸烟者与不吸烟者之间的比较需要按年龄和性别分开来进行。

以后进行俺们自个儿的实验时也需要考虑到这些因素啊。

2008年10月19日

达摩与阿达摩

一本经文上如是说,达摩是了解在什么情况下应采取什么样的恰当行为各司其职。反之,则为阿达摩。

今天你达摩了么?

今天上午聆听了我很敬仰的一位师兄的博士答辩,也非常受启发,原来他达摩了,而我自己却经常阿达摩。向这位师兄学习,也祝贺他顺利答辩,并在答辩前评上了副教授。

2008年10月18日

[转载一篇很有趣的八卦]计算机图书排版的八卦

Source: http://blog.youxu.info/2008/10/13/trivia-about-computer-typesetting/

大 家都知道, 计算机科学家超级爱动手自己开发工具, 而且对美有超乎常人的需求. Knuth 爷爷当年觉得自己辛辛苦苦的好书被排版成地摊上的厕纸一样, 一怒之下自己搞出了红遍大江南北的 TeX. 从此整个世界都清净了. 排版是计算机科学家研究的一个很好玩的领域, 这篇文章就谈谈我所知道的关于排版的八卦.

先说 Knuth 爷爷的吧. 首先, 是在设计 TeX 的过程中, 这位老爷爷研究了很多著名的字体, 成了名动一时的字体专家, 据说和乔布斯并称为加州最懂字体设计的两个搞IT的 (我瞎说的). 研究字体之余, 他就研究收集各大书法家的作品, 然后这位老爷爷又是一个基督教徒, 所以干脆用它的收藏出了一本书, 叫做 <3:16>. 这本书特别牛逼, 是一本用计算机科学研究上帝存在的. 而且发挥计算机科学的小幽默, 取圣经每章的第3节第16小句, 还证明了这个和随机一样好.

还是克爷爷, 写完TeX之后不过瘾, 要写本书来冲冲喜, 于是写出了极其牛B名字的 The TeXbook. 一语双关, 表现了牛人一贯的狂妄. 写完这个他又想写写自己的字体和绘图系统设计(metafont 系统) 所以干脆出了五卷书, 行话称作ABCDE, 也是用名字来表明: 看, 基本的入门书, 你非看不可.

跑题一下: Knuth 爷爷最喜欢让人家看到他提出的名字就腿发软. 比如他提出了一个叫做 Literate Programming 的东西, 并且很不怀好意的对 Dijkstra 说, 小样, 当年你说 structured programming 的时候我非要用 goto, 结果人家都说我是 unstructured programming (没结构的编程), 现在我要提出一个叫做 literate programming 的东西, 你要是不跟着我混, 人家就会叫你 illiterate programming (没文化的编程). 在这么邪恶的名字下, 全世界程序员只好个个听这个老头的话, 乖乖的使用文档和程序融为一体的”有文化的”编程习惯.

其实克爷爷属于斯坦福家族的. 在70-80年代, 世界上还有一个NB的研究机构: 贝尔实验室. 贝尔实验室自己也开发了自己的排版工具: Troff. 开发者是著名的K, 就是 K&R 里面的那个K. 这个 Troff 也是一个牛到极点的排版软件, 比如说, 当年那些科学家都对出版社的排版不满意, 所以都威胁出版社说: 我自己来排版, 你们只管印刷就行了. 就是因为这帮科学家开了这个传统, 所以后来出版商遇到想自己排版的, 都用巨崇拜的眼光打量着你.

说到 troff, 以下大名鼎鼎的书都是用 troff 排版的:

Advanced Programming in the UNIX Environment
The AWK Programming Language
The C Programming Language
Compilers: Principles, Techniques, and Tools
Computer Networks, 3rd Ed.
Computer Networks And Internets, 3rd Ed.
The Design and Implementation of the 4.4BSD Operating System
Effective TCP/IP Programming
The Elements of Programming Style, 2nd Ed.
Internetworking With TCP/IP Volume 123
More Programming Pearls
The Practice of Programming
Software Tools
Unix Network Programming
The UNIX Programming Environment
Programming in C++

所以说, troff 排版的无烂书. 当然, TeX 家族也不是吃素的, SICP, TAoCP, CLRS 都是用 TeX 搞出来的. 陶哲轩也说, 鉴别民科文章第一步就是看是不是用TeX排版的. 可见排版排得专业, 也是好文章的一个先决条件.

我觉得可以把以上的结论概括成 徐氏排版定理, 如果一本书, 不是以上所说两个软件排版的, 又不是 O’Relly 出版的, 那是好书的概率也就不怎么大了. 作为一个作者来讲, 一定要记得用 troff 或者 latex 排版 :)

troff 和 latex 都是一脉相承的, 理念也差不多, 所以牛B的开发人员两头都在玩, 比如一个叫做 Werner Lemberg 的牛人, 就是 troff 的开发人员, 同时还跑到 TeX 那里开发了支持中日韩的 CJK 包. (大家都知道, 软件的中文支持从来都不是中国人开发的)

史上最牛的程序员 Bill Joy 同学据说用了一个周末就写出了 vi, 所以大家都怀疑, 他用了半个小时的时间写了 BSD 上的 troff. 他写的这个程序, 被SUN用着, 一直用到今天.

最 后强行插播一条广告: 我最近要写一本小册子, 叫做 Motifs in Computer Science (原名叫 Meta Ideas in Computer Science). 一定保证用 LaTeX+Troff+reStructuredText 排版, 按照我的 Troff/Latex 排版无烂书结论, 这本书也不是太烂. 欢迎捧场.

再补充一则八卦: 话说当年 PDP-11小型机特别贵, 但是贝尔实验室的科学家又想要用. 怎么办呢? 于是, 他们发挥了科学家爱忽悠的能力, 去和经理说: 你看, 我们文档的排版很烂吧(当年还是打字机时代), 你们投资一下搞一个小型机回来, 我们保证给你们开发一个在这个机器上用的文档排版系统. 经理一听, 大笔一挥说: 买之!. 科学家一听都乐了, 哈哈, 我们有新玩具了. 然后, 他们就开始在 PDP11 上开发 UNIX 了. 经理也不懂, 看他们搞的好玩, 就不时来问问: 老大们, 排版系统怎么样了? 贝尔的科学家一边敷衍敷衍, 一边继续搞 UNIX 和 C 语言. 等这两样都搞好了, 瞬间就写了一个排版软件, 就是 nroff. 经理可乐了, 说, 哎, 我们终于投资有回报了啊. 科学家也乐了, 因为若干年之后, C 和 UNIX 红遍大江南北, 因此两人拿下图灵奖. 所以说, 做研究这东西, 一定要先把基金忽悠过来, 然后想干啥干啥, 最后结果反而超出预料. (贝尔实验室的人居然研究宇宙背景辐射拿诺贝尔奖, 这种宽松宽容的基础研究在其他地方是很难遇到的).

2008年10月17日

SVM-Light-Tk1.2 SST Kernel vs ST kernel vs PT Kernel

image
图1 SubTree

image
图2 Subset Tree

image
图3 Partial Tree

近日完成一组实验,发现SVM-Light-TK 1.2 中有个-D参数,默认的-D是Subset Tree Kernel,-D设为0时是SubTree结构。再看SVM-Light-TK 作者06年ECML论文时发现三种树型结构拓展的关系。原来还有一种子树拓展结构,名叫Partial Tree,图3。

三者的关系是SubTree最为严格,扩展出来的子树必须是原始树中带有完整的所有叶节点的子树。
Subset Tree较为放松,允许扩展出来的子树不必包含各层完整的所有叶节点,但是要求同一层的兄弟非叶节点不能缺少,也就是语法规则不能遭到破坏。
Partial Tree最为宽泛,在Subset Tree的基础上允许同一层的兄弟非叶节点缺少。

上面三幅图中子树数量分别是6,10,30。

遗憾的是目前的SVM-Light-TK 1.2中还没有嵌入对Partial Tree的支持。

2008年10月13日

[转]统计学书籍推荐

具体来源未知 :)









一、统计学基础部分
   1、《统计学》 David Freedman等著,魏宗舒,施锡铨等译 中国统计出版社    据说是统计思想讲得最好的一本书,读了部分章节,受益很多。整本书几乎没有公式,但是讲到了统计思想的精髓。
   2、《Mind on statistics(英文版)》 机械工业出版社
    只需要高中的数学水平,统计的扫盲书。有一句话影响很深: Mathematics as to statistics is something like hammer, nails, wood as to a house, it's just the material and tools but not the house itself。
  3、《Mathematical Statistics and Data Analysis(英文版.第二版)》 机械工业出版社
  看了就发现和国内的数理统计树有明显的不同。这本书理念很好,讲了很多新的东西,把很热门的Bootstrap方法和传统统计在一起讲了。Amazon上有书评。
  4、《Business Statistics a decision making approach(影印版)》 中国统计出版社
  在实务中很实用的东西,虽然往往为数理统计的老师所不屑
  5、《Understanding Statistics in the behavioral science(影印版)》 中国统计出版社
  和上面那本是一个系列的。老外的书都挺有意思的
  6、《探索性数据分析》中国统计出版社 和第一本是一个系列的。大家好好看看陈希儒老先生做的序,可以说是对中国数理统计的一种反思。
  7、 数理统计引论
  著译者: 陈希孺
  出版者:科学出版社
  《数理统计学简史》陈希孺
  8 《概率论与数理统计教程》魏宗舒
二、回归部分
  1、《应用线性回归》 中国统计出版社
  还是著名的蓝皮书系列,有一定的深度,道理讲得挺透的。看看里面对于偏回归系数的说明,绝对是大开眼界啊!非常精彩的书
  2、《Regression Analysis by example (3rd Ed影印版)》
  这是偶第一本从头到底读完的原版统计书,太好看了。那张虚拟变量写得比小说都吸引人。没什么推导,甚至说“假定你有统计软件可以算出结果”,主要就是将分析,怎么看图,怎么看结果。看完才觉得回归真得很好玩
  3、《Logistics回归模型——方法与应用》 王济川 郭志刚 高等教育出版社不多的国内的经典统计教材。两位都是社会学出身,不重推导重应用。每章都有详细的SAS和SPSS程序和输出的分析。两位估计洋墨水喝得比较多,中文写的书,但是明显老外写书的风格
三、多元
  0、《多元统计分析引论》张尧庭,方开泰著 科学出版社
  1、《应用多元分析(第二版)》 王学民 上海财经大学出版社
  现在好像就是用的这本书,但是请注意,这本书的亮点不是推导,而是后面和SAS结合的部分,以及其中的一些想法(比如P99 n对假设检验的影响,绝对是统计的感觉,不是推推公式就能感觉到的)。这是一本国内很好的多元统计教材。
  2、《Analyzing Multivariate Data(英文版)》 Lattin等著 机械工业出版社 这本书有很多直观的感觉和解释,非常有意思。对数学要求不高,证明也不够好,但的确是“统计书”,不是数学书。
  3、《Applied Multivariate Statistical Analysis (5th Ed影印版)》 Johnson & Wichem 著 中国统计出版社
  个人认为是国内能买到的最好的多元统计书了。Amazon 上有人评论,评价很高的。不过据王学民老师说,这本书的证明还是有不太清楚,老外实务可以,证明实在不咋的,呵呵
四、时间序列
  1、《商务和经济预测中的时间序列模型》 弗朗西斯著
  Amazon 上五星推荐的书,讲了很多很新的东西也非常实用。我看完才知道,原来时间序列不知有AR(1) MA(1)啊,哈
  2、《Forecasting and Time Series an applied approach(third edition)》 Bowerman & Connell 著
  本书的主讲Box-Jenkins(ARIMA)方法,附上了SAS和Minitab程序
五、抽样
  1、《抽样技术》 科克伦著 张尧庭译
  绝对是该领域最权威,最经典的书了。王学民老师说:这本书不是那么好懂的,数学系的人,就算看得懂每个公式,未必能懂它的意思(不是数学系的人,还是别看了吧)。
  2、《Sampling: Design and Analysis(影印版)》 Lohr著 中国统计出版社
  讲了很多很新的方法,无应答,非抽样误差,再抽样,都有讨论。也很不好懂,当时偶是和《Advance Microeconomic
  Theory》一起看的,后者被许多人认为是梦魇,但是和前者一比,好懂多了。主要还是理念上的差距。我们的统计思想和数据感觉有待加强啊
六、软件及其他
  1、《SAS软件与应用统计分析》 王吉利 张尧庭 主编
  好书啊!!!!
  2、《SAS V8基础教程》 汪嘉冈编 中国统计出版社
  主要讲编程,没怎么讲统计。如果想加强SAS编程可以考虑。
  3、《SPSS11统计分析教程(基础篇)(高级篇)》 张文彤 北京希望出版社
  当初第一次看这本书,发现怎么几乎都看不懂,尤其是高级篇,现在终于搞清楚了:)
  4、《金融市场的统计分析》 张尧庭著 广西师范大学出版社
  张老师到底是大家,薄薄的一本书,言简意赅,把主要的金融模型都讲清楚了。看完会发现,分析金融单单数学模型还是纸上谈兵,必须加上统计模型和统计方法才能真正应用。本书用的多元统计(代数知识)比较深。
其它
  Common Errors in Statistics : (and How to Avoid Them)
  Good P.I., Hardin J.W.
  John Wiley & Sons; 2003; 240стр.; ISBN: 0471460680

2008年10月12日

NLP要从娃娃抓起

第三届北美计算语言学奥林匹克竞赛开始接受注册了。这个竞赛是专门面向高中生和初中生的竞赛。挺有意思的。联想现在的各种各样的NLP评测,不禁想到了邓小平的一句老话,“计算机要从娃娃抓起”。NLP也得从娃娃抓起啊~!

推荐中国的高中生也大力参加啊!

What is the Computational Linguistics Olympiad?

The North American Computational Linguistics Olympiad (NACLO) is modeled after similar Linguistics Olympiads held in Eastern Europe since 1965. In these events, hundreds of high school age students have participated, challenged by interesting linguistic problems from dozens of the world's languages. In solving the problems, students learn about the richness, diversity and systematicity of language, while exercising natural logic and reasoning skills. No prior knowledge of particular languages or of linguistics is necessary, but the competitions have proven very successful in attracting top students to study and choose careers in fields of linguistics, computational linguistics and language technologies.

Professional linguists and other specialists in natural language processing technologies cooperate to create stimulating and engaging problems that represent cutting edge theoretical and practical issues in their fields. This is truly an opportunity for young people to experience a taste of what natural language processing in the 21st century is all about.

相关网站:http://www.naclo.cs.cmu.edu/index.php

2008年10月8日

科学家风采:胡启恒

说来惭愧,以前我没有听说过这位大名鼎鼎的女科学家。今天在收到中国计算机学会电子周刊时忽然看到下面这个栏目

-------------------------------------------------------------------------------
科技人生:中国科学家风采

胡启恒

 中国工程院院士,中国计算机学会原理事长,中国科学院前副院长
--------------------------------------------------------------------------------

怀着好奇,我点击照片进入了一段视频。短短半个小时的专访,让我了解了这位让人敬佩的女科学家。这里冒昧的敬称一句胡老师。

胡老师的专访中有几点让我感触比较深。

1. 她早年留学苏联,在莫斯科大学礼堂聆听了毛主席的精彩讲话,其中一句名言,“世界是我们的,世界更是你们的。”年轻时代的胡老师非常勤奋好学,对自己的要求更是非常严格。

2. 她有一位坚强的母亲,在当年的困境中,她母亲的话鼓舞了她,“你们没有任何人可以依赖,必须依靠自己去创造一切。”母亲的好学、坚强、勤劳对胡老师和她的哥哥的影响深远。

3. 她曾经随中国科技团最早访问美国硅谷,在硅谷领略到了巨大的创新力,并由此建议中科院学习硅谷的模式鼓励科研人员创立公司,并由此对中国计算机界产生了重大影响。例如联想公司的创立和发展就与她有着密切的关系。

4. 善于革新。胡老师在亲身对比了苏联和美国两种国度的氛围后,开始非常积极的接受新事物。按她的话说,她现在已经算是一位老人,但是她的工作方式非常的时尚。也就是这种风格,才使得她成为中国引入互联网的第一人。

5. 为人谦虚。在记者问到她最值得骄傲的事情是什么时,她的回答相当朴实。最后的结论是她属于新老交替的一代,她个人没有什么值得骄傲的,只是为国家做出了一点小小的贡献。

我想我已经深深记住这位让人敬佩的女科学家了。

顺便找到了“科学人生:50位中国科学家的风采”,里面包含了胡启恒老师的这个视频。

2008年10月7日

[技术备份]Java跨平台实验运行需要的相关技术

最近记性不大好,老忘,积累了一点点技术方法,备份一下,以备查看。

1. Eclipse下代码自动补齐的快捷键
写完switch后紧接着敲快捷键 Alt+/ 就能看到相关的提示性输入了。今天犯傻了一把,写完“switch ”后怎么弄Alt+/都没有反应,最后不经意删除空格后再弄,一举成功。写在这里,以免再犯。

2. 刀片机上的Linux桌面系统上,如何在计算节点上运行Eclpse
这 个问题的产生,是因为我们Lab的刀片服务器,点击Linux桌面上默认的Eclipse快捷方式时是在主节点上运行的。如果运行大型程序,主节点就全部 占用了,其他人也就不能再使用了。后来想到的方案是进行命令行方式后,ssh node0x转到计算节点node0x上,随后再定位到Eclipse的安装目录下运行./eclipse就可以实现在单独的计算节点上运行程序了。这样 就不会占用主节点的任何资源咯

3. 如何脱离Eclipse环境运行程序?
因为需要运行大规模程序,需要较长的执行时间,如果 一直远程显示Eclipse的界面,一旦网络出现一点点问题,就会让程序半途而废。采用脱离Eclipse环境后就可以在命令行方式下执行程序,再将程序 转到后台执行,也就能够脱离界面执行了,也就能实现偶尔连上服务器看看结果的理想状态了。
闲话少说,来说说如何脱离吧。
首先写好manifest.txt写明相关的依赖关系,举例如下:
--manifest.txt----------------------------------------------------------
Manifest-Version: 1.0
Class-Path: /lib/swt.jar ./libjface.jar ./lib/runtime.jar
Main-Class: jface.dialog.wizard.WizardDialog1
--------------------------------------------------------------------------
第一行指明程序的版本号;第三行指明目标的执行类,由于Eclipse下目录可能出现不能精确指定的问题,可以借用Eclipse的Export中的 browse目标类时得到的路径信息;第二行是依赖的jar文件,这里尤其注意,需要将Class-Path写在第二行,如果写在第三行和Main- Class调换位置,在最终导出的jar文件中会漏掉Class-Path的这一行,不知道原因,这是实践经验 :)
随后运行Eclipse的Export Jar界面,在指定Manifest时需要browse到刚才写好的manifest文件上,否则会自动生成一个可能出现问题的manifest。然后就 能自动导出了。导出之后拷贝放到相关文件夹,再写一个bat(windows)或者sh(linux)文件,里面写好“java - jar test.jar”就可以安安稳稳的在命令行下执行咯。
这里再解释一下什么是Manifest文件。Manifest.mf是打包清单。是打包时的关键性文件,主要是设置执行入口类和支持库的路径,在运行Java应用程序时要根据此文件给出的信息来查找入口类和支持库。
获得这种结果后就可以用相关命令来在命令行下的后台执行咯。

4. screen指令复习
以前在Blog里写过一次,刚才又找了半天,这里温习一下:
a. "screen -ls" 列出当前机器上存在的所有screen会话
b. "screen -r Screen_ID" 将Screen_ID对应的screen会话恢复
c. "C-a d" 暂时断开screen会话. C-a叫做命令字符,表示按住Ctrl键同时按a。此时即可安全的关闭SSH链接了

5. 如何实现Linux下采用管道保留程序运行的屏幕输出结果到文件中,同时还能在屏幕上显示?
这个问题有点奇怪,询问了实验室牛牛师弟msmouse后,得到的精确解决方案是用命令先将屏幕输出保存到文件中,然后用tail -f filename来实现随时更新式的显示.
得到Sandacn兄弟的提点,用tee能简单的实现这个任务。查了一下,tee的用法如下:
common linux command | tee [-a-i] filename
前面的command linux command就是正常的linux命令运行语句,非常简单高效!

哈哈,Java+Eclipse+Linux真好,以后肯定会多多查看这5条Tips的。

2008年10月6日

[转载]如果让我重做一次研究生......

2007-10-22 王泛森院士 博士家园论坛 点击: 3963

如果让我重做一次研究生......
在所里碰到刚从美国读完博士回来的同事,因为他们刚离开博士生的阶段,比较有一些自己较独特的想法,我就问他:「如果你讲这个问题,准备要贡献什么?」……
一、研究生与大学生的区别


首先跟大家说明一下研究生和大学生的区别。大学生基本上是来接受学问、接受知识的,然而不管是对于硕士时期或是博士时期的研究而言,都应该准备要开始制造新的知识,我们在美国得到博士学位时都会领到看不懂的毕业证书,在一个偶然的机会下,我问了一位懂拉丁文的人,上面的内容为何?他告诉我:「里头写的是恭喜你对人类的知识有所创新,因此授予你这个学位。」在中国原本并没有博硕士的学历,但是在西方他们原来的用意是,恭贺你已经对人类普遍的知识有所创新,这个创新或大或小,都是对于普遍的知识有所贡献。这个创新不会因为你做本土与否而有所不同,所以第一个我们必须要很用心、很深刻的思考,大学生和研究生是不同的。


(一)选择自己的问题取向,学会创新


你一旦是研究生,你就已经进入另一个阶段,不只是要完全乐在其中,更要从而接受各种有趣的知识,进入制造知识的阶段,也就是说你的论文应该有所创新。由接受知识到创造知识,是身为一个研究生最大的特色,不仅如此,还要体认自己不再是个容器,等着老师把某些东西倒在茶杯里,而是要开始逐步发展和开发自己。做为研究生不再是对于各种新奇的课照单全收,而是要重视问题取向的安排,就是在硕士或博士的阶段里面,所有的精力、所有修课以及读的书里面都应该要有一个关注的焦点,而不能像大学那般漫无目标。大学生时代是因为你要尽量开创自己接受任何东西,但是到了硕士生和博士生,有一个最终的目的,就是要完成论文,那篇论文是你个人所有武功的总集合,所以这时候必须要有个问题取向的学习。


(二)尝试跨领域研究,主动学习


提出一个重要的问题,跨越一个重要的领域,将决定你未来的成败。我也在台大和清华教了十几年的课,我常常跟学生讲,选对一个领域和选对一个问题是成败的关键,而你自己本身必须是带着问题来探究无限的学问世界,因为你不再像大学时代一样泛滥无所归。所以这段时间内,必须选定一个有兴趣与关注的主题为出发点,来探究这些知识,产生有机的循环。由于你是自发性的对这个问题产生好奇和兴趣,所以你的态度和大学部的学生是截然不同的,你慢慢从被动的接受者变成是一个主动的探索者,并学会悠游在这学术的领域。


我举一个例子,我们的中央研究院院长李远哲先生,得了诺贝尔奖。他曾经在中研院的周报写过几篇文章,在他的言论集里面,或许各位也可以看到,他反复提到他的故事。他是因为读了一个叫做马亨教授的教科书而去美国柏克莱大学念书,去了以后才发现,这个老师只给他一张支票,跟他说你要花钱你尽量用,但是从来不教他任何东西。可是隔壁那个教授,老师教很多,而且每天学生都是跟着老师学习。他有一次就跟那个老师抱怨:「那你为什么不教我点东西呢?」那个老师就说:「如果我知道结果,那我要你来这边念书做什么?我就是因为不知道,所以要我们共同探索一个问题、一个未知的领域。」他说其实这两种教法都有用处,但是他自己从这个什么都不教他,永远碰到他只问他「有没有什么新发现」的老师身上,得到很大的成长。所以这两方面都各自蕴含深层的道理,没有所谓的好坏,但是最好的方式就是将这两个方式结合起来。我为什么讲这个故事呢?就是强调在这个阶段,学习是一种「 self-help 」,并且是在老师的引导下学
习「 self-help 」,而不能再像大学时代般,都是纯粹用听的,这个阶段的学习要基于对研究问题的好奇和兴趣,要带着一颗热忱的心来探索这个领域。


然而研究生另外一个重要的阶段就是 Learn how to learn ,不只是学习而已,而是学习如何学习,不再是要去买一件很漂亮的衣服,而是要学习拿起那一根针,学会绣出一件漂亮的衣服,慢慢学习把目标放在一个标准上,而这一个标准就是你将来要完成硕士或博士论文。如果你到西方一流的大学去读书,你会觉得我这一篇论文可能要和全世界做同一件问题的人相比较。我想即使在***也应该要有这样的心情,你的标准不能单单只是放在旁边几个人而已,而应该是要放在领域的普遍人里面。你这篇文章要有新的东西,才算达到的标准,也才符合到我们刚刚讲到那张拉丁文的博士证书上面所讲的,有所贡献与创新。

二、一个老师怎么训练研究生


第二个,身为老师你要怎么训练研究生。我认为人文科学和社会科学的训练,哪怕是自然科学的训练,到研究生阶段应该更像师徒制,所以来自个人和老师、个人和同侪间密切的互动和学习是非常重要的,跟大学部坐在那边单纯听课,听完就走人是不一样的,相较之下你的生活应该要和你所追求的知识与解答相结合,并且你往后的生活应该或多或少都和这个探索有相关。


(一)善用与老师的伙伴关系,不断 Research


我常说英文 research 这个字非常有意义, search 是寻找,而 research 是再寻找,所以每个人都要 research ,不断的一遍一遍再寻找,并进而使你的生活和学习成为一体。中国近代兵学大师蒋百里在他的兵学书中曾说:「生活条件要跟战斗条件一致,近代欧洲凡生活与战斗条件一致者强,凡生活与战斗条件不一致者弱。」我就是藉由这个来说明研究生的生活,你的生活条件与你的战斗条件要一致,你的生活是跟着老师与同学共同成长的,当中你所听到的每一句话,都可能带给你无限的启发。


回想当时我在美国念书的研究生生活,只要随便在楼梯口碰到任何一个人,他都有办法帮忙解答你语言上的困难,不管是英文、拉丁文、德文、希腊文 ……等。所以能帮助解决问题的不单只是你的老师,还包括所有同学以及学习团体。你的学习是跟生活合在一起的。当我看到有学生呈现被动或是懈怠的时候,我就会用毛泽东的「革命不是请客吃饭!」来跟他讲:「作研究生不是请客吃饭。」


(二)藉由大量阅读和老师提点,进入研究领域


怎样进入一个领域最好,我个人觉得只有两条路,其中一条就是让他不停的念书、不停的报告,这是进入一个陌生的领域最快,又最方便的方法,到最后不知不觉学生就会知道这个领域有些什么,我们在不停念书的时候常常可能会沉溺在细节里不能自拔,进而失去全景,导致见树不见林,或是被那几句英文困住,而忘记全局在讲什么。藉由学生的报告,老师可以讲述或是厘清其中的精华内容,经由老师几句提点,就会慢慢打通任督二脉,逐渐发展一种自发学习的能力,同时也知道碰到问题可以看哪些东西。就像是我在美国念书的时候,我修过一些我完全没有背景知识的国家的历史,所以我就不停的念书、不停***着自己吸收,而老师也只是不停的开书目,运用这样的方式慢慢训练,有一天我不再研究它时,我发现自己仍然有自我生产及蓄发的能力,因为我知道这个学问大概是什么样的轮廓,碰到问题也有能力可以去查询相关的资料。所以努力让自己的学习产生自发的延展性是很重要的。


(三)循序渐进地练习论文写作


到了硕士或博士最重要的一件事,是完成一篇学位论文,而不管是硕士或博士论文,其规模都远比你从小学以来所受的教育、所要写的东西都还要长得多,虽然我不知道教育方面的论文情况是如何,但是史学的论文都要写二、三十万字,不然就是十几二十万字。写这么大的一个篇幅,如何才能有条不紊、条理清楚,并把整体架构组织得通畅可读?首先,必须要从一千字、五千字、一万字循序渐进的训练,先从少的慢慢写成多的,而且要在很短的时间内训练到可以从一万字写到十万字。这么大规模的论文谁都写得出来,问题是写得好不好,因为这么大规模的写作,有这么许多的脚注,还要注意首尾相映,使论述一体成型,而不是散落一地的铜钱;是一间大礼堂,而不是一间小小分割的阁楼。为了完成一个大的、完整的、有机的架构模型,必须要从小规模的篇幅慢慢练习,这是一个最有效的办法。


因为受计算机的影响,我发现很多学生写文章能力都大幅下降。写论文时很重要的一点是,文笔一定要清楚,不要花俏、不必漂亮,「清楚」是最高指导原则,经过慢慢练习会使你的文笔跟思考产生一致的连贯性。我常跟学生讲不必写的花俏,不必展现你散文的才能,因为这是学术论文,所以关键在于要写得非常清楚,如果有好的文笔当然更棒,但那是可遇不可求的,文彩像个人的生命一样,英文叫 style , style 本身就像个人一样带有一点点天生。因此最重要的还是把内容陈述清楚,从一万字到最后十万字的东西,都要架构井然、论述清楚、文笔清晰。

我在念书的时候,有一位欧洲史、英国史的大师 Lawrence Stone ,他目前已经过世了,曾经有一本书访问十位最了不起的史学家,我记得他在访问中说了一句非常吸引人注意的话,他说他英文文笔相当好,所以他一辈子没有被退过稿。因此文笔清楚或是文笔好,对于将来文章可被接受的程度有举足轻重的地位。内容非常重要,有好的表达工具更是具有加分的作用,但是这里不是讲究漂亮的 style ,而是论述清楚。


三、研究生如何训练自己


(一)尝试接受挑战,勇于克服


研究生如何训练自己?就是每天、每周或每个月给自己一个挑战,要每隔一段时间就给自己一个挑战,挑战一个你做不到的东西,你不一定要求自己每次都能顺利克服那个挑战,但是要努力去尝试。我在我求学的生涯中,碰到太多聪明但却一无所成的人,因为他们很容易困在自己的障碍里面,举例来说,我在普林斯顿大学碰到一个很聪明的人,他就是没办法克服他给自己的挑战,他就总是东看西看,虽然我也有这个毛病,可是我会定期给我自己一个挑战,例如:我会告诉自己,在某一个期限内,无论如何一定要把这三行字改掉,或是这个礼拜一定要把这篇草稿写完,虽然我仍然常常写不完,但是有这个挑战跟没这个挑战是不一样的,因为我挑战三次总会完成一次,完成一次就够了,就足以表示克服了自己,如果觉得每一个礼拜的挑战,可行性太低,可以把时间延长为一个月的挑战,去挑战原来的你,不一定能做到的事情。不过也要切记,硕士生是刚开始进入这一个领域的新手,如果一开始问题太小,或是问题大到不能控制,都会造成以后研究的困难。


(二)论文的写作是个训练过程,不能苛求完成精典之作


各位要记得我以前的老师所说的一句话:「硕士跟博士是一个训练的过程,硕士跟博士不是写经典之作的过程。」我看过很多人,包括我的亲戚朋友们,他之所以没有办法好好的完成硕士论文,或是博士论文,就是因为他把它当成在写经典之作的过程,虽然事实上,很多人一生最好的作品就是硕士论文或博士论文,因为之后的时间很难再有三年或六年的时间,沉浸在一个主题里反复的耕耘,当你做教授的时候,像我今天被行政缠身,你不再有充裕的时间好好探究一个问题,尤其做教授还要指导学生、上课,因此非常的忙碌,所以他一生最集中又精华的时间,当然就是他写博士、或是硕士论文的时候,而那一本成为他一生中最重要的著作也就一点都不奇怪了。


不一定要刻意强求,要有这是一个训练过程的信念,应该清楚知道从哪里开始,也要知道从哪里放手,不要无限的追下去。当然我不是否认这个过程的重要性,只是要调整自己的心态,把论文的完成当成一个目标,不要成为是一种的心理障碍或是心理负担。这方面有太多的例子了,我在普林斯顿大学念书的时候,那边旧书摊有一位非常博学多文的旧书店老板,我常常赞叹的对他说:「你为什么不要在大学做教授。」他说:「因为那篇博士论文没有写完。」原因在于他把那个博士论文当成要写一本经典,那当然永远写不完。如果真能写成经典那是最好,就像美丽新境界那部电影的男主角 John Nash 一样,一生最大的贡献就是博士那二十几页的论文,不过切记不要把那个当作是目标,因为那是自然而然形成的,应该要坚定的告诉自己,所要完成的是一份结构严谨、论述清楚与言之有物的论文,不要一开始就期待它是经典之作。如果你期待它是经典之作,你可能会变成我所看到的那位旧书摊的老板,至于我为什么知道他有那么多学问,是因为那时
候我在找一本书,但它并没有在旧书店里面,不过他告诉我:「还有很多本都跟他不相上下。」后来我对那个领域稍稍懂了之后,证明确实如他所建议的那般。一个旧书店的老板精熟每一本书,可是他就是永远无法完成,他梦幻般的学位论文,因为他不知道要在哪里放手,这一切都只成为空谈。


(三)论文的正式写作


1. 学习有所取舍
到了写论文的时候,要能取也要能舍,因为现在信息爆炸,可以看的书太多,所以一定要建构一个属于自己的知识树,首先,要有一棵自己的知识树,才能在那棵树挂相关的东西,但千万不要不断的挂不相关的东西,而且要慢慢的舍掉一些挂不上去的东西,再随着你的问题跟关心的领域,让这棵知识树有主干和枝叶。然而这棵知识树要如何形成?第一步你必须对所关心的领域中,有用的书籍或是数据非常熟悉。


2. 形成你的知识树
我昨天还请教林毓生院士,他今年已经七十几岁了,我告诉他我今天要来作演讲,就问他:「你如果讲这个题目你要怎么讲?」他说:「只有一点,就是那重要的五、六本书要读好几遍。」因为林毓生先生是海耶克,还有几位近代思想大师在芝加哥大学的学生,他们受的训练中很重要的一部份是精读原典。这句话很有道理,虽然你不可能只读那几本重要的书,但是那五、六本书将逐渐形成你知识树的主干,此后的东西要挂在上面,都可以参照这一个架构,然后把不相干的东西暂放一边。生也有涯,知也无涯,你不可能读遍天下所有的好书,所以要学习取舍,了解自己无法看遍所有有兴趣的书,而且一但看遍所有有兴趣的书,很可能就会落得普林斯顿街上的那位旧书店的老板一般,因为阅读太多不是自己所关心的领域的知识,它对于你来说只是一地的散钱。


3. 掌握工具
在这个阶段一定要掌握语文与合适的工具。要有一个外语可以非常流畅的阅读,要有另外一个语文至少可以看得懂文章的标题,能学更多当然更好,但是至少要有一个语文,不管是英文、日文、法文 …… 等,一定要有一个语文能够非常流畅的阅读相关书籍,这是起码的前提。一旦这个工具没有了,你的视野就会因此大受限制,因为语文就如同是一扇天窗,没有这个天窗你这房间就封闭住了。为什么你要看得懂标题?因为这样才不会有重要的文章而你不知道,如果你连标题都看不懂,你就不知道如何找人来帮你或是自己查相关的数据。其它的工具,不管是统计或是其它的任何工具,你也一定要多掌握,因为你将来没有时间再把这样的工具学会。


4. 突破学科间的界线
应该要把跨学科的学习当作是一件很重要的事,但是跨学科涉及到的东西必须要对你这棵知识树有帮助,要学会到别的领域稍微偷打几枪,到别的领域去摄取一些概念,对于本身关心的问题产生另一种不同的启发,可是不要泛滥无所归。为什么要去偷打那几枪?近几十年来,人们发现不管是科学或人文,最有创新的部份是发生在学科交会的地方。为什么会如此?因为我们现在的所有学科大部分都在西方十九世纪形成的,而中国再把它转借过来。十九世纪形成这些知识学科的划分的时候,很多都带有那个时代的思想跟学术背景,比如说,中研院的李院长的专长就是物理化学,他之所以得诺贝尔奖就是他在物理和化学的交界处做工作。像诺贝尔经济奖,这二十年来所颁的奖,如果在传统的经济学奖来看就是旁门走道,古典经济学岂会有这些东西,甚至心理学家也得诺贝尔经济奖,连 JohnNash 这位数学家也得诺贝尔经济奖,为什么?因为他们都在学科的交界上,学科跟学科、平台跟平台的交界之处有所突破。在平台本身、在学科原本最核心的地方已经 search 太多次了,因此不一定能有很大的创新,所以为什么跨领域学习是一件很重要的事情。

常常一篇硕士论文或博士论文最重要、最关键的,是那一个统摄性的重要概念,而通常你在本学科里面抓不到,是因为你已经泡在这个学科里面太久了,你已经拿着手电筒在这个小仓库里面照来照去照太久了,而忘了还有别的东西可以更好解释你这些材料的现象,不过这些东西可遇而不可求。 John Nash 这一位数学家为什么会得诺贝尔数学奖?为什么他在赛局理论的博士论文,会在数十年之后得诺贝尔经济奖?因为他在大学时代上经济学导论的课,所以他认为数学可以用在经济方面来思考,而这个东西在一开始,他也没有想到会有这么大的用处。他是在数学和经济学的知识交界之处做突破。有时候在经济学这一个部分没有大关系,在数学的这一个部分也没有大关系,不过两个加在一起,火花就会蹦出来。

5. 论文题目要有延展性
对一个硕士生或博士生来说,如果选错了题目,就是失败,题目选对了,还有百分之七十胜利的机会。这个问题值得研一、博一的学生好好思考。你的第一年其实就是要花在这上面,你要不断的跟老师商量寻找一个有意义、有延展性的问题,而且不要太难。我在国科会当过人文处长,当我离开的时候,每次就有七千件申请案,就有一万四千个袋子,就要送给一万四千个教授审查。我当然不可能看那么多,可是我有个重要的任务,就是要看申诉。有些申诉者认为:「我的研究计划很好,我的著作很好,所以我来申诉。」申诉通过的大概只有百分之十,那么我的责任就是在百分之九十未通过的案子正式判决前,再拿来看一看。有几个印象最深常常被拿出来讨论的,就是这个题目不必再做了、这个题目本身没有发展性,所以使我更加确认选对一个有意义、有延展性、可控制、可以经营的题目是非常重要的。

我的学生常常选非常难的题目,我说你千万不要这样,因为没有人会仔细去看你研究的困难度,对于难的题目你要花更多的时间阅读史料,才能得到一点点东西;要挤很多东西,才能筛选出一点点内容,所以你最好选择一个难易适中的题目。

我写过好几本书,我认为我对每一本书的花的心力都是一样,虽然我写任何东西我都不满意,但是在过程中我都绞尽脑汁希望把他写好。目前为止很多人认为我最好的书,是我二十几岁刚到史语所那一年所写的那本书。我在那本书花的时间并不长,那本书的大部分的稿子,是我和许添明老师同时在当兵的军营里面写的,而且还是用我以前旧的笔记写的。大陆这些年有许多出版社,反复要求出版我以前的书,尤其是这一本,我说:「不行。」因为我用的是我以前的读书笔记,我怕引文有错字,因为在军队营区里面随时都要出操、随时就要集合,手边又没有书,怎么可能好好的去核对呢?而如果要我重新校正一遍,又因为引用太多书,实在没有力气校正。


为什么举这个例子呢?我后来想一想,那本书之所以比较好,可能是因为那个题目可延展性大,那个题目波澜起伏的可能性大。很多人都认为,我最好的书应该是剑桥大学出的那一本,不过我认为我最好的书一定是用中文写的,因为这个语文我能掌握,英文我没办法掌握得出神入化。读、写任何语文一定要练习到你能带着三分随意,那时候你才可以说对于这一个语文完全理解与精熟,如果你还无法达到三分的随意,就表示你还在摸索。


回到我刚刚讲的,其实每一本书、每一篇论文我都很想把它写好。但是有些东西没办法写好,为什么?因为一开始选择的题目不够好。因此唯有选定题目以后,你的所有训练跟努力才有价值。我在这里建议大家,选题的工作要尽早做,所选的题目所要处理的材料最好要集中,不要太分散,因为硕士生可能只有三年、博士生可能只有五年,如果你的材料太不集中,读书或看数据可能就要花掉你大部分的时间,让你没有余力思考。而且这个题目要适合你的性向,如果你不会统计学或讨厌数字,但却选了一个全都要靠统计的论文,那是不可能做得好。

6. 养成遵照学术格式的写作习惯


另一个最基本的训练,就是平时不管你写一万字、三万字、五万字都要养成遵照学术规范的习惯,要让他自然天成,就是说你论文的脚注、格式,在一开始进入研究生的阶段就要培养成为你生命中的一个部份,如果这个习惯没有养成,人家就会觉得这个论文不严谨,之后修改也要花很多时间,因为你的论文规模很大,可能几百页,如果一开始弄错了,后来再重头改到尾,一定很耗时费力,因此要在一开始就养成习惯,因为我们是在写论文而不是在写散文,哪一个逗点应该在哪里、哪一个书名号该在哪里、哪一个地方要用引号、哪一个要什么标点符号,都有一定的规定,用中文写还好,用英文有一大堆简称。在 1960 年代***知识还很封闭的时候,有一个人从美国回来就说:「美国有个不得了的情形,因为有一个人非常不得了。」有人问他为什么不得了,他说:「因为这个人的作品到处被引用。」他的名字就叫 ibid 。所谓 ibid 就是同前作者,这个字是从拉丁文发展出来的,拉丁文有一大堆简称,像 et. al. 就是两人共同编的。英文有一本 The Chicago Manual of Style 就是专门说明这一些写作规范。各位要尽早学会中英文的写作规范,慢慢练习,最后随性下笔,就能写出符合规范的文章。


7. 善用图书馆
图书馆应该是研究生阶段最重要的地方,不必读每一本书,可是要知道有哪些书。我记得我做学生时,新进的书都会放在图书馆的墙上,而身为学生最重要的事情,就是要把书名看一看。在某些程度上知道书皮就够了,但是这仍和打计算机是不一样的,你要实际上熟悉一下那本书,摸一下,看一眼目录。我知道现在从计算机就可以查到书名,可是我还是非常珍惜这种定期去 browse 新到的书的感觉,或去看看相关领域的书长成什么样子。中研院有一位院士是哈佛大学信息教授,他告诉我他在创造力最高峰的时候,每个礼拜都到他们信息系图书室里,翻阅重要的信息期刊。所以图书馆应该是身为研究生的人们,最熟悉的地方。不过切记不重要的不要花时间去看,你们生活在信息泛滥的时代,跟我生长在信息贫乏的时代是不同的,所以生长在这一个时代的你,要能有所取舍。我常常看我的学生引用一些三流的论文,却引得津津有味,我都替他感到难过,因为我强调要读有用、有价值的东西。


8. 留下时间,精致思考
还要记得给自己保留一些思考的时间。一篇论文能不能出神入化、能不能引人入胜,很重要的是在现象之上作概念性的思考,但我不是说一定要走理论的路线,而是提醒大家要在一般的层次再提升两三步, conceptualize 你所看到的东西。真切去了解,你所看到的东西是什么?整体意义是什么?整体的轮廓是什么?千万不要被枝节淹没,虽然枝节是你最重要的开始,但是你一天总也要留一些时间好好思考、慢慢沉淀。 conceptualize 是一种非常难教的东西,我记得我念书时,有位老师信誓旦旦说要开一门课,教学生如何 conceptualize ,可是从来都没开成,因为这非常难教。我要提醒的是,在被很多材料和枝节淹没的时候,要适时跳出来想一想,所看到的东西有哪些意义?这个意义有没有广泛连结到更大层面的知识价值。


傅斯年先生来到***以后,同时担任中央研究院历史语言研究所的所长及台大的校长。台大有个傅钟每小时钟声有二十一响、敲二十一次。以前有一个人,写了一本书叫《钟声二十一响》,当时很轰动。他当时对这二十一响解释是说:因为台大的学生都很好,所以二十一响是欢迎国家元首二十一响的礼炮。不久前我发现台大在每一个重要的古迹下面竖一个铜牌,我仔细看看傅钟下的解释,才知道原来是因为傅斯年当台大校长的时候,曾经说过一句话:「人一天只有二十一个小时,另外三小时是要思考的。」所以才叫二十一响。我觉得这句话大有道理,可是我觉得三小时可能太多,因为研究生是非常忙的,但至少每天要留个三十分钟、一小时思考,想一想你看到了什么?学习跳到比你所看到的东西更高一点的层次去思考。


9. 找到学习的楷模
我刚到美国念书的时候,每次写报告头皮就重的不得了,因为我们的英文报告三、四十页,一个学期有四门课的话就有一百六十页,可是你连脚注都要从头学习。后来我找到一个好办法,就是我每次要写的时候,把一篇我最喜欢的论文放在旁边,虽然他写的题目跟我写的都没关系,不过我每次都看他如何写,看看他的注脚、读几行,然后我就开始写。就像最有名的男高音 Pavarotti 唱歌剧的时候都会捏着一条手帕,因为他说:「上舞台就像下地狱,太紧张了。」他为了克服紧张,他有习惯性的动作,就是捏着白手帕。我想当年那一篇论文抽印本就像是我的白手帕一样,能让我开始好好写这篇报告,我学习它里面如何思考、如何构思、如何照顾全体、如何用英文作脚注。好好的把一位大师的作品读完,开始模仿和学习他,是入门最好的方法,逐步的,你也开始写出自己的东西。我也常常鼓励我的学生,出国半年或是一年到国外看看。像现在国科会有各式各样的机会,可以增长眼界,可以知道现在的餐馆正在卖些什么菜,回来后自己要作菜也才知道要如何着手。


四、用两条腿走路,练习培养自己的兴趣


最后还有一点很重要的,就是我们的人生是两只脚,我们不是靠一只脚走路。做研究生的时代,固然应该把所有的心思都放在学业上,探索你所要探索的那些问题,可是那只是你的一只脚,另外还有一只脚是要学习培养一、两种兴趣。很多人后来会发现他的右脚特别肥重(包括我自己在内),也就是因为忘了培养左脚。很多很有名的大学者最后都陷入极度的精神困扰之中,就是因为他只是培养他的右脚,他忘了培养他的左脚,他忘了人生用两只脚走路,他少了一个小小的兴趣或嗜好,用来好好的调解或是排遣自己。

去年夏天,香港《亚洲周刊》要访问我,我说:「我不想接受访问,我不是重要的人。」可是后来他们还是把一个简单的对话刊出来了,里面我只记得讲了一段话:做一个研究生或一个学者,有两个感觉最重要 -- 责任感与罪恶感。你一定要有很大的责任感,去写出好的东西,如果责任感还不够强,还要有一个罪恶感,你会觉得如果今天没有好好做几个小时的工作的话,会有很大的罪恶感。除非是了不得的天才,不然即使爱因斯坦也是需要很努力的。很多很了不得的人,他只是把所有的努力集中在一百页里面,他花了一千小时和另外一个人只花了十个小时,相对于来说,当然是那花一千个小时所写出来的文章较好。所以为什么说要赶快选定题目?因为如果太晚选定一个题目,只有一年的时间可以好好耕耘那个题目,早点选定可以有二、三年耕耘那个题目,是三年做出的东西好,还是一年的东西好?如果我们的才智都一样的话,将三年的努力与思考都灌在上面,当然比一年还要好。


五、营造卓越的大学,分享学术的氛围


现在很多人都在讨论,何谓卓越的大学?我认为一个好的大学,学校生活的一大部份,以及校园的许多活动,直接或间接都与学问有关,同学在咖啡厅里面谈论的,直接或间接也都会是学术相关的议题。教授们在餐厅里面吃饭,谈的是「有没有新的发现」?或是哪个人那天演讲到底讲了什么重要的想法?一定是沉浸在这种氛围中的大学,才有可能成为卓越大学。那种交换思想学识、那种互相教育的气氛不是花钱就有办法获得的。我知道钱固然重要,但不是唯一的东西。一个卓越的大学、一个好的大学、一个好的学习环境,表示里面有一个共同关心的焦点,如果没有的话,这个学校就不可能成为好的大学.

2008年10月4日

快乐的研究:笑,而后思考

早上看到一个新闻“另类诺贝尔奖在美评出 可乐杀精子等获奖”.

----------------------------------------------------------------------------------

由美国幽默科技杂志《不可能的研究纪录》评出的2008年“另类诺贝尔奖”2日在哈佛大学颁出。世界各国科学家再次用新奇搞怪的研究课题让人们“笑,而后思考”。

   “另类诺贝尔奖”已经创立18年,通常在每年正版诺贝尔奖颁奖前后颁发。美国以外的获奖者需自掏腰包赴美领奖。奖项创始人马克·亚伯拉罕说,尽管不少获 奖课题被视为滑稽可笑,但“另类诺贝尔奖”和正版诺贝尔奖一样,认同有实用或科研意义的研究成果。1000多人出席了今年的“另类诺贝尔奖”颁奖仪式。

获奖研究包括:

“可乐杀精子”获化学奖

“狗跳蚤”跳得比较高 另类生物奖

犰狳可能“篡改”考古结果 另类考古奖

瑞士“认可植物尊严” 另类和平奖

“贵假药比便宜假药管用”另类医学奖

“脱衣舞娘何时挣钱最多”经济学奖

>>>>查看全文

----------------------------------------------------------------------------------

顺便找到了杂志《不可能的研究纪录》的网站:Impossible Research http://improbable.com/. 这个网站也非常有趣!

仔细想想,研究的乐趣是否就在于这些让人“笑,而后思考”的风格里呢?这样想来,我们现在从事的研究是不是太“严肃”了呢 :)

2008年9月25日

重提The Art of Computer Programming

前几日看到一位朋友的帖子里提到工作多年的人读研时需要看什么书。主要提到了三本书:

SICP: Structure and Interpretation of Computer Programs

TAOCP: The Art of Computer Programming

Computer Architecture: A Quantitative Approach

遗憾的是这三本书我都没有看过,开始怀疑自己是怎么学习计算机的了。好在第二本TAOCP我读过第一卷,但是卡在了Knuth发明的MIX。随后便未能坚持学下去。现在想来感觉有点遗憾。

今 天看到对面师弟桌子上放了TAOCP的第二卷,顿时又想起了这段往事。于是心里有个默默的计划,那就是有空时多读读这三本书,尤其是TAOCP。这绝对是 意志和耐力的考验,也是增强计算机本质水平的途径。就把这三本书的学习看成是计算机学习方面的马拉松吧。不积圭步无以至千里啊!

这里转载豆瓣上对TAOCP的两条自觉非常不错的评论:

------------------------------------------------------------------------------------

应该怎样读TAOCP http://www.douban.com/review/1319513/

  谈谈我自己读这套书的心得。抛砖引玉。
  首先要清楚这套书的定位:它是古典的算法分析的工具书。
  1.古典(classic)体现在模型和问题上。
  模型就是顺序算法(sequential algorithms)的经典模型。大名鼎鼎的MIX并非是个程序设计语言这么简单,而是一个计算模型:即标准指令集RAM。这是个非常经典,也是非常符合现实的上界(upper bounds)模型。
  该书涉及到的问题是计算机科学诞生之初就自然面对的几个基本的算法和数据结构的问题。时至今日,这些问题还在应用中扮演着重要角色;在很多研究课题中,它们是基础或原型。
  2.算法分析(analysis of algorithms)是此书的核心。
   TAOCP并没有综述算法设计(design of algorithms)的各种思想;也没有介绍证明问题下界(lower bounds)的各种技巧;也并没有对问题、模型、复杂度这些专题作出体系性的阐述。可以说,TAOCP的几乎所有的篇幅都放在了对具体算法的性能分析 上,并把这条路走到了极致。
  3.工具书。这最有争议,因为毕竟还有习题。一些介绍也饶有趣味,不太符合大家对工具书的枯燥这一成见。
  但把TAOCP看作工具书还是教材,这就关系到怎么去读这本书。
   (一)该顺着读还是跳着读:个人认为,没有哪本专业书是不能跳着读的。但前提是你对整个书的结构比较清楚,对它的内容也一定程度的熟悉。知道自己想要查 阅的部分。如果是初学者,则不建议这么作,至少还是老老实实的把第一章顺序读下来。可是TAOCP并不是给初学者看得。
  (二)初学者适合 读TAOCP吗:不太建议。但也要看如何定义初学者——吾生而有涯,而知也无涯。一定程度上,每个人都是初学者。读 TAOCP的前提,就是自己至少比较清楚轻重缓急,可以大概判断那些是根本,那些过时,那些是炫技。这根据每个人的需要,都有各自的具体情况,但至少心里 要有点数。如果读书时觉得前路茫茫,完全不知哪里重要。那么去正经的选一门算法基础课才是更应该作的。
  (三)MIX值得用心学吗:这要首 先清楚Knuth为什么要在这个讲算法的书里搞出个MIX。个人理解,原因有三。其一,如上所述,计算模型;其二,作者个人的审美品味;其三,用于描述算 法的语言。第一条里MIX是桥梁作用,确保数学上的严谨,同时也足以代表现实中典型的计算机体系结构。第二条是美学意义。第三条的作用等于伪码。算法用 MIX写一遍,这是为了确保上界算法在模型内的严谨性。整个书都没有用MIX模型来证明任何下界,因此除了确保严谨性,MIX没有在数学上起到实际的用 途。因此,过分钻研MIX对于理解书中算法没有太多帮助。但如果纯粹只是个人兴趣则另说。
  (四)习题该怎么对待:TAOCP是为数不多的计算机专著里面能出这么多高水平习题的了。如果有大块的时间,能做一做当然最好不过。但如果只是一般的查阅,习题并非必要。不过有的习题本身就是经典问题。如果正文里没有找到想要的东西,不仿看看习题。
   (五)如何读正文里的算法分析:TAOCP里面的算法分析,算是古典算法分析里面的原教旨主义。始作俑者就是Knuth本人,后面还有 Sedgewick和Flajolet等一干人等给他发扬光大。这一派的作风可以说分毫必究,连常数都不放过。但数学工具却无外乎初等的《具体数学》的工 具。这是很好很强大的东西,掌握好了,无论研究还是工作都很方便。但其实TAOCP的数学都不算太难,仔细倒是真的。因此,如果时间不是特别充裕,对书中 结构的了解,要比具体分析步骤重要。这些经典内容多少年就没变过,每次有用时都可以回来查查看,每查一次说不定会有新的收获。
   (六)TAOCP的不足:前面已经提过了,下界(lower bounds)介绍的不够。下界结果,大多数只在章节结束的讨论部分引用一下。第三卷的查找(searching)一章,一些近些年的下界方面的新进展都 没有被引用,Knuth可能没有想到,数据结构这个经典方向这么多年来都在不温不火的不断前进着,尤其是下界。类似的也有第二卷的随机数(random numbers)一章,可以说连上界都严重过时,错过了去随机(derandomization)的黄金时代。好在其他几章这么多年来无甚进展,没怎么过 时。
  许多人对TAOCP的推崇是无条件的,这里难免有人云亦云的成分。其实大可不必,读的人尽管放轻松。这么说不是因为TAOCP不值得推崇,而是就算把一切溢美之词都抛于脑后,随着岁月流逝,反复的阅读,你也一定会越来越喜欢这部书的。它的魅力经的起时间的考验。

------------------------------------------------------------------------------------

不要把它想象成葵花宝典,否则你就会走火入魔 http://www.douban.com/review/1294615/

  书自然是好书,况且就算不是,也不是我这种级别的人能够评论的。
  但看之前,请先端正自己的态度。
  如果想通过这本书达到一个绝对的境界的人,可以歇歇了。
  我虽不是科班出身的,但毕竟也看过几本书,基本上大家最好不要认为哪一本书能够让你成为一劳永逸的一族,即使这本书也不能。
  国内对这本书的吹捧,估计主要因为盖茨老兄的那句话吧。
  须知,盖茨并非因编程出名,Windows也并非盖茨所写。
  想要发财学盖茨,趁早做生意去,学编程,只能误了你的前程。
  总而言之一句话,书是好书,但是看之前请端正态度,彻底放下那种“看了这本书我就如何如何了,我是高手了”的思想。
  曾有高手说过(针对什么十日内学会什么什么语言的书)“十年内学会编程”。
  我想说,用一生学习计算!
  ps(我未看过此书)

------------------------------------------------------------------------------------

2008年9月21日

[转帖]机器学习与人工智能学习资源导引

<从CSDN上转载的>
机器学习与人工智能学习资源导引
我经常在 TopLanguage 讨论组上推荐一些书籍,也经常问里面的牛人们搜罗一些有关的资料,人工智能、机器学习、自然语言处理、知识发现(特别地,数据挖掘)、信息检索这些无疑是 CS 领域最好玩的分支了(也是互相紧密联系的),这里将最近有关机器学习和人工智能相关的一些学习资源归一个类:
首先是两个非常棒的 Wikipedia 条目,我也算是 wikipedia 的重度用户了,学习一门东西的时候常常发现是始于 wikipedia 中间经过若干次 google ,然后止于某一本或几本著作。
第一个是“人工智能的历史”(History of Artificial Intelligence),我在讨论组上写道:
而今天看到的这篇文章是我在 wikipedia 浏览至今觉得最好的。文章名为《人工智能的历史》,顺着 AI 发展时间线娓娓道来,中间穿插无数牛人故事,且一波三折大气磅礴,可谓"事实比想象更令人惊讶"。人工智能始于哲学思辨,中间经历了一个没有心理学(尤其是认知神经科学的)的帮助的阶段,仅通过牛人对人类思维的外在表现的归纳、内省,以及数学工具进行探索,其间最令人激动的是 Herbert Simon (决策理论之父,诺奖,跨领域牛人)写的一个自动证明机,证明了罗素的数学原理中的二十几个定理,其中有一个定理比原书中的还要优雅,Simon 的程序用的是启发式搜索,因为公理系统中的证明可以简化为从条件到结论的树状搜索(但由于组合爆炸,所以必须使用启发式剪枝)。后来 Simon 又写了 GPS (General Problem Solver),据说能解决一些能良好形式化的问题,如汉诺塔。但说到底 Simon 的研究毕竟只触及了人类思维的一个很小很小的方面 —— Formal Logic,甚至更狭义一点 Deductive Reasoning (即不包含 Inductive Reasoning , Transductive Reasoning (俗称 analogic thinking)。还有诸多比如 Common Sense、Vision、尤其是最为复杂的 Language 、Consciousness 都还谜团未解。还有一个比较有趣的就是有人认为 AI 问题必须要以一个物理的 Body 为支撑,一个能够感受这个世界的物理规则的身体本身就是一个强大的信息来源,基于这个信息来源,人类能够自身与时俱进地总结所谓的 Common-Sense Knowledge (这个就是所谓的 Emboddied Mind 理论。 ),否则像一些老兄直接手动构建 Common-Sense Knowledge Base ,就很傻很天真了,须知人根据感知系统从自然界获取知识是一个动态的自动更新的系统,而手动构建常识库则无异于古老的 Expert System 的做法。当然,以上只总结了很小一部分我个人觉得比较有趣或新颖的,每个人看到的有趣的地方不一样,比如里面相当详细地介绍了神经网络理论的兴衰。所以我强烈建议你看自己一遍,别忘了里面链接到其他地方的链接。
顺便一说,徐宥同学打算找时间把这个条目翻译出来,这是一个相当长的条目,看不动 E 文的等着看翻译吧:)
第二个则是“人工智能”(Artificial Intelligence)。当然,还有机器学习等等。从这些条目出发能够找到许多非常有用和靠谱的深入参考资料。
然后是一些书籍
书籍:
1. 《Programming Collective Intelligence》,近年出的入门好书,培养兴趣是最重要的一环,一上来看大部头很容易被吓走的:P
2. Peter Norvig 的《AI, Modern Approach 2nd》(无争议的领域经典)。
3. 《The Elements of Statistical Learning》,数学性比较强,可以做参考了。
4. 《Foundations of Statistical Natural Language Processing》,自然语言处理领域公认经典。
5. 《Data Mining, Concepts and Techniques》,华裔科学家写的书,相当深入浅出。
6. 《Managing Gigabytes》,信息检索好书。
7. 《Information Theory:Inference and Learning Algorithms》,参考书吧,比较深。
相关数学基础(参考书,不适合拿来通读):
1. 线性代数:这个参考书就不列了,很多。
2. 矩阵数学:《矩阵分析》,Roger Horn。矩阵分析领域无争议的经典。
3. 概率论与统计:《概率论及其应用》,威廉·费勒。也是极牛的书,可数学味道太重,不适合做机器学习的。于是讨论组里的 Du Lei 同学推荐了《All Of Statistics》并说到
机器学习这个方向,统计学也一样非常重要。推荐All of statistics,这是CMU的一本很简洁的教科书,注重概念,简化计算,简化与Machine Learning无关的概念和统计内容,可以说是很好的快速入门材料。
4. 最优化方法:《Nonlinear Programming, 2nd》非线性规划的参考书。《Convex Optimization》凸优化的参考书。此外还有一些书可以参考 wikipedia 上的最优化方法条目。要深入理解机器学习方法的技术细节很多时候(如SVM)需要最优化方法作为铺垫。
王宁同学推荐了好几本书:
《Machine Learning, Tom Michell》, 1997.
老书,牛人。现在看来内容并不算深,很多章节有点到为止的感觉,但是很适合新手(当然,不能"新"到连算法和概率都不知道)入门。比如决策树部分就很精彩,并且这几年没有特别大的进展,所以并不过时。另外,这本书算是对97年前数十年机器学习工作的大综述,参考文献列表极有价值。国内有翻译和影印版,不知道绝版否。
《Modern Information Retrieval, Ricardo Baeza-Yates et al》. 1999
老书,牛人。貌似第一本完整讲述IR的书。可惜IR这些年进展迅猛,这本书略有些过时了。翻翻做参考还是不错的。另外,Ricardo同学现在是Yahoo Research for Europe and Latin Ameria的头头。
《Pattern Classification (2ed)》, Richard O. Duda, Peter E. Hart, David G. Stork
大约也是01年左右的大块头,有影印版,彩色。没读完,但如果想深入学习ML和IR,前三章(介绍,贝叶斯学习,线性分类器)必修。
还有些经典与我只有一面之缘,没有资格评价。另外还有两本小册子,论文集性质的,倒是讲到了了不少前沿和细节,诸如索引如何压缩之类。可惜忘了名字,又被我压在箱底,下次搬家前怕是难见天日了。
(呵呵,想起来一本:《Mining the Web - Discovering Knowledge from Hypertext Data》 )
说一本名气很大的书:《Data Mining: Practical Machine Learning Tools and Techniques》。Weka 的作者写的。可惜内容一般。理论部分太单薄,而实践部分也很脱离实际。DM的入门书已经不少,这一本应该可以不看了。如果要学习了解 Weka ,看文档就好。第二版已经出了,没读过,不清楚。
信息检索方面,Du Lei 同学再次推荐:
信息检索方面的书现在建议看Stanford的那本《Introduction to Information Retrieval》,这书刚刚正式出版,内容当然up to date。另外信息检索第一大牛Croft老爷也正在写教科书,应该很快就要面世了。据说是非常pratical的一本书。
对信息检索有兴趣的同学,强烈推荐翟成祥博士在北大的暑期学校课程,这里有全slides和阅读材料:http://net.pku.edu.cn/~course/cs410/schedule.html
maximzhao 同学推荐了一本机器学习:
加一本书:Bishop, 《Pattern Recognition and Machine Learning》. 没有影印的,但是网上能下到。经典中的经典。Pattern Classification 和这本书是两本必读之书。《Pattern Recognition and Machine Learning》是很新(07年),深入浅出,手不释卷。
最后,关于人工智能方面(特别地,决策与判断),再推荐两本有意思的书,
一本是《Simple Heuristics that Makes Us Smart》
另一本是《Bounded Rationality: The Adaptive Toolbox》
不同于计算机学界所采用的统计机器学习方法,这两本书更多地着眼于人类实际上所采用的认知方式,以下是我在讨论组上写的简介:
这两本都是德国ABC研究小组(一个由计算机科学家、认知科学家、神经科学家、经济学家、数学家、统计学家等组成的跨学科研究团体)集体写的,都是引起领域内广泛关注的书,尤其是前一本,後一本则是对 Herbert Simon (决策科学之父,诺奖获得者)提出的人类理性模型的扩充研究),可以说是把什么是真正的人类智能这个问题提上了台面。核心思想是,我们的大脑根本不能做大量的统计计算,使用fancy的数学手法去解释和预测这个世界,而是通过简单而鲁棒的启发法来面对不确定的世界(比如第一本书中提到的两个后来非常著名的启发法:再认启发法(cognition heuristics)和选择最佳(Take the Best)。当然,这两本书并没有排斥统计方法就是了,数据量大的时候统计优势就出来了,而数据量小的时候统计方法就变得非常糟糕;人类简单的启发法则充分利用生态环境中的规律性(regularities),都做到计算复杂性小且鲁棒。
关于第二本书的简介:
1. 谁是 Herbert Simon
2. 什么是 Bounded Rationality
3. 这本书讲啥的:
我一直觉得人类的决策与判断是一个非常迷人的问题。这本书简单地说可以看作是《决策与判断》的更全面更理论的版本。系统且理论化地介绍人类决策与判断过程中的各种启发式方法(heuristics)及其利弊(为什么他们是最优化方法在信息不足情况下的快捷且鲁棒的逼近,以及为什么在一些情况下会带来糟糕的后果等,比如学过机器学习的都知道朴素贝叶斯方法在许多情况下往往并不比贝叶斯网络效果差,而且还速度快;比如多项式插值的维数越高越容易overfit,而基于低阶多项式的分段样条插值却被证明是一个非常鲁棒的方案)。
在此提一个书中提到的例子,非常有意思:两个团队被派去设计一个能够在场上接住抛过来的棒球的机器人。第一组做了详细的数学分析,建立了一个相当复杂的抛物线近似模型(因为还要考虑空气阻力之类的原因,所以并非严格抛物线),用于计算球的落点,以便正确地接到球。显然这个方案耗资巨大,而且实际运算也需要时间,大家都知道生物的神经网络中生物电流传输只有百米每秒之内,所以 computational complexity 对于生物来说是个宝贵资源,所以这个方案虽然可行,但不够好。第二组则采访了真正的运动员,听取他们总结自己到底是如何接球的感受,然后他们做了这样一个机器人:这个机器人在球抛出的一开始一半路程啥也不做,等到比较近了才开始跑动,并在跑动中一直保持眼睛于球之间的视角不变,后者就保证了机器人的跑动路线一定会和球的轨迹有交点;整个过程中这个机器人只做非常粗糙的轨迹估算。体会一下你接球的时候是不是眼睛一直都盯着球,然后根据视线角度来调整跑动方向?实际上人类就是这么干的,这就是 heuristics 的力量。
相对于偏向于心理学以及科普的《决策与判断》来说,这本书的理论性更强,引用文献也很多而经典,而且与人工智能和机器学习都有交叉,里面也有不少数学内容,全书由十几个章节构成,每个章节都是由不同的作者写的,类似于 paper 一样的,很严谨,也没啥废话,跟《Psychology of Problem Solving》类似。比较适合 geeks 阅读哈。
另外,对理论的技术细节看不下去的也建议看看《决策与判断》这类书(以及像《别做正常的傻瓜》这样的傻瓜科普读本),对自己在生活中做决策有莫大的好处。人类决策与判断中使用了很多的 heuristics ,很不幸的是,其中许多都是在适应几十万年前的社会环境中建立起来的,并不适合于现代社会,所以了解这些思维中的缺点、盲点,对自己成为一个良好的决策者有很大的好处,而且这本身也是一个非常有趣的领域。

2008年9月17日

不谈国事

让人心寒的国家大事一件又一件,金钱的魅力看来无比巨大啊。记得《康熙大帝》评书里,纪晓岚多次说过一句“钱真是好东西啊。”那种感慨和如今的世风,哎!

近日负责协助一个项目的管理,在启动阶段困难不少。好在每天看几页偶像陈儒推荐的《项目管理艺术》,总能联想到目前的处境,当然也能借鉴到一些书中推荐的方法。继续细细摸索和体味咯!

2008年9月11日

舍得

2008年以来论文方面比较不顺,先是ACL未能投出,再是EMNLP被拒。今天在重新整理EMNLP实验时感觉有点做不动了。和xiaofeng说明决定放弃时,xiaofeng的一段话让我深受启发:“以后有新的idea, 想要想想你的方法比别人的好在哪里。这个图模型,从一开始,你就对它的优越性很模糊。最后变成是为了用这个方法而用这个方法。”

做研究很枯燥,因为要承载无数的失败。但是这个过程中,不管是实验设计还是论文写作,我都得到了很大的提高。由衷感谢谢xiaofeng!

载一句名言,“我没有失败,只是发现有一万种办法行不通。—— 爱迪生”。

整理思路,吸取经验教训,继续前行~!

看《计算机学会通讯》4卷8期有想

这期通讯主要介绍中国的人工智能研究情况,几篇文章都很让人受益。看完后摘录加瞎想记录如下,有空时再多多消化一下:



蚁群算法能用于聚类算法

OpenCYC

神经网络用于模式识别、联想记忆和形象思维

以获得尽可能高的互信息熵

Hownet for RE and CR

指代歧义消解属于仍未能得到彻底有效解决的问题

综观整个自然语言处理领域,尚未建立起一套完整的、系统的理论框架体系,许多理论研究甚至处于盲目的摸索阶段,如尝试一些新的机器学习方法或未曾使用的数学模型,这些尝试和实验带有很强的主观性和盲目性

相对而言,我们学者主要是跟踪国外技术潮流,缺少原创性理论、模型或算法。

背景知识和数据特有的性质可能是决定机器学习成败的关键

支持向量机存在以下几个问题:
1. 基于边缘的繁华界不能很好的解释Adaboost
2. 对实际问题,边缘的上界太松
3. 在噪音条件下,无论大样本还是小样本集合,边缘的界不能很好的预测未来实例
4. 边缘将偏差、方差混合在一起,不能清楚的表示边缘成功的贡献是哪个方面,更不能描述不同损失函数带来的影响和分析解凸优化问题得到的分类器和贝叶斯分类器时间的逼近程度。
5. 很多损失函数具有贝叶斯一致的性质。支撑向量机使用Hnge损失,但成功的关键不是因为边缘,而是因为使用了具有贝叶斯一致性质的Hinge损失函数。

沙皮尔证明了概率近似理论提出的另一个命题,即概念是弱可学习的,当且仅当它是强可学习的(弱可学习是指在多项式复杂度算法下,学习的正确率略好于随机猜测的结果(50%),而强可学习的概率是略小于100%。但沙皮尔正迷宫了可以找到复杂度可以接受的算法,使弱可学习的概念类变为强可学习的。)这意味着,如果我们可以建造一组精度大于50%的模型,并使用适当的规则集群它们,就可以获得具有高精度的模型。,目前这种学习称为集群学习(Essemble)。从算法设计角度,可以将学习问题考虑为在所有这些弱分类器为基张成的空间上的优化问题。这就是目前流行的提升(Boosting)算法的基础。

关系学习是指有些样本的变量之间存在某些关系。这个和共指消解问题非常接近。目前解决该问题的方法是归纳逻辑,其本质是根据背景知识将数据打碎,让各个碎片满足属性-值形式,并采用统计学习的方法将这些碎片建立模型,然后再根据背景知识将它们拼接起来。这是一类非常困难但是对实际应用又有重要意义的学习形式。

罗生门(Rashomon)问题指明Feature Selection的必要性。

2008年9月10日

惦念zhanghui

前几日看到zhanghui的msn上写“缝了好几针,破相了,很低落现在”。发了两次消息都没有回复。今晚一打听,才得知伤得有点重,还缝了好多针住了一天院。推荐朋友去给他买祛疤液了。

晚上健身时又想起了SG的健身团队,也就想到了zhanghui。希望zhanghui能很快康复起来,重新投入火热的研究中。

2008年9月8日

Recover fitness in gym

晚上在学校健身房进行了回国来的第一次Gym,锻炼后的感觉就是很爽啊。健身房旁就是健美操房,女友在那边也练得很开心。

学 校健身房比SG I2R的老健身房强出10倍不止,多出了很多单项目的健身大型设备,但是没有蹬腿自行车和跑步机,哑铃也很少。健身房里人山人海,很热闹,但是比起SG时 xiaofeng,zhanghui,junhui,kimi一起健身时的那种亲切感差了很远。记录一下,今天卧推直接恢复到40KG,增加了手臂锻炼, 也尝试了一些新新型器械。

有一点非常奇怪,就是明明我自己缴费报名参加的健身班,为什么一定需要注册呢?我又不是为了学分 :(

哈哈,总之锻炼的感觉很好啊,终于进入正常的生活状态了。感谢SG的朋友们让我养成了这个好习惯~!

终于有点状态了

8月10日离开SG,8月20日回到HRB,今天9月8日,终于有点工作状态了。继续调整自己,做最重要的事情,而不是当前最紧急的。

2008年8月27日

路漫漫

归来,梳理,慢行......

2008年8月7日

Last working day in Singapore

不经意间,或者说呼吸间,已经到了我在新加坡的最后一个工作日。周日清晨我就会伤感而快乐的离开这里了。伤感是因为要离开一堆挚友,有老朋友,也有新朋友,难舍难离;快乐是因为能和父母、女友团聚,随后回到哈尔滨又会是一片新的天地。这种感觉有点复杂,像是舌苔上既有苦又有甜。

         连续几天一人早上走路上班,晚上走路下班,快走能半小时走完,慢走能走上一个小时。路上的感觉也算是一种静谧的享受,因为夜深人静或者大清早的走在路上并伴随着聆听评书。新办公楼的Gym还没建好,原先养成了半年多的健身习惯只能被走路替代了。

         从新办公楼Fusionopolis到住处的路线是先走到Dover组屋区,然后跨天桥到NUH,再绕到PGP,随后从PGP走到Pasir Panjang路上的住处。连续四段路都不太远,每段路上也都有独特的风景和感觉。这样分段走路的感觉很奇特。因为,走在单独的路上你都会很尽兴,每次要换到新的路段时都会左顾右盼注意交通情况。一路走完,你能想起每段路上的情形,但又不会记得很清楚,但总体印象还是非常不错的。

         细想自己从2000年开始远离家乡的求学经历,似乎和上面这种走路的感觉有点像。给自己的话就是先好好休息一阵,然后开始新的征程。毕竟自己已经连续8年没有在夏天回到过故乡了,即使冬天也不是每年都回去的。

2008年8月3日

[转]7种方法教你如何小憩

午睡很重要,这篇文章看完很受益,和大家分享咯~!

Link: http://www.yeeyan.com/articles/view/37342/10738

小鸟这样做,小蜜蜂这样做(我们认为),即使是训练有素的猿猴也会这样做,所以,让我们一起这样做吧!让我们睡觉吧!(这篇博客的音乐部分已经结束,谢谢通融)然而严肃的讲,我们在这篇博客之前也曾讨论过打盹儿的原因—它们可以改善心情,创造力,记忆功能,心脏机能,还有很多很多呢—可是在我的认知里,我们从未讨论过有关如何去打盹儿的问题。事实上无论何时我们写到有关打盹儿,我们时常听到来自于那些抱怨着无法在白天入睡的人们的议论;他们只是无法入睡,或者是在半梦半醒之间迷迷糊糊,不能工作。在这种情况下,请读下去吧,我昏昏欲睡的朋友。

1.

你所须知道的第一件事,就是在午后昏昏欲睡是很正常的。但这并不代表享用了一顿丰盛的午餐,或是你精神不振,再或是你没有充分的运动。这只是动物的正常循环—每24小时,我们有2个时段的沉睡。其一很显然那是深夜,从2点到4点,而另一个是在10个小时后,在下午1点到3点之间,如果你是“猫头鹰”,早晨很晚才醒,那么下午的困意会来得晚一些,如果你是一只早起的鸟,那么或许会来的早一些。可是这困意对于每一个人都是无可避免的,我们生理决定了我们需要小憩。

2.

打盹儿时间的长与短给我们带来了各种各样得益处。约20分张左右的小憩会使我们更加机敏和专著,改善心情,加强合作。打盹儿90分钟会带你进入所谓的缓慢起伏的REM睡眠,这可以增强创造力。如果你在一整段时间里无人打扰并睡得深沉,你将会完成一个为期90分钟的睡眠循环,作为你之前的夜晚不曾睡好的补偿。(这对我们来说已经是老生常谈了,但我们中的绝大多数在夜晚并没有得到充足的睡眠)。

3.

尽量不要睡在45分钟与90分钟之间。这样的话你会处于缓慢起伏睡眠的一半,会很迷糊。我曾一度讨厌在白天打盹儿也正是因为这个原因—我总是在迷迷糊糊中不得不起床。我的问题是我还从未完美的完成20分钟的小憩。

4.

找到一个不错的黑暗的你可以躺下来的地方。需时约比端坐长约50%时间(这是为什么红眼航班通常不辜负他们的名字),用一个毛毯盖起来:你就不会感到寒冷。你同样也不希望太暖和,那样该导致睡过头了。(城市里有一个当我还是孩子的传说:不要睡在阳光底下,否则你将永远不会醒来。并非如此—但是你可能会在3小时后,带着日光的灼伤醒来)

5.

白噪音可以助你入睡,尤其是当白天建筑工人,垃圾车,狗吠声以及其他噪音共同摧毁你的小憩,拿起扇子或是开启水龙头来一段愉悦人心的河水奔流声音。(最后一项是只开玩笑的喽)

6.

不要睡前小憩,否则接下来你就该无法入睡了。记住,你内嵌的欲睡的窗口有多半会在午后打卡 —— 试着眯一会儿吧。

7.

如果老板白天不让你打盹,那这实在是件愚蠢的工作。

2008年7月31日

遭遇反向域名解析

今天下午,因为一个访问限制,需要查看我现在所在的新办公楼机器的对外IP。采用常见的www.ip138.com, ipseeker.cn, ip.wisa.com.cn等网站显示的IP就是不对。后来折腾出Tracert工具得到的诸多ip网址都不正确。最终头大之时找到了我们组的高人Upali。

        话说Upali大哥先像我似的找了几个显示ip的英文网站,查到的ip和我查到的一样。我说这个不对,访问不了的。后来Upali大哥在firefox里敲入了http://www.grc.com,然后选择了倒数第二个链接ShieldsUP!。随后出现的网页https://www.grc.com/x/ne.dll?bh0bkyd2第二个方框下面出现了一个和我查到的ip地址很接近的ip地址。这两个地址只是最后一个数字不一样。经实验后发现新查到的这个ip地址是正确的。

         当时非常惊讶会有这种情况,详细请教了Upali大哥以及上网查了一下后,知道自己遭遇了反向域名解析的限制。原来我所在的新办公楼网络采用了这种技术来更好的避免垃圾邮件。搬家前的办公楼没有采用这种技术。以后如果在别的地方再遇到问题,就可以想想是不是反向域名在作怪咯 :)

 

转载一篇介绍反向域名的文章如下,以备学习:

----------------------------------------------------------------------------

link:http://www.ntty.net/blogview.asp?logID=864

反向域名解析,Reverse DNS。反向域名解析与通常的正向域名解析相反,提供IP地址到域名的对应。IP反向解析主要应用到邮件服务器中来阻拦垃圾邮件,特别是在国外。多数垃圾邮件发送者使用动态分配或者没有注册域名的IP地址来发送垃圾邮件,以逃避追踪,使用了域名反向解析后,就可以大大降低垃圾邮件的数量。关于反向解析如何被应用到邮件服务器中来阻拦垃圾邮件的。

    由于在域名系统中,一个IP地址可以对应多个域名,因此从IP出发去找域名,理论上应该遍历整个域名树,但这在Internet上是不现实的。为了完成逆向域名解析,系统提供一个特别域,该特别域称为逆向解析域in-addr.arpa。这样欲解析的IP地址就会被表达成一种像域名一样的可显示串形式,后缀以逆向解析域域名"in-addr.arpa"结尾。例如一个IP地址:218.30.103.170,其逆向域名表达方式为:170.103.30.218.in-addr.arpa。两种表达方式中IP地址部分顺序恰好相反,因为域名结构是自底向上(从子域到域),而IP地址结构是自顶向下(从网络到主机)的。实质上逆向域名解析是将IP地址表达成一个域名,以地址做为索引的域名空间,这样逆向解析的很大部分可以纳入正向解析中。

查看反向解析信息:

    命令行输入nslookup -qt=ptr yourIP,从返回的信息中您可以看到反向解析的结果,或者在这个网站查询。

如何做反向解析:

    首先要有固定公网IP地址、可用域名,例如您有needidc.com的域名,您可以要求您的域名注册商为您添加一个mail.needidc.com的域名并将其A记录指向您的SMTP服务器出口公网IP地址,如:122.200.66.43,接着请与您的固定IP所属ISP联系要求为您的IP反向解析至mail.lunch-time.com(可能要收费)。完成后别忘了将您的SMTP服务器的HELO域名改为mail.needidc.com,这样才可以达到目的。

另外:
    1、目前很多网络服务提供商要求访问的IP地址具有反向域名解析的结果,否则不提供Mail服务。
    2、一定要有固定公网IP地址以及真实可用域名。同时要注意反向解析的域名的A记录一定要指向该IP!
    3、对于有多个固定公网IP地址的,只要做主要出口IP的反向解析即可,不管您有多少SMTP服务器,只要是通过该IP连接至外网就将这些SMTP服务器的HELO域名改成IP反向解析之域名即可。

    在垃圾邮件泛滥的今天,垃圾邮件给我们的生活、工作、学习带来了极大的危害。由于SMTP服务器之间缺乏有效的发送认证机制,即使采用了垃圾邮件识别阻拦技术效果仍旧一般,再者垃圾邮件识别阻拦技术主要是在收到信件后根据一定条件进行识别的,需要耗费大量服务器资源,如果能在信件到达服务器之前就采取一定手段,这样就能大大提高服务器效率了。因此,目前许多邮件服务器如sina.com,hotmail.com,yahoo.com.cn等等都采用了垃圾邮件识别阻拦技术+IP反向解析验证技术以更好的阻拦垃圾邮件。

    我们先来了解一下什么是IP反向解析。其实作过DNS服务器的朋友一定会知道DNS服务器里有两个区域,即“正向查找区域”和“反向查找区域”,反向查找区域即是这里所说的IP反向解析,它的作用就是通过查询IP地址的PTR记录来得到该IP地址指向的域名,当然,要成功得到域名就必需要有该IP地址的PTR记录。

    那么IP反向解析是怎么被应用到邮件服务器中来阻拦垃圾邮件的呢?我们来看看下面一个例子:

    某天,阿Q到A公司拜访,他递上一张名片,名片上写着他来自“黑道杀人俱乐部”以及电话号码等信息,A公司觉得应该对阿Q的来历做个简单调查,于是打电话到阿Q名片上的电话号码所属电信局进行查实,如果电信局告诉A公司其电话号码不属于“黑道杀人俱乐部”,则A公司将拒绝阿Q的拜访,如果其电话号码的确属于“黑道杀人俱乐部”,A公司可能接受阿Q的拜访也可能进一步查实,于是就打电话到“黑道杀人俱乐部”所属注册机构查询,如果得到的答复确认该俱乐部确有此电话号码,则A公司将接受阿Q的拜访,否则仍将拒绝阿Q的拜访。

    这个例子中,阿Q好比是我们的邮件服务器,A公司是对方邮件服务器,“黑道杀人俱乐部”就是我们邮件服务器与对方邮件服务器通信时所使用的HELO域名(不是邮件地址@后的域名),名片上的电话号码就是我们邮件服务器出口的公网IP地址。A公司对阿Q进行调查的过程就相当于一个反向解析验证过程。由此看出,反向解析验证其实是对方服务器在进行的,如果我们没有做反向解析,那么对方服务器的反向解析验证就会失败,这样对方服务器就会以我们是不明发送方而拒收我们发往的邮件,这也就是我们排除其它原因后(如被对方列入黑名单、没有MX记录、使用的是动态IP地址等等)在没做反向解析时无法向sina.com、homail.com发信的原因。

    那么我们应当如何顺利做好反向解析?首先要有固定公网IP地址、可用域名(最好不要被其它服务所用),例如您有lunch-time.com的域名,您可以要求您的域名注册商为您添加一个okmail.lunch-time.com的域名并将其A记录指向您的SMTP服务器出口公网IP地址,如:220.112.20.18,接着请与您的固定IP所属ISP联系要求为您的IP反向解析至okmail.lunch-time.com。完成后别忘了将您的SMTP服务器的HELO域名改为okmail.lunch-time.com,这样才可以达到目的。

另:

   1、做好反向解析后发往sina.com的信件有可能会被转至“不明邮件夹”中,此时请您与sina.com联系,要求为您解决该问题。

   2、查看反向解析是否成功,可用如下命令:nslookup –qt=ptr yourIP,从返回的信息中您可以看到反向解析的结果。

   3、一定要有固定公网IP地址以及真实可用域名。同时要注意反向解析的域名的A记录一定要指向该IP!

   4、对于有多个固定公网IP地址的,只要做主要出口IP的反向解析即可,不管您有多少SMTP服务器,只要是通过该IP连接至外网就将这些SMTP服务器的HELO域名改成IP反向解析之域名即可。(和这些SMTP服务器上的地址域是无关的)

2008年7月29日

Next

刚过去的6月、7月算是来SG最为忙碌的日子。编程方面,SG这边的项目基本完结。会议方面有幸参加了米国的ACL08、SG的SIGIR08,领略了NLP和IR领域各自顶级会议的风采。论文方面完成了一些新文的撰写和旧文的修改。

          今天上午,实习所在的研究所终于结束了搬家的工作,新的办公地点离地铁站近了些,但是离住处远了很多。刚才在办公室趴着小睡了一会儿,居然是被冻醒的。哎,这里的空调不能自己调温度,只能格外凉爽一阵子咯。

          在SG的日子还有十来天了,想来也有点感慨。整理一下各个方面的资料,同时结束项目需要的程序和文档,再和朋友们聚聚,也就该走了。

         下一步做什么呢?

2008年7月22日

SIGIR2008好玩~!

这次SIGIR在SG召开,因为还在SG,有幸能够参加。会议是20号开始的,今天是第三天。总体感觉SIGIR08比ACL08有意思,但是也算各有千秋。在会上见到很多久仰的老师、以前认识的朋友,已经新认识一些朋友。

 

先记到这里,等两天再写个详细些的 :)

2008年7月13日

zz 介绍几本数学书

MIT大牛最新博文,感觉很不错,转载于此,有机会时,俺也得开始认真学习这些书籍。

Link:http://dahua.spaces.live.com/Blog/cns!28AF4251DF30CA42!2496.entry

 

 

前面几篇谈了一些对数学的粗浅看法。其实,如果对某门数学有兴趣,最好的方法就是走进那个世界去学习和体验。

这里说说几本我看过后觉得不错的数学教科书。

1. 线性代数 (Linear Algebra):

我想国内的大学生都会学过这门课程,但是,未必每一位老师都能贯彻它的精要。这门学科对于Learning是必备的基础,对它的透彻掌握是必不可少的。我在科大一年级的时候就学习了这门课,后来到了香港后,又重新把线性代数读了一遍,所读的是

Introduction to Linear Algebra (3rd Ed.)  by Gilbert Strang.

这本书是MIT的线性代数课使用的教材,也是被很多其它大学选用的经典教材。它的难度适中,讲解清晰,重要的是对许多核心的概念讨论得比较透彻。我个人觉得,学习线性代数,最重要的不是去熟练矩阵运算和解方程的方法——这些在实际工作中MATLAB可以代劳,关键的是要深入理解几个基础而又重要的概念:子空间(Subspace),正交(Orthogonality),特征值和特征向量(Eigenvalues and eigenvectors),和线性变换(Linear transform)。从我的角度看来,一本线代教科书的质量,就在于它能否给这些根本概念以足够的重视,能否把它们的联系讲清楚。Strang的这本书在这方面是做得很好的。

而且,这本书有个得天独厚的优势。书的作者长期在MIT讲授线性代数课(18.06),课程的video在MIT的Open courseware网站上有提供。有时间的朋友可以一边看着名师授课的录像,一边对照课本学习或者复习。

http://ocw.mit.edu/OcwWeb/Mathematics/18-06Spring-2005/CourseHome/index.htm

2. 概率和统计 (Probability and Statistics):

概率论和统计的入门教科书很多,我目前也没有特别的推荐。我在这里想介绍的是一本关于多元统计的基础教科书:

Applied Multivariate Statistical Analysis (5th Ed.)  by Richard A. Johnson and Dean W. Wichern

这本书是我在刚接触向量统计的时候用于学习的,我在香港时做研究的基础就是从此打下了。实验室的一些同学也借用这本书学习向量统计。这本书没有特别追求数学上的深度,而是以通俗易懂的方式讲述主要的基本概念,读起来很舒服,内容也很实用。对于Linear regression, factor analysis, principal component analysis (PCA), and canonical component analysis (CCA)这些Learning中的基本方法也展开了初步的论述。

之后就可以进一步深入学习贝叶斯统计和Graphical models。一本理想的书是

Introduction to Graphical Models (draft version).  by M. Jordan and C. Bishop.

我不知道这本书是不是已经出版了(不要和Learning in Graphical Models混淆,那是个论文集,不适合初学)。这本书从基本的贝叶斯统计模型出发一直深入到复杂的统计网络的估计和推断,深入浅出, statistical learning的许多重要方面都在此书有清楚论述和详细讲解。MIT内部可以access,至于外面,好像也是有电子版的。

3. 分析 (Analysis):

我想大家基本都在大学就学过微积分或者数学分析,深度和广度则随各个学校而异了。这个领域是很多学科的基础,值得推荐的教科书莫过于

Principles of Mathematical Analysis, by Walter Rudin

有点老,但是绝对经典,深入透彻。缺点就是比较艰深——这是Rudin的书的一贯风格,适合于有一定基础后回头去看。

在分析这个方向,接下来就是泛函分析(Functional Analysis)。

Introductory Functional Analysis with Applications, by Erwin Kreyszig.

适合作为泛函的基础教材,容易切入而不失全面。我特别喜欢它对于谱论和算子理论的特别关注,这对于做learning的研究是特别重要的。 Rudin也有一本关于functional analysis的书,那本书在数学上可能更为深刻,但是不易于上手,所讲内容和learning的切合度不如此书。

在分析这个方向,还有一个重要的学科是测度理论(Measure theory),但是我看过的书里面目前还没有感觉有特别值得介绍的。

4. 拓扑 (Topology):

在我读过的基本拓扑书各有特色,但是综合而言,我最推崇:

Topology (2nd Ed.)  by James Munkres

这本书是Munkres教授长期执教MIT拓扑课的心血所凝。对于一般拓扑学(General topology)有全面介绍,而对于代数拓扑(Algebraic topology)也有适度的探讨。此书不需要特别的数学知识就可以开始学习,由浅入深,从最基本的集合论概念(很多书不屑讲这个)到Nagata- Smirnov Theorem和Tychonoff theorem等较深的定理(很多书避开了这个)都覆盖了。讲述方式思想性很强,对于很多定理,除了给出证明过程和引导你思考其背后的原理脉络,很多令人赞叹的亮点——我常读得忘却饥饿,不愿释手。很多习题很有水平。

5. 流形理论 (Manifold theory):

对于拓扑和分析有一定把握时,方可开始学习流形理论,否则所学只能流于浮浅。我所使用的书是

Introduction to Smooth Manifolds.  by John M. Lee

虽然书名有introduction这个单词,但是实际上此书涉入很深,除了讲授了基本的manifold, tangent space, bundle, sub-manifold等,还探讨了诸如纲理论(Category theory),德拉姆上同调(De Rham cohomology)和积分流形等一些比较高级的专题。对于李群和李代数也有相当多的讨论。行文通俗而又不失严谨,不过对某些记号方式需要熟悉一下。

虽然李群论是建基于平滑流形的概念之上,不过,也可能从矩阵出发直接学习李群和李代数——这种方法对于急需使用李群论解决问题的朋友可能更加实用。而且,对于一个问题从不同角度看待也利于加深理解。下面一本书就是这个方向的典范:

Lie Groups, Lie Algebras, and Representations: An Elementary Introduction.  by Brian C. Hall

此书从开始即从矩阵切入,从代数而非几何角度引入矩阵李群的概念。并通过定义运算的方式建立exponential mapping,并就此引入李代数。这种方式比起传统的通过“左不变向量场(Left-invariant vector field)“的方式定义李代数更容易为人所接受,也更容易揭示李代数的意义。最后,也有专门的论述把这种新的定义方式和传统方式联系起来。

————————————————————————————

无论是研究Vision, Learning还是其它别的学科,数学终究是根基所在。学好数学是做好研究的基石。学好数学的关键归根结底是自己的努力,但是选择一本好的书还是大有益处的。不同的人有不同的知识背景,思维习惯和研究方向,因此书的选择也因人而异,只求适合自己,不必强求一致。上面的书仅仅是从我个人角度的出发介绍的,我的阅读经历实在非常有限,很可能还有比它们更好的书(不妨也告知我一声,先说声谢谢了)。

2008年7月8日

如何刻录系统安装盘

一直以来,俺都没有搞懂如何刻录系统盘。以前曾做过一次现在想来挺傻的事,就是直接把一张系统盘的内容像数据盘那样拖拽到刻录盘上。结果可想而知,不能自动引导。

今天实在无奈下,开始学习这种操作。最终可行的步骤如下:
1. 用WinISO将原始系统盘制作成ISO文件,选用默认的ASPI模式(这样能保留自动引导信息);
2. 用NERO BURNING ROM选择菜单栏上刻录器下的刻录映像文件,选定ISO后配置好相关选项,即可刻录了;
3. 将刻录好的盘插入待装电脑的光驱即可正常安装了。

哎!原来如此简单。备份一下,以防年纪大些给忘了 :)

木桶哲学

原先知道木桶原理,说的是一个木桶由许多块木板组成,如果组成木桶的这些木板长短不一,那么这个木桶的最大容量不取决于长的木板,而取决于最短的那块木板。

image今日得知还有另外的木桶原理,如果桶底不是坚固无缺的,那么当木桶的容量随着木板的加长而增大到一定程度时,桶底便开始泄露,严重的情况下桶底会开裂甚至会脱落而令木桶整个崩溃。

另外,还有人提出反木桶原理,木桶最长的一根木板决定了其特色与优势,在一个小范围内成为制高点。

小小的木桶居然蕴含了这么多道理,从这三个不同的道理,可以解释很多现象。

2008年6月25日

如何自动确定聚类的最佳类别数?

这是个很热门的研究点,有空弄弄看。

现在知道的有四种方案(无任何先验知识):

Spectral Graph Clustering 中可以使用Modularity(Newman, 2004)

k-means and agglomerative hierarchical clustering中可用Elbow criterion(http://en.wikipedia.org/wiki/Cluster_analysis

还有人建议"gap method" or "l-method"。

 

有点意思,备份一下。

2008年6月24日

倒时差真累

从米国回来已经两整天了,我的生物钟还是没倒顺。昨晚12点睡,3点多就醒过来再也睡不着了,折腾了半天5点就到了实验室。先是煮面、煮鸡蛋、泡燕麦,饱餐了一顿。因为之前一天睡觉混乱,24小时只吃了一顿饭。随后开始继续我的实验和写作。虽说论文八股的想法不错,但是要真正写好还真是不容易。到了下午3点多,我已经彻底困的不能工作了,拉着和我一样困倦的Boxing到楼顶,加上xiaofeng闲聊了一趟,这才缓过一点来。后来到了下午5点多,实在是困不行了,在桌上趴着小睡了一觉,醒来时又错过了饭点。

 

哎!倒时差真是累啊!也算是第一次倒时差吧。估计今晚能睡的时间长些了。

2008年6月22日

第一次参加ACL

非常巧合,我参加了ACL2008。这是自然语言处理届的国际顶级会议。

最大的感受是ACL的论文并不神秘,其中有很多的技巧,也就是所谓的“论文八股”。当然,最为重要的还是你的new and better idea。感觉中国人的优点在于做,不在于写。现在所谓的华人里的著名researcher几乎个个都是论文写作高手。要成为这样的高手,必须经历很多的锻炼的。

另外一个感受是,交流很重要。之所以参加会议很重要,是因为可以在会场上相会老朋友,结识新朋友,在各种各样的学术报告、随意闲谈中你能体会到学术的乐趣,能够迸发出各种各样的新想法。在会场听报告以及和别人交谈获得的信息远大于只看论文得到的启发。如果还能在会场作报告,那样就会有更大的收获,因为你的工作可以被世界各地的研究人员“审查”,各种背景的参会人员会提出你完全意想不到的问题。最为关键的环节就是听众提问环节。这个阶段往往会受到各种各样的质问、意见、建议和请教。

感觉顶级会议的存在是构成学术生态系统的重要驱动力。以后还得多多参加类似的国际会议。当然前提是得多写论文。

感谢我的老师们以及ACL主办方提供的资助。

相关照片如下:


2008年6月8日

第三次零纪录钓鱼

想必钓鱼的最大乐趣在于鱼儿上钩的那一刻。今天是来新的第三次钓鱼,也是再次保持了零纪录 :)

好在在小桂林水库向旁边一位大哥借鱼饵时,被送给两条小金鱼。被告知用小金鱼做饵能钓着大鱼。看着活泼泼的金鱼儿,硬是没舍得用来钓大鱼,最终被老刘和我带了回来。在jurong east碰到shanshan时,她硬是相信了我们钓到了两条金鱼 :)

 

教训:

1. 钓鱼前一定要准备好无数蚯蚓才能出发,或者无数虾米也行

2. 水库一定要选择那些不带有禁止钓鱼标记的

3. 钓鱼的时间一定要选在大清早或者傍晚

4. 一定要带好mp3、小说、论文、扑克、啤酒+花生,之类消遣的事物

 

准备下周末到老刘在新唯一一次钓上来鱼的河里钓鱼 :)

 

BTW: 赞一下老刘的耐心! 期待下次能突破零纪录!

2008年6月6日

明日校庆

明天是88周年校庆了,在此遥祝我的母校生日快乐。忽然发现自己只有身在外地时才对校庆有所感觉。这或许就是那种拥有时不觉如何,一旦失去才知道珍惜吧。试想世间万物,何尝不是如此?

 

一切事物最无法重现的就是时间了。抓紧时间,踏实做事,人生是短暂的,青春更是短暂的!以后要多读书,少说多做。

2008年6月5日

遭遇编码问题

        编写文本处理相关的程序,编码问题向来是一个非常容易出现问题的区域。这不,今天我就又一次被“折腾”了 :)

        前几天写好的Stanford Parser的Wrapper在进行Tokenize后和原文进行alignment以获取对应各元素的begin和end。但是今天出现一篇文档,在Upali那里出现问题,我这里也出现问题,Xiaofeng那里却一点问题没有。高兴的是总算还有一个好使的,沮丧的是同样的程序同样的文本,结果怎么就会不一样呢?一度无奈时我开始怀疑自己的rp了。但一想不对啊,upali的也不行啊,这位斯里兰卡大哥人很好的,编程绝对的高手,linux方面更是无人能及。

        最后最后,和xiangfeng详细对比了他的机器和我的机器的各种配置,发现居然是系统默认的编码格式不一样。系统默认语言是英文时对应的是Cp1252,默认为中文时对应编码为GBK。据查实,Java虚拟机就是根据默认编码来处理相关文本的,最终导致了处理一个Ascii不能显示的字符处xiaofeng的可以,我的不行。我在将系统默认语言改为英文后这个问题不再存在。Submit SVN后在Upali那里运行,结果还是不行,这可真是大跌眼镜啊。经过仔细盘查,终于发现Upali大哥是自己写的编码转换程序,分别采用过utf8和ISO-8859-1,经过俺修改为Cp1252后,程序终于运行起来了。正确运行那一刻upali大哥也高兴的惊呼一声。

    由此知道了为什么xiaofeng的机器好使,我和upali的都不行。

    这Java虚拟机还真霸道啊,改明儿个有空了,好好学习一下如何解决摆脱系统默认语言的限制。

2008年6月4日

独处

前几天ZH回到了厦门,今天中午kimi也飞机到家了,他们回去都是一个月左右的度假,想来真是羡慕啊。从昨晚开始我就一人住了,忽然间早晚没人聊天还真的有点不适应了。记得Car在这边实习的时候,他也说过这边比较寂寞,随着自己的独处,开始越发感觉如此。

        6个多月来每个周末的两天以及每个工作日的晚上,我都享有研究所所长级别的待遇——独处一间25平米的办公室。一人呆得无聊,我就会听听评书,上网查查一些菜肴的做法,试着回住处用煤气锅做做。随着半个月前在vivo city买到微波炉炊具,我又开始周末在研究所做菜煮饭了。回想上周末用微波炉做的榨菜烟肉、鸡蛋糕和大米饭,真是香啊。现在很向往这个周末端午节的钓鱼和晚上几个人动手的聚餐咯~~

       独处是件好事,有更多自由的空间和时间。刚才得知哈尔滨的实验室楼下换了门卫,又开始晚上10点清楼了。我也假定10:30清楼,准备回去睡觉咯。呵呵,早睡仍旧是很幸福的 :)

2008年5月31日

近期短述

掐指一算,来新实习已经6个多月了,还有剩下的70天了,别人80天可以环游地球,我这剩下的70天也早已安排的满满当当的了。

过去的6个多月,我的工作主要集中在三点,通过这些也发现了自己存在的一些问题。

1. 持续完成指导老师交给的项目相关的各种子任务,每天的工作主要就是编写程序,并不断在网上搜索、思考和实现各种可能的解决方案。需要完成的项目开始接近尾声,刚结束的这一周一直在完成stanford parser的UIMA封装,写出的Wrapper和OpenNLP的UIMA Wrapper类似,只是相关的底层定义以及模块依赖顺序不一样。现在想来,当初花费接近一年时间完成的LTP和现在刚有些熟悉的UIMA比起来相差甚远,为什么当初自己没能更多调研或者查到UIMA呢?不过由于基本思想类似,现在学习UIMA相对容易了些。看来平时自觉完成项目的能力不是很差的我,还需要仔细调研和学习许多的著名项目才能更多的领会到NLP相关项目的精髓。

2. 刚到新时花费了半个月时间完成老师要求项目的Baseline,随后花费了一个月时间来冲击ACL2008,但是遗憾的是最终的实验结果不好,未能如愿的投出论文。仔细回味那个月的所谓研究,其中真是漏洞百出。这给我自己再次提了个醒,真正的创新不是说使用了一个什么新的工具或者采用了一个什么新的算法,而是从问题本质剖析为起点的工作。

3. 学习如何做研究。发觉自己从本科大三以来,一直的工作都分为两条主线:完成项目+做点研究。自己的两次实习都是主要完成项目,业余时间弄点研究。其实对于读博士,这样很危险,因为博士毕业的标准不是你完成了多少项目,你完成的东西大家怎么怎么说好。相反,即使没有任何项目,而有达标的论文发表才能毕业。这一年来每每被人问到发表了几篇论文,都感觉非常惭愧。今天开始可以投入稍多些的精力来完成自己的博士相关的研究工作了。还剩下70天,扣除一周开会,剩下9周,每周按6天算,还剩50天。时间很紧张,自己落下的研究工作还有很多,需要马不停蹄的赶啊。

 

今天看到如下几篇blog很不错,细细学习,体会颇深,分享如下:

回望第一学年 research偶像在MIT读博第一学年的概述,感觉自己相差实在太多太多,需要不断学习。

如何制定学习计划 知道很多,但是执行很差

如何写好学术论文 不断体会ing...

2008年5月7日

zz 如何写作你的博士论文

link: http://feed.yeeyan.com/articles/view/27709/7427

如果有一天,你忽然发现自己已经成为了一家有博士学位授予权的研究所的研究生,大概你将必须写一篇博士论文了。

那么:你在未知的年限中必须为此辛勤努力。想要踏入丰富多彩的社会中春风得意地被尊称为博士,想要戴上傻乎乎的博士帽披上博士袍,就必须炮制出一篇博士论文。

牛津词典中把博士论文定义为:难以阅读并且毫无价值的文章,但是对某些人很重要,因为它要求完成一项几乎不可能实现的任务。这个定义很精确。除了你的课题组成员,没人会读你堆砌出来的这篇玩意儿。但是很多事情将会发生在它身上。所以你需要:

首先:痛苦。构思、构架和完成这篇毫无价值的文档需要时间。比你想象中少,但是比你拥有的时间要多。不幸的是,这意味这你必须放弃生活中一些美好的乐趣。美食、睡眠、沐浴、上网和礼仪对于正常人是很美好的,但是完全不在一个论文撰写者的生活范围内,你必须舍弃它们。这很痛苦,但是必须抛弃。爱人会原谅你的, 被迷惑的他(她)们相信当你写完论文以后,将会获得巨大的成就感并可能得到更多的收入。他(她)们错了,但是他(她)们由于仍然爱你而做出的错误的判断会 持续到足够你完成论文。

第一步:材料整理。十有八九,你已经当了很久的学生了。有的时候,在极少数的情况下,你已经在实际的进行科研了。多年来,舒适地在办公室威吓着同事、喝喝咖 啡、上上网、玩玩游戏的时候,你做的某些事,其实已经是科研工作的一部分了。查阅一下那些材料,最好是你作为第一作者所撰写的所有论文。把有价值的东西搬 过来,在这些文章上,即使做了很小的改动,也用符号标记一下,比如逗号和分号。先别搞那些讨厌的版式,也不用试图写一篇新的文章,你已经没有时间弄那些 了。

第二步:材料扩充。现在你已经习惯于“剪切-粘 贴”了,并且你必须使它们连贯通顺,别害怕,这很简单。每章都这样做。记得插入这样的词句:作者某某某等已经在某某文章中论及到此种算法。把你现有的表格 分割成更多的表格,看到了吧?现在你的页数已经比以前大大增加了。确保你有足够的参考数目页数,这样显得你阅读了很多文献,即使实际上你并没读。如果需要 绘制曲线图形,就把同样的数值通过不同的方法绘制至少5遍,每个图形占一页。当你做到以上的步骤时,你的论文至少有100页了,

第三步:专业化。内容目录、图形目录、表格目录之类,谈不上质量,但是它们能让论文变得饱满,而饱满的就是好的。加上签名页,版权页,个人简介和致谢,现在 你又向前跨了一大步。致谢页很重要,这是最后一次不得不拍导师马屁的时候了,当然,除非你打算写完论文还继续跟着导师干活。

第四步:冷静严肃。文章中,可以引用别人的话,通常每一章都可以引用,这给你一个显得诙谐的机会。如果没有,嘿,给人一种显得很严肃的错觉是很好的。请相信,没人会觉得引用爱因斯坦的话能好到哪里去,也没人觉得把Homer Simpson的话放在文章里就多有才情。记住,引用在房地产所有权书面上总是显得很恰当。此外,可以用斜体和缩排这样一些让人觉得很重点的东西来显得更加专业。

第五步:充实文章。现在一切都各归其所了,先别忙着检查拼写错误,现在还没人阅读它。把每一页都打印出来,大不多一共有一英寸厚了。如果确实如此,那么你已 经达到了这个要求。如果没有,再把表格分割一下,加几张图。看一下那些毫无价值的表格的附录,它也能增加长度。再把它打印一次把,没什么理由,只是使你的 感觉更好。

第六步:送出论文。找一下你的论文审阅委员会的成员,带着初稿复印件拜访他们的办公室。记得装订一下,这会让它看起来更好,委员们也会相信它一定会非常出 色,甚至无需浏览(要求修改)。大多数情况下,委员们都不在办公室,因为从你的寝室一直散发到门厅的臭味已经让他们知道你在赶博士论文,而且马上就要去找 他们了,记住,他们也写过博士论文,这样只是让他们旧伤加新痕。象个忍者一样。你下一步就需要耗费精力了。

第七步:完成不可能。一旦你逮到了委员们,就通知他们你预计的答辩日期。注意:无论你选哪一天,都是过早的,因为他们会假惺惺的抱怨说要通读你的论文。强硬 起来,就说你毕业典礼上还有事情要做,说父母要来参加你的答辩,大胆的撒谎吧,对每个委员都重复如上步骤。众所周知,天体力学的三体问题是无解的。对你来 说,更加糟糕:你面临的是同时同地面临5个教授对你尽可能穷凶极恶的质询。默默地想,答辩完了就能有顿大餐了。

第八步:评审的恐惧。毫无疑问,研究所或者学校会给每一个坐下来听你答辩的评审委员一笔不错的酬劳,同时保证用那些严格并且极端愚蠢的条条框框来审查你的文 章。这些人存在的理由就是学校将把你的论文拷贝存在图书馆,逐渐腐烂,无人阅读,直到学校热寂。不过,这些条款还是必须要遵循的。你将使自己相信这种傻 话:这一切都完成以后就会有收益的。但是你错了,当那个时刻来临,你的时间却已经所剩无几。之前你为了使文章变得饱满而插入的表格和图形会把论文都破坏 掉,那些貌似诙谐的引用也只会让一些论点跑题。专家们会逐页察觉到这一切。你会在4天或者更多的时间里,边诅咒边修改你的论文,而你修改的东西多半会在图书馆被人匆匆浏览而无人注意。要知道,数百年来,所有的祈祷者都是这样毫无意义的面对着龟毛的官僚机构。

第九步:等待。可以证明,这是最艰难的环节。如果你全部完成了这些并且成功欺骗了所有相关人员,那么你就可以等着你的答辩通过并且不会有任何变故吧。你错了,但是这是个很好的想法。别问为什么,做一些改动,这会让评审委员们觉得很重要,。谄媚一点吧,马上就结束了。

第十步:还有什么?你也许会觉得多年的努力和数月以来撰写论文的辛劳会产生巨大的成就感和满足感,你彻底错了。你忽略了书面工作。学校是用堆积如山的报告来 彰显你的存在的,而用更多的报告使你离开。找来那些版式,按照格式填写吧。错的话,再找点没有明文通知的版式继续填写。当你发现你还有更多的格式需要遵 循,你会冒出杀掉学校长官的念头,可别把这种想法付诸实施,继续写吧。交了学校的博士学费和图书馆管理费,拿到你的钱的人会很开心的说:“虽然有点多,不 过你已经有博士学位了,很快就能挣回来!”可别用电话线勒死他们,这只是他们的一个玩笑。

如果你遵循了以上步骤,那么你必定会成功。不论你是否能真正完成这篇博士论文,但是你必定在某个方面有所收获。

顺便说一下,别忘记写你的答辩PPT……

2008年4月28日

zz HP大中华区总裁孙振耀退休十五天后九大感言

好长一段时间没有转载了,XF老大推荐的这篇非常不错,收藏起来经常读读。

Link: http://xin7.com/bbs/thread-11166-1-1.html

 

HP大中华区总裁孙振耀退休十五天后九大感言
一、关于工作与生活

我有个有趣的观察,外企公司多的是25-35岁的白领,40 岁以上的员工很少,二三十岁的外企员工是意气风发的,但外企公司40岁附近的经理人是很尴尬的。我见过的40岁附近的外企经理人大多在一直跳槽,最后大多跳到民企,比方说,唐骏。外企员工的成功很大程度上是公司的成功,并非个人的成功,西门子的确比国美大,但并不代表西门子中国经理比国美的老板强,甚至可以说差得很远。而进外企的人往往并不能很早理解这一点,把自己的成功90%归功于自己的能力,实际上,外企公司随便换个中国区总经理并不会给业绩带来什么了不起的影响。好了问题来了,当这些经理人40多岁了,他们的薪资要求变得很高,而他们的才能其实又不是那么出众,作为外企公司的老板,你会怎么选择?有的是只要不高薪水的,要出位的精明强干精力冲沛的年轻人,有的是,为什么还要用你?
从上面这个例子,其实可以看到我们的工作轨迹,二三十岁的时候,生活的压力还比较小,身体还比较好,上面的父母身体还好,下面又没有孩子,不用还房贷,也没有孩子要上大学,当个外企小白领还是很光鲜的,挣得不多也够花了。但是人终归要结婚生子,终归会老,到了40岁,父母老了,要看病要吃药,要有人看护,自己要还房贷,要过基本体面的生活,要养小孩……那个时候需要挣多少钱才够花才重要。所以,看待工作,眼光要放远一点,一时的谁高谁低并不能说明什么。
从这个角度上来说,我不太赞成过于关注第一份工作的薪水,更没有必要攀比第一份工作的薪水,这在刚刚出校园的学生中间是很常见的。正常人大概要工作 35年,这好比是一场马拉松比赛,和真正的马拉松比赛不同的是,这次比赛没有职业选手,每个人都只有一次机会。要知到,有很多人甚至坚持不到终点,大多数人最后是走到终点的,只有少数人是跑过终点的,因此在刚开始的时候,去抢领先的位置并没有太大的意义。刚进社会的时候如果进500强公司,大概能拿到3k -6k/月的工资,有些特别技术的人才可能可以到 8k/月,可问题是,5年以后拿多少?估计5k-10k了不起了。起点虽然高,但增幅有限,而且,后面的年轻人追赶的压力越来越大。
我前两天问我的一个销售,你会的这些东西一个新人2年就都学会了,但新人所要求的薪水却只是你的一半,到时候,你怎么办?
职业生涯就像一场体育比赛,有初赛、复赛、决赛。初赛的时候大家都刚刚进社会,大多数都是实力一般的人,这时候努力一点认真一点很快就能让人脱颖而出,于是有的人二十多岁做了经理,有的人迟些也终于赢得了初赛,三十多岁成了经理。然后是复赛,能参加复赛的都是赢得初赛的,每个人都有些能耐,在聪明才智上都不成问题,这个时候再想要胜出就不那么容易了,单靠一点点努力和认真还不够,要有很强的坚忍精神,要懂得靠团队的力量,要懂得收服人心,要有长远的眼光……
看上去赢得复赛并不容易,但,还不是那么难。因为这个世界的规律就是给人一点成功的同时让人骄傲自满,刚刚赢得初赛的人往往不知道自己赢得的仅仅是初赛,有了一点小小的成绩大多数人都会骄傲自满起来,认为自己已经懂得了全部,不需要再努力再学习了,他们会认为之所以不能再进一步已经不是自己的原因了。虽然他们仍然不好对付,但是他们没有耐性,没有容人的度量,更没有清晰长远的目光。就像一只愤怒的斗牛,虽然猛烈,最终是会败的,而赢得复赛的人则象斗牛士一样,不急不躁,跟随着自己的节拍,慢慢耗尽对手的耐心和体力。赢得了复赛以后,大约已经是一位很了不起的职业经理人了,当上了中小公司的总经理,大公司的副总经理,主管着每年几千万乃至几亿的生意。
最终的决赛来了,说实话我自己都还没有赢得决赛,因此对于决赛的决胜因素也只能凭自己的猜测而已,这个时候的输赢或许就像武侠小说里写得那样,大家都是高手,只能等待对方犯错了,要想轻易击败对手是不可能的,除了使上浑身解数,还需要一点运气和时间。世界的规律依然发挥着作用,赢得复赛的人已经不只是骄傲自满了,他们往往刚愎自用,听不进去别人的话,有些人的脾气变得暴躁,心情变得浮躁,身体变得糟糕,他们最大的敌人就是他们自己,在决赛中要做的只是不被自己击败,等着别人被自己击败。这和体育比赛是一样的,最后高手之间的比赛,就看谁失误少谁就赢得了决赛。

  二、 根源

你工作快乐么?你的工作好么?
有没有觉得干了一段时间以后工作很不开心?有没有觉得自己入错了行?有没有觉得自己没有得到应有的待遇?有没有觉得工作像一团乱麻每天上班都是一种痛苦?有没有很想换个工作?有没有觉得其实现在的公司并没有当初想象得那么好?有没有觉得这份工作是当初因为生存压力而找的,实在不适合自己?你从工作中得到你想要得到的了么?你每天开心么?
天涯上愤怒的人很多,你有没有想过,你为什么不快乐?你为什么愤怒?
其实,你不快乐的根源,是因为你不知道要什么!你不知道要什么,所以你不知道去追求什么,你不知道追求什么,所以你什么也得不到。
我总觉得,职业生涯首先要关注的是自己,自己想要什么?大多数人大概没想过这个问题,唯一的想法只是——我想要一份工作,我想要一份不错的薪水,我知道所有人对于薪水的渴望,可是,你想每隔几年重来一次找工作的过程么?你想每年都在这种对于工作和薪水的焦急不安中度过么?不想的话,就好好想清楚。饮鸩止渴,不能因为口渴就拼命喝毒药。越是焦急,越是觉得自己需要一份工作,越饥不择食,越想不清楚,越容易失败,你的经历越来越差,下一份工作的人看着你的简历就皱眉头。于是你越喝越渴,越渴越喝,陷入恶性循环。最终只能哀叹世事不公或者生不逢时,只能到天涯上来发泄一把,在失败者的共鸣当中寻求一点心理平衡罢了。大多数人都有生存压力,我也是,有生存压力就会有很多焦虑,积极的人会从焦虑中得到动力,而消极的人则会因为焦虑而迷失方向。所有人都必须在压力下做出选择,这就是世道,你喜欢也罢不喜欢也罢。
一般我们处理的事情分为重要的事情和紧急的事情,如果不做重要的事情就会常常去做紧急的事情。比如锻炼身体保持健康是重要的事情,而看病则是紧急的事情。如果不锻炼身体保持健康,就会常常为了病痛烦恼。又比如防火是重要的事情,而救火是紧急的事情,如果不注意防火,就要常常救火。找工作也是如此,想好自己究竟要什么是重要的事情,找工作是紧急的事情,如果不想好,就会常常要找工作。往往紧急的事情给人的压力比较大,迫使人们去赶紧做,相对来说重要的事情反而没有那么大的压力,大多数人做事情都是以压力为导向的,压力之下,总觉得非要先做紧急的事情,结果就是永远到处救火,永远没有停歇的时候。(很多人的工作也像是救火队一样忙碌痛苦,也是因为工作中没有做好重要的事情。)那些说自己活在水深火热为了生存顾不上那么多的朋友,今天找工作困难是当初你们没有做重要的事情,是结果不是原因。如果今天你们还是因为急于要找一份工作而不去思考,那么或许将来要继续承受痛苦找工作的结果。
我始终觉得我要说的话题,沉重了点,需要很多思考,远比唐笑打武警的话题来的枯燥乏味,但是,天下没有轻松的成功,成功,要付代价。请先忘记一切的生存压力,想想这辈子你最想要的是什么?所以,最要紧的事情,先想好自己想要什么。

三、什么是好工作

当初微软有个唐骏,很多大学里的年轻人觉得这才是他们向往的职业生涯,我在清华bbs里发的帖子被这些学子们所不屑,那个时候学生们只想出国或者去外企,不过如今看来,我还是对的,唐骏去了盛大,陈天桥创立的盛大,一家民营公司。一个高学历的海归在500强的公司里拿高薪水,这大约是很多年轻人的梦想,问题是,每年毕业的大学生都在做这个梦,好的职位却只有500个。
人都是要面子的,也是喜欢攀比的,即使在工作上也喜欢攀比,不管那是不是自己想要的。大家认为外企公司很好,可是好在哪里呢?好吧,他们在比较好的写字楼,这是你想要的么?他们出差住比较好的酒店,这是你想要的么?别人会羡慕一份外企公司的工作,这是你想要的么?那一切都是给别人看的,你干吗要活得那么辛苦给别人看?另一方面,他们薪水福利一般,并没有特别了不起,他们的晋升机会比较少,很难做到很高阶的主管,他们虽然厌恶常常加班,却不敢不加班,因为“你不干有得是人干”,大部分情况下会找个台湾人香港人新加坡人来管你,而这些人又往往有些莫名其妙的优越感。你想清楚了么?500强一定好么?找工作究竟是考虑你想要什么,还是考虑别人想看什么?
我的大学同学们大多数都到美国了,甚至毕业这么多年了,还有人最近到国外去了。出国真的有那么好么?我的大学同学们,大多数还是在博士、博士后、访问学者地挣扎着,至今只有一个正经在一个美国大学里拿到个正式的教职。国内的教授很难当么?我有几个表亲也去了国外了,他们的父母独自在国内,没有人照顾,有好几次人在家里昏倒都没人知道,出国,真的这么光彩么?就像有人说的“很多事情就像看A片,看的人觉得很爽,做的人未必。”
人总想找到那个最好的,可是,什么是最好的?你觉得是最好的那个,是因为你的确了解,还是因为别人说他是最好的?即使他对于别人是最好的,对于你也一定是最好的么?
对于自己想要什么,自己要最清楚,别人的意见并不是那么重要。很多人总是常常被别人的意见所影响,亲戚的意见,朋友的意见,同事的意见……问题是,你究竟是要过谁的一生?人的一生不是父母一生的续集,也不是儿女一生的前传,更不是朋友一生的外篇,只有你自己对自己的一生负责,别人无法也负不起这个责任。自己做的决定,至少到最后,自己没什么可后悔。对于大多数正常智力的人来说,所做的决定没有大的对错,无论怎么样的选择,都是可以尝试的。比如你没有考自己上的那个学校,没有入现在这个行业,这辈子就过不下去了?就会很失败?不见得。
我想,好工作,应该是适合你的工作,具体点说,应该是能给你带来你想要的东西的工作,你或许应该以此来衡量你的工作究竟好不好,而不是拿公司的大小,规模,外企还是国企,是不是有名,是不是上市公司来衡量。小公司,未必不是好公司,赚钱多的工作,也未必是好工作。你还是要先弄清楚你想要什么,如果你不清楚你想要什么,你就永远也不会找到好工作,因为你永远只看到你得不到的东西,你得到的,都是你不想要的。
可能,最好的,已经在你的身边,只是,你还没有学会珍惜。人们总是盯着得不到的东西,而忽视了那些已经得到的东西。

四、普通人

我发现中国人的励志和国外的励志存在非常大的不同,中国的励志比较鼓励人立下大志愿,卧薪尝胆,有朝一日成富成贵。而国外的励志比较鼓励人勇敢面对现实生活,面对普通人的困境,虽然结果也是成富成贵,但起点不一样,相对来说,我觉得后者在操作上更现实,而前者则需要用999个失败者来堆砌一个成功者的故事。
我们都是普通人,普通人的意思就是,概率这件事是很准的。因此,我们不会买彩票中500万,我们不会成为比尔盖茨或者李嘉诚,我们不会坐飞机掉下来,我们当中很少的人会创业成功,我们之中有30%的人会离婚,我们之中大部分人会活过65岁……
所以请你在想自己要什么的时候,要得“现实”一点,你说我想要做李嘉诚,抱歉,我帮不上你。成为比尔盖茨或者李嘉诚这种人,是靠命的,看我写的这篇文章绝对不会让你成为他们,即使你成为了他们,也绝对不是我这篇文章的功劳。“王侯将相宁有种乎”但真正当皇帝的只有一个人,王侯将相,人也不多。目标定得高些对于喜欢挑战的人来说有好处,但对于大多数普通人来说,反而比较容易灰心沮丧,很容易就放弃了。
回过头来说,李嘉诚比你有钱大致50万倍,他比你更快乐么?或许。有没有比你快乐50万倍,一定没有。他比你最多也就快乐一两倍,甚至有可能还不如你快乐。寻找自己想要的东西不是和别人比赛,比谁要得更多更高,比谁的目标更远大。虽然成为李嘉诚这个目标很宏大,但你并不见得会从这个目标以及追求目标的过程当中获得快乐,而且基本上你也做不到。你必须听听你内心的声音,寻找真正能够使你获得快乐的东西,那才是你想要的东西。
你想要的东西,或者我们把它称之为目标,目标其实并没有高低之分,你不需要因为自己的目标没有别人远大而不好意思,达到自己的目标其实就是成功,成功有大有小,快乐却是一样的。我们追逐成功,其实追逐的是成功带来的快乐,而非成功本身。职业生涯的道路上,我们常常会被攀比的心态蒙住眼睛,忘记了追求的究竟是什么,忘记了是什么能使我们更快乐。
社会上一夜暴富的新闻很多,这些消息,总会在我们的心里面掀起很多涟漪,涟漪多了就变成惊涛骇浪,心里的惊涛骇浪除了打翻承载你目标的小船,并不会使得你也一夜暴富。“只见贼吃肉,不见贼挨揍。”我们这些普通人既没有当贼的勇气,又缺乏当贼的狠辣绝决,虽然羡慕吃肉,却更害怕挨揍,偶尔看到几个没挨揍的贼就按奈不住,或者心思活动,或者大感不公,真要叫去做贼,却也不敢。
我还是过普通人的日子,要普通人的快乐,至少,晚上睡得着觉。
五、跳槽与积累

首先要说明,工作是一件需要理智的事情,所以不要在工作上耍个性,天涯上或许会有人觉得你很有个性而叫好,煤气公司电话公司不会因为觉得你很有个性而免了你的帐单。当你很帅地炒掉了你的老板,当你很酷地挖苦了一番招聘的HR,账单还是要照付,只是你赚钱的时间更少了,除了你自己,没人受损失。
我并不反对跳槽,但跳槽决不是解决问题的办法,而且频繁跳槽的后果是让人觉得没有忠诚度可言,而且不能安心工作。现在很多人从网上找工作,很多找工作的网站常常给人出些馊主意,要知道他们是盈利性企业,当然要从自身盈利的角度来考虑,大家越是频繁跳槽频繁找工作他们越是生意兴隆,所以鼓动人们跳槽是他们的工作。所以他们会常常告诉你,你拿的薪水少了,你享受的福利待遇差了,又是“薪情快报”又是“赞叹自由奔放的灵魂”。至于是否会因此让你不能安心,你跳了槽是否解决问题,是否更加开心,那个,他们管不着。
要跳槽肯定是有问题,一般来说问题发生了,躲是躲不开的,很多人跳槽是因为这样或者那样的不开心,如果这种不开心,在现在这个公司不能解决,那么在下一个公司多半也解决不掉。你必须相信,90%的情况下,你所在的公司并没有那么烂,你认为不错的公司也没有那么好。就像围城里说的,“城里的人拼命想冲出来,而城外的人拼命想冲进去。”每个公司都有每个公司的问题,没有问题的公司是不存在的。换个环境你都不知道会碰到什么问题,与其如此,不如就在当下把问题解决掉。很多问题当你真的想要去解决的时候,或许并没有那么难。有的时候你觉得问题无法解决,事实上,那只是“你觉得”。
人生的曲线应该是曲折向上的,偶尔会遇到低谷但大趋势总归是曲折向上的,而不是象脉冲波一样每每回到起点,我见过不少面试者,30多岁了,四五份工作经历,每次多则3年,少则1年,30多岁的时候回到起点从一个初级职位开始干起,拿基本初级的薪水,和20多岁的年轻人一起竞争,不觉得有点辛苦么?这种日子好过么?
我非常不赞成在一个行业超过3年以后换行业,基本上,35岁以前我们的生存资本靠打拼, 35岁以生存的资本靠的就是积累,这种积累包括人际关系,经验,人脉,口碑……如果常常更换行业,代表几年的积累付之东流,一切从头开始,如果换了两次行业,35岁的时候大概只有5年以下的积累,而一个没有换过行业的人至少有了10年的积累,谁会占优势?工作到2-3年的时候,很多人觉得工作不顺利,好像到了一个瓶颈,心情烦闷,就想辞职,乃至换一个行业,觉得这样所有一切烦恼都可以抛开,会好很多。其实这样做只是让你从头开始,到了时候还是会发生和原来行业一样的困难,熬过去就向上跨了一大步,要知道每个人都会经历这个过程,每个人的职业生涯中都会碰到几个瓶颈,你熬过去了而别人没有熬过去你就领先了。跑长跑的人会知道,开始的时候很轻松,但是很快会有第一次的难受,但过了这一段又能跑很长一段,接下来会碰到第二次的难受,坚持过了以后又能跑一段,如此往复,难受一次比一次厉害,直到坚持不下去了。大多数人第一次就坚持不了了,一些人能坚持到第二次,第三次虽然大家都坚持不住了,可是跑到这里的人也没几个了,这点资本足够你安稳活这一辈子了。
一份工作到两三年的时候,大部分人都会变成熟手,这个时候往往会陷入不断的重复,有很多人会觉得厌倦,有些人会觉得自己已经搞懂了一切,从而懒得去寻求进步了。很多时候的跳槽是因为觉得失去兴趣了,觉得自己已经完成比赛了。其实这个时候比赛才刚刚开始,工作两三年的人,无论是客户关系,人脉,手下,和领导的关系,在业内的名气……还都是远远不够的,但稍有成绩的人总是会自我感觉良好的,每个人都觉得自己跟客户关系铁得要命,觉得自己在业界的口碑好得很。其实可以肯定地说,一定不是,这个时候,还是要拿出前两年的干劲来,稳扎稳打,积累才刚刚开始。
你足够了解你的客户吗?你知道他最大的烦恼是什么吗?你足够了解你的老板么?你知道他最大的烦恼是什么吗?你足够了解你的手下么?你知道他最大的烦恼是什么吗?如果你不知道,你凭什么觉得自己已经积累够了?如果你都不了解,你怎么能让他们帮你的忙,做你想让他们做的事情?如果他们不做你想让他们做的事情,你又何来的成功?

六、等待

这是个浮躁的人们最不喜欢的话题,本来不想说这个话题,因为会引起太多的争论,而我又无意和人争论这些,但是考虑到对于职业生涯的长久规划,这是一个躲避不了的话题,还是决定写一写,不爱看的请离开吧。
并不是每次穿红灯都会被汽车撞,并不是每个罪犯都会被抓到,并不是每个错误都会被惩罚,并不是每个贪官都会被枪毙,并不是你的每一份努力都会得到回报,并不是你的每一次坚持都会有人看到,并不是你每一点付出都能得到公正的回报,并不是你的每一个善意都能被理解……这个,就是世道。好吧,世道不够好,可是,你有推翻世道的勇气么?如果没有,你有更好的解决办法么?有很多时候,人需要一点耐心,一点信心。每个人总会轮到几次不公平的事情,而通常,安心等待是最好的办法。
有很多时候我们需要等待,需要耐得住寂寞,等待属于你的那一刻。周润发等待过,刘德华等待过,周星驰等待过,王菲等待过,张艺谋也等待过……看到了他们如今的功成名就的人,你可曾看到当初他们的等待和耐心?你可曾看到金马奖影帝在街边摆地摊?你可曾看到德云社一群人在剧场里给一位观众说相声?你可曾看到周星驰的角色甚至连一句台词都没有?每一个成功者都有一段低沉苦闷的日子,我几乎能想象得出来他们借酒浇愁的样子,我也能想象得出他们为了生存而挣扎的窘迫。在他们一生最中灿烂美好的日子里,他们渴望成功,但却两手空空,一如现在的你。没有人保证他们将来一定会成功,而他们的选择是耐住寂寞。如果当时的他们总念叨着“成功只是属于特权阶级的”,你觉得他们今天会怎样?
曾经我也不明白有些人为什么并不比我有能力却要坐在我的头上,年纪比我大就一定要当我的领导么?为什么有些烂人不需要努力就能赚钱?为什么刚刚改革开放的时候的人能那么容易赚钱,而轮到我们的时候,什么事情都要正规化了?有一天我突然想,我还在上学的时候他们就在社会里挣扎奋斗了,他们在社会上奋斗积累了十几二十年,我们新人来了,他们有的我都想要,我这不是在要公平,我这是在要抢劫。因为我要得太急,因为我忍不住寂寞。二十多岁的男人,没有钱,没有事业,却有蓬勃的欲望。
人总是会遇到挫折的,人总是会有低潮的,人总是会有不被人理解的时候的,人总是有要低声下气的时候,这些时候恰恰是人生最关键的时候,因为大家都会碰到挫折,而大多数人过不了这个门槛,你能过,你就成功了。在这样的时刻,我们需要耐心等待,满怀信心地去等待,相信,生活不会放弃你,机会总会来的。至少,你还年轻,你没有坐牢,没有生治不了的病,没有欠还不起的债。比你不幸的人远远多过比你幸运的人,你还怕什么?路要一步步走,虽然到达终点的那一步很激动人心,但大部分的脚步是平凡甚至枯燥的,但没有这些脚步,或者耐不住这些平凡枯燥,你终归是无法迎来最后的那些激动人心。
逆境,是上帝帮你淘汰竞争者的地方。要知道,你不好受,别人也不好受,你坚持不下去了,别人也一样,千万不要告诉别人你坚持不住了,那只能让别人获得坚持的信心,让竞争者看着你微笑的面孔,失去信心,退出比赛。胜利属于那些有耐心的人。
在最绝望的时候,我会去看电影《The Pursuit of Happyness》《JerryMaguire》,让自己重新鼓起勇气,因为,无论什么时候,我们总还是有希望。当所有的人离开的时候,我不失去希望,我不放弃。每天下班坐在车里,我喜欢哼着《隐形的翅膀》看着窗外,我知道,我在静静等待,等待属于我的那一刻。
原贴里伊吉网友的话我很喜欢,抄录在这里:
每个人都希望,自己是独一无二的特殊者
含着金匙出生、投胎到好家庭、工作安排到电力局拿1w月薪这样的小概率事件,当然最好轮到自己
红军长征两万五、打成右派反革命、胼手胝足牺牲尊严去奋斗,最好留给祖辈父辈和别人
自然,不是每个吃过苦的人都会得到回报
但是,任何时代,每一个既得利益者身后,都有他的祖辈父辈奋斗挣扎乃至流血付出生命的身影
羡慕别人有个好爸爸,没什么不可以
问题是,你的下一代,会有一个好爸爸吗?
至于问到为什么不能有同样的赢面概率?我只能问:为什么物种竞争中,人和猴子不能有同样的赢面概率?
物竞天择。猴子的灵魂不一定比你卑微,但你身后有几十万年的类人猿进化积淀。

七、入对行跟对人

在中国,大概很少有人是一份职业做到底的,虽然如此,第一份工作还是有些需要注意的地方,有两件事情格外重要,第一件是入行,第二件事情是跟人。第一份工作对人最大的影响就是入行,现代的职业分工已经很细,我们基本上只能在一个行业里成为专家,不可能在多个行业里成为专家。很多案例也证明即使一个人在一个行业非常成功,到另外一个行业,往往完全不是那么回事情,“你想改变世界,还是想卖一辈子汽水?”是乔布斯邀请百事可乐总裁约翰·斯考利加盟苹果时所说的话,结果这位在百事非常成功的约翰,到了苹果表现平平。其实没有哪个行业特别好,也没有哪个行业特别差,或许有报道说哪个行业的平均薪资比较高,但是他们没说的是,那个行业的平均压力也比较大。看上去很美的行业一旦进入才发现很多地方其实并不那么完美,只是外人看不见。
说实话,我自己都没有发大财,所以我的建议只是让人快乐工作的建议,不是如何发大财的建议,我们只讨论一般普通打工者的情况。我认为选择什么行业并没有太大关系,看问题不能只看眼前。比如,从前年开始,国家开始整顿医疗行业,很多医药公司开不下去,很多医药行业的销售开始转行。其实医药行业的不景气是针对所有公司的,并非针对一家公司,大家的日子都不好过,这个时候跑掉是非常不划算的,大多数正规的医药公司即使不做新生意撑个两三年总是能撑的,大多数医药销售靠工资撑个两三年也是可以撑的,国家不可能永远捏着医药行业不放的,两三年以后光景总归还会好起来的,那个时候别人都跑了而你没跑,那时的日子应该会好过很多。有的时候觉得自己这个行业不行了,问题是,再不行的行业,做得人少了也变成了好行业,当大家都觉得不好的时候,往往却是最好的时候。大家都觉得金融行业好,金融行业门槛高不说,有多少人削尖脑袋要钻进去,竞争激励,进去以后还要时时提防,一个疏忽,就被后来的人给挤掉了,压力巨大,又如何谈得上快乐?也就未必是 “好”工作了。
太阳能这个东西至今还不能进入实际应用的阶段,但是中国已经有7家和太阳能有关的公司在纽交所上市了,国美苏宁永乐其实是贸易型企业,也能上市,鲁泰纺织连续10年利润增长超过50%,卖茶的一茶一座,卖衣服的海澜之家都能上市……其实选什么行业真的不重要,关键是怎么做。事情都是人做出来的,关键是人。
有一点是需要记住的,这个世界上,有史以来直到我们能够预见得到的未来,成功的人总是少数,有钱的人总是少数,大多数人是一般的,普通的,不太成功的。因此,大多数人的做法和看法,往往都不是距离成功最近的做法和看法。因此大多数人说好的东西不见得好,大多数人说不好的东西不见得不好。大多数人都去炒股的时候说明跌只是时间问题,大家越是热情高涨的时候,跌的日子越近。大多数人买房子的时候,房价不会涨,而房价涨的差不多的时候,大多数人才开始买房子。不会有这样一件事情让大家都变成功,发了财,历史上不曾有过,将来也不会发生。有些东西即使一时运气好得到了,还是会在别的时候别的地方失去的。
年轻人在职业生涯的刚开始,尤其要注意的是,要做对的事情,不要让自己今后几十年的人生总是提心吊胆,更不值得为了一份工作赔上自己的青春年华。我的公司是个不行贿的公司,以前很多人不理解,甚至自己的员工也不理解,不过如今,我们是同行中最大的企业,客户乐意和我们打交道,尤其是在国家打击腐败的时候,每个人都知道我们做生意不给钱的名声,都敢于和我们做生意。而勇于给钱的公司,不是倒了,就是跑了,要不就是每天睡不好觉,人还是要看长远一点。很多时候,看起来最近的路,其实是最远的路,看起来最远的路,其实是最近的路。
跟对人是说,入行后要跟个好领导好老师,刚进社会的人做事情往往没有经验,需要有人言传身教。对于一个人的发展来说,一个好领导是非常重要的。所谓“好”的标准,不是他让你少干活多拿钱,而是以下三个。
首先,好领导要有宽广的心胸,如果一个领导每天都会发脾气,那几乎可以肯定他不是个心胸宽广的人,能发脾气的时候却不发脾气的领导,多半是非常厉害的领导。中国人当领导最大的毛病是容忍不了能力比自己强的人,所以常常可以看到的一个现象是,领导很有能力,手下一群庸才或者手下一群闲人。如果看到这样的环境,还是不要去的好。
其次,领导要愿意从下属的角度来思考问题,这一点其实是从面试的时候就能发现的,如果这位领导总是从自己的角度来考虑问题,几乎不听你说什么,这就危险了。从下属的角度来考虑问题并不代表同意下属的说法,但他必须了解下属的立场,下属为什么要这么想,然后他才有办法说服你,只关心自己怎么想的领导往往难以获得下属的信服。
第三,领导敢于承担责任,如果出了问题就把责任往下推,有了功劳就往自己身上揽,这样的领导不跟也罢。选择领导,要选择关键时刻能抗得住的领导,能够为下属的错误买单的领导,因为这是他作为领导的责任。
有可能,你碰不到好领导,因为,中国的领导往往是屁股决定脑袋的领导,因为他坐领导的位置,所以他的话就比较有道理,这是传统观念官本位的误区,可能有大量的这种无知无能的领导,只是,这对于你其实是好事,如果将来有一天你要超过他,你希望他比较聪明还是比较笨?相对来说这样的领导其实不难搞定,只是你要把自己的身段放下来而已。多认识一些人,多和比自己强的人打交道,同样能找到好的老师,不要和一群同样郁闷的人一起控诉社会,控诉老板,这帮不上你,只会让你更消极。和那些比你强的人打交道,看他们是怎么想的,怎么做的,学习他们,然后跟更强的人打交道。

八、选择

我们每天做的最多的事情,其实是选择,因此在谈职业生涯的时候不得不提到这个话题。
我始终认为,在很大的范围内,我们究竟会成为一个什么样的人,决定权在我们自己,每天我们都在做各种各样的选择,我可以不去写这篇文章,去别人的帖子拍拍砖头,也可以写下这些文字,帮助别人的同时也整理自己的思路,我可以多注意下格式让别人易于阅读,也可以写成一堆,我可以就这样发上来,也可以在发以前再看几遍,你可以选择不刮胡子就去面试,也可以选择出门前照照镜子……每天,每一刻我们都在做这样那样的决定,我们可以漫不经心,也可以多花些心思,成千上万的小选择累计起来,就决定了最终我们是个什么样的人。
从某种意义上来说我们的未来不是别人给的,是我们自己选择的,很多人会说我命苦啊,没得选择阿,如果你认为“去微软还是去IBM”“上清华还是上北大”“当销售副总还是当厂长”这种才叫选择的话,的确你没有什么选择,大多数人都没有什么选择。但每天你都可以选择是否为客户服务更周到一些,是否对同事更耐心一些,是否把工作做得更细致一些,是否把情况了解得更清楚一些,是否把不清楚的问题再弄清楚一些……你也可以选择在是否在痛苦中继续坚持,是否抛弃掉自己的那些负面的想法,是否原谅一个人的错误,是否相信我在这里写下的这些话,是否不要再犯同样的错误……生活每天都在给你选择的机会,每天都在给你改变自己人生的机会,你可以选择赖在地上撒泼打滚,也可以选择咬牙站起来。你永远都有选择。有些选择不是立杆见影的,需要累积,比如农民可以选择自己常常去浇地,也可以选择让老天去浇地,诚然你今天浇水下去苗不见得今天马上就长出来,但常常浇水,大部分苗终究会长出来的,如果你不浇,收成一定很糟糕。
每天生活都在给你机会,他不会给你一叠现金也不会拱手送你个好工作,但实际上,他还是在给你机会。我的家庭是一个普通的家庭,没有任何了不起的社会关系,我的父亲在大学毕业以后就被分配到了边疆,那个小县城只有一条马路,他们那一代人其实比我们更有理由抱怨,他们什么也没得到,年轻的时候文化大革命,书都没得读,支援边疆插队落户,等到老了,却要给年轻人机会了。他有足够的理由象成千上万那样的青年一样坐在那里抱怨生不逢时,怨气冲天。然而在分配到边疆的十年之后,国家恢复招研究生,他考回了原来的学校。研究生毕业,他被分配到了安徽一家小单位里,又是3年以后,国家第一届招收博士生,他又考回了原来的学校,成为中国第一代博士,那时的他比现在的我年纪还大。生活并没有放弃他,他也没有放弃生活。10年的等待,他做了他自己的选择,他没有放弃,他没有破罐子破摔,所以时机到来的时候,他改变了自己的人生。你最终会成为什么样的人,就决定在你的每个小小的选择之间。
你选择相信什么?你选择和谁交朋友?你选择做什么?你选择怎么做?……我们面临太多的选择,而这些选择当中,意识形态层面的选择又远比客观条件的选择来得重要得多,比如选择做什么产品其实并不那么重要,而选择怎么做才重要。选择用什么人并不重要,而选择怎么带这些人才重要。大多数时候选择客观条件并不要紧,大多数关于客观条件的选择并没有对错之分,要紧的是选择怎么做。一个大学生毕业了,他要去微软也好,他要卖猪肉也好,他要创业也好,他要做游戏代练也好,只要不犯法,不害人,都没有什么关系,要紧的是,选择了以后,怎么把事情做好。
除了这些,你还可以选择时间和环境,比如,你可以选择把这辈子最大的困难放在最有体力最有精力的时候,也可以走一步看一步,等到了40岁再说,只是到了40多岁,那正是一辈子最脆弱的时候,上有老下有小,如果在那个时候碰上了职业危机,实在是一件很苦恼的事情。与其如此不如在20多岁30多岁的时候吃点苦,好让自己脆弱的时候活得从容一些。你可以选择在温室里成长,也可以选择到野外磨砺,你可以选择在办公室吹冷气的工作,也可以选择40度的酷热下,去见你的客户,只是,这一切最终会累积起来,引导你到你应得的未来。
我不敢说所有的事情你都有得选择,但是绝大部分事情你有选择,只是往往你不把这当作一种选择。认真对待每一次选择,才会有比较好的未来。

九、选择职业

职业的选择,总的来说,无非就是销售、市场、客服、物流、行政、人事、财务、技术、管理几个大类,有个有趣的现象就是,500强的CEO当中最多的是销售出身,第二多的人是财务出身,这两者加起来大概超过95%。现代IT行业也有技术出身成为老板的,但实际上,后来他们还是从事了很多销售和市场的工作,并且表现出色,公司才获得了成功,完全靠技术能力成为公司老板的,几乎没有。这是有原因的,因为销售就是一门跟人打交道的学问,而管理其实也是跟人打交道的学问,这两者之中有很多相通的东西,他们的共同目标就是“让别人去做某件特定的事情。”而财务则是从数字的层面了解生意的本质,从宏观上看待生意的本质,对于一个生意是否挣钱,是否可以正常运作有着最深刻的认识。
公司小的时候是销售主导公司,而公司大的时候是财务主导公司,销售的局限性在于只看人情不看数字,财务的局限性在于只看数字不看人情。公司初期,运营成本低,有订单就活得下去,跟客户也没有什么谈判的条件,别人肯给生意做已经谢天谢地了,这个时候订单压倒一切,客户的要求压倒一切,所以当然要顾人情。公司大了以后,一切都要规范化,免得因为不规范引起一些不必要的风险,同时运营成本也变高,必须提高利润率,把有限的资金放到最有产出的地方。对于上市公司来说,股东才不管你客户是不是最近出国,最近是不是那个省又在搞严打,到了时候就要把业绩拿出来,拿不出来就抛股票,这个时候就是数字压倒一切。
前两天听到有人说一句话觉得很有道理,开始的时候我们想“能做什么?”,等到公司做大了有规模了,我们想“不能做什么。”很多人在工作中觉得为什么领导这么保守,这也不行那也不行,错过很多机会。很多时候是因为,你还年轻,你想的是“能做什么”,而作为公司领导要考虑的方面很多,他比较关心“不能做什么”。
我并非鼓吹大家都去做销售或者财务,究竟选择什么样的职业,和你究竟要选择什么样的人生有关系,有些人就喜欢下班按时回家,看看书听听音乐,那也挺好,但就不适合找个销售的工作了,否则会是折磨自己。有些人就喜欢出风头,喜欢成为一群人的中心,如果选择做财务工作,大概也干不久,因为一般老板不喜欢财务太积极,也不喜欢财务话太多。先想好自己要过怎样的人生,再决定要找什么样的职业。有很多的不快乐,其实是源自不满足,而不满足,很多时候是源自于心不定,而心不定则是因为不清楚究竟自己要什么,不清楚要什么的结果就是什么都想要,结果什么都没得到。
我想,我们还是因为生活而工作,不是因为工作而生活,生活是最要紧的,工作只是生活中的一部分。我总是觉得生活的各方方面都是相互影响的,如果生活本身一团乱麻,工作也不会顺利。所以要有娱乐、要有社交、要锻炼身体,要有和睦的家庭……最要紧的,要开心,我的两个销售找我聊天,一肚子苦水,我问他们, 2年以前,你什么都没有,工资不高,没有客户关系,没有业绩,处于被开的边缘,现在的你比那时条件好了很多,为什么现在却更加不开心了?如果你做得越好越不开心,那你为什么还要工作?首先的首先,人还是要让自己高兴起来,让自己心态好起来,这种发自内心的改变会让你更有耐心,更有信心,更有气质,更能包容……否则,看看镜子里的你,你满意么?
有人会说,你说得容易,我每天加班,不加班老板就会把我炒掉,每天累得要死,哪有时间娱乐、社交、锻炼?那是人们把目标设定太高的缘故,如果你还在动不动就会被老板炒掉的边缘,那么你当然不能设立太高的目标,难道你还想每天去打高尔夫?你没时间去健身房锻炼身体,但是上下班的时候多走几步可以吧,有楼梯的时候走走楼梯不走电梯可以吧?办公的间隙扭扭脖子拉拉肩膀做做俯卧撑可以吧?谁规定锻炼就一定要拿出每天2个小时去健身房?你没时间社交,每月参加郊游一次可以吧,周末去参加个什么音乐班,绘画班之类的可以吧,去尝试认识一些同行,和他们找机会交流交流可以吧?开始的时候总是有些难的,但迈出这一步就会向良性循环的方向发展。而每天工作得很苦闷,剩下的时间用来咀嚼苦闷,只会陷入恶性循环,让生活更加糟糕。
        虽然离开惠普仅有十五天,但感觉上惠普已经离我很远。我的心思更多放在规划自己第二阶段的人生,这并非代表我对惠普没有任何眷恋,主要还是想以此驱动自己往前走。
万科王石登珠穆朗玛峰的体验给我很多启发,虽然在出发时携带大量的物资,但是登顶的过程中,必须不断减轻负荷,最终只有一个氧气瓶和他登上峰顶。登山如此,漫长的人生又何尝不是。
我宣布退休后,接到同事朋友同学的祝贺。大部分人都认为我能够在这样的职位上及年龄选择退休,是一种勇气,也是一种福气。        
还有一部分人怀疑我只是借此机会换个工作,当然还有一些人说我在HP做不下去了,趁此机会离开。
我多年来已经习惯别人对我的说三道四,但对于好友,我还是挺关心大家是否真正理解我的想法,这也是写这篇文章的目的。
由于受我父亲早逝的影响,我很早就下定决心,要在有生之年实现自己的愿望,我不要像我父亲一样,为家庭生活忙碌一辈子,临终前感伤,懊恼自己有很多没有实现的理想。
一本杂志的文章提到我们在生前就应该思考自己的墓志铭,因为那代表你自己对完美人生的定义,我们应该尽可能在有生之年去实现它。
我希望我的墓志铭上除了与家人及好友有关的内容外,是这样写着:
1.这个人曾经服务于一家全球最大的IT公司(HP)25年,和她一起经历过数次重大的变革,看着她从以电子仪表为主要的业务变革成全球最大的IT公司。
2.这个人曾经在全球发展最快的国家(中国)工作16年,并担任HP中国区总裁7年,见证及经历过中国改革开放的关键最新突破阶段,与中国一起成长。
3.这个人热爱飞行,曾经是一个有执照的飞行员,累积飞行时数超过X小时,曾经在X个机场起降过。
4.这个人曾经获得管理硕士学位,在领导管理上特别关注中国企业的组织行为及绩效,并且在这个领域上获得中国企业界的认可。
我费时25年才总结1和2两项成果,我不知还要费时多久才能达成3和4的愿望,特别是第4个愿望需要经历学术的训练,才能将我的经验总结成知识。
否则我的经验将无法有效影响及传授他人。因此重新进入学校学习,拿一个管理学位是有必要的,更何况这是我一个非常重要的愿望。
另一方面,我25年的时间都花在运营(operation)的领域,兢兢业业的做好职业人士的工作,它是一份好工作,特别是在HP,这份工作也帮助我建立财务的基础,支持家庭的发展。
但是我不想终其一生,都陷入在运营的领域,我想象企业家一样,有机会靠一些点子(ideas)赚钱,虽然风险很高,但是值得一试,即使失败,也不枉走一回,这也是第4个愿望其中的一部份。
Carly Fiorina曾经对我说过“这个世界上有好想法的人很多,但有能力去实现的人很少”,2007年5月21日在北大演讲时,有人问起那些书对我影响较大,我想对我人生观有影响的其中一本书叫“TriggerPoint”,它的主要观点是:人生最需要的不是规划,而是在适当的时机掌握机会,采取行动。
我这些愿望在我心中已经酝酿一段很长的时间,开始的时候,也许一年想个一两次,过了也就忘掉,但逐渐的,这个心中的声音,愈来愈大,出现的频率也愈来愈高,当它几乎每一个星期都会来与我对话时,我知道时机已经成熟。
但和任何人一样,要丢掉自己现在所拥有的,所熟悉的环境及稳定的收入,转到一条自己未曾经历过,存在未知风险的道路,需要绝大的勇气,家人的支持和好友的鼓励。有舍才有得,真是知易行难,我很高兴自己终于跨出了第一步。
我要感谢HP的EER提前退休优惠政策,它是其中一个关键的TriggerPoints,另一个关键因素是在去年五六月发生的事。
当时我家老大从大学毕业,老二从高中毕业,在他们继续工作及求学前,这是一个黄金时段,让我们全家可以相聚一段较长的时间,我为此很早就计划休一个长假,带着他们到各地游玩。
但这个计划因为工作上一件重要的事情(Mark Hurd访华)不得不取消。这个事件刺激了我必须严肃的去对待那心中的声音,我会不会继续不断的错失很多关键的机会?
我已经年过50,我会不会走向和我父亲一样的道路?人事部老总Charles跟我说,很多人在所有对他有利的星星都排成一列时,还是错失时机。
我知道原因,因为割舍及改变对人是多么的困难,我相信大部分的人都有自己人生的理想,但我也相信很多人最终只是把这些理想当成是
幻想,然后不断的为自己寻找不能实现的藉口,南非前总统曼德拉曾经说过,“与改变世界相比,改变自己更困难”,真是一针见血。
什么是快乐及有意义的人生?我相信每一个人的定义都不一样,对我来说,能实现我墓志铭上的内容就是我的定义。
在中国惠普总裁的位置上固然可以吸引很多的关注及眼球,但是我太太及较亲近的好友,都知道那不是我追求的,那只是为扮演好这个角色必须尽力做好的地方。
做一个没有名片的人士,虽然只有十多天的时间,但我发现我的脑袋里已经空出很多空间及能量,让我可以静心的为我ChapterII的新生活做细致的调研及规划。
我预订以两年的时间来完成转轨的准备工作,并且花多点时间与家人共处。这两年的时间我希望拿到飞行执照,拿到管理有关的硕士学位,提升英文的水平,建立新的网络,多认识不同行业的人,保持与大陆的联系。希望两年后,我可以顺利回到大陆去实现我第四个愿望。
毫不意外,在生活上,我发现很多需要调整的地方。
二十多年来,我生活的步调及节奏,几乎完全被公司及工作所左右,不断涌出的deadline及任务驱动我每天的安排,一旦离开这样的环境,第一个需要调整的就是要依靠自己的自律及意志力来驱动每天的活动,睡觉睡到自然醒的态度绝对不正确,放松自己,不给事情设定目标及时间表,或者对错失时间目标无所谓,也不正确,没有年度,季度,月及周计划也不正确。
担任高层经理多年,已经养成交待事情的习惯,自己的时间主要花在思考,决策及追踪项目的进展情况,更多是依靠一个庞大的团队来执行具体的事项及秘书来处理很多协调及繁琐的事情。
到美国后,很多事情需要打800号电话联系,但这些电话很忙,常让你在waitingline上等待很长的时间,当我在等待时,我可以体会以前秘书工作辛苦的地方,但同时也提醒我自己,在这个阶段要改变态度,培养更大的耐性及自己动手做的能力。
生活的内容也要做出很大的调整,多出时间锻炼身体,多出时间关注家人,多出时间关注朋友,多出时间体验不同的休闲活动及飞行,一步步的,希望生活逐步调整到我所期望的轨道上,期待这两年的生活既充实又充满乐趣及意义。
第一个快乐的体验就是准备及参加大儿子的订婚礼,那种全心投入,不需担忧工作数字的感觉真好。同时我也租好了公寓,买好了家具及车子,陪家人在周末的时候到Reno及Lake Tahoe玩了一趟,LakeTahoe我去了多次,但这次的体验有所不同,我从心里欣赏到它的美丽。
但同时我也在加紧调研的工作,为申请大学及飞行学校做准备,这段时间也和在硅谷的朋友及一些风险投资公司见面,了解不同的产业。
我的人生观是“完美的演出来自充分的准备”,“勇于改变自己,适应不断变化的环境,机会将不断出现”,“快乐及有意义的人生来自于实现自己心中的愿望,而非外在的掌声”。
我离开时,有两位好朋友送给我两个不同的祝语,Baron的是“多年功过化烟尘”,杨华的是“莫春者,风乎舞雩,咏而归”,它们分别代表了我离开惠普及走向未来的心情。
我总结人生有三个阶段,一个阶段是为现实找一份工作,一个阶段是为现实,但可以选择一份自己愿意投入的工作,一个阶段是为理想去做一些事情。
我珍惜我的福气,感激HP及同事、好朋友给我的支持,鼓励及协助,这篇文字化我心声的文章与好友分享。