2005年10月31日

世界勤俭日

看到自己的blog今天的节日提醒一栏是“世界勤俭日”。几个红字映入眼帘时,我感到一惊。因为来到北京之后很多以前的朋友看到我时都说我变胖了一些。我自己确实也感觉到了这一点。本来希格玛B1的饮食就已经有点营养过剩了,我们一大帮VS还经常在附近的小店里盘旋,不过也没有办法,谁让B1的价格和附近饭店的价格差不多而且B1的食物时间长了会让人有想换换口味的想法。在我们的日常生活中最便宜的就餐方式还是到北航的学生食堂里去,那里吃饭的时候能够感到在像是在咱们学校那样,便宜而且非常可口还能经常换换。我们也有一断时间在北航吃饭的。

我想之所以有人设立这个节日,目的还是为了提醒人们要注意勤俭吧。
转载一篇:

  选自人民教育出版社《中华传统美德格言》


  勤俭
  
  勤俭就是勤劳节俭,包括努力工作和节约用度两个重要方面。我国自古就以勤俭作为修身治家治国的美德,《尚书》说:“惟日孜孜,无敢逸豫。”《左传》引古语说:“民生在勤,勤则不匮。”《周易》提出“俭德辟难”之说,《墨子》有“俭节则昌,淫佚则亡”之论。古人认为能否做到勤俭,是关系到生存败亡的大事,不可轻忽。在现代社会,经济增长和物质消费的观念已经发生很大的变化,但勤俭作为一种美德,作为一种工作态度、生活作风或治国方针,还是要大力提倡的。

  君子以俭德辟难。
  【出处】《周易·否》。
  【大意】君子用俭朴的德行来避免危难。
  【提示】《周易》含有朴素的辩证思想,有许多地方阐述事物变化的道理。这句话就有辩证的思想。一方面,阐明俭朴的德行有助于防患于未然,防止奢靡腐化等行为;另一方面,在面临危难的时候,特别是在面临物质匮乏的困难时,具备俭朴的德行有助于克服危难。《周易》的作者认为,天地万物都有顺与不顺、通与不通之时,不顺不通,就要修身养德,不能过分彰显自己,以渡过难关。

  克勤于邦,克俭于家。
  【出处】《尚书·大禹谟》。
  【大意】在国家事业上要勤劳,在家庭生活上要节俭。
  【提示】克勤克俭,是我国人民的传统美德。传说中的古代圣贤都是这样做的,他们对于国家大事尽心尽力。大禹勤劳于治水大业,数过家门而不入。尧特别关心群众,认为别人挨饿受冻,是自己的工作没有做到家,是自己的过错。古代圣贤的生活却十分节俭,经常穿着粗布衣裳,吃粗米饭,喝野菜汤。由于尧、舜、禹在事业和生活上克勤克俭,所以赢得了百姓的拥戴。

  俭,德之共也;侈,恶之大也。
  【出处】《左传·庄公二十四年》。
  【大意】节俭,是善行中的大德;奢侈,是邪恶中的大恶。
  【提示】鲁庄公命人在庙堂的柱子上涂红漆,在椽子上雕花纹,这都是奢侈而不合礼法的事情。大夫御孙劝谏他时,说了这句话,并指出这样做实际上是在先人的“大德”中注入了“大恶”,不但不能取悦先人,反而是辱没了他们。可见,古人是从礼的规范和德的大小的高度来看待节俭,而把奢侈浪费看做一种恶行。在物质极大丰富的今天,戒奢以俭,不靡费财物,仍是值得我们崇尚的美德。

  民生在勤,勤则不匮。
  【出处】《左传·宣公十二年》。
  【大意】老百姓的生计在于辛勤劳作,只有勤于劳作,财物才不会匮乏。
  【提示】这是一句古老的格言。古人明白,只要老百姓辛勤劳动,社会安定,百姓和国家都会随之富足起来。我们现在仍应保持以勤为本的美德,在各自的岗位上辛勤劳动,这样,国家才会更加富强,人民生活才会更加富裕。

  俭节则昌,淫佚则亡。
  【出处】《墨子·辞过》。
  【大意】节俭就会昌盛,淫佚享乐就会败亡。
  【提示】在先秦诸子之中,墨子以乐于过类似苦行僧的生活而闻名。他痛恨统治者的骄奢淫逸、靡费财物,提倡节俭。他到处宣扬自己的观点,吸引了大批人做他的弟子,在先秦诸子中独树一帜。
  锄禾日当午,汗滴禾下土。

  谁知盘中餐,粒粒皆辛苦。
  【出处】李绅《悯农》。
  【大意】农夫在中午的炎炎烈日下锄禾,滴滴汗珠掉在生长禾苗的土中。又有谁知道盘中的饭食,每一粒都是这样辛苦得来。
  【提示】这首诗语言浅显而内涵深邃。有一个故事说,一个财主的儿子不知道稼穑之艰难,常到一个饭馆里吃饺子,但把饺子皮全吐掉,只吃肉馅。后来家里遭遇火灾,丽楼美阁一夕之间夷为平地,他成了乞丐,要饭要到这个饭馆,老板以饺子皮招待他,他深为感动。老板说,不用谢,这都是你当初扔掉的皮,我拣起晒干了而已。财主的儿子很惭愧,后来勤奋劳动,生活节俭,家道重又殷富起来。这个故事,也印证了“谁知盘中餐,粒粒皆辛苦”的道理。

  历览前贤国与家,成由勤俭破由奢。
  【出处】李商隐《咏史》。
  【大意】纵观历史,大到邦国,小到家庭,无不是兴于勤俭,亡于奢靡。
  【提示】古往今来,成功的创业者大都经过艰苦奋斗的阶段,所以比较注意勤俭节约。但是对守业者来说则正好相反,他们没有经历过创业的艰辛,容易贪图奢侈享乐,最终的命运必然是事业的衰败,国家的灭亡。这是几千年的历史所昭示的真理。

  忧劳可以兴国,逸豫可以亡身。
  【出处】《新五代史·伶官传序》。
  【大意】忧虑操劳国事可以使国家兴盛发达,追求安逸享乐可以招致自己的灭亡。
  【提示】五代时的后唐庄宗李存勖,一开始励精图治,奋发有为,击败各个敌手称帝。但他后来沉湎于音乐戏曲,宠爱伶人,不思进取,部下作乱,伶人发难,在位三年就死于兵乱之中。欧阳修在撰写《伶官传》时,有感于这段历史,阐发了“忧劳可以兴国,逸豫可以亡身”的道理。中国文化有着很强的忧患意识,特别是在国家动荡、民不聊生时更是如此。孔子说“人无远虑,必有近忧”,孟子讲“生于忧患而死于安乐”,就是分别从个人与国家的角度强调了保持忧患意识的重要性。魏征即使在大唐盛世,也规劝皇帝“居安思危,戒奢以俭”,以实现长治久安。

  由俭入奢易,由奢入俭难。
  【出处】司马光《训俭示康》。
  【大意】从节俭变得奢侈容易,从奢侈转到节俭则很困难。
  【提示】这是司马光引述他人的话,用来训诫子孙。它强调要自觉保持俭朴,防止奢侈,含有自勉、警世之意。人都想过好日子,这本无可厚非。但是过于奢华是不可取的,而且这种追求是永无止境的。商纣王用了双象牙筷子,他的臣子就要逃走,原因是看到了纣王的贪欲一发,将不可遏止。所以,坚持节俭要有自律的能力。

  取之有度,用之有节,则常足。
  【出处】《资治通鉴》卷二百三十四。
  【大意】有计划地索取,有节制地消费,就会常保富足。
  【提示】这是唐朝的陆贽给皇帝上书中的话,旨在强调节俭的意义。大至一国,小至一家,量入为出都是重要的理财原则。推而广之,资源和财物总是有限的,不能肆意挥霍。只有“取之有度,用之有节”,才有可能持续发展。

  惟俭可以助廉,惟恕可以成德。
  【出处】《宋史·范纯仁列传》。
  【大意】只有节俭可以使人廉洁奉公,只有宽容可以使人养成好的品德。
  【提示】“俭”和“恕”是中国古代政治家常用的两个概念。因为古代社会生产力不发达,粮食产量低,几年的丰收才有一年的积蓄,所以特别要节俭。对于官员而言,贪污受贿,不廉洁,往往是因为贪得无厌、迷恋奢侈生活,而俭朴的德行有助于抑制这种过分的欲望,所以,节俭是富国的重要国策,也是防腐倡廉的重要途径。“恕”作为儒家的一种伦理道德范畴,要求以仁爱之心待人。对官员来说,经常能设身处地地为百姓着想,就一定会得到百姓拥护,这样才能治理好国家。
  一粥一饭,当思来处不易;

  半丝半缕,恒念物力维艰。
  【出处】朱柏庐《治家格言》。
  【大意】即使是一顿粥、一顿饭,也应当想到它来得不容易;即使是半根丝、半根线,也要想到劳作的艰辛。
  【提示】朱柏庐是我国明末清初的教育家,提倡家庭教育。他的《治家格言》又名《朱子家训》,是一部专门教育人们勤俭治家的格言集。节俭,作为中华民族的传统美德,它首先是尊重劳动和从事劳动的人。我们的食物和衣裳,都来之不易,要通过种植者、烹饪者、纺织者的许多劳动生产出来,不能轻易浪费。所以,这段话成为我国传统的“治家格言”。


2005年10月30日

香山之行

久违的香山今天终于落入我们的眼帘。来京快半年了也没有机会去。现在据说是上香山看枫叶的最佳时机。实验室的车老大,晓光,尚林,还有车老大的一位朋友在北外的女同学,际洲,陈议,世奇和我共八人早上经过一路颠簸终于在9点半香山脚集合成功。

在迈向香山售票处的蜿蜒小道中,我们看到了很多的小店,各式各样的工艺品小吃琳琅满目。颇有我们峨眉山脚80年代后期旅游道上的氛围。顿时我就像回到了家乡一样,四处观看着。
到山脚买好门票后我们开始了爬山的征途。整个山道台阶只有1500米左右,比起我们峨眉山的海拔3099米可就是九牛一毛了。不过在山道上走起来和在峨眉山上登山时感觉还是有些相似的,只是峨眉山上不会同时在一段很窄的山道上拥挤上几千人。在山道上往上走的时候真是人挨着人。每个台阶上都是人。这种情形就像是蚂蚁搬家那样。这样也好,我们不用走得很快。要是换了人少得情形估计我们很快就能到山顶,也就会更加得大汉淋漓了。

香山得海拔我估计不超过500米,大概一个多小时我们就登上山顶了。从山顶往山脚看去还真有在峨眉山上爬到一个小山坡时那种了望得感觉。今天得天气非常的好,看附近的事物非常的清晰,越往上走看到的视野就越开阔,在山顶上看到了远处颐和园的昆明湖,植物园的热带雨林馆。这种感觉就像作研究过程中随着了解的深入逐渐看到越来越清晰的细节。山顶上也是人挤人的情形,看了几眼后我们就开始找个人少的地方开始享用我们准备的午餐。沿着另外一条山道我们往下走了半天才找到一块僻静的地方开始好好休息,大家开始玩这边比较流行的警察与杀手的游戏。

毕竟还是秋天,山顶上凉风席席而来,顿感凉意。本以为能够看到枫叶无数,却只看到了很多的椭圆状的红叶,难免让有人感到一丝遗憾。好在半山有人在出售采集好的枫叶,价格是一元一把,每把大概只有五片叶子。整个山道上到处有人在出售着这种枫叶。那些远到而来的游人真有很多都买了下来。

在山脚处我们稍做休息,最后在等车十分困难的情况下选定了一辆所谓的黑车返回北航了。香山之旅那种了望远处的感觉甚感不错,大有看海之后让人心胸开阔无比的感觉。

2005年10月29日

25 signatures

The whole day, we have the regular Microsoft Master Program Training. It was the fourth time. The course today was communication skills. In the noon, before the lunch time, Mr. Hua gave us a task to practice our communication skills. The title was collecting 25 signatures in one hour in the street near Sigma Building.

We nearly 30 students went out the building with Mr. Hua. We should finish this task alone. Each of us had his solution. Standing at the door of Sigma, I had two ideas. One was collecting usual health feedback in the front of Wall market. The other was collecting feedback about the traffic safety consciousness at the cross near Sigma. Finally, I chose the latter.

I usually went to opposite of Sigma in this street. Other employees and VSs had the same requirement. Each time, we should go to the crossroad. But we should wait a long time before the traffic light becoming green. There was some bug of that traffic light. It was usual red to cars and red to passerby. So when it was red to cars many passersby crossed the street. And there were four groups’ traffic lights. Sometime the smaller corner road had some cars still running. So the drivers of that corner should be very careful. And the passersby should be also. So we all believed it was not safe. I want to survey about the passersby suggestions. Comparing the amount of waiting for traffic lights and waiting for buses beside the traffic lights, I found it was more convenient to ask the latter.

After the nice preparing and selection, I began to ask one by one. After my introduction, I asked their signature. If somebody believed it was not safe, they could write their name on unsafe block in my table, vice versa. After half an hour I finished my survey. There were 80% believing it was not safe to passersby. But 20% believed it was safe. There was a universal cognition that the traffic lights in that crossroad should be upgraded.

When I returned to the training room, I was very happy. I believed it was a nice form to practice us. All of us were exciting about such activity. Our solutions were different from each others. Somebody asked signatures directly without any other survey. Someone asked signatures for signatures software system. It was very interesting. We all liked it.

2005年10月28日

A partner from Nanjing University and Bowling

This morning, Wei Chen, who was from Nanjing University, came here. On Dr.Cheng Niu and Leishi's arrangement, he was my partner on my current machine translation project. I was very glad and welcome him. As I had many things should be done.

At first, I introduced my works background, current works and future works to him. Nowadays, I was working on manual check some machine translation result accuracy. I divided my final 4000 entries into two parts, one for him, one for me.

This evening, after our works had been done, we six visiting students went to CuiGong Hotel for bowling. We had only three frames each one. It was a nice activity.

2005年10月27日

第二界全国信息检索与内容安全学术会议

下午有幸来到融科大厦参加了这次学术会议。会议是上午开始的。我们IR实验室到会的共有7人,三位老师,四位同学。主要过来就是想见见我的老师和师兄们。下午就算是我蹭听了一下午的报告了。好在这边参加会议的人都能够领到论文集。

下午两点在信息检索的会场遇到了张刚师兄,他给了我一本论文集。报告开始之前我和志昌师兄坐在一起,我右手边的是百度公司的人员,和他们聊了一会儿之后后面有位与会者询问了我的名字,原来他就是前一阵子在和我用mail讨论WSD的那位沈阳的同学,他还说我们刘老师前几天在他们那边做了一个精彩的报告。嗯,我也像在邮件中说的那样等到实习结束回到学校后就给他发送那篇他需要的WSD的博士论文。呵呵,感觉这个世界真是小呀。这感觉就像刚到MSRA的第一天就遇到以前经常讨论问题而未曾谋面的小崔一样。

在信息检索会场我听到了四个精彩的报告,主要了解到了一些比较新的ideas。比如《一种基于潜在语义的Markov网络信息检索模型》中采用了LSI和Markov结合起来做Query扩展。这个Idea巧妙之处在于很好的应用了现在比较流行的Graphical Model来实现Query的扩展推理。这也反应了国外最近几年比较流行的Graphical Model在国内也开始应用起来,想必这个东西在国内的检索研究中会出现越来越热的情形。这个报告结束后的讨论出现了一个有趣的现象,那就是提问题的都是咱们实验室的人,志昌师兄最先发问,我也问了一个关于词义的问题,晓光问了两个问题,洪宇师兄也问了一个。

张刚师兄主讲的《基于链接的分布式信息检索文档划分的研究》中主要采用了虚拟页面的方式来对一个网页集合进行建模,将集合中所有的入链和出链都合并成虚拟网页的入链和出链。基于这种建模方法在网页入链和出链的基础上完成大规模网页聚类任务,其中的一个需求是要聚出100个数目固定的类别,其中采用的一个技巧是将暂时不能放入固有中心的网页放回网页链表的末尾,等到其它网页结束后再次使用这个网页来放入其它中心从而完成聚类。这个技巧确实能够在速度上实现加快的作用,但是我对此置疑会否出现聚类的顺序不同会导致生成的最终类别不同。

《关于广义向量空间模型中布尔运算的修正》中提到一个很有意思的idea.那就是Wong提出的GVSM(Generalized Vector Space Model)出现了不满足布尔运算的情况。作者将GVSM其中的一个定义修改之后就出现了满足布尔运算全部定律的情形。这是我在IR&NLP领域看到的第一篇没有任何试验,只有相关数学证明的论文。嗯,这个很有意思。看来在咱们的领域里面也需要一些纯理论上的证明。后来一位老师指出其中存在着数据稀疏的问题,本来VSM模型是一个n维的空间,现在GVSM把它变成了一个2的n次方的空间,在这种环境下更容易出现数据稀疏的问题。这个问题需要详细的研究下去。

最后一个报告是清华大学张敏老师下面的一个博士生完成的《面向信息检索需要的网络信息数据清理研究》。这篇文章从问题分析,问题解决,特征抽取和选择,以及最后的实验,我感觉都是比较好的。颇有国外比较好的会议论文的风格。其中提到的思想就是将网络上的网页分类为高质量网页和其它网页。然后对高质量网页进行索引检索,这样在TREC数据集上预处理过后就能实现索引量接近50%节省的基础上损失一点点的检索准确率。这个方法我觉得很像前几天在研究院听到的那位日本学者讲述的句法分析是采用动态规划的方法大幅度提高分析速度而只牺牲一点点的准确率的情形。感觉这种做法在IR&NLP领域非常值得推广,这其实就是一个速度与质量的取舍问题,如果牺牲一点点的准确率而得到速度的大幅度提升的话,那样会产生非常好的效果,特别是对于超大规模的信息检索问题。

四点左右我和实验室的老师同学们一起转到了另外一个文本分类、聚类及过滤的分会场。这里也听到了四个精彩的报告。最先主将的是文勖的《类别主特征结合句法特征的中文问题层次分类》。其中的核心思想就是利用依存句法分析来自动抽取问题分类需要的特征,然后放入SVM完成分类任务。在提到句法分析时一位TRS的吕学强老师提到了一个问题就是关于汉语句子都能用一颗树来进行表示吗?由于时间比较短,这个问题没有讨论下去。会后我找到吕老师向他询问了这个问题。因为我以前也遇到过这个问题,就是“我和张华分别去吃饭和睡觉”能否用句法分析成一棵树的问题。吕老师和我的讨论结果是这个句子中主要是并列成分的分析。吕老师提到的汉语句子不一定能被分析成一个树状结构的原因是,汉语不像英语的语法那样严谨可以用句法分析来很好的实现。汉语中存在很多的连动结构之类的特殊句法。我又问“那么能否对于连动结构,我们将前面短句的主语放到后面连动子句中作为主语继续采用句法分析呢?”吕老师说我说的只是连动句的一个应用上的解决方案,对于汉语而言其中还存在了太多的问题,这个问题在北大那边也有人开始重视起来。嗯,我感觉这个里面可能存在很多值得研究的东西。就是能够为汉语单独建立一个句子级的分析方式呢?

后面的一个报告是我在MSRA的同学朱慕华的《面向支持向量机的降维方法比较分析》。其中的核心思想是采用LSI来对文本向量进行维度预处理级的约简,然后再放入SVM进行应用。这个idea确实不错。

之后的报告是北京大学一位博士生的《中文文本聚类的特征单元比较》。其中的Contribution就是在文本聚类时分别比较1-gram,2-gram,3-gram,word级别的文本向量表示基元,得到最后的结论是在不同的语料上表示方法的效能没有统一的结论。我提出的意见是不能一刀切,必须要针对具体的词性采用具体的表示形式,不能一刀切。这个想法作者还没有很好的想到解决方案。我觉得以后有时间可以想想这个问题。对于我自己进行的研究也需要解决这个问题。

最后一个报告是《一个改进的中文文本过滤系统的设计与实现》。洪宇师兄对于篇文章提出了很好的问题,那就是作者的体系结构里面有明显的反馈机制,但是在具体实现中根本没有体现这个。我的问题是其中的正例词集和负例词集有没有交集,线性组合中的几个系数如何确定。结果是有交集,参数人为确定。我感觉那个交集应该取消,参数也不能人工设置。


整个会议我只能参加一个下午的,但是从中我发现了一些趋势性的东西。那就是LSI得到了很到的应用,由于LSI良好的数据稀疏解决能力,使得它能够在表示文本的时候可以起到很好的效果。这个表示方法我觉得还是存在许多的问题,比如如何选定最后生成的主对角矩阵排序后需要选取的元素的个数,有没有关注到词义级别的建模方法。嗯,有空俺要好好研究一下这个东西。因为对我的研究工作也是非常有用的。

还有一个想法就是我前一阵子琢磨过的图模型以及小波分析的东西不能丢下,其中蕴藏了巨大的研究价值和应用价值。

今天参会收获颇丰,也结识了几位朋友。晚上实验室所有在京的毕业生以及到会的老师同学们一起在会场附近的郭林饭店聚餐了一次,其间大家回忆了以前一起度过的美好时光,度过了一个开心的夜晚。

2005年10月26日

中国最美的地方

这些地方你都去过哪些呀?等俺将来有空了,嘿嘿,还得有钱了,一定去看看这些美丽的地方!下面列表中11类山里面,俺家乡峨眉山排名第一哦,大家有空真的去看看,那里风光实在不错!
----------------------------------------------

1湖泊入围名单

  101 西藏巴松湖
  102 新疆博斯腾湖
  103 吉林长白山天池
  104 内蒙古达里诺尔湖
  106 湖北东湖
  107 内蒙呼伦湖
  108 黑龙江镜泊湖
  109 新疆喀纳斯湖
  110 云南泸沽湖
  111 西藏玛旁雍错
  112 西藏纳木错
  114 青海青海湖
  115 西藏然乌湖
  117 新疆赛里木湖
  118 江苏太湖
  119 浙江西湖

2森林入围名单

  201吉林长白山美人松林
  202吉林长白山原始红松阔叶混交林
  203内蒙古红花尔基樟子松林
  204新疆天山雪岭云杉林
  205新疆轮台胡杨林
  206湖北神农架原始林
  207安徽黄山黄山松林
  208四川岷江流域原始云杉冷杉混交林
  209四川九寨沟云杉冷杉林
  210云南西部高山杜鹃林
  211西藏波密岗乡云杉林
  212西藏扎曲半常绿阔叶林
  213贵州荔波喀斯特森林
  214云南西双版纳热带雨林
  215海南尖峰岭热带雨林
  216黑龙江内蒙古大兴安岭兴安落叶松林

3草原入围名单

  301内蒙古呼伦贝尔草原
  302内蒙古锡林郭勒草原
  303内蒙古鄂尔多斯草原
  304黑龙江、吉林松嫩平原草甸草原
  305青海、甘肃祁连山山地草甸草原
  306甘南草原
  307新疆巴音布鲁克山地草原
  308新疆伊犁草原
  309新疆天山山地草原
  310西藏那曲高寒草原
  311云南西北高寒草甸
  312川西、川西北高寒草甸

4城区入围名单

  401福建厦门鼓浪屿
  402澳门历史城区
  403江苏苏州老城区
  404浙江杭州西湖周边
  405山东青岛八大关
  406上海新天地
  407北京什刹海地区
  408香港半山电梯周边
  409天津五大道


5乡村古镇入围名单

  501安徽西递
  502广西桂林阳朔西街
  503贵州黎平肇兴侗寨
  504江西婺源
  505闽西客家土楼
  506四川丹巴藏寨
  507江苏苏州同里
  508湘西凤凰
  509新疆喀纳斯湖畔图瓦村
  510云南红河大羊街乡哈尼村落
  511云南丽江大研镇
  512浙江楠溪江古村落
  513浙江西塘


6旅游洞穴入围名单

  601北京房山石花洞
  602重庆丰都雪玉洞
  603重庆武隆芙蓉洞
  604贵州毕节织金洞
  605湖北利川腾龙洞
  606湖南桑植九天洞
  607湖南新化梅山龙宫
  608湖南张家界黄龙洞
  609辽宁本溪水洞
  610浙江桐庐瑶琳洞

7岛屿入围名单

  701南沙群岛以美济礁太平岛等为代表
  702西沙群岛以永兴岛东岛等为代
  703海南省万宁县大洲岛
  704海南省蜈歧(牛奇)洲岛
  705香港東平洲
  706广东省海陵岛
  707广东万山群岛及庙湾
  708广西北海涠洲岛
  709福建厦门鼓浪屿
  710福建漳州林进屿、南碇岛
  711福建福鼎大嵛山
  712台湾省兰屿
  713澎湖列岛以澎湖岛为代表
  714浙江省普陀岛
  715浙江省朱家尖岛
  716浙江省嵊泗列岛
  717浙江温州南麂岛
  718山东庙岛列岛(长岛) 8瀑布入围名单


8瀑布入围名单


  801福建九龙漈瀑布
  802广西德天瀑布
  803贵州赤水风景区瀑布群
  804贵州滴水滩瀑布
  805贵州天河潭瀑布
  806贵州黄果树瀑布
  807河南焦作云台山瀑布
  808海南吊罗山瀑布群
  809海南琼中黎母山瀑布群
  810黑龙江镜泊湖吊水楼瀑布
  811江西省庐山三叠泉瀑布
  812晋陕交界黄河壶口瀑布
  813重庆雪宝山天水瀑布
  814四川九寨沟诺日朗瀑布
  815西藏藏布巴东瀑布群
  816云南罗平九龙瀑布
  817浙江雁荡山大龙湫瀑布9峡谷入围名单

9峡谷入围名单

  901长白山大峡谷(松花江上游的吉林抚松、松江境内)
  902长江三峡(瞿塘峡、巫峡、西陵峡)
  903大渡河金口大峡谷(四川乐山市金口河—汉源县乌斯河)
  904大宁河小三峡(重庆巫山县、巫溪县境内)
  905贡嘎山大峡谷(四川泸定县海螺沟、燕子沟、南门关沟)
  906黄河晋陕大峡谷(内蒙古托克托县河口镇—山西禹门口)
  907金沙江虎跳峡(云南香格里拉县虎跳峡镇—丽江市大具乡)
  908昆仑山大峡谷(新疆喀什市塔什库尔干县境内)
  909澜沧江梅里大峡谷(云南德钦县佛山—燕门)
  910怒江大峡谷(西藏察隅县察瓦龙—云南怒江州六库)
  911南盘江大峡谷(贵州兴义市马岭河峡谷)
  912帕隆藏布大峡谷(西藏波密县古乡湖—林芝县门中)
  913秦岭大峡谷(陕西周至县黑峪峡谷、西安长安区凤仪口峡谷)
  914太行山大峡谷(拒马河峡谷系—北京房山、河北涞源;滹沱河峡谷系—河北阜平、井陉、赞皇;漳河峡谷系—河南林州、山西长治;沁河峡谷系—河南焦作、山西晋城)
  915太鲁阁大峡谷(台湾花莲县立雾溪)
  916天山库车大峡谷(新疆库车县)
  917乌江大峡谷(重庆武隆—贵州源河)
  918雅砻江大峡谷(四川木里县白碉—盐源县周家坪)
  919雅鲁藏布大峡谷(西藏米林县派乡—墨脱县巴昔卡)
  920浙西大峡谷(浙江临安天目山东南坡)

10冰川入围名单

  1001西藏阿扎冰川
  1002新疆音苏盖提冰川
  1003四川海螺沟冰川
  1004西藏卡钦冰川
  1005新疆科克萨依冰川
  1006西藏来古冰川
  1007西藏米堆冰川
  1008甘肃七一冰川
  1009新疆特拉木坎力冰川
  1010甘肃透明梦柯冰川
  1011新疆天山一号冰川
  1012新疆土盖别里齐冰川
  1013新疆托木尔冰川
  1014云南玉龙雪山冰川
  1015西藏博康加勒冰川
  1016西藏绒布冰川

11山入围名单

  1101 四川峨眉山
  1102 四川稻城三神山
  1103 西藏冈仁波齐峰
  1104 四川贡嘎山
  1105 安徽黄山
  1106 陕西华山
  1107 西藏洛子峰
  1108 云南梅里雪山
  1109 西藏南迦巴瓦峰
  1110 青海年保玉则
  1111 新疆乔戈里峰
  1112 四川三奥雪山
  1113 陕西太白山
  1114 山东泰山
  1115 贵州乌蒙山
  1116 四川雪宝顶
  1117 西藏希夏邦马峰
  1118台湾玉山
  1119云南玉龙雪山
  1120西藏珠穆朗玛峰
  1121湖北武当山
  1122 吉林长白山
  1123福建武夷山

12沙漠入围名单

  1201内蒙古巴丹吉林沙漠腹地
  1202新疆古尔班通古特沙漠腹地
  1203内蒙古呼伦贝尔沙地腹地
  1204内蒙古浑善达克沙地腹地
  1205内蒙古科尔沁沙地腹地
  1206内蒙古库布齐沙漠腹地
  1207新疆库姆塔格沙漠腹地
  1208甘肃敦煌鸣沙山、月牙泉
  1209宁夏沙湖
  1210宁夏沙坡头
  1211新疆塔克拉玛干沙漠腹地
  1212宁夏腾格里沙漠腹地

13雅丹入围名单

  1301甘肃敦煌国家地质公园雅丹
  1302青海柴达木盆地雅丹
  1303新疆克拉玛依乌尔禾岩石雅丹
  1304新疆罗布泊白龙堆雅丹
  1305新疆罗布泊三陇沙雅丹
  1306新疆奇台风城

14湿地入围名单

  1401新疆巴音布鲁克湿地
  1402海南东寨港湿地
  1403山东黄河三角洲湿地
  1404江苏盐城湿地
  1405辽宁辽河三角洲湿地
  1406吉林龙湾湿地
  1407香港米埔和后海湾湿地
  1408甘肃、四川若尔盖湿地
  1409黑龙江三江平原湿地
  1410吉林向海湿地
  141黑龙江扎龙湿地

15海岸入围名单

  1501河北昌黎黄金海岸
  1502辽宁大连金石滩
  1503山东荣成成山头
  1504山东日照万平口海滩
  1505浙江海宁市盐官镇钱塘江海岸
  1506福建东山岛海滩
  1507福建崇武古城海岸
  1508福建漳浦县六鳌半岛抽象画廊海岸
  1509台湾野柳
  1510台湾清水断崖
  1511台湾鹅銮鼻珊瑚礁海岸
  1512广东深圳大鹏半岛海滩
  1513香港维多利亚港
  1514广西钦州三娘湾
  1515广西北海银滩
  1516海南东寨红树林
  1517海南博鳌
  1518海南三亚亚龙湾
  1519海南三亚天涯海角



2005年10月25日

Same program different result!

This morning, I was running a perl program on a windows 2003 server. But with the same input and program, the final results were different. I did not know the reason. The possible reason was that program was based on the memory content.

I would analyze more about it. It was well known that perl was a good script programming language. But it was cramped. There was another better language--Python. I was learning some materials on it. There was a nice book on Text Processing in Python. It was recommanded by Cr999. Its link was http://www.gnosis.cx/TPiP/

2005年10月24日

公司与个人成长

最近上MS^2的培训课程,其中一个作业是写一篇关于公司的价值观和个人成长的文章。如下是我写完的内容。以做备份。
----------------------------------------
经常接触一些已经工作了的朋友,对于如何看待公司有着很多种不同的观点。

有人说公司就是自己的家,其中有许多的感情在里面,伴随着公司的发展壮大自己也在其中收获了很多,有酸甜苦辣,也有自己的茁壮成长。走在路上遇见朋友都会情不自禁的夸赞自己的公司,时时处处都会以自己的公司为荣。其中的感情就像是家一样。家长就是公司的领导们,而自己就是家里的小孩,从学校毕业的时候就像家里的小孩,在公司里面经历着许许多多的学习工作,自己的能力水平也在不断的提高,得到后来自己也成了公司里的领导,开始带领更多的新人开始新的征程。整个公司的发展史就像一个家族的历史一样。任何人提起这个公司都非常的尊敬和仰慕它。
另外有人说,公司是老板们压榨企业员工的工具。老板们披着形式化的公司的皮来欺骗着自己的员工。经常出现没名的加班以及额外的任务,但是到后来公司却没有给员工合理的回报。公司老板玩的始终是一套把戏,那就是不断的从社会上招聘那些刚刚毕业的学生们,然后宏伟的向他们进行各种训练,最后训练出来的都是任劳任怨的机器人。等到这一批新人基本被压榨完了,新人们发现了公司的面孔,也就会陆陆续续的离开。然后公司的老板们又开始新一轮的招聘和培训以及终极目标的压榨。公司的老板们为了使这种压榨机制能够持久的维护下去,想了各种各样的手段,什么员工年终奖金,股票期权等等。那些高层的老板们则各个收入丰厚,下面的员工们则为了挣到为数不多的奖金而时时拼搏。

社会上,上面两种公司都比比皆是。当然我们说前者是我们学习的榜样,也是使得公司良性循环必须的体制。这个里面体现出来的完全就是一种公司价值观和个人成长的关系问题。纵观世界范围内的公司,几乎每时每刻都会有新的公司诞生,这一点在美国硅谷得到了最好的体现,当然随着改革开放以及与世界经济的融合,中国也在出现这种类似的情形。但是在大量诞生的公司之中真正能够存活下来的还是那些注重企业价值观以及关心企业员工个人成长的公司才能不断发展和壮大起来。

一个公司的价值观,从某种程度上反映了公司高层领导的价值观。各个公司的高层领导其实在他们一生的摸爬滚打中学会了很多很多,他们深知社会需要什么样的人才,需要什么样的价值观。他们对待自己的公司更有在家中培养孩子的感觉。这种情形直接影响了公司高层如何对待自己的员工,也就间接决定了整个公司对外交往的价值观。试想,一个对待自己的员工很开明很友善的公司,很难对外做出很不符合大家风格的决定。我们说公司的价值观在影响这公司里面每位员工的成长。因为公司要发展壮大,要开拓新的市场,靠的就是自己下属的员工,只有依靠他们才能够实现公司领导们的管理和规划的良策。

在MSRA做Intern的这四个月里,我们已经深刻的体会到了很多微软的企业文化,也就是微软公司的价值观。从这里的研究氛围研究环境以及丰富的业余生活就能够很好的发觉这一点。在MS^2课堂上我们学习到了更多的这方面的东西,现在对于微软也更加的了解。不得不说,微软是一个伟大的企业,是一个影响着人类历史进程的公司。在推进电脑在人们日常生活的应用方面微软走在了世界的前列。微软是一位巨人,一直在推陈出新的引导着业界的发展。

最近一阵子,微软刚刚度过了她30岁的生日,微软也到了自己的而立之年。微软的30年是桌面时代的30年,在这个时代微软对人类历史的发展进程产生了很大的推动作用。一贯保持着勃勃生机的微软,现在又开始了新的征程。因为一个新的时代正在到来,那就是web时代。这个时代需要微软更加的努力和发展。这样才能保持活力和创新的能力。微软的使命是“帮助全世界的人们和商业充分的发挥他们的潜力”。这完全体现了她的价值观。我们也充分相信,微软在新的时代能够创造出更大的成绩。因为在微软公司聚集了数以万计的优秀人才。他们正在微软公司实现着自己的个人成长,他们的业绩也越来越好。

好的企业需要好的价值观也需要优秀的人才在其中实现自己的成长。这一点让我们在就业的时候可以作出更好的选择。

2005年10月23日

Code Reading Skills

Before some days, I bought the book Code Reading.
There was an English edition of it. http://lingix.gro.clinux.org/pub/codereading.chm You can read it.

I began to read it. At the beginning of Chapter 2, there was a analysis of echo command in Unix. One nice example of strcmp was a macro about it:
#define STREQ(a, b) (*(a)==*(b) && strcmp((a), (b)) == 0)
It was a nice realization of strcmp. Can you analysis its beauty?

There was another hint for programming. You should check the return value of printing to file. Maybe it was the end of the file length limit. So you can not write the file again.

The two hints were very nice to me. I liked to read it.

2005年10月22日

MS^2第二堂-时间管理

经过报名推荐筛选,我有幸参加了MS Master(MS^2) Student Program Training。这次是第一期,是一种非常好的培训形式,共有九堂课。周三晚上我们经历了四个半小时的课程,那堂课主要介绍了很多微软的历史,价值观,公司架构,微软在中国的发展等内容。Harry 在那堂课上进行了精彩的开学演讲。

今天是我们MS^2培训的第二次和第三次,从早上9:30开始一直到晚上7:00才结束。整个儿下来觉得很累,因为没有午休的时间。今天的主题是时间管理和效能。以前虽然自己零零散散的学习过一些这方面的东西,也收到了很好的效果,但是今天的课程算是系统的学习这些内容。这里简单的小结一下今天学习的内容。

时间管理不是去管理时间,而是自己合理的安排自己在各个时段需要完成的工作。在基本的时间管理中有著名的四个象限的问题,两个坐标系分别是事情的紧急程度以及重要程度。按照这样的标准,可以将分为四个象限来划分各种事情。第一象限是重要而且紧急的事情,第二象限是重要而不紧急的事情,第三象限是不重要而紧急的事情,第四象限是不紧急而且不重要的事情。如下表所示:















紧急不紧急
重要现状20%~25%
理想状态25%~30%
解决方案
 1.兵贵速战速决
 2.快刀斩乱麻
现状15%
理想状态65%~80%
解决方案

 1.决胜于庙堂之上
 2.信任团队
不重要现状20%~60%
理想状态15%
解决方案
 1.舍得
 2.勇于拒绝
 3.交付给他人
现状2%~3%
理想状态<=1%
解决方案
 1.怡情养性
 2.轻松一下


基本的时间管理中常见的五个陷阱及解决方案如下:





















陷阱名称解释及方案
1.时间配置不对规划终于做事
最好的控制是预防
预防胜于处理
2.拖延不急的事情拖延之后会变成紧急的事情
这件事情令人很为难,但是非作不可,因此我将立即做完它,以便尽快忘掉它。
3.事必躬亲韩非子.八经
 -下君,尽己之能
 -中君,尽人之力
 -上君,尽人之智
诸葛亮凡事必躬亲,后来过劳而死。
为何事必躬亲
  -因为怕别人取代
  -不放心别人,不信任别人
  -要求标准过高
4.有求必应这样会花太多的时间,导致个人事务没有处理好。
适当情形下需要说不,需要适应的拒绝
5.沟通不够自己承担所有事情
出现错误不及时汇报
最后一分钟才通知
不和团队合作


提高工作效率的方法:
1.了解自己每天的工作时段的特性并且很好的分配工作内容
2.以PDCA(Plan, Do, Check, Action)分布每天及周一到周五的工作
3.保持良好的体力:养成运动的习惯
4.身心均衡发展:培养良好的嗜好

有效率的会议包含如下内容:
1.会议成功与否在于你是否能帮助每个人的互动
2.有效率的会议需要小心的准备与记录
3.每个会议都意味着高成本
 3-1. 参与人员的薪金
 3-2. 准备所花的成本
 3-3. 心理成本
 3-4. 机会成本

如何计划一个好的会议
1.是否一定要召开会议才能解决这个问题
如果以下任何一条发生都需要取消
 -电话或者书面通知即可
 -关键人物不能参加
 -准备时间不够
2.决定会议目的
3.确定参加人员:只召集对会议或讨论有意义的人员
4.确定议程:会议议程应会前发出,让参加人有时间思考
5.确定设备、场地、时间
6.后续
 -指定专人做会议记录
 -只记录行动事项
 -会后立即公布


如何处理情绪低潮
 -每天至少完成一件事情
 -完成事情的定义
   -完整的
   -相关的
   -善后的
   -记录的文件
 -通常完成一件完整的任务后就会有力气再做第二件事情


会上大家都畅所欲言,我也把自己以前积累的一些经验和大家一起分享了,比如Tadalist之类的非常好的时间管理方案以及管理工具。

培训内容之一还有一个很重要的题目就是职业素质和商业礼仪,其中包含了五项:外表,态度,声誉,行为,举止等。这些东西的学习也是非常重要的。

在整堂课程中华老师非常的幽默内容也很充实,大家都觉得非常的受益。中午午餐时间我们大家也是在教室里吃的,期间老师给了我们每个小组10张白纸,要求在半个小时之内堆出最大的高度。最后我们小组的竹节设计加上完美的基座方案和作品获得了第一名的成绩。嗯,^_^,很高兴的事情!

2005年10月21日

Encoding Problem

These days, I was puzzled by the Encoding problem. I had worked out a French file. But it was not displayed well in UltraEdit. There was another French file which was extracted from another database in well displaying.

I had not found out the final solution. My mentor and my friends told me there was some transferring tools could realize it. I should pay more on it. Some day, I had written some function for UTF8 encoding transferring. But it was on Chinese. Nowadays, I would pay more attention on other languages.
There was a link on Unicode Encoding, maybe useful for you also.
http://blog.china-pub.com/more.asp?name=lanfengye&id=23614

2005年10月20日

MS^3

This evening, there was a Microsoft Master(MS^2) Student Program. We, thirty interns, had a nice first class. From 6:00pm, Harry gave a welcome talk and Hua began to introduce the main class content. First we were divided into six groups with five persons respectively. Then we had a short order with Pizza. During our supper 20 minutes, we had to be familiar with each other. As one of our group member would be selected to give a short presentation about the group members’ information.

Haibin Huang, Taifeng Wang, Yinghua Zhou, Jing Wang, and I were in group one. After our brainstorm, we got our group name: MS^3. We are MicroSoft interns. Now we were doing Machine translation(me), Search technology(Taifeng, Yinghua, Jingwang). So our name was MS^3. We all believed it was a cool name.

During the ongoing four hours, we had the first class. It was more on introduction of Microsoft History, Value, state of the Art.

Until 10:50pm, we finished the first class. We all thought it was very long. However, it was a good chance for knowing many fresh guys. There were eight similar classes left. We would spend our free time in three weeks for it.vMS^3
This evening, there was a Microsoft Master(MS^2) Student Program. We, thirty interns, had a nice first class. From 6:00pm, Harry gave a welcome talk and Hua began to introduce the main class content. First we were divided into six groups with five persons respectively. Then we had a short order with Pizza. During our supper 20 minutes, we had to be familiar with each other. As one of our group member would be selected to give a short presentation about the group members’ information.

Haibin Huang, Taifeng Wang, Yinghua Zhou, Jing Wang, and I were in group one. After our brainstorm, we got our group name: MS^3. We are MicroSoft interns. Now we were doing Machine translation(me), Search technology(Taifeng, Yinghua, Jingwang). So our name was MS^3. We all believed it was a cool name.

During the ongoing four hours, we had the first class. It was more on introduction of Microsoft History, Value, state of the Art.

Until 10:50pm, we finished the first class. We all thought it was very long. However, it was a good chance for knowing many fresh guys.

2005年10月19日

Broaden your eyereach

Never to believe you had known enough. I thought it was definitely right.
This morning, our NLC group had a paper plan discussion. The motivation was that all the researchers should introduce your current papers ideas and then discuss with others. I believed it was just like a brainstorm meeting. In my opinion, such meeting should include many participators who had widely eyereach.

I hared some nice ideas of ongoing projects and papers. Each time others would give some nice suggestions and advices. They indexed many researchers' current works and many wonderful papers contribution. They could list them very clearly. Then I admired them very much!

It gave me a hint for research. You should keep reading every day. If not, you would behind the times.

2005年10月18日

Find encoding problem with French

Nowadays, I was processing some French corpus. I programmed in C#. Original I used
StreamReader SR = new StreamReader(FilePath);
StreamWriter SW = new StreamWriter(FilePath);
to read the files.

But there was some errors during the process. To English, it was right. But to French, all the hats of some characters changed their form. The hats were lose. It was a terrible thing.

After debugging and searching solution, I used
StreamReader SR = new StreamReader(InFilePath,System.Text.Encoding.Default);
StreamWriter SW = new StreamWriter(OutFilePath,false,System.Text.Encoding.Default);
to read and write file respectively.

Now I know, French should be used some western encoding format to read and write. In C#, you use System.Text.Encoding.Defaultcan solve it.

2005年10月17日

1st IJARC

The whole day, we joint in the First MS IJARC Symposium on Natural Language Processing. MS IJARC stood by Microsoft Institute for Japanese Academic Research Collaboration. It was established in 2005. We had the opportunity to study the lectures from Japanese researchers.

There were many nice presentations.

Bill Dolan, who was the manager of Redmond NLP group of MSR, introduced many research topics of them. I was interested in their Multi-document Summarization, MindNet, and paraphrase projects. They were very related to our research of IRLab.

Takashi Ninomiya, from Japan, introduced his beaming search for Probabilistic HPSG Parsing. The basic idea was using some dynamic programming technology for searching the best parsing result. Comparing common parsing technology, it was of very high speed. But I challenged his method losing some final precision.
It was a nice trick for parsing very huge corpus using little loss of precision for thousands of times speed. It was a good idea for huge-scale corpus processing.

During the break, I asked a question with Junichi Tsujii, who was professor of university of Tokyo. He was the Ph.D. supervisor of Hang Li. There was a parsing example of Takashi Ninomiya. It was "I saw the girl with telescope." It was the famous ambiguity sentence to paring. We could not make sure the final parsing result directly by the sentence itself. We should use some context information to disambiguate it. My question was how to use context information to solve this problem. And whether there were somebody had used such method. Prof. Junichi Tsujii explained it very clearly. He said because we could not model the local context well, this problem was very hard to solve. In the past twenty years, some researchers had tried to combining some heuristic rules but only got very little effect. Now there was not any nice result on it. So I believed it was a nice research topic based on the recent useful technologies.

Chengling Huang, who was an elder man of NLC group of MSRA, introduced the word segmentation error auto detecting method. His final words explained one good idea. To each NLP domain, you must give out a specification and define your problem very well and then you can do some works. I remembered some of my tagging works on coreference research. I should re-check it again after I returned to Harbin.

Cheng Niu, who was my mentor now, introduced his paper Word Independent Context Pair Classification Model for Word Sense Disambiguation. His idea was on context modeling with many features. But his research perspective on WSD was of coreference resolution. It meant that WSD processed the same mention with different meaning. It was a good idea. So we could re-define coreference problem based on other related research.

Nice chance for listening such meeting.



2005年10月16日

ICCV 2005

The tenth IEEE International Conference on Computer Vision(ICCV 2005) had been hold in Beijing in these days. The host was Microsoft Research Asia(MSRA). This afternoon, there was a MSRA Open House for ICCV2005. At the open house, MSRA exhibited some of their recent works and demos, and provided an opportunity for chatting with MSRA researchers and with each other in a relaxed environment. MSRA also hosted a reception at the end of the open house.

Before four days, Eileen talked with our six guys about touring MSRA in ICCV Open house. She invited us as volunteers for guiding and introducing shortly to the researchers all round the world. It was a first-class international conference on computer vision. Then there were about three hounded visitors. MSRA arranged one visiting tour for MSRA. We would be the guides for them.

This afternoon, the tour was on schedule. In B1 meeting room, at first they joined in a short meeting on routine introduction about MSRA by Harry and two managers. Then it was the time for our guiding. We six volunteers called them in front of the four lefts. We divided people into many groups each with ten. After sent five groups into the lefts, I stayed there for arranging the others. But the other five volunteers did not return soon. Finally, I only brought the final 16 visitors to the 5/F.

Fortunately we had a short preparation before some days. I guided them 5/F first. Our route was lounge, zero room, poster show, family day show, East region, drinking room. There were many questions from the researchers. Then I led them to the ATC region in 3/F. They all liked my introduction.

After my first turn, there were only 5 people for my touring. I repeated the same route and introduction. During the whole process, we used English only. Many of them were interested in the common life of us.

After our guiding for tour MSRA&ATC, there was a very nice demos show. I believed they were very beautiful. I saw many new demos. On schedule, we six guys had a nice dinner with the visitors.

This was my first chance for joining in such conference. I received a business card. His name was Chengyang, Xu. He was a PhD in Siemens Corporate Research, Inc. He was a nice man.

2005年10月15日

[collection]让你受用一生的做人做事36字诀

From:http://blog.china-pub.com/more.asp?name=yhqy&id=23994

 
 
一个人不管有多聪明,多能干,背景条件有多好,如果不懂得如何去做人、做事,那么他最终的结局肯定是失败。


让你受用一生的做人做事36字诀

一个人不管有多聪明,多能干,背景条件有多好,如果不懂得如何去做人、做事,那么他最终的结局肯定是失败。

  做人做事是一门艺术,更是一门学问。很多人之所以一辈子都碌碌无为,那是因为他活了一辈子都没有弄明白该怎样去做人做事。

  每一个人生活在现实社会中,都渴望着成功,而且很多有志之士为了心中的梦想,付出了很多,然而得到的却很少,这个问题不能不引起人们的深思:你不能说他们不够努力,不够勤劳,可为什么偏偏落得个一事无成的结局呢?这值得我们每一个人去认真思考。

  从表面上看,做人做事似乎很简单,有谁不会呢?其实不然,比如说你当一名教师,你的主观愿望是当好教师,但事实上却不受学生欢迎;你去做生意,你的主观愿望是赚大钱,可偏偏就赔了本。抛开这些表层现象,去发掘问题的症结,你就会发现做人做事的确是一门很难掌握的学问。

  可以这么说,做人做事是一门涉及现实生活中各个方面的学问,单从任何一个方面入手研究,都不可能窥其全貌。要掌握这门学问,抓住其本质,就必须对现实生活加以提炼总结,得出一些具有普遍意义的规律来,人们才能有章可循,而不至于迷然无绪。

  读懂一个字诀,受用你一生!

  一、社会交往字诀

  ——教你建功立业

  (一)“谦”字诀

  处世唯“谦”字了得,若一味狂妄自负、骄傲自大,只会失去处世的根本,落得个孤苦伶仃、千夫所指的骂名下场。

  1、不可目中无人

  2、得意不要忘形

  3、有本事不必自夸

  4、请教不择人

  (二)“淡”字诀

  为人处世,交朋待友,对势利纷华,似乎不必太过于苛求,当以“淡”字当头。看淡些,看开些,人生也就豁然开朗,有滋有味了。

  正如“平平淡淡才是真”。

  1、君子之交淡如水

  2、淡看人生,善待生命

  3、淡泊明志,莫为名利遮望眼

  4、减少心欲,满足心灵

  (三)“俭”字诀

  不懂得“俭”字的人,不知道如何成功,任何成功的事业都在于点滴的积累;不懂得“俭”字的人,只会丧失成功,过分的骄奢多败人品质。

  “俭以养德”,为人做事之良训。

  1、从节省生活费开始

  2、“穷大方”不可取

  3、谨防变态的节俭:吝啬

  4、欲路勿染,俭以养德

  (四)“自”字诀

  做一个有个性的人,给自己一点自信!成功的道路靠自己闯,美好的前途来自于自强自立,不屈服于任何权威,用自我的努力找到属于你的自尊。

  男儿立世,自己拍板!

  1、自强自立,与成功有约

  2、独品人生百态

  3、用自我来挑战权威

  4、自信——任你东南西北风

  (五)“礼”字诀

  生在礼仪之邦,做一个彬彬有礼之人。有礼之人会做人,有人缘,多朋友。有礼之人会做事,注重形象,有教养,不树敌,成功路上事事顺。

  1、以礼待人

  2、彬彬有礼,礼多人不怪

  3、注重礼仪着装,给人良好印象

  (六)“正”字诀

  做一个正直的人,做一个人格健全完善的人,受人崇敬。做一个自私的人,做欺心的事,疾贤防能,与成功无缘。

  1、己所不欲,勿施于人

  2、嫉妒乃方正之人之大忌

  3、不做欺心事,本身是一种愉悦

  二、形象塑造字诀

  ——教你品格高雅

(七)“志”字诀

  给自己一根足够长的杠杆,希望转动地球。

  给自己的人生立个志愿,树个目标,树个偶像,脚踏实地,成功的意识需要培养,先立志,再与成功约会。

  1、度德量力,以志立身

  2、先立志,有志就有希望

  3、培养成功意识:立志为王

  4、树立偶像,改变自己

  (八)“时”字诀

  做人要惜时,做事要守时。塑造自己的形象,现代人离不开时间观念。合理安排自己的时间,有效利用自己的时间,守时、惜时、不拖延。

  切记:时间就是金钱。

  1、一秒值万金

  2、别漠视业余时间

  3、盗窃他人时间,等于谋财害命

  4、按重要性办事,更能有效利用时间

  (九)“勤”字诀

  多一些努力,便多一些成功的机会。无数事实证明:成功的最短途径是勤奋。不要光耍嘴皮子,不要好逸恶劳,勤字当头,苍天不负有心人,天道酬勤!

  1、成功的最短途径:勤奋

  2、多一些努力,多一些机会

  3、勤于行动,胜于勤说

  (十)“实”字诀

  踏踏实实做人,实实在在办事。任何一个双手插在口袋里的人,都爬不上成功的梯子。给人留下一个实在的形象,给自己的成功增添一份夯实的基础,从实际出发,对自己负责。

  1、敬业,实干家的成功保障

  2、把每一份工作都做好

  3、双手插在口袋里的人,爬不上成功的梯子

  (十一)“专”字诀

  有专才有恒,有恒才有我。

  你生活在一个知识大爆炸的时代,如果你是一个天才,不专心就成了你的不幸;如果你资质平凡,请不要悲观,只要你下定决心一辈子做好一件事,你就能成功。年轻人,千万别给人留下一个朝三暮四的形象。

  1、把所有的鸡蛋放入一个篮子

  2、多才多艺,莫如练就“独门暗器”

  3、专一,让劣势变成优势

  (十二)“慎”字诀

  人生漫长,又短暂,关键的就几步。人性丛林,职场事业,利益多多、诱惑多多。老成不怕多,凡事应多三思,不怕一万,就怕万一。一旦伸错手,入错行,做错事,于名誉,于事业,于形象皆有不救之危。

  “慎”之!

  1、千万别入错行

  2、想好了你再“跳”

  3、不要草率行事

  三、自我提升字诀

  ——教你拯救命运
(十三)“硬”字诀

  做人难,做事难,面对千难万阻,要提升自我,不来点“硬”的怎么行?如果事有勉强,应该敢于说“不”;如果是正当利益,则应当仁不让;甚至,有时还得来点霸王硬上弓,要有“脸皮厚”的时候,也要有“头皮硬”的时候。

  1、拒绝是一门艺术

  2、该我的,就不要客气

  3、怒发冲冠之功

  4、厚脸皮做人,硬头皮做事

  (十四)“小”字诀

  一家海鲜连锁餐厅的老板很可能当初是水产市场练滩儿的,而一家皮鞋连锁店的老板当初可能是擦鞋的。欲做大事,赚大钱,必先做小事,赚小钱,放下架子,舍得小利。从细微处入手,先扫一屋,再扫天下!

  1、一屋不扫,何以扫天下

  2、先做小事,赚小钱

  3、一枚钉子改变一个人的一生

  (十五)“锐”字诀

  小小麻雀,飞飞跳跳、争分夺秒,不停地寻觅食物。人生亦如此,面对残酷竞争,惟有锐意进取,做一个好先锋,把下一个进球当目标,敢于冒险,敢于闯荡,守株待兔的事情毕竟很渺茫。

  1、不以现有成就为满足

  2、锐意追求,绝不退缩

  3、锐气不可抛,成功是迟早

  (十六)“创”字诀

  提升自我,就要有胆有识去超越自我。何谓超越?超越就是吃螃蟹,就是创新。同时创新就意味着冒险,所谓富贵险中求。想人家想不到的,做别人不敢做的,敢为天下先,在于思维的转换。

  1、敢为天下先

  2、打破规则的创意

  3、人弃我取也能创奇迹

  4、逆向思维的攻守之道

  (十七)“通”字诀

  穷则思变,变则通。识时务者为俊杰,通机变者为英豪。通往成功的道路不是一条,又何必在一棵树上吊死呢?抓住成功的关键,东方不亮西方亮,不管它是黑猫白猫,重要的是它能否逮“耗子”。

  1、巧妙地以变应变

  2、条条大道通罗马

  3、成功在于通,有通才有赢

  (十八)“言”字诀

  把赞扬送给别人,就像把食物施舍给饥饿的乞丐一样。古往今来,不知有多少人,凭着三寸不烂之舌,改变了自己平凡的命运。说话幽默,找共同语言……一个“言”字,一生受用。

  1、投其所好找话题

  2、恭维是最好的“润滑剂”

  3、成功人生,幽默机智

  4、“流行语”为你添姿着色

  四、人际互动字诀

  ——教你赢得朋友

(十九)“宽”字诀

  人际互动,应着眼于未来,不念旧恶。原谅别人,是对待自己的最好方式——为你的仇敌而怒火中烧,烧伤的是你自己。做人做事,心胸不可太狭隘。海纳百川,靠一棵宽容的心!

  1、宽恕你的敌人

  2、宽容做人,宽容成事

  3、乐于忘记,不念旧恶

  (二十)“和”字诀

  在人海中,如果我们不想孤立,那么就学会如何与人相处吧!林子大了,什么鸟都有,不要求你喜欢所有的人,但同时世上也没有什么最牛的人。

  和为贵嘛,就要互相留台阶,大家给面子。

  1、为他人着想,为自己铺路

  2、你给别人留面子,别人给你做好事

  3、夫妻之道,亦和亦智

  (二十一)“信”字诀

  有多少人信任你,你就拥有多少次成功的机会,“信”是什么东西?信是一种人格的力量,是超越金钱的友情,是了解、是欣赏、是覆水,具有不可逆转性。所以,言必行,行必果,能帮的忙则帮,但不可轻易许诺!

  1、能帮则帮,不轻易许诺

  2、言而有信,做人讲原则

  3、做事先做人,做人先取信

  4、信誉基石,生死友情

  (二十二)“帮”字诀

  “好风凭借力,送我上青天”。人际交往,互利互惠。帮助别人,就是在为自己的人情信用卡储蓄,特别是在人患难之际施于援手,救落难英雄于困顿。真心助人,其回报不言而喻。

  1、助人发财,自己沾光

  2、好风凭借力,借梯能登天

  3、掌握时机,拉人一把

  (二十三)“敬”字诀

  人要面子树要皮。人存在于社会上,要扮演各种各样角色,特别是在互相的交往中,需要一定的尊严来支撑,这是人性的弱点。明白了这点,才能体会到“敬”字的必要性。

  1、为尊者讳,为上司讳

  2、在失意者面前不谈你的得意

  3、尊敬对方的“闪光点”

  (二十四)“交”字诀

  人情冷暖、世态炎凉,平常朋友平常过。交朋接友,不可急功近利,友情投资,宜走长线,拜拜冷庙,烧烧冷灶,平时多烧香,哪怕是只言片语的问候,亦是交友之道。

  1、闲时多烧香,急时有人帮

  2、友情投资,宜走长线

  3、拜冷庙,烧冷灶,交落难英雄

  五、解困渡厄字诀

  ——教你轻松快乐

(二十五)“坚”字诀

  面对挫折与困难,铭记丘吉尔的名言:“永远,永远,永远不要放弃!”其实世界上并没有什么幸运的事,就是有,也是坚持的结果。为了最后的胜利,应以坚毅不拔之志,面对种种暂时之屈辱,执着追求,不到黄河心不死!

  1、厚积薄发,耐得寂寞

  2、谁笑到最后,谁笑得最甜

  3、执着追求,永不放弃

  4、不到黄河心不死

  (二十六)“谋”字诀

  做人有困惑,做事有困境,面对“山重水复”之关卡,光有坚强的毅志不行,硬闯也不行。解决难题靠的是脑袋,脑袋产生思考,让思考发威,在出人意料之处轻松解决问题。

  1、巧妇能为无米之炊

  2、从“山重水复”到“柳暗花明”

  3、思考的威力

  (二十七)“屈”字诀

  要摆脱人与事的困境,就难免要求人,求人就难免要低三下四,但着眼于未来的成功,即使像蟑螂一样的生活也应在所不惜,风水毕竟轮流转。放下架子,该屈就屈,能屈能伸,以屈为伸方为英雄!

  1、像蟑螂一样生活

  2、放下身段,前方是大道

  3、你敬我一尺,我敬你一丈

  4、低人一级“屈”不死人

  (二十八)“静”字诀

  “不在沉默中爆发,就在沉默中灭亡!”凡遇大事需静气,平心静气是一种境界,一种气度,一种修养。冷静之中的决定往往是摆脱困境的最佳方案,同时冷静也是一种智慧,以静待变,乱中取胜!

  1、把冷板凳坐成经理椅

  2、心宁智生,智生事成

  3、沉着冷静心自怡

  4、沉得住气方为人杰

  (二十九)“乐”字诀

  世上没有绝对幸福的人,只有不肯快乐的心。人生苦短,与其事事张弓拔弩,不如“幽它一默”。记住,成功是从微笑开始的,人生不如意事常***,乐观点,自己营造快乐,学会轻松解决难题。

  1、成功从微笑开始

  2、学会营造快乐

  3、学会轻松愉快地解决难题

  4、世上没有绝对幸福的人,只有不肯快乐的心

  (三十)“靠”字诀

  人生不等不靠,没错,天上不会掉馅饼,守株待兔饿死人,但一点不靠也不行,亲戚朋友、同学、老乡,这是一种“人力资源”,谁人没个三灾六难,能靠则靠,靠不上创造条件也要靠!

  1、让朋友成为你的靠山

  2、出门落难靠老乡

  3、亲戚亲戚,越走越亲

  4、恰同学少年,该靠靠一把

  六、不败人生字诀

  ——教你人生辉煌

  (三十一)“愚”字诀

  学学猫头鹰,睁一只眼,闭一只眼。你说我糊涂,其实我不傻!只是世事多变幻,创业难,败家快,人说水至清则无鱼,人至察则无徒。其实是,明哲保身,大智者往往大愚,聪明者多,能过“愚”字关鲜矣!

  1、糊涂人聪明一世

  2、不要以为自己比别人聪明

  3、处事不要太认真

  4、谁是英雄?

  (三十二)“忍”字诀

  真的英雄,何必气短,善始善终,方为不败!忍能保身,忍能成事,忍是大智,大勇,更是大福!忍是厚,忍是黑,忍小人,忍豪强,忍天下难忍之事,不做性情中人,成常人难成之事。

  1、忍是大智大勇大福

  2、不做性情中人

  3、不败人生,忍者无敌

  (三十三)“退”字诀

  久历江湖,练达人情之人都守一个“退”字。退是一种谋略,退是一种交换,更是一种维系生存的手段。哲人说的好,“不要把痰吐在井里,哪天你口渴的时侯,也要来井边喝水的。”

  1、用心计较般般错,退步思量事事顺

  2、拒绝妥协,就是拒绝成功

  3、惹不起,躲得起

  (三十四)“圆”字诀

  方圆做人,八面玲珑;圆满做事,事事顺心。人心叵测,凡事最好留一手,有闲时,可研究一下“模糊哲学”,人生这套马车,如若安上方方正正的轮子,你没听说过,我也没听说过,寸步难行嘛!

  1、方圆做人,圆满做事

  2、做老二,不要做老大

  3、人情练达即文章,处世圆通慎言语

  (三十五)“危”字诀

  “豪华尽出成功后,逸乐安知与祸双?”历史教训如此,平头百姓亦如此。居家过日,工作职场等都逃不过一个“危”字,人无远虑,必有近忧。

  1、远虑在先,近处无危

  2、郭子仪屏退侍女免祸患

  3、上山下乡当农民——范蠡富贵终身

  (三十六)“装”字诀

  人生在世一台戏,你方唱罢我上场,不管你会不会演,就看你会不会装。充英雄容易,扮弱者难。俗话说得好,枪打出头鸟,不怕贼偷就怕贼惦记着,当你还不具备实力时,请把你过剩的才华藏起来!

  1、故意示弱有好处

  2、用“拟态”和“保护色”

  3、成功需要诈死与佯败

Recommand nice paper: On mining cross-graph quasi-cliques

Source
Conference on Knowledge Discovery in Data
Proceeding of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining

Chicago, Illinois, USA
SESSION: Research track paper table of contents

Pages: 228 - 238
Year of Publication: 2005
ISBN:1-59593-135-X

Pdf (574 KB): download link

Authors
Jian Pei Simon Fraser University, Canada
Daxin Jiang State University of New York at Buffalo
Aidong Zhang State University of New York at Buffalo

ABSTRACT
Joint mining of multiple data sets can often discover interesting, novel, and reliable patterns which cannot be obtained solely from any single source. For example, in cross-market customer segmentation, a group of customers who behave similarly in multiple markets should be considered as a more coherent and more reliable cluster than clusters found in a single market. As another example, in bioinformatics, by joint mining of gene expression data and protein interaction data, we can find clusters of genes which show coherent expression patterns and also produce interacting proteins. Such clusters may be potential pathways.In this paper, we investigate a novel data mining problem, mining cross-graph quasi-cliques, which is generalized from several interesting applications such as cross-market customer segmentation and joint mining of gene expression data and protein interaction data. We build a general model for mining cross-graph quasi-cliques, show why the complete set of cross-graph quasi-cliques cannot be found by previous data mining methods, and study the complexity of the problem. While the problem is difficult, we develop an efficient algorithm, Crochet, which exploits several interesting and effective techniques and heuristics to efficaciously mine cross-graph quasi-cliques. A systematic performance study is reported on both synthetic and real data sets. We demonstrate some interesting and meaningful cross-graph quasi-cliques in bioinformatics. The experimental results also show that algorithm Crochet is efficient and scala

2005年10月14日

Recommand nice paper: Anchor Text Mining

Source
ACM Transactions on Information Systems (TOIS)

Volume 22 , Issue 2 (April 2004)

Pdf (281 KB): download link

Authors
Wen-Hsiang Lu Academia Sinica and National Chiao Tung University, Tainan, Taiwan
Lee-Feng Chien Academia Sinica, Nangang, Taiwan
Hsi-Jian Lee National Chiao Tung University, Hsinchu, Taiwan

Pages: 242 - 269
Year of Publication: 2004
ISSN:1046-8188

ABSTRACT
To discover translation knowledge in diverse data resources on the Web, this article proposes an effective approach to finding translation equivalents of query terms and constructing multilingual lexicons through the mining of Web anchor texts and link structures. Although Web anchor texts are wide-scoped hypertext resources, not every particular pair of languages contains sufficient anchor texts for effective extraction of translations for Web queries. For more generalized applications, the approach is designed based on a transitive translation model. The translation equivalents of a query term can be extracted via its translation in an intermediate language. To reduce interference from translation errors, the approach further integrates a competitive linking algorithm into the process of determining the most probable translation. A series of experiments has been conducted, including performance tests on term translation extraction, cross-language information retrieval, and translation suggestions for practical Web search services, respectively. The obtained experimental results have shown that the proposed approach is effective in extracting translations of unknown queries, is easy to combine with the probabilistic retrieval model to improve the cross-language retrieval performance, and is very useful when the considered language pairs lack a sufficient number of anchor texts. Based on the approach, an experimental system called LiveTrans has been developed for English--Chinese cross-language Web search.

2005年10月13日

研究的乐趣之头脑风暴

记得以前Tliu老师给我们讲如何作研究的时候,提到过作研究的乐趣。其中最重要的一点就是研究中的成功之乐!老师的这个观点非常的正确,每当你体会到一点点研究之中的成功之乐的时候,你都会为之兴奋不已,继而产生更大的动力作出更加深入的研究。

最近的一段时间我体会到了一种作研究之余的另外一种乐趣。那就是交流的乐趣。有人可能会说,交流是什么?其实交流就是互通有无。远到汉武帝时期的张骞出使西域,以及大唐盛事之时的外交频繁,后来的郑和下西洋,再到目前国内科学研究上与外国的交流,整个历史都在见证着交流的存在。在互通有无的交流中我们获得了什么?我想,在物质交流的基础上我们获得了文化的交流,科学的进步。这就像在进行头脑风暴一样,大家在一起说话的过程就是一个互通有无的过程,但是在这个过程中会迸发出非常多的新的ideas。然后在这些新的ideas的基础上又会得到许多的新的东西。每个人在这样一个讨论会上收获的东西是不一样的,因为存在基础和背景的不同。之后的结果那就自然是各自在研究新的idea的基础上获得新的研究成果。

这个想法在我们学校的第一次机器学习小组讨论会上我的开幕词一样,让交流成为习惯!事实也是如此。两年多来,在我维护的机器学习版面上屡次验证了我上面提到的关于交流的“头脑风暴”的事实。来到研究院这边我的这种做法一直存在。在积极的与大家进行交流的过程中我自己学习到了很多的东西,也认识了很多的朋友。对于一些以前没有弄清楚的问题也有了眉目。

最近的一段时间和我的partner 吴科进行了较为充分的交流,从人生经历,到小波变换,再到最近的Graphical Model以及这两天的Translation Architecture。我们进行了多次头脑风暴般的讨论,其中还有好多次是和我们的mentor一起进行的。这个过程中我对于问题有了新的认识,也有了现在搭建好的研究项目的雏形。

整个过程中我不只一次体会到了交流的乐趣!感谢那句Quietsea想出来的口号“让交流成为习惯!”

2005年10月12日

信息熵范围的精确推导

10月10日的信息熵的一个错误认识中我直接使用熵在均匀分布的时候最大的假设从而得出了信息熵分布范围是[0,log2(n)]的结论。在天大求实论坛上,网友wantjutju转发了我的这个分析。后来有网友说这样推导不是很严密。
今天我花了不少时间来进行推导

这个问题的一个解法如下:
信息熵的公式是
Hs = -1*sum1..n(pi*log2(pi)) (1)
注:由于这里不能直接写复杂的数学公式,sum1..n()表示对后面括号中的表达式求和,下标从1变化到n

在n固定的情况下,信息熵在其中一个pi=1的情况下得到最小值0,最大值的求解是一个非线性规划的问题,表达如下:

max -1*sum1..n(pi*lpg2(pi)) (2)
s.t.
sum1..n(pi) = 1 (3)
0 <= pi <= 1, i = 1..n (4)


这个问题可以在Matlab中用符号表达式表达后用非线性规划函数求解。我估计答案就是
pi = 1/n, i= 1..n (5)

这样再进行推导就会得到信息熵的范围是 [0, log2(n)]了。


在zjliu师兄的帮助下,用matlab解决出了这个方程,实现代码如下:

---------------------------------------
n=4;
fun=inline('sum(x.*log2(x))','x');
A=[];
b=[];
Aeq=ones(1,n);
beq=1;
lb=0;ub=1;
xx=1:n;
x0=ones(n,1)/n;
x=fmincon(fun,x0,A,b,Aeq,beq,lb,ub)

Warning: Large-scale (trust region) method does not currently solve this type of problem,
switching to medium-scale (line search).
> In C:\MathTools\MATLAB6p5\toolbox\optim\fmincon.m at line 213
In D:\matlabwork\newfile\billlang.m at line 10
Optimization terminated successfully:
First-order optimality measure less than options.TolFun and
maximum constraint violation is less than options.TolCon
Active Constraints:
1


x =

0.2500
0.2500
0.2500
0.2500
---------------------------------------

其中n设置为4,得到的结论就是四个概率值都为0.25即均匀分布的时候熵最大。可以将程序中的n设置成其它整数,得到的结论肯定也是一样的。

其实这个问题在信息论中已经有人解决了,请参看如下链接:
http://survivor99.com/entropy/zxw/C8b.htm
下面的8.4.2中提到

:信息熵公式(8.2)说明熵的值是各个概率值的函数。信息论中还证明当各个概率的
:值都相同时,信息熵的值最大。此时公式退化为logN 。所以logN 就是有N 个不同
:的抽样结局时信息熵的最大(应当称为极大)值。


虽然没有找到在信息论中的证明方法,但是至此这个问题可以告一段落,结论就是信息熵的分布范围是[0,log2(n)]。

2005年10月11日

Graphical Model

Nowadays, we discussed some questions on graphical model. In a word, graphical model was a combination of probability theory and graph theory. It was very useful for machine learning and data mining. Now there were many graphical models. The topology of them was as follows:


(Picture by Zoubin Ghahramani and Sam Roweis)

In this picture, I knew only the root Gaussian, Mixture of Gaussions, HMM,and PCA. The others were strange to me. I should learn more about it. There was a nice slides on Graphical Models and Applications . You would know more about graphical model from it.

2005年10月10日

信息熵的一个错误认识

昨天在和一位网友“一”交流的时候发现了自己以前的一个不完全正确的认识。
网友问信息熵会出现大于一的现象么?这时我一直记着以前在Tom Mitchell的Machine Learning上看到过的那个信息熵分布图(英文版第三章Figure 3.2,57页)。图上就是一个曲线,x从0到1,x在0和1时y都是1,而x是0.5时y是1。这个图在我的脑海中印象很深,所以我一直记着信息熵的分布范围在0~1之间。
网友问我
“我自己设的几个数据中,区间S1有6个数据,其中有3个属于第三类,2个属于第一类,1个属于第二类。那我算这个区间的信息熵:-(3/6×log2(3/6)+2/6×log2(2/6)+1/6log2(1/6)),这样算对吗?可是这样算出来的结果却大于1。不是我这样计算错了?还是我理解这个概率问题出错了?不可能啊,我看书上算熵也是这样算的啊。只是书上只有2类,我这里有3类。 ”

这时我用R计算了好几遍,结果都是大于一的。我在维基百科上找到了一个介绍。其中讲述了英文和中文中如果字符都是均匀分布的话出现的信息熵,英文是4.7中文是11.3。我根据其中的计算,推导出了信息熵在n类问题时分布范围是[0,log2(n)]的结论。这样对于两类问题,分布范围自然就是[0,1]了。

以上的分析帮助我纠正了我的关于信息熵的一个错误认识。在这里感谢网友“一”的提示。

联想起自己当初在实验室给大家讲述决策树的时候,我的slides中也出现了那个图片,但是我并没有给出是二元分布的情形,在这里向大家表示歉意。

感觉基本概念真是需要认认真真的认识透彻,任何细节都绝对不能含糊的。

两个文本处理技巧

合并文件
dos下,比如想合并 a.txt 和 b.txt为 c.txt 命令为: copy a.txt b.txt c.txt
如果想要批量合并可以使用通配符号 copy *.txt c.tct

查看文件的行数
linux下 wc xx.txt -l即可,比如想将几十个文件的行数列举导一个文本文件中,可以采用wc *.* -l>lines.txt


留待查阅

2005年10月9日

Linux替代Windows的软件列表

早上看到这个网页,感觉非常的有趣,其中提到的windows下的软件几乎在linux中都有替代品,甚至有些linux下非常优秀的软件windows中几乎都没有替代的东东。在这个列表里面甚至我还看到了许多的以前不知道在windows下的的软件。嗯,大涨见识,与你分享:

The table of equivalents / replacements / analogs of Windows software in Linux.

2005年10月8日

Vmware+Redhat 9

今天花了不少时间在安装zLinuxOnCDv031AVmware上去。但是安装还后鼠标却一直不能使用。安装VMtools之后还是没能解决问题。没有办法,只好用键盘的操作了。最后感觉Redhat里面的最重要的工具就是它的命令行窗口,而这个东西目前对我来说就像cygwin一样。所以最终我放弃了继续使用zLinuxOnCD。Linux中涉及到的指令实在太多,在网上找到了几个Linux指令大全在讲这个东西了解了一番。
找到的学习之处(以备后用)是:Linux命令简介技术专题

2005年10月7日

小波十讲

今天还是属于我学习小波变换的闭关之日,所谓闭关也就是全心全意的到自习室去学习论文。今天主要看的论文是

Bookstein, Abraham, Shmuel T. Klein and Timo Raita. "Clumping Properties of Content-Bearing Words." Journal of the American Society of Information Science 49. 2 (1998): 102-114.

其中提到了一种如何计算词语聚集性质以及最后找出文本中的Content-Bearing words的方法,感觉其中使用到了我们在组合数学中学习到的Sterling数的一些性质。而相关的引用文献居然是经典的克努斯的《计算机程序设计艺术》。现在真正感受到了这本书的伟大之处,有空真得好好研读一下这套书。

中午吃过饭后在北航意外得看到了一个书店,非常巧得是居然在高等数学区找到了这两天一直想要拜读的《小波十讲》。这本书非常的有名。可以看看China-pub上的如下相关评论

原著《小波十讲》因杰出贡献和优美风格 荣获1994年Leroy P.Steele奖。 该书印数超过15000册,风行全世界, 这在学术著作中是极为罕见的。 “该书原作者Daubechies是小波分析理论的主要创始人之一,书中用精辟的语言描述了小波分析的主要原理和方法,可作为小波课程的精读教材;该书读起来极为有趣,如同阅读一本优秀的俄罗斯长篇小说:Daubechies十分巧妙地组织素材,在许多地方给出说明和注释,有效化解难点:本书可满足个人阅读及大学生、研究生、大学教师、科研人员等多方面的需求,并将成为经典读物。” F.Alberto Grtinbaum,Science,August 7,1992 “本书既是一本关于小波分析的导论性教材,又是一本全面总结和反映该领域最新研究成果的学术专著。书中给出了大量实践例题,描述了小波分析的许多应用,如信号处理、图像编码、数值分析等。” Albert Cohen(Pal*IS),Mathematical Reviews,Issue93e “这是一本由小波理论主要创始人撰写的优秀读物,书中内容是小波分析之物理原理、数学方法、工程分析的重要组成部分。该书文笔犀利、推理严谨、由浅人深、应用广泛,对数学家、物理学家、工程技术人员和一切对小波分析应用感兴趣的人员均具有重要的参考价值。” Nieolae Popa,Romanian Journal of Pure and Applied Mathematics, V01.16,Nos.1-2,1996 Ingrid Daubechies是普林斯顿大学(Princeton University)数学系和应用数学与计算数学研究中心教授。她曾在布鲁塞尔(Brussels)的佛雷大学(Free University)理论物理系工作,后任著名的AT&T贝尔实验室高级技术员,是卢特格大学(Rutgers University)数学系的教授(Full Professor)。她曾获得1997年Ruth Lyttle Satter数学奖。她频繁应邀到世界各地作学术报告,发表了大量学术论文,出版了许多学术著作。


看到之时感觉非常的高兴,赶紧买下回去拜读。

2005年10月6日

试验R中的Wavethresh包

R的强大今天我是真正的领悟到了。先回顾一下什么是R。

R 是一种为统计计算和图形显示而设计的语言及环境,它和贝尔实验室(Bell Laboratories) John Chambers 等人开发的 S 系统相似。它提供了一系列统计和图形显示工具(线性和非线性模型,统计检验,时间序列分析,分类,聚类,……)。

最为关键的一点是它遵守GNU协议,在核心的几个packages上面有无数的认对它进行了扩充。现在可以使用的包的数量达到300多个。每种大家熟知的统计以及Machine Learning方面的方法在里面都能找到很好的包。今天试着查看这些包里面有没有能够做决策树的东西,居然找到了一个专门的包。可惜其中采用的方法比较九十年代初的CART方法。还没有包含到C4.5这类方法。我想比起Matlab那个旁然大物R的生命力在于它的免费和共享,以及扩展方法的明晰。使用起来R和Matlab差不多。

今天试着按照R-FAQ中的方法安装了专门用于小波分析的Wavethresh包。开始的时候我是采用命令行的方式进行安装,那些参数设置起来还真是麻烦。后来看到网上的一个截图中有R系统菜单栏上直接的安装包的栏目。啊~!自己原先安装的版本是中文的菜单,所以忽略了package就是包的意思。想要将其换成英文的菜单,但是重新卸载安装了好几次都还是中文的菜单。无奈之下只好将菜单中的所有栏目都仔细的瞅了一遍,直到完全放心下来。

安装wavethresh后本以为直接就能对任何的序列进行1D的Haar变换,但是那些参数不知哪里需要调整,我的到的变换结果总是和文章中提到的那个最基本的[7 5 1 9]变换后的结果不一样。看来还需要好好的学习这个东东。

今天有幸找到了著名的小波分析方面的最好的教材《Ten lectures of wavelets》。这本书写的非常的易懂,好像还获得了什么美国的图书大奖。在网上还发现它竟然是一个大学博士入学考试中小波变换的主要参考书籍。一下子,感觉如获至宝。哈哈,一定要好好研读这本343页的好书哦。

2005年10月5日

闭关小波分析

除了数学建模竞赛,很久没有这种完全的闭关状态。下午和晚上一直在北航的自习室里学习Wavelet的文章,收获颇多。学习了如
下三篇文章:

Graps, Amara. "An Introduction to Wavelets." IEEE Comput. Sci. Eng. 2. 2 (1995): 50-61.

Miller, Nancy E., et al. . "Topic Islands - a Wavelet-Based Text Visualization System." IEEE
Visualization '98
. Eds. David Ebert, Hans Hagen and Holly Rushmeier, 1998. 189-96.

Tao Li, et al. . "A Survey on Wavelet Applications in Data Mining." SIGKDD Explorations 4. 2 (2002): 49-68.

学习到的东西主要有一下内容:

1。小波分析方面:比起传统的傅立叶分析只能在一个域空间里面进行分析,小波变换能够同时在时域和频域进行表现。Parseval定理奠定了小波分析距离不变性的特点,从而能够很好的在两个域中往复变换。傅立叶变换只能处理时不变的信号,对于时变信号虽然短时傅立叶变换(Short Time Fourier Transform)能够部分解决问题,但是STFT不能在变换到频域后再变换回到时域。而小波分析却能够很好的应对这种情况,对于时变信号可以非常方便的进行时域和频域的往返变换。这种特性为小波分析奠定了非常良好的基础。还有一个事实就是小波分析能够解决傅立叶变换所能够解决的问题。可以说小波变换是傅立叶变换的超级。

小波分析的去噪,feature selection,回归等能力都是建立在小波分析的一种特点上:小波变换后各个正交基上的系数体现了各自的重要性,去除系数靠近零的正交基然后再变回到时域不会太大的影响时域中的距离特性。小波的这种能力使得其在Data Mining领域大显身手。

2。Data Mining方面:一般的Data Mining过程可以划分为以下四部:数据管理,数据预处理,数据挖掘核心算法,数据后处理。根据自己的经验来看,这个划分很有道理。其中的数据管理涉及到很多的数据访问、数据存储技术。有人将Wavelet用于图像数据的Indexing,那么能否用来实现文本数据的Indexing for search engine呢。我想应该是可能的,这个方面需要进行相关的试验来进行证明。

3。Wavelet for DM: 小波分析能够用于DM的两条原因是:1.小波能够提供数据表示的简洁方式,从而使得挖掘过程更加的有效的精确。2.可以嵌入到很多的既有数据挖掘算法中去,小波神经网络和小波隐马尔可夫过程就是两个很好的例子。

4。在计算机领域中使用最多的小波还是最简单的Haar小波。它能好好的用于离散信号的处理。其它的小波都是连续信号方面的处理。小波变换用于神经网络的两个方面是激活函数采用小波函数以及预处理数据时采用的时间序列数据特征挖掘。小波变换在聚类方面主要的方面是小波聚类(WaveCluster)方法,据说这种方法比常见的方法要快而且效果要好。相比于神经网络和小波的结合,分类方面中提到的小波方法多是一些以小波为主体的方法。小波变换中的母波的存在使得小波变换能够用于分型理论和技术的研究中。

5。应用于文本处理。小波分析能够得到文本流中的能量函数,这种东西对于文本篇章脉络的处理存在很大的应用前景。

以上的几点是自己零时草草的一些心得和感悟。我会继续朝着这个方向努力下去的。

2005年10月4日

Wavelet is complicated!

I had read one paper about wavelet for text topic. But I did not know it in detail. I believed there were many background. I'd like to study it for a special topic tomorrow. It was also interpreted as "闭关修炼一天". When I returned here, I would introduce it in detail by my understanding.

2005年10月3日

颐和园上昆明湖

会鹏来MSRA面试结束了,明天就要回到学校了。为此今天明武和我特意和他一起到附近转转。本想去香山看枫叶,但是问了一些朋友后得知那里现在还是一片绿色,再考虑到我们三人都没有去过颐和园(Summer Palace),以及朋友们的推荐。我们上午10:30出发往颐和园进发。

在公共汽车上,站在我们旁边的是三位外国年轻女孩,她们在那里旁若无人的谈论,时而为路边一位抱着很大的布熊娃娃欢笑,时而为路边小店停靠的精致双人自行车指点。后来我和会鹏旁边的女孩的无意间的一句"shit"被会鹏无意的重复了一遍。她转头看到我们,我赶紧说了一句我们知道这个单词什么意思。由于这趟车终点是颐和园,我随意问了一下它们是不是也要去那里。结果她们也要去那里。这样开始她们就和我聊了很多。从聊天中得知她们来自澳大利亚悉尼旁边的一个城市,今天是到中国的第二天,明天要去长城,6号要去齐齐哈尔。这样我们就一起前往了颐和园。

颐和园的人真是多,这个在我们来之前就有听说的。在园子里我们看到了很多的佛教建筑。忽然感觉北京的每个景点都有佛教文化的建筑,从龙庆峡的玉皇顶,到八大处公园中的八处庙宇,以及植物园中的卧佛寺。颐和园中的佛教建筑更多的是清朝时代几位皇帝以及慈禧太后的修筑。在明武对她们说到当初颐和园是为了一个女人建造的时候她们都非常的惊讶。园子里面的庙宇我感觉不是很新鲜。到是在昆明湖畔看到那些小青鱼在水里自由游动的时候我到是比较的兴奋。

由于三位澳大利亚女孩要去动物园,我们送她们到东宫门之后便返回到昆明湖游船码头租了一个手划船。开始在湖里划船。开始我们的划船路线是穿过十七孔桥,之后绕湖一周。轮到我划的时候我们开始围绕湖中小岛岸边游览的时候,忽然明武发现一只小龟在一块石头上晒太阳。我把传尽量靠到岸边的石壁旁,明武努力了一阵子后终于将小龟捧上船来。后来发现这只小龟的右脚有点肿大,明武说要将它带回去好好护养。

接下来我们沿着湖边的小道划行,常常是在柳树阴下慢慢的前进。路边的有人非常羡慕我们,有很多人问在哪里租船以及租金如何之类的。哈哈,当过默默推销后,当时感觉游船公司真该给我们推荐费呀。我们的船一共租了两个小时,最后半个小时轮到我划,我带着大家在十七孔桥下穿行了四次,感觉很是过瘾。那个时刻划船时控制方向和速度都很自如,感觉自己的划船技艺非常不错了 :)

等到我们上岸后东宫门出来,时间已经到下午4点多了。沿着围墙到汽车站的途中看到一个荷花池旁有很多人在钓鱼。有位老者用的是两个鱼钩,鱼饵用蚯蚓。我断定他一定钓了很多鱼了。因为小时候我就经常采用这种方法钓鱼的,而且屡试不爽。

晚饭我们在五道口地铁站旁边的蜀圣楼吃的。去年暑假在北京开会的时候我和carl,taozi在这里吃过一顿大餐呢,但是感觉非常不错。今天到这里感觉还是非常的不错。

今天玩的非常的开心!

2005年10月2日

游泳&心态&兴趣

有人说态度决定一切,理由是如下推导:态度决定行动,行动决定结果,结果决定一切,所以态度决定一切!这话我一直认为比较深奥而又那么易懂。这就像有人说,不要等病倒了才去治病,不要等十分困乏了才睡觉,不要等肚子饿极了才去吃饭;也像有人说,天天坚持跑步是不可能的,因为你总会有事情耽误掉某天的锻炼。说到这些就会让人想到心态的问题。现在我越来越觉得心态和兴趣是决定一个人行为的根本动力。

告别游泳三周后,下午我又来到阳光游泳池。由于是国庆节,今天来游泳的人非常少,四条泳道只有三个人。我刚下水潜入二号泳道就发现了那位以前每次下午来游泳都会遇到的老者。他正在那里背靠在起点休息。不知为何自己这么高兴,就像见到多年的朋友一样,自己非常冒昧的向他问好。不过从他的回答来看,显然他不记得我。这个不要紧的,因为我很仔细的观察过他的游泳方式,他并没有观察过我。接下来的游泳他还是那样的缓慢,每游完一个来回都会休息一两分钟,然后继续保持他那舒缓而又有节奏的蛙泳。

是的,我以前的blog里面也记录过他。他今年70多岁了,办的泳票是年卡,他每天下午都在这里游上一千五百米,每次都蛙泳而且很慢。但是坚持的非常好。我还记得有一次游泳,旁边有位女孩和他闲聊时说起每天都来游泳,那位女孩说坚持每天都来游泳非常的困难,她只是偶尔来游几次。这位老者说的还是既往的话。或许是因为他现在退休之后没有什么事情需要去做吧。但是试想其它退休了的老年人,他们又有几人能够坚持每天游泳1500米呢。

其中自然最关键的就是心态了。我试图学者老者的样子非常缓慢在泳道之间来回往返的蛙泳,但是300米后我终于停下来了。不是因为我感觉累,而是总感觉自己应该停下来休息一下。这种感觉,那一刻在我的心里感到的是一种距离那种心态的差距。也许是因为自己的朝气的年轻人,而对方是一位老者的缘故,心态上自然是有差异的。

从老者的游泳我又想到了一个很有意义的问题,那就是兴趣。今天中午吃饭的时候我们一共四人,有来自重大的陈议,东北大学刚到MSRA的朱凯华,还有就是在美国长大的华人苏胜我。席间我们聊到了很多关于美国的生活以及美国那边的科学研究。其中谈到的一个问题是,中国的留学生到美国大学后数学方面都被认为是天才,很多比较困难的数学问题都能解答的很好。这让从小数学一直很好的苏胜我在大学时代没有了数学方面的优势。是的,以往也经常听到美国的小孩数学水平普遍不如中国的小孩。记得有位中国小女孩到美国念小学一年级,每次数学都是满分,被大家认为是天才。但是另外的一个事实是美国的高水平的数学大师在数量和质量上远远的高出中国。这又是为什么呢,难道在大学时代的中国教育和美国教育存在什么巨大的差异么?有的,的确是有。那就是兴趣。

美国的初等教育很多都是以兴趣为指导的。小学一年级数学只要学生回答一加一等于三就算很好,因为没有得到零之类的答案减少的情况。兴趣成了他们的导引。等到了大学,一些学生虽然数学基础不如中国学生,但是他们有着非常浓厚的兴趣,不自觉的就会投入大量的时间和精力去学习那些艰深的数学知识,甚至攻破数学难题。中国的学生中在学习数学的时候有很多都是填鸭式的教学,学生学习的基础不是兴趣,而是分数或者由分数带来的利益。这让我想到了博士教学。最近网上一直沸沸扬扬的清华大学第四年的博士生王垠退学申请的事件,以及我了解到的一些情况,都在说明一个问题。据统计中国的博士数量位居全球第三,但是中国的科技进实力确在世界上不是很靠前的。其中很大的原因我想那就是读博士的兴趣问题。一个东西当你真正着迷于此而想要弄懂它的时候,那就是不得了的突变时刻。

联想自己,有过的那种非常兴奋的时刻想想也就有那么仅有的几次。小学四年级的时候有过pai/4和4/pai在与圆有关计算上的发现,初中二年级有过试图尺规作图解决三等分任意角的执着,大学三年级暑假完成科技创新竞赛项目时有过结合神经网络和灰色系统理论时的亢奋。之后的我就没有再出现过那种持久的兴奋。但是最近和吴珂的关于Wavelet的讨论再次让我进入了兴奋状态。因为我正在努力的将它应用到我的研究工作中。这件事情只要在我的大脑里面冒出一点点尖角就会让我立即进入兴奋状态。当然,这件事情的难度也是非常大的。因为其中涉及到了太多的较为高深的数学知识以及其中的相关结合点的问题。

以往对NLP的研究工作只是停留在打基础和普遍了解的基础上,一直没能出现那种异常兴奋的状态。我一定会非常珍惜现在的这种感觉,作出自己非常期望的研究结果来。

以上仅是自己对于心态和兴趣二者的小小的感受,或许您有自己的高见,不妨咱们一起来探讨。欢迎留下comment^_^

2005年10月1日

Free National Day!

I woke up with the exciting ideas on wavelet! And it was National Day! I gave my first phones to my parents and Yajie. They were happy all.
I played billiards with Yichen, who was from Chongqing University. We had a nice afternoon. In the evening, we had dinner in the new campus restaurant of BUAA. The environment was just like our HIT campus. I liked it very much!

Free day, free mood! It was very nice!