2005年12月31日

Celebrating New Year: Football Match

This was the end day of 2005. After a nice discussion and preparation, we hold this celebrating New Year football match. Our opponent was ITNLP. At 9:00, we started our game on time.

We had 11 vs. 11 means. During the two hours, we had a nice competition. Finally, we had the score 2 vs. 2. It was just a deuce. We all fell tired. Liqi Gao and Jianguo Lin had been little injured during the match. We had encourage and physical strength in the game.

It was the first match between our IRLab and ITNLP. Nice match, just for New Year. Thanks to every body in the match!

2005年12月30日

Bug on Map

Map a nice container of C++. I love it. But this afternoon, after debugged four hours, I found that there was a bug in my mind about using map.

There was a sample code:
------------------------------------
#include <map>
#include <string>

using namespace std;

int main()
{
map mapTest;
mapTest["Good"] = 2;
mapTest["Morning"] = 3;
mapTest["To"] = 4;
mapTest["You"] = 5;

return 1;
}
------------------------------------
In the above program, before returning, the map content is:
=======Content of mapTest=======
Good 2
Morning 3
To 4
You 5


Then I used a search on this map by "YYThanks" as index, as following:
------------------------------------
#include
#include

using namespace std;

int main()
{
map mapTest;
mapTest["Good"] = 2;
mapTest["Morning"] = 3;
mapTest["To"] = 4;
mapTest["You"] = 5;

int number = mapTest["YYThanks"];

return 1;
}
------------------------------------
Before returning, the content of maptest is:
=======Content of mapTest=======
Good 2
Morning 3
To 4
YYThanks 0
You 5

So, it meant that after the search of "YYThanks", the content of the map is changed. Why it happens? After the discussion with a member of our lab, our conclusion is after the empty query on mapTest, mapTest had a index-value match as "YYThanks"-"0". After changing the value from int to string, I ran such program again, the new match was "YYThanks"-"". It meant that the new match index-value had the default value of the definition kind of value.

It was a deep hiding bug in my program. Luckily, I had found out and debugged it.

There were two another kind of searching on map in C++ Primer:
-------------------------------------
map word_couunt;
int count = 0;
//1. Count(keyValue)
if(word_count.count("good")) count = word_count["good"];

//2. Find(keyValue)
if(word_count.find("good")!=word_count.end()) count = word_count["good"];
-------------------------------------

There was a introduction about the operation of map search in C++ Primer, Page 251. If you'd like to know more, please look it up.



Three conclusions:
1. Doing is more important than thinking.
2. C++ primer is very good. It should be read once more.
3. No hypothesis is better than any wrong ones.

2005年12月29日

Bayes Model for recognition

Doing is harder than thinking. It is my practice conclusion. These days, I was trying Naive Bayes Model for my gender recognition task. First, I deduced the formulation of Naives Bayes for my recognition problem. There were two experiments I should finish. But how to write program for realization the formulations? This was my first time using Naive Bayes Model. There were many little-big or big-little questions laying front to me.

For example, how to compute the model? Which parameter should be calculated? How to use the model for open testing? After asking help from many friends, I studied out the experiment plan for my plan.

After this process, I had been familiar with Naive Bayes Model a lot. Before today, I had been known Baive was very easy to use. However, now, I knew nothing was easy. If you doubt it, just do it?

2005年12月28日

Coreference Resolution Research State

This afternoon, our Text Mining Group had a weekly group meeting. This time, I presented the research situation of our CR(coreference resolution) sub-group.

Abstract :
After a long time doing projects, I return to my favorite research on coreference resolution. Our CR(Coreference resolution) group will do deep research. In the presentation, we will conclude the tortuous past works, show you the current wonderful research on gender and number recognition, and put forward our magnificent futures. Although it is a short draft, we will do it out and out.




2005年12月27日

On Enlish Learning

“骐骥一跃,不能十步;驽马十驾,功在不舍。”---《荀子》劝学篇

I have collected some nice websites for English learning. They are

VOA美国之音 http://www.voa.gov
英国BBC网站 http://www.bbc.co.uk
美国CNN网站 http://www.cnn.com
剑桥辞典在线 http://www.dictionary.cambridge.org
Merriam-Webster辞典在线 http://www.m-w.com
朗文网络辞典 http://www.longmanwebdict.com
柯林斯在线词库 http://www.cobuild.collins.co.uk
Encarta Online微软百科全书 http://www.encarta.msn.com
美国《商业周刊》网站 http://www.businessweek.com
英国《经济学人》网站 http://www.economist.com
美国《国家地理》网站 http://www.nationalgeographic.com
美国《首映》网站 http://www.premiere.com
美国Billboard音乐网站 http://www.billboard.com
新东方学校网站 http://www.neworiental.org


One more nice blog about English learning is as following:
古德明每日开讲.
I think it is very good!

2005年12月26日

Reading Group--My presentation

This afternoon, from 16:00, we started our reading group. It was my turn to give presentation. After a week's preparation, I worked out 31 slides for the presentation. At the beginning, I introduced the reason why I chose the paper for gender recognition, and some research background about anaphora resolution research to our sub group.

I had invited many friends to my presentation, when it was starting, many Ph.D. candidates came here. My supervisor Prof. Tliu came here also. During the one hour's presentation, I introduced the paper in deep detail. And finally, I concluded the research of this paper and gave some plan on my current research. Many attendees gave nice advices and suggestion to my research. During the discussion, we found some doubts to this paper. I would send mail to discuss with the author.

Prof. Tliu gave me some good suggestion about my current research. He advised me to use some long distance context information for anaphora resolution. Chengjie Sun and Guanglu Sun thought using the gender type based on parsed corpus and web was not enough for anaphora resolution. After our discussion, we all believed that we should use the context to bind it. Hongfei Jiang took part in our reading group firstly. He gave me some suggestion about context modeling. But I listed the problems on context modeling. Maybe after some days, I would discuss it with Jiang. Wanxiang Che thought using linear kernel could not combine the expected value and variance squared enough. As I did not know more about SVM kernels, I could not discuss it more with Wanxiang. But I believed using SVM was a kind of combination for the 20 expected values and variance squared. Maybe we will discuss later.

Do you still remember the slogan of HIT machine learning group? Let intercommunion to be a habit. In that spirit, I knew the virtues of intercommunion. Yeah! After the reading group, I knew more about this research topic. There were so many suggestions and advices that I will learn. I liked this form.

After the meeting, in our research room, Prof. Tliu gave me three advices on my presentation. The first was my speech was so quick that many people could follow me. I should slow done my speed. Second, I would decrease the walking frequency. Audience would like pay more attention on the moving objects. If I was walking before the screen, the presentation effect would be decreased. The final problem was my poor English pronunciations. Yeah! It was a very serious problem to my English presentation. I had not spent more time on it. After the half and one hour's presentation, I felt little pain of my voice. I suggested to myself that I should learn and practice some on pronunciations and voice.

Yeah! I'd like to list the gains of my reading group presentation as following:

1. Considering the context modeling techniques.
2. Using long distance context information for enhancing the performance of anaphora resolution.
3. Learning more on SVM
4. Practice more on pronunciation and voice.
5. Reduce the walking frequency before the screens.
6. Discuss more with other researchers.

You can download my presentation slides here: Automatic Acquisition of Gender Information for Anaphora Resolution

2005年12月25日

Merry Christmas Day

Christmas is here! In the morning, Yajie and me went to our lab. We stuck some pictures on the wall. When we looked around of our lab room, we all believed it was beautiful scene.

It was Christmas day and Sunday. We went to watch movies in the Cultural Palace of Harbin Railway. The movie was the newest one: The Promise. Although it was Christmas day and Sunday, there were very few people. The scene of the film was great. We all liked it.

At five o'clock this afternoon, Yajie returned to her campus. It was a nice Christmas Day.

2005年12月24日

Happy Christmas Eve with Yajie

Merry Christmas Eve to you! After I had done my tasks this week, this afternoon I met Yajie on HongBo square. We went to some marketplaces. Finally, we chose a beautiful feather cloth and a sweat. In the evening, I taught and played billiards with yajie. Finally, she won me. :)

In the morning, we played card in Lilac Bar. Yajie teached me the playing method. But she was good at it. So I failed more. We talked a lot for anything.

It was a nice day. In the morning there was a heavy snow. The entire world was in white color. When we walked on the thick snow, it was nice feeling.

2005年12月23日

"Crazy" on Google Talk

Recently, I was suffering from MSN Messenger. It was disconnected so often as to I can not link my friends conveniently. Many of our lab members had encountered the same problem as me. After a short discussion, we all wanted to use another chatting product--Google Talk.

There were many tips and skills about how to use google talk. I collected them in the following link: Google Talk Tips and Skills

Welcome you to add yours.

2005年12月22日

Reading Group Invitation

Welcome to IRLab Reading Group
Reporter: Jun Lang
Date: 2005-12-26(Monday) 16:00
Location: Room 618, New Tech Building





Paper Information:
Author: Shane Bergsma
Title: Automatic Acquisition of Gender Information for Anaphora Resolution
Conference: Canadian AI 2005, May 9-11
-- Winner, AI'2005 Best Paper Award


Abstract:
  We present a novel approach to learning gender and number information for anaphora resolution. Noun-pronoun pair counts are collected from gender-indicating lexico-syntactic patterns in parsed corpora, and occurrences of noun-pronoun pairs are mined online from the web. Gender probabilities gathered from these templates provide features for machine learning. Both parsed corpus and web-based features allow for accurate prediction of the gender of a given noun phrase. Together they constructively combine for 96% accuracy when estimating gender on a list of noun tokens, better than any of our human participants achieved. We show that using this gender information in simple or knowledge-rich pronoun resolution systems significantly improves performance over traditional gender constraints. Our novel gender strategy would benefit any of the current top-performing coreference resolution systems.

2005年12月21日

Ping Pong with Sweat

What is sweat? You can read the answer from several dictionaries or repositories from google. Definition of "Sweat". I thought sweat was very good for health. Sweat could bring away many impurity of body.

This evening, our IRLab had the ping pong activity again in base room of Flat 12. There were about ten persons this time. We all played very happy. During the two hours, I had played once with Prof.Tliu. But the final score were 8:11 and 9:11. Prof. Tliu was very good at playing ping pong. By influenced with him, ping pong was the favorite activity of our lab. I played with the classmate of Liqi. He was in high level. We played in high spirit. But finally, my packet was nearly broken. There was a crack of the board. I would repair it tomorrow.

I had sweated a lot. It was a nice feeling.

2005年12月20日

Preparing reading group

Recently, I was preparing the reading group next Monday. It was my turn for giving a English presentation on some better paper. Considering my current research point and the requirement of reading group. I selected the paper about gender recognition. Its information was as flowing in detal:

Shane Bergsma, Automatic Acquisition of Gender Information for Anaphora Resolution, In Balázs Kégl and Guy Lapalme (Eds.) Advances in Artificial Intelligence: Proceedings of the 18th Conference of the Canadian Society for Computational Intelligence, (Lecture Notes in Computer Science, Volume 3501, © Springer Verlag), Canadian AI 2005, May 9-11, Victoria, British Columbia, Canada, pages 342-353.
-- Winner, AI'2005 Best Paper Award

I like this paper very much. I will read through it, and then give a nice English presentation on it. The presentation will be 4:00 pm on next Monday in Newtech Building room 618. Welcome you if you would like to take part in.

2005年12月19日

Nice talking with Zhenghua

Now I was the mentor of Zhenghua. He had been supervised by me about one year. We had cooperated on several items. Now his work was on coreference resolution system implementation. We had discussed a lot about this work. Now we had finished the third vision. Our evaluation score was less than the first class of international evaluation. We will try more and overpass their sores. We had the resolve and belief.

After the whole lab's meeting, I had a discussion with Zhenghua. We discussed some related problems about our works. At the same time, we had a chat on some free topics. I knew more about him. He was an excellent student. Bless him!

2005年12月18日

Beautiful Harbin with Yajie

Do you know how more beautiful Harbin is? Do you know more about Harbin? I knew more today!

This morning, Yajie went to our campus. We met in front of the supermarket. After a nice breakfast, we went to the Big World Marketplace. After our looking around, we found the goods we wanted. Then we went to Center Street. I wanted to buy some bag. Yajie said there was a very big market saling bags. In it, so many bags were around with us. We compared some types and selected one nice bag finally. We all liked it.

We had a nice experience on shopping today. Thanks Yajie!

2005年12月17日

Snow Football match with score 5 vs. 5

No body can hold up you! It was a nice feeling in snow football match. I thought so.

This morning, we had a snow football match. The both sides were our lab and one class of CS graduate. The day before yesterday, there was a snow. After that, it was very beautiful on the football playground. We all thought it was time for a snow football match. Our captain Jianguo Lin organized the match. He had contacted our opponent. He was indeed a good captain.

From 9:00, we started our match. We were divided into two parts, 9 persons respectively. After half and one hour "fight", we got the final score 5 vs. 5. We all enjoyed ourselves. We'd like to play football match twice a week. It should be mentioned that our professor Tliu was with best level on football. Of the 5 goals, he won two. He was the best professor on football match. I thought so.

2005年12月16日

Reading Roadmap

Do you like reading? I mean reading papers related to your research. I fell reading was a very important skill for any research. As based on your reading, you could know all about others. Research is full of competition. If you can not be the best, you will be the last. There were many new papers every day. After you collection as more and more, you will read them one bye one. But, how to read them? I believed there should be a reading roadmap.

So what is reading roadmap? In my opinion, I believed that you can read them on several rules. For example, you can read papers on time. To each researcher, you must master the recent papers in a decade related to your research topic. So reading on time, you can read the papers which were in year by year. The second rule was reading on person. To research, the best way for understanding a person, I believed, was reading all his papers. Then you can discuss with him/her. To the best rule, I believed you should be intercommunication with others. You could spend some time finding the "others". If you be a member of the community, you would learn more.

The above words were my personal opinion. Just sharing with you.

2005年12月15日

Congratulation to my roommate

There was a piece of great news to our bedroom. One of my roommates had got the offer and visa for studying aboard. Before several days, he went to Shenyang for his visa. According to his words, he was very lucky. The visa doctor gave agreement to him in that day. After waiting the final document, he returned today.

We all delighted in his news. Yes. He had pained much for it. Somebody had said that no pains, no gains. It was validated by his case. I knew his effort and staying up every night. I congratulated him. I blessed he would be lucky also in USA.

Aha! I will do morning exercise alone after his left. I will miss him.

2005年12月14日

Survey to end

Who? Where? When? How? What? They were all the survey goals. I believed so.

I had said goodbye to research on coreference/anaphora resolution more than seven months. However, my favorite research, now, was that. It was a very interesting topic. I could do a lot in it. But my time was limited. I should concentrate all my energy to do it.
So, now I fell across the old and newly topic: how to do research? Under my personal understanding, I believed the first step was defining a research roadmap for your research. This step was very important. And no body could manage it once. It should be a dynamic and active action. We could spent time for it regular.

Based on my understanding, I had defined a simple research roadmap. The succeeding, I thought, was survey. So there was some requirement for survey. This topic had occurred several times in my blog. I wanted to collect all the related papers in this decade. Meanwhile, there was another topic: how to collect all the papers. So, until now, you will found out that there were many problems related to research. To be a professional researcher, you must master all the skills.

Nowadays, my task was surveying to end. It was very important.

2005年12月13日

Practice in the evening

I found out that my physical force had fallen a lot. I needed some practice every day. Consider my recent time schedule every day, I chose the evening to be my practice time.

Yesterday evening and this evening, after I returned to my bedroom, I began to practice. It was little cold. I wore my glove and ear cap. Jogging around our campus firstly, then I began to do some physical practice in the P.E. aisle.

The whole process was about half an hour. I felt very good in the days. Nice habit, nice feeling. I will keep on.

2005年12月12日

Getting Data

Recently, I was doing some research on Chinese Name. I needed some data. These days, I asked help with some friends. Yajie helped me to obtain some data. This morning, I went to a place to ask data. But it was fail finally.

Never mind it. The reason was that personal name was private information. It was difficult to get. I would try more about it.

2005年12月11日

Bowling

After long period of leaving sports on bowling, I had the chance to bowling. Yajie and her brother came together. We played four frames each other. It was a nice feeling. We were very happy to play together. Yajie and her brother played bowling at first time. But they played very well. They got two full scores in the final round respectively.

Nice feeling on bowling.

2005年12月10日

Using pure Linux system

After trying more and failing in Cygwin, I had chosen the linux system of our lab. It was a best choice. On this system, I ran the decision trees correctly. It was a nice feeling. I can do my experiments. It was a best feeling.

2005年12月9日

Problem with installing Cygwin

I had been used to compile source code with linux style in Cygwin. When I used it again this evening, I encountered a serious problem. I could not install it correctly. I copied the executable edition from another machine. But it failed again.

I had encountered this problem at the second time. I did not know the reason in detail. It was boring. I would find some other solutions.

2005年12月8日

Leiyu's blog

Eight months ago, I removed Lei Yu's blog link from my blog links. The reason was he had not updated his blog frequently. Last night, Lei said to me that he had sent his blog link to me. He had written so many blogs. There were some nice collections.

This morning, I opened his blog Torpedoes' Blog. I found there were many new articles. They were in some types: Computer Science, Miscellaneous, Probability and Random Process, Linux and Unix, Internet Technology, and Programming. I found some nice articles in it. I liked the two articles as following: 细谈VC程序调试的若干方法 and gnuplot-数据可视化工具.

So his blog link returned to my blog links again. I liked his blog.

2005年12月7日

Research Roadmap

How to define the research roadmap? It was a big problem in front of me. I would work out the research roadmap of coreference resolution. It was my recent work.

In terms of my understanding and study, I listed all the problem domain, theory domain, approach domain, corpoa domain. But they were very simple. I will work out the second vision in detail tomorrow.

2005年12月6日

Ping Pong Club

There was a Ping Pong Club in our IRLab. Before I went to MSRA, we played often. But we did not play regularly.

This time, I would like to play ping pong with us and organize it regularly. This evening, I, with Gold, booked the Ping Pong room. Tomorrow evening we would play together. I liked play ping pong.

2005年12月5日

Discussion and presentation in IRLab

This morning, under my plan, I had a discussion with Zhenghua. His work was under my original research plan. But with some sudden problems, his work had not finished on time. After his introduction, I knew there were three features had not been realized. And his whole system was running on VS.NET 2003. Finally, we listed all the action items and deadline. This week our research on coreference resolution was preparing for the whole work in this month.

On the global plan of our lab, I should present this afternoon. At two o'clock, we had the dual-weekly meeting. I introduced all the works and life I had experienced in MSRA. Many members asked some questions. I like the questions. It was the nice feedback to me.

After the whole meeting, we had the weekly reading group discussion. Zhichang Zhang gave the talk this time. He introduced one of the papers in SIGIR 2005. It was about passage retrieval for QA. The basic idea was using some sentence dependency relation and the path information for more features with ME. The evaluation was on TREC. I believed it was a nice way. We had used some dependency information for some NLP research. But we used only the node with only one arc. We could use more arcs and more features for research.

New meetings, new feeling. I like our IRLab very much!

2005年12月4日

New planning

How to do new plan? I need to think more about it. I had broken away research half a year. To a research, it was very dangerous. There are many things I should finish. I listed all of them on a piece of paper and categorized them into three parts: research, study and life. They are just like my blog name: bill_lang's study and life.

My current works in this week is just planning. It is just like choice which is the most difficult thing in one's whole life. With many nice tools and approaches, I believe I can manage it very well.

2005年12月3日

Snowing

Just now, out of the windows, there was snowing. It was a little snow. After several hours, I saw there was a thick layer of snow on the ground. It was a nice feeling when you walking on it. It was just like some sand.

When I saw through the window, I found there was a white world around our school. It was very beautiful. It was saying that a snow year, a rich year. I believed it was a snow season, a rich season.

I liked such scene and feeling. Do you like it?

2005年12月2日

New all

Dec. 2 is the first formal day I re-worked in IRLab. There was a new machine and monitor assigned to me. I formatted the machine and installed all the software. It was fresh to me. As my IP was a new one, there were many problems when I visited the servers. Victor and Gc helped me a lot. Thanks to them.

After installing a new operating system, I could do many things. I cleared up all the materials and install many common softwares. I thought in this weekend I should prepare all pre-requirement environments. Then I can do my works in the next week.

2005年12月1日

美丽的哈尔滨,我回来了

哈尔滨很冷了现在,金山师兄昨天告诉我。早上5点二十分,火车终于停下来了。冲出车站的那一刻,我感觉很像2000年9月6号那天第一次来到哈尔滨,又向去年过完年一人回到哈尔滨一样,整个儿心里是一种无尽的喜悦。是呀,半年前离开哈尔滨的时候也是有点凉意的,现在的哈尔滨已经很冷了,凌晨五点多非常寒冷,大约有零下20度吧。好在很快就回到了寝室。

早上补了两个小时的早觉后我来到了既亲切无比又有点点生疏的综合楼,进入实验室的时候我敲了敲门,老师们都在这里辛勤的工作着。看到老师们以及实验室的师兄师姐师弟师妹们,我真的感觉像是回到了家。哈尔滨看来真的成为了我的第二故乡了。

回到实验室的感觉真好,我原先的位置已经给了正华,现在只有一个位置了,安装了显示器和机器后开始了实验室的学习生活。这台机器的主板好像出了些问题,还好实验室机器大官家金山师兄很快找来专人帮我换了一块。

晚上六点左右我终于见到了亚杰。她今天也很累的,刚上完课就往这边赶过来了。晚上非常高兴的和亚杰共进晚餐了。晚上亚杰看到了我在北京所有的照片,也见到了我们实验室很多的同学们,一时之间她也感觉有点记不过来了。呵呵,以后一定会经常见到的。

2005年11月30日

今天归IR--Farewell Talk and return

都说最后的晚餐吃的时候感觉很不错,但是等到吃完就是另外一番风味。

上午10点,我准时在Zero Room开始了在全组会议上的Farewell Presentation。题目是AskBill & Query Translation。这是我半年来第一次也是最后一次在全组会议上做报告。报告内容主要是我在MSRA的半年时间里完成的相关工作。整个ppt包含24页,其中使用了我学到的所有制作Slides的技巧。页面的配色和动画的设置非常的耗时,但是最终还是取得了非常好的效果。原本准备的20分钟slide结果却讲了40分钟,原因是我没有充分考虑到其中引起的大量的讨论。这个经验以后一定要好好吸取。

会后周老师代表NLC组向我颁发了MSRA 明日之星的实习生纪念牌,看着上面我的名字,一时之间感情很复杂,一方面是实习了六个月的MSRA即将脱离我的生活轨迹,一方面是即将回到我朝思暮想的哈尔滨的IRLab。其中也算是一种更迭吧,我想年轻人要想变得成熟必须要经历很多的更迭吧。

下午5点半,火车准时启动了,在离开研究院门口的时候吴科、慕华、陈议、际洲纷纷送我出门口直到上出租车,我的兄弟世奇和我一起上了出租车一起往火车站进发。等上车的时候距离开车时间还有半个小时,我和世奇靠在下铺的墙上,彷佛时间回到了半年前的5月16日晚上7点10分左右,那时我们也是这样坐着,想到离别IRLab的大家庭即将开启新的学习生活,心中也是一种莫名的感觉。火车开前15分钟志昌师兄终于来了。开车前五分钟世奇下了火车,话别后开往哈尔滨的列车终于启动了。时间是一种非常奇怪的东西,回想半年的时间过得是那么的快,彷佛自己到了另外一个时空经历过一段时间后又回到了原先的地方,只是人已有好多不在则这里,而是到属于他们的地方去开创自己的未来。

还好是和志昌师兄一起坐火车,车上也就不那么孤独。时间匆匆,明天早上五点我就能回到美丽的哈尔滨了。

2005年11月29日

归IR倒数第二天――Farewell of Jun Lang

MSRA的朋友们,我是郎君。2005年5月17日来到NLC组访问实习,经历了六个月零12天后我非常不舍的向大家说声再见!

每个周二上午你可能都会收到一个Ping Pong Club活动的邀请,发出者就是我。这边认识新朋友的时候时常有人说,“哦,那个Mail就是你发的呀,每次我都当成垃圾邮件直接删掉了”,随后大家都笑笑。现在我已经将Ping Pong俱乐部的全部事宜交给了我们俱乐部的顶尖高手--何因。现在俱乐部在Eileen的帮助下采用了动态邮件列表的方式来和大家进行交互,以后大家就不会所有人都在周二上午收到Ping Pong Club的活动邀请了。哈哈,大家如果想念那个Mail可以把自己添加到邮件列表中(具体事宜请和何因联系)。

在MSRA的日子里,我有幸参加了很多的活多,游玩龙庆峡、京东大峡谷等景点,欣赏美丽的北京郊区风光的同时,了解了很多的朋友,比如最早认识GeYu就是因为一起去龙庆峡。Geyu是名很好的同学,大家都认识了吧,没有认识的一定要认识一下哦。在8月的海报设计大赛中我们天秤小组(Fang Tian, Song Ying, Zhou Zhizhi, Zhen Yuhao, and Lang Jun)获得了Best of Best的大奖,天秤是好样的,大家一起加油呀!还有就是BBQ上的集体兔子舞时所有人都沉醉其中。

MS^2第一期的培训让我学到了很多很多,感谢华老师的精心安排和讲课,感谢Eileen的组织,感谢马昕在Dinner时组织咱们桌精彩的讨论!祝愿MS^2越办越好!

在这里我要感谢我的Mentor 周明老师和牛成老师,两位Mentor的指导和对我学习生活上的帮助是无比巨大的!从两位老师那里我学习到了如何做科研,如何做项目管理的方法,最重要的是在两位老师那里领略了世界级的Researcher的风采。以后我会经常向两位老师学习的。

来到NLC组认识了非常多的好友,
Xu Jun做事严谨,推理精确,时常给予我Machine Learning上的指点;
Zhang Yang活波热情,精通IR Tools,锻炼身体的激情感染了我;
Huang Jizhou执着认真,熟练运用C#,学习新事物的速度让我赞叹;
Chen Yi沉稳负责,QA上无人能比,每每我遇到程序上的问题总是能在他这里快速得到解答;
Hu Yunhua思维敏捷,热心助人,那次CRF的精彩报告让我受益匪浅;
Luo Dijun爱好运动,SQL高手,衷心祝愿你的网球俱乐部早日成立;
Bao Shenghua勤学好问,时常学习到深夜,那种学习的热情让人感动;
Chen Wei好学踏实,一起合作的时间虽短,但是感受到了高水平的动手能力;
Jiang Song乐观健谈,还记得那次Dinner时一起讨论军事的场景;
Zhu Muhua稳健热心,热爱篮球,有空咱们再去挑战台球;
Liu Jingjing具有领导才能,事实上的队长,祝愿队长带领的队伍越来越壮大;
Wu Ke知识渊博,说话幽默,我会想念咱们讨论小波时的那种畅快;
Zhao Shiqi(我的兄弟)幽默热心,时时给大家带来快乐,祝愿在MSRA剩下的一个月里做出高水平论文;
Jiang Long编程高手,堪称NLC组的元老,每次在龙哥这里都能学到很多新鲜的东西。

我认识的朋友还有好多好多,不能一一列举了,祝福同是来自哈工大的王欢良,朱聪慧,国玫学习进步,天天开心!

衷心祝愿MSRA的明天更美好!再见了,朋友

2005年11月28日

归IR倒数第三天--收拾机器

今天整理了一下自己六个月以来所有的资料,感觉有非常多的收获!等回来哈尔滨一定好好总结!想到还有两天就要离开这里了,心里还是有些不舍的。

2005年11月27日

归IR倒数第四天--艰难买到火车票

原本以为今天上午去买火车票应该是非常容易的,目标就是30号晚上9点的T17。等到我上午11点左右去天鸿科园对面的售票点一询问,才知道那趟列车的票已经全部售出,现在只剩下一张软卧了。这和事情让我感到非常的奇怪,因为据说现在很多人都在从哈尔滨往外走,很少有人返回哈尔滨的。这趟车的车票昨晚7点开始在北京各个售票点发售,结果早上就没有了。不知道这其中是那个环节出现了抢购车票的现象。没有办法,俺只能买别的车票了。仔细询问后只剩下了30号下午五点多的一趟特快列车,下铺已经没有了,还有一些中铺和上铺。考虑到check out那天的时间会比较紧,我开始还在犹豫是不是要买这趟车。等了10分钟我决定买的时候,说是现在连中铺都没有了,只剩下几张上铺了。哇!这可让我着急了,赶紧买下两张上铺。现在算来,等到我离开北京的那天一定会非常繁忙的,因为当天上午我还需要做一个在这边实习的总结性报告,还要完成很多的相关手续。看来也只能抓紧每一分钟了。

晚上有幸约到了我本科班在北京的所有同学一起小聚了一把。大家回味着过去的懵懂,闲聊着现在的生活、工作和学习,畅想了一阵儿短暂的未来。同学之情总是那么真挚,祝福我的同学们!

2005年11月26日

归IR倒数第五天——拜访王厚峰老师

今天又办完了一件回哈前需要完成的事情——拜访王厚峰老师。
王厚峰老师现在是北京大学计算语言学研究所的副教授,在国内目前是研究指代消解水平最高的研究人员。在和王老师互通了几次邮件后一周前约好了今天的访问。王老师周末本来是不用上班的,但是最近我的时间很紧张,只能挤到周六了。感谢王老师百忙之中抽出时间来会见我。

早上大约9:15,我准时到达王老师的办公室。这个屋子是王老师自己的办公室,布局很好。王老师和我想象中的一样和蔼。在做完自我介绍后我们开始了长达两个半小时的谈论。来之前我把王老师的论文全部阅读过,心中对王老师是非常的崇敬的。王老师在指代消解上的工作做得越来越细,已经深入到底层去细化各个特征的抽取。其实在完成NLP的相关研究的时候会到达一种算法和方法上的极限,这个时候就自然进入细化特征的阶段。回想自己在指代消解上的研究还差得比较远。

时间飞快!我向王老师请教了关于现在得研究热点、难点、趋势、类型、RST、与其它模块得互动、ACE、可视化、集合划分、跨语言、跨文档、小波分析、错误传播、前景等问题。前后大概算下来有20多个问题。王老师非常认真得和我一起探讨了每一个问题。后来我们达成一种共识,那就是需要在选定标注工具的基础上完成标注规范的制定。我们以后会在这个方向上开展进一步的合作。对于完成这样一个博士课题,王老师对于我提出的那三个最关键的想法还是非常赞成的。当然它们都很有难度,需要做很多细致认真的基础工作。

通过和王老师的这次会谈,我更加坚定了完成这个题目下的博士课题研究的信心和决心。前途光明,道路曲折,需要下苦功!

2005年11月25日

归IR倒数第六天--编程与编码

传说中的昨晚哈尔滨地震最终还是被证明就是谣言。这个年代普通人对谣言没有抵抗力的,但是有非常良好的间接传播能力。祝福我的老师和朋友们平安度过这段“难忘”的日子。

今天的工作主要集中的在修正已经完成的工作中的几个bug。第一个最大的bug是我完成的英法词典里面有很多的乱码,特别是在那些本该有帽子的地方都显示不正常。这个事情以前牛成老师提到过,当时我以为那些就是法语中正确的码断。今天在整理完成工作的时候我才发现原先处理的一个语料中没有将它转换为UTF8编码,所以才出现了这个问题。花了几个小时终于将这个问题彻底解决,现在的词典没有任何的乱码,想要怎么转就怎么转。

牛成老师在下午的时候给我很好的介绍了编程过程中需要注意的字符串编码的问题。以前我编程的时候不太注意这个问题,因为我一直都是用标准C++编程的,以前除了在参加ACE的时候有过将UTF8转换为Ascii的一点点编码转换外,我的程序都是在Ascii和ANCI上完成的。最近的时间里面都在处理法语,这个东东需要非常注意编码格式,其中自然也就涉及到了很多的编码转换的问题。可以说从9月13号以来我工作的一个很大部分都是在和编码转化打交道。时至今日,到上午前我还一直是处在控制输入输出文件格式上,没有在程序中很好的使用编码转换的代码。牛成老师教导我说程序中书写的每个string,不管是标准的还是宽字节,一定要非常清楚的知道当前这个字符串的编码格式,否则程序运行的结果肯定会是不稳定的。这一点一般人在编程的时候都不认真的考虑,感觉程序一次运行通过就算完事了,后果常常是出现第二次运行的时候出现问题。

牛成老师的指点让我感觉非常的受益!因为这个过程中再次验证了那个作研究每个细节都不能放过的观点,一定要做到Professional的程度,对待遇到的任何一个相关问题都要非常规认真的分析和解决,这样才能作出做好的研究。牛成老师就是这样以为Researcher。我非常的敬佩他!

2005年11月24日

归IR倒数第七天

还有一周就要回到哈尔滨的IR实验室大家庭,心里分外的高兴和激动。还有一点很重要的是可以看到亚杰的。哈哈,真是分外想念大家呀!离开哈尔滨算来已经有六个月零7天了。数着日子开始计算准备回哈的日子了。

今天是倒数第七天。在过去的几个月里,我发现了一个现象,那就是快要离开这里的同学都非常的忙,越到最后就越是忙。这两天我也是这样的。今天上午费了九牛二虎之力才将那个非常麻烦的法语编码导致的错误纠正过来,不过还是发现了一些乱码存在里面。下午违拗晚上的时间过得非常快,主要忙着完成自己下周三的Farewell Talk。好久没有这么总结过自己的工作,这个机会非常好,俺会好好珍惜的。

2005年11月23日

禽流感、火灾、地震安全常识一览

祝福哈尔滨的朋友们一切平安
---------------------------------

一、预防禽流感
   
1、禽流感的特点:

      中国畜牧兽医学会禽病学分会副理事长、中国农业大学动物医学院禽病专家杨汉春教授认为禽流感有如下特点:
      禽流感病毒在阳光下只能存活24到48小时,禽流感一般多在冬春两季流行,在5到10月份就基本平复。
      高温亦可杀灭禽流感病毒。禽流感病毒在56摄氏度下只能存活30分钟,在60摄氏度下只能活10分钟。人类在进食禽肉时,只需高温烹煮,即可杀灭可能存在的病毒。
      人类感染禽流感后,症状与流行感冒没有太大区别,只要及时就医,并无大碍。
      高致病性禽流感,一般通过两种途径传染,一是通过禽肉、禽蛋等禽产品的流通进行传播,另一种就是通过飞禽传播,主要是通过大量携带病毒的候鸟迁徙进行传播。
      据他分析,此次禽流感,极有可能与迁徙候鸟参与传播有关。由于候鸟过冬迁徙范围一般较大,所以,通过候鸟传播禽流感的范围一般也会较大。另外,此次高致病禽流感由北向南的传播次序,在某种程度上,也印证了专家关于北方候鸟迁徙到南方过冬,从而一路传播禽流感的猜测和分析。


2、哪些消毒剂能有效杀灭禽流感病毒及其使用方法

  据全国防治高致病性禽流感指挥部办公室介绍,禽流感病毒在外界环境中存活能力较差,只要消毒措施得当,应用养禽过程中常用的醛类、含氯消毒剂、酚类、氧化剂、碱类等消毒剂,均可将环境中的病毒杀死。
  场舍环境采用下列消毒剂消毒效果比较好:
  醛类消毒剂有甲醛、聚甲醛等,其中以甲醛的熏蒸消毒最为常用。密闭的禽舍可按每立方米7克至21克高锰酸钾加入14毫升至42毫升福尔马林进行熏蒸消毒。熏蒸消毒时,室温一般不应低于15摄氏度,相对湿度应为60%至80%,可先在容器中加入高锰酸钾后再加入福尔马林溶液,密闭门窗7小时以上便可达到消毒目的,然后敞开门窗通风换气、消除残余的气味。
  含氯消毒剂的消毒效果取决于有效氯的含量,含量越高,消毒能力越强,包括无机含氯消毒剂和有机含氯消毒剂。可用5%漂白粉溶液喷洒于动物圈舍、笼架、饲槽及车辆等进行消毒。次氯酸杀毒迅速且无残留物和气味,因此常用于食品厂、肉联厂设备和工作台面等物品的消毒。
  碱类制剂主要有氢氧化钠等,消毒用的氢氧化钠制剂大部分是含有94%氢氧化钠的粗制碱液,使用时常加热配成1%至2%的水溶液,用于消毒被病毒污染的鸡舍地面、墙壁、运动场和污物等,也用于屠宰场、食品厂等地面以及运输车船等物品的消毒。喷洒6小时到12小时后用清水冲洗干净。


二、火灾逃生自救九大要诀
 
  第一诀:不入险地,不贪财物。生命是最重要的,不要因为害羞及顾及贵重物品,而把宝贵的逃生时间浪费在穿衣或寻找、拿走贵重物品上。
     第二诀:简易防护,不可缺少。家中、公司、酒家应备有防烟面罩,最简易方法也可用毛巾、口罩蒙鼻,用水浇身,匍匐前进。因为烟气较空气轻而飘于上部,贴近地面逃离是避免烟气吸入的最佳方法。
     第三诀:缓降逃生,滑绳自救。千万不要盲目跳楼,可利用疏散楼梯、阳台、落水管等逃生自救。也可用身边的绳索、床单、窗帘、衣服自制简易救生绳,并用水打湿,紧拴在窗框、暖气管、铁栏杆等固定物上,用毛巾、布条等保护手心、顺绳滑下,或下到未着火的楼层脱离险境。
     第四诀:当机立断,快速撤离。受到火势威胁时,要当机立断披上浸湿的衣物、被褥等向安全出口方向冲出去,千万不要盲目地跟从人流相互拥挤、乱冲乱撞。撤离时,要注意朝明亮处或外面空旷地方跑。当火势不大时,要尽量往楼层下面跑,若通道被烟火封阻,则应背向烟火方向离开,逃到天台、阳台处。
     第五诀:善用通道,莫入电梯。遇火灾不可乘坐电梯或扶梯,要向安全出口方向逃生。
     第六诀:大火袭来,固守待援。大火袭来,假如用手摸到房门已感发烫,此时开门,火焰和浓烟将扑来,这时,可采取关紧门窗,用湿毛巾、湿布塞堵门缝,或用水浸湿棉被,蒙上门窗,防止烟火渗入,等待救援人员到来。
     第七诀:火已烧身,切匆惊跑。身上着火,千万不要奔跑,可就地打滚或用厚重的衣物压灭火苗。
     第八诀:发出信号,寻求救援。若所有逃生线路被大火封锁,要立即退回室内,用打手电筒、挥舞衣物、呼叫等方式向外发送求救信号,引起救援人员的注意。
     第九诀:熟悉环境,暗记出口。无论是居家,还是到酒店、商场、歌厅时,务必留心疏散通道、安全出口及楼梯方位等,当大火燃起、浓烟密布时,便可以摸清道路,尽快逃离现场。


三、地震时的10条须知


1、 为了您自己和家人的人身安全请躲在桌子等坚固家具的下面
 
  大的晃动时间约为1分钟左右。这是首先应顾及的是您自己与家人的人身安全。首先,在重心较低、且结实牢固的桌子下面躲避,并紧紧抓牢桌子腿。在没有桌子等可供藏身的场合,无论如何,也要用坐垫等物保护好头部。



2、    摇晃时立即关火,失火时立即灭火


  大地震时,也会有不能依赖消防车来灭火的情形。因此,我们每个人关火、灭火的这种努力,是能否将地震灾害控制在最小程度的重要因素。
  从平时就养成即便是小的地震也关火的习惯吧。




  为了不使火灾酿成大祸,家里人自不用说,左邻右舍之间互相帮助,厉行早期灭火是极为重要的。
  地震的时候,关火的机会有三次:
  1)第一次机会 在大的晃动来临之前的小的晃动之时
  在感知小的晃动的瞬间,即刻互相招呼:“地震!快关火!”,关闭正在使用的取暖炉、煤气炉等。




  2)第二次机会 在大的晃动停息的时候
  在发生大的晃动时去关火,放在煤气炉、取暖炉上面的水壶等滑落下来,那是很危险的。大的晃动停息后,再一次呼喊:“关火!关火!”,并去关火。




  
  3)第三次机会 在着火之后
  即便发生失火的情形,在1-2分钟之内,还是可以扑灭的。为了能够迅速灭火,请将灭火器、消防水桶经常放置在离用火场所较近的地方。



3. 不要慌张地向户外跑


  地震发生后,慌慌张张地向外跑,碎玻璃、屋顶上的砖瓦、广告牌等掉下来砸在身上,是很危险的。此外,水泥预制板墙、自动售货机等也有倒塌的危险,不要靠近这些物体。



4. 将门打开,确保出口


  钢筋水泥结构的房屋等,由于地震的晃动会造成门窗错位,打不开门,曾经发生有人被封闭在屋子里的事例。请将门打开,确保出口。  
  平时要事先想好万一被关在屋子里,如何逃脱的方法,准备好梯子、绳索等。



5. 户外的场合,要保护好头部,避开危险之处


  当大地剧烈摇晃,站立不稳的时候,人们都会有扶靠、抓住什么的心理。身边的门柱、墙壁大多会成为扶靠的对象。但是,这些看上去挺结实牢固的东西,实际上却是危险的。 
  在1987年日本宫城县海底地震时,由于水泥预制板墙、门柱的倒塌,曾经造成过多人死伤。务必不要靠近水泥预制板墙、门柱等躲避。




  在繁华街、楼区,最危险的是玻璃窗、广告牌等物掉落下来砸伤人。要注意用手或手提包等物保护好头部。
  此外,还应该注意自动售货机翻倒伤人。
  在楼区时,根据情况,进入建筑物中躲避比较安全。



6. 在百货公司、剧场时依工作人员的指示行动


  在百货公司、地下街等人员较多的地方,最可怕的是发生混乱。请依照商店职员、警卫人员的指示来行动。
  就地震而言,据说地下街是比较安全的。即便发生停电,紧急照明电也会即刻亮起来,请镇静地采取行动。
  如发生火灾,即刻会充满烟雾。以压低身体的姿势避难,并做到绝对不吸烟。



  搭乘电梯的话, 在发生地震、火灾时,不能使用电梯。万一 在搭乘电梯时遇到地震,将操作盘上各楼层的按钮全部按下,一旦停下,迅速离开电梯,确认安全后避难。
  高层大厦以及近来的建筑物的电梯,都装有管制运行的装置。地震发生时,会自动的动作,停在最近 的楼层。
  万一被关在电梯中的话,请通过电梯中的专用电话与管理室联系、求助。



7. 汽车靠路边停车,管制区域禁止行驶


  发生大地震时,汽车会象轮胎泄了气似的,无法把握方向盘,难以驾驶。必须充分注意,避开十字路口将车子靠路边停下。为了不妨碍避难疏散的人和紧急车辆的通行,要让出道路的中间部分。
  都市中心地区的绝大部分道路将会全面禁止通行。充分注意汽车收音机的广播,附近有警察的话,要依照其指示行事。
  有必要避难时,为不致卷入火灾,请把车窗关好,车钥匙插在车上,不要锁车门,并和当地的人一起行动。



8. 务必注意山崩、断崖落石或海啸


  在山边、陡峭的倾斜地段,有发生山崩、断崖落石的危险,应迅速到安全的场所避难。
  在海岸边,有遭遇海啸的危险。感知地震或发出海啸警报的话,请注意收音机、电视机等的信息,迅速到安全的场所避难。



9. 避难时要徒步,携带物品应在最少限度


  因地震造成的火灾,蔓延燃烧,出现危机生命、人身安全等情形时,采取避难的措施。避难的方法,原则上以市民防灾组织、街道等为单位,在负责人及警察等带领下采取徒步避难的方式,携带的物品应在最少限度。绝对不能利用汽车、自行车避难。
  对于病人等的避难,当地居民的合作互助是不可缺少的。从平时起,邻里之间有必要在事前就避难的方式等进行商定。



10. 不要听信谣言,不要轻举妄动


  在发生大地震时,人们心理上易产生动摇。为防止混乱,每个人依据正确的信息,冷静地采取行动,极为重要。
  从携带的收音机等中,把握正确的信息。相信从政府、警察、消防等防灾机构直接得到的信息,决不轻信不负责任的流言蜚语,不要轻举妄动。



2005年11月22日

警惕过劳

日本学者列举出27项“过劳”症状和因素,其中有7项者,就有存在“过劳”的潜在危险;有10项者则随时可能发生“过劳死”,一定要引起重视。

1、经常感到疲倦,忘性大;
2、酒量突然下降,即使饮酒也不感到有滋味;
3、突然觉得有衰老感;
4、肩部和颈部发木发僵;
5、因为疲劳和苦闷失眠;
6、有一点小事也烦躁和生气;
7、经常头痛和胸闷;
8、发生高血压、糖尿病,心电图测试结果不正常;
9、体重突然变化大,出现“将军肚”;
10、几乎每天晚上聚餐饮酒;
11、一天喝5杯以上咖啡;
12、经常不吃早饭或吃饭时间不固定;
13、喜欢吃油炸食品;
14、一天吸烟30枝以上;
15、晚上10时也不回家或者12时以后回家占一半以上;
16、上下班单程占2小时以上;
17、最近几年运动也不流汗;
18、自我感觉身体良好而不看病;
19、一天工作10小时以上;
20、星期天也上班;
21、经常出差,每周只在家住两三天;
22、夜班多,工作时间无规律;
23、最近有工作调动或工作变化;
24、升职或者工作量增多;
25、最近以来加班时间突然增加;
26、人际关系突然变坏;
27、最近工作失误或者与人发生不和。

_____________________________________________

朋友们,工作之余注意适当休息一下下哦:)

2005年11月21日

归IR——工作二次交接

离回到哈尔滨还有刚好10天了,上个周末完成了天津之行。今天我们项目组的讨论会上我向我的mentor牛成老师介绍了我上周最新的工作进展,剩下的工作主要还是交接方面的事宜。我需要将前一段时间完成的网络验证的程序切换到别的引擎,同时调研一下自己一直想做的Clique的东西。mentor非常支持我的想法,鼓励我完成这个survey工作。二次交接工作还需要另外一位同学的配合。未来的9天里我需要完成的工作还真不少呢。
不过不要紧,我会慢慢来,一件一件做好的。

2005年11月20日

天津之行--第二天

天津很美,它的古文化大街更美,这里有很多的特色。粘贴几张照片吧
01天津古文化大街街口



02大街正路



03泥人张世家



04海河某桥头



05钢铁桥身



06牛儿力气真大



07与伟人握手



08北洋大学堂(天大前身)


09天津的朋友们

2005年11月19日

天大之行

半年前刚到MSRA的时候,当天就和天大的小崔认识如故,彷佛是多你的老友相会在一起。我们之前只是在网上讨论过一些问题以及相互发送过一些相关的资料。当时我们聊了很多很多,我也在小崔那里学习到了很多很多的,比如rank方面的东西。我们聊的话题中还有一部分是关于在天大举办学生之间的Seminar的相关事宜。随后的日子里我们经常探讨这个话题,讨论了很多关于如何将Seminar办好的方法。

以前就答应过小崔在我回到哈尔滨前会到天大玩一圈,如果有机会的话到他们实验室参观一下,或者作个机器学习相关的报告作为seminar的部分。这个月底我就会回到哈尔滨了,所以在两周前我们就在讨论去天津的行程安排了。一来是实现我当初的承诺,而来也祝贺小崔拿到了MSRA TTG的Offer。原本想在天大介绍一下关于决策树方面的综述,但是我来MSRA后一直在完成项目,没有继续深入的学习和理解机器学习方面的前沿动向,而且现在机器学习中决策树已经出现了有些过时的迹象,现在的主流取向于CRF和SVM。还有一个考虑是我不能清楚的知道参加我们报告会的听众是什么知识背景,没有很好的听众模型就不能很好的做好报告。因此我想做一个非常宽泛的报告,在报告中引出一些相关的话题进行讨论。出于这种打算,我准备在报告会上做一个“信息检索实验室简介”的报告。征得我们老师得许可后,这周我在准备这个报告的相关内容。

今天一早,张扬,际洲,陈议和我,我们四人一起八点多出发踏上了去往天津大学的行程。恰好来自天津大学的张扬也好久没有回去了。

约莫上午11点半,我们到达了天津火车站,打车二十分钟后到达天津大学的北门。走了一会儿那种熟悉的校园绿荫道,我们来到了小崔的寝室。看到自己的老友我们大家都分外激动。张罗一下后我们去吃午饭了。

下午在小崔的带领下我们参观了天大的校园。来到这里我感觉自己彷佛回到了我们的哈工大校园,真是格外的想念和回味我在哈尔滨的生活以及实验室的精彩时光,还好我月底就要回到我们的IR大家庭了。天大的一个最大的特色就是湖多,五个大湖在校园里格外的漂亮。天津大学建立于1895年,原名叫北洋大学堂。校园里绿树成荫,映衬着美丽的湖畔,让人感到格外的舒畅。

四点半左右我们一起来到小崔的所在的人工智能实验室。他们实验室主要在做一些非线性维数约简,流型学习,人工智能,远程教育系统,以及IR的研究。和我们聊天的主要是一位姓孙的博士,他现在带领的小组正在完成一个名为Sogood的股票搜索引擎。其中已经实现了很好的用户需求,可以输入股票代号返回股价和相关文档,目前正在完成K线图之类的分析图表。有一位博一的同学对形式语言、递归函数、程序语义等问题非常有研究兴趣,从他那里我也学习到了很多的关于程序设计需求的逻辑表示的问题。

晚上的报告如期而至。七点在23号大楼4楼的一个教室里面,我们开始了行程中最重要的一个环节——我们的三个报告。教室和我们哈工大A楼大教室差不多,听众大概有60人左右。人工智能实验室的博导何教授也专程赶来。我第一个做报告。报告题目就是《哈工大信息检索实验室简介》。这个slides是我的老师制作的,这是我第一次给别人宣讲我们实验室,自然也感到有些紧张。登上讲台向大家问好后,我开始进入了状态,开始将我们实验室的相关工作进行了介绍。其中涉及到的很多的自然语言处理和信息检索的概念我都一一进行了解释。报告过程中我加入了很多自己对于我们实验室的理解。报告时间大概是55分钟,之后何老师向我询问了文本水印、复述等相关技术的问题。在座也有四位同学向我询问了关于信息抽取、IR for NLP & NLP for IR等问题。

之后的两个报告是我们一起来的际洲的Learning Effective Ranking Funtions for Newsgroup Search。和陈议的A Very Simple Survey of Question Answering System。际洲和陈议的报告中我也学习到了很多的新鲜的东西。比如陈议提到LCC的QA系统能够通过逻辑推理判断两个句子讲述的内容究竟是不是一致。

最后小崔邀请他们实验室的一位姓朱的同学做了《基于网页相关性的SE优化系统》,其中提到了一个非常有趣的工作——非线性维数约简NDR。这个东西能够实现非线性高维空间的维数约简,实现的功能和传统的PCA非常类似,只是完成的工作是基于非线性空间的,而PCA是线性空间的。感觉非常的有用,或许能够推动机器学习的应用!

几个报告都非常的经常,也引来了阵阵掌声。会后我和何老师请教了几个问题。何老师对于我们的来访非常的高兴,说我们的报告给他们带来了很多新鲜的理念和当前的前沿研究内容。对于我们实验室的工作,何老师非常的佩服。我也向何老师说明了以后也非常欢迎他能到我们实验室参观访问,或者进一步的在人工智能、信息检索等领域开展合作。何老师欣然接受了,说有机会一定会去的。

总结一下:报告过程中我看到了很多期待交流的眼神,我也向他们讲述了我对交流的理解,以及我们实验室对于交流的重视。看得出我们的报告还是起到了一些效果的。短短的几个小时,我也学习到了很多的东西,比如LCC和NDR。等我回哈后一定要好好学习这两个东西。

2005年11月18日

Struct的释放问题

以往编写C++程序的时候,比如要将一组对象装入到一个向量里面,我经常是在循环外面申明一个新的对象,然后在循环里面先clear一下,然后装入数据到其中再装入到向量中。这种方法不会引起内存的泄漏问题。最近在写一个程序的时候其中有一个函数需要多次调用,每次调用的时候都需要申请一个结构体,然后处理完结构体再传回放入一个向量中。

编程程序的时候想当然的认为这里不会引起内存泄漏的问题,因为结构体有生存周期,应该会自动释放的。今天在大规模测试我的程序的时候居然发现随着测试样本的增加,内存占用越来越多,幸亏没有进行更大规模的测试,否测机器可能会崩溃掉的。哈哈,后来想到了这个隐含的bug。函数中加上了结构体的释放,这才使得程序在内存消耗上稳定下来。

后来查阅资料明白了,STL自带的各种容器对象都有自带的内存释放操作。而结构体是C的元素,没有加上释放,指针也有类似的问题。

以后编程程序一定要注意这些问题。当然,这也告诉我以后写完程序一定要多做测试,这样才能尽可能的发现和解决各种潜在的问题。

2005年11月17日

应聘经历

如果没有硕博连读,现在我肯定在忙着找工作。下面是我的一个好兄弟(skiffer)的应聘经历,其中涉及到很多的经验和技巧以及对后人的告诫。与大家分享一下吧。共两篇。
source: IR毕业生

1-----------------------------------------
通过自身应聘经历来谈谈就业相关

今天所写都是自己的真实感受
没有哗众取宠的嫌疑
欢迎讨论
但不要骂人
我先简单介绍一下自己
我本科毕业于数学系
比较幸运保送到计算机读研究生
也比较幸运选择了现在的实验室
一个非常优秀的实验室 包括老师 同学 和 整个精神面貌
2003年进入实验室,基本没干什么正事 心态没放好
后来经过导师的教育 我开始意识到问题的严重性
从去年的11月份开始渐渐开展自己的课题 提高自己
包括编程能力和科研能力
到今天为止 水平都很一般
发表论文两三篇
编程能力顶多算中等吧
很多关于计算机的知识没学过
所以计算机基础知识有些欠缺
英语六级没过
成绩全系排在3/4之后
..................

今年9月份 一个偶尔的机会 或者说得益于实验室的名气和实力
AA公司早早给了offer 我那它垫底 最后还是回到了原地 呵呵

后来有个ATC的面谈(非面试),但是有一个很简单的笔试和项目讨论
我说说关于这两个东西的想法吧
笔试确实很简单,但是自己第一次笔试,感觉太简单了 没太在意
早早交了卷 有些自己认为可写可不写的东西就没有写
后来我总结了这个教训,在笔试的时候,不要轻易下手 尽量把情况考虑完美些
因为这不是选择题 可能没有严格的对错之分,可能更多的是好坏之分
字迹要工整 因为这都是给面试官看的 重要性我就不要强调了

在项目讨论的时候,我们组有3个好的创意,其中有2个是我独自提出的
但是在演讲的时候 我没有表现,把机会留给了别人 当然 最后我也失去了继续挑战ATC的机会
总结教训如下:在项目讨论的时候一定要适当的表现自己,让面试官对你有一定的认识
上台表现至少会增加自己被录用的可能性 请大家一定要记住这个教训


接过ms的两个电话面试,没有消息


一个偶然的机会 我去过搜狗和百度面试

在搜狗面试的时候 表现的不卑不亢 后来在我回哈尔滨的时候通知我二面 在后来我也懒得去了 有个人的原因
后来在下午的时候去百度面试 经历了5个面试官 共3个多小时的面试
自我感觉不错的 其中有个面试官我以前认识
不过后来还是被那个科学家给拒绝了 我写信问过那个我认识的面试官
他说对我印象很好 但是具体情况未知 他说可能我与公司的用人准则不符的
百度可能不适合有头脑的人
...
这不是托辞 因为他只是一个实习生,马上要毕业了,不久就要离开百度,所以他的话
还是很可信的

总结教训如下:
我仔细回忆,觉得在最后一个面试官的时候自己表现不好,当时我感觉已经胜券在握了
所以没有很在意第五个面试官 因为前面几个我的表现都很不错
那时候自己有点得意 在做面试题的时候有些不够重视
最后一个题没有给出她满意的结果
也许被拒与这个有关系吧
所以告诫大家千万不要得意 直到offer到手了再说吧
同时一定要认真对待每个面试官每个题,哪怕是很小的题
千万不要掉以轻心

还无聊的去中兴面试了一下 没什么可说的 呵呵
......


这是我整个找工作的过程,我说说自己的感想吧
第一:工大学生质量有些滑坡
腾讯在很多地方校园招聘,看了一下在成都的招聘结果,总共50多人被录取
有5个左右的四川大学的学生,其它都是电子科大的,如果我没记错的话
在南京招聘,15人几乎都是南京大学的......
我看了一下在哈尔滨的招聘,情况很不同了,有黑龙江科技学院的 有黑大的 有理工的
有工程的 ...我没有看不起他们的意思 我只是觉得我们工大学生应该不会比他们差...
我不知道到底是工大学生质量滑坡了?还是HR看走眼了?这个留给大家去思考吧

第二:研究生最好就是多开发工程
至少我发的那几个论文对找工作几乎没有什么用处,开发工程才是正道,越多越好,工程的数目对HR很有说服力,比如A只开发了一个工程,但这个工程很复杂,但是HR并不一定了解它的复杂性,因为专业的不同,当A跟他说我做了某个工程,HR马上会问,还做过别的吗?A说没有了,那么一般HR对A的印象不是特别好
我觉得在如果大家研究生毕业就是为了找个好工作而不是读博士,请开发大量的工程,计算机类的同学练好编程才是硬道理,别的研究能力都是扯淡,你看看google的招聘就知道了
你看看ms的笔试题面试题就知道了...

第三:工大研究生两年不知道是不是研究生竞争力减弱的一个原因?

第四:工大位置对就业影响很大
计算机的学生很多都等着中兴华为过来,说得不好听没什么追求,但是也很无奈
因为很多大公司他们是不会来哈尔滨的,所以你看看水木的bbs,他们大部分讨论的是真正的大公司,因为北京的高校有很多的机会,我们不怕竞争,但是我们需要竞争的机会

第五:工大对就业不够重视
具体情况我就不用说了

第六:基础知识要牢固
腾讯的笔试题,很简单的,我看很多工大学生打了20-30分,呵呵,作对5个选择题
就20-30分了,我不知道他们怎么考的...所以请大家一定要学好基础知识 每个专业都有
本专业的基础知识

第七:校友的作用很大的
我希望毕业后的校友能多多关注母校,学校靠什么?很大程度上靠校友

第八:机会一定要靠自己去争取
那个搜狗和百度的机会都是我自己争取过来的,虽然没有成功,但是却有成功的机会
第九:一切都要靠自己
自己有真本事才是硬道理
仅供参考 欢迎讨论

2-----------------------------------------
对自然语言处理专业的研究生的建议

刚签约工作,心里总有些话要说,我的初衷是写出自己的想法,让大家借鉴,以期望各位同学能找到自己满意的工作,走好迈向成功的第一步。
我硕士方向是做自然语言处理,信息检索的,最近搜索比较热门,我本以为自己能找到比较满意的工作,例如去msn,baidu,东芝,富士通等比较知名的企业,google倒是可遇不可求了,一路走来,最后签约腾讯作搜索,总得说来一般满意,但是没有办法,人生总有无奈,人总要吃饭和生活,而且在腾讯作本专业相关的也挺不错的,所以算满意,而腾讯毕竟是小公司,并且在深圳,以后的发展,特别是对从事互联网行业的人来说发展是很受限的,再加上治安等其他因素,总的说来算是一般满意吧。我为什么没能去上msn,甚至去baidu也没有成功呢?细细想来,仔细剖析,得出如下结论:
自然语言处理的学生为什么没有想象的那么抢手? 、
最近搜索方向异常火爆,而在搜索中要用到一些自然语言处理的知识,很多做自然语言处理的学生,包括我,以为较容易找到自己满意的工作,而结果呢?结果我被baidu拒绝了呵呵,据我说知,在工大这边去msn,baidu的也很少吧?为什么现实会与我们的想象有很大的距离呢?原因如下:
1.自然语言处理在搜索中占得比重并不大,目前很多人对自然语言处理能在搜索中起多大作用持悲观态度。
2.工程在搜索中占得比重很大,大家听过google的报告都知道,google针对搜索这个特定的工程,已经对linux做了很大的改动,他们的并发访问、容错、安全等计算机工程上的东西做得非常好,而如果你仅仅有自然语言的背景,或者有幸发过两三篇论文,有所谓的创新意识,而如果你没有很强的编程能力,也就是说如果你没有很强的计算机基本功,你有自然语言处理的背景根本没有任何作用,除非你有很强的数学功底,对机器学习有很强的认识和理解,可是,又有几个硕士生能够做到?
建议:
1.脱下专业的外衣,摘下专业的光环,埋头苦干,闭关修炼,练好计算机基本功,如数据结构、算法等,李开复博士都介绍过那些重要的东西。
2.在学好基本功的时候,涉猎一些自然语言处理,信息检索相关的课题,这就是一个锦上添花的过程,千万不要以为有了专业方向就有了一切。
3.尽可能多地做工程,我觉得自然语言处理工程的东西比较少,所以硕士生得不到充分的锻炼,这也是咱们的劣势之一,所以应该想办法加强。
4.不要过多地涉及研究,除非是顶级论文,否则你发的论文对找工作没有任何的用处。
5.在应聘别的方向的工作时,往往有一些劣势,我记得有同学在应聘通信方向的工作时,面试官问自然语言处理是什么,他后来花了几分钟的时间去介绍自然语言处理,面试官首先就对你不感兴趣了,第一印象已经不够好了。
如果说你很想去msn,baidu之类的公司应该怎么计划呢?
1.练好计算机基本功
2.对信息检索和自然语言处理的基本技术要有深刻的认识
3.发过一些论文
4.对机器学习有深刻的认识
不过我觉得一个硕士生,特别是工大两年毕业的硕士生,能达到这些条件还是很难的,所以,如果你不能做到以上4点,你可以做好第1,第2点,特别是第1点,就算你没有去上msn,baidu这样与自己专业背景相同的公司,你也会有很多的其他选择,因为你具备了计算机基本功。

2005年11月16日

归IR:开始准备篇

上午NLC组全体员工大会,主要讨论我的mentor牛成老师负责的研究项目。讨论内容就是项目的背景,现状,以及下一步工作计划,不但包括项目的成果也包括论文的发表计划。会末我们确定了每位成员的行动列表和时间安排。由于我月底要离开这里回到哈尔滨,我需要在剩下的半个月里面将我完成的工作全部交接给今天刚到这里的南京大学的同学。当然还得将我前些日子关于我完成的题目中迸发出来的许多研究的ideas交给这位同学,但愿他能在后期将我的想法升华然后发出论文来,这样我的那些ideas也就不算枉费了。

剩下的15天我需要完成的工作还真不少,除了交接工作外还需要将项目的第一个版本的功能全部实现并且代码转交产品组。另外还需要在业余时间拜访北京地区的一些老师和同学,争取在我负责的指代消解研究工作中获得更多的新鲜的ideas。

所剩时间不多,我需要抓紧了。朋友你也要抓紧时间呀,时间真的如流水,一不留神就会流逝的。这让我想起了朱自清的《匆匆》中的那几句:

----------------------------
洗手的时候,日子从水盆里过去;
吃饭的时候,日子从饭碗里过去;
默默时,便从凝然的双眼前过去。
我觉察他去的匆匆了,伸出手遮挽时,他又从遮挽着的手边过去,
天黑时,我躺在床上,他便伶伶俐俐地从我身上跨过,从我脚边飞去了。
等我睁开眼和太阳再见,这算又溜走了一日。
我掩着面叹息。但是新来的日子的影儿又开始在叹息里闪过了。
----------------------------

2005年11月15日

游泳时间

最近一直很忙,每周的锻炼仅限于周一的一小时台球和周三的两小时乒乓球。前些日子在继续的跑步终于在工作和学习压力下淡出我的生活。感觉这样的日子还是有些不是很舒服的。

我们工作大楼地下一层有个健身房。它是早安中国中那个健身房的连锁店,设施和服务都是北京一流的。前些日子到这里问了一下,可惜不办理月卡。刚从Intern转为员工的Leishi在这里有了锻炼卡,多出了三张体验卡邀请我一起去体验一下。这个机会很好呀。邀上以前和我一起到阳光游泳池游泳的陈议,我们三人晚上七点半就往楼下“进发”了。

这个健身房各种锻炼设施都有,比起我们学校的健身房可真是好出很多。可惜游泳池比较小,只有21×7大小。比起阳光的25×15就差远了。嗯,毕竟不是专门的游泳馆呀。

记得上次游泳好像是一个月前了。隔了这么久感觉自己游泳的体力下降了不少,游了十几个个来回就不想游了。洗完澡后感觉还是非常的舒服的。嗯,等到俺下个月回到哈尔滨后一定要坚持经常去游,据说哈尔滨黑大的游泳池可是50×25的呀^_^

2005年11月14日

给你一个支点……

北航自习主楼门口有个叫做“支点”的艺术建筑,下面的铭牌上写着一句话:“阿基米德说,给他一个支点,他能撬动地球。如果给我们一个支点,我们会……”。(大意如此)
给你一个支点,你能做什么呢?
支点难求,但是有了支点你会否珍惜呢,或者你是否还没有发现就在你身边的支点呢?

2005年11月13日

破坏规则&打造更好的新产品

前些日子从慕华那里借来了这本《Google成功的七堂课》。按照原定计划今晚开始学习。这本书详细介绍了Google创业到现在经历的许多的事情。网上得介绍请见Google成功的七堂课
本书共有七课:

•屡屡打破规则,标新立异
•以更好的产品,后来居上
•拿整个世界当实验室,精益求精
•时时以顾客的体验为念
•因为分享,所以成功
•想方设法吸引顶尖的员工
•不使坏也能赚大钱

今晚学习了前两课:破坏规则、打造更好的新产品。这两课的目录如下:
第一课 破坏规则 1
聪明而自信 2
向旧框框说不 5
世纪大拍卖 8
花与股票 9
跳过中间人 10
不重蹈覆辙 12
与狼共舞 14
有本事才能大声 16
行销高手 17
新股亮相 19
募集2 718 281 828美元 20
首日交易价格大涨 22
启示 23
定价透明,一切好办 25
买卖双方同受其惠 27
第二课 打造更好的新产品 31
互联网的灰姑娘 34
网页等级(PageRank) 36
庞大的数据库 38
重新“发现”搜索引擎 40
关键字广告 44
网络搜索战国时代 47
雅虎酋长复仇记 49
微软秣马厉兵 52
秘密调味酱 53
桌面搜索 56
不做门户网站 57

两个小时的阅读过程中我摘录了一些让我感受深刻的一些句子。和大家分享如下:

P7: 为了孕育创造力,他们将继续鼓励员工花20%的时间研究自己感兴趣的构想,而不是听命行事,做上级指定的项目。
Note: 这个事情非常的重要,对于一个技术创新的公司,没有创造力就等于灭亡。而创造力的获得不是一个人能够完成的,上面的领导也不能完全制造出所有的技术创新,他需要每位成员一起头脑风暴般的行事。咱们个人的研究生涯中也需要流出一些时间来完成自己最想完成的与当前事务不是非常相关的构想,这样才能保持持续的研究动力和热情,将研究进行到底!

P8: 在让Google的演讲人评价自己和雅虎时,他们说:“我们的产品比他们的好,下一个问题!”
Note: 在别人眼里,这句答复的确有些高傲的成分,但是它也反应出了Google行事的原则:简单实在!而且在那种场合下过多的对比反而会不明智,真是恰到好处的答复。

P36: Google从一开始,追求的就是一尊完美的搜索引擎。依照佩奇和布林的定义,所谓完美的搜索引擎,是指丝毫不差的了解你的意思,也丝毫不差的给你想要的东西。
Note: Google一直在完善和提高着他们的搜索技术。这个过程中理解用户的意图是非常重要的一步,这也位我们哈工大正在研究的问答式的信息检索留下了足够的研究空间。以前我参与过的基于聊天的信息检索也是一个非常有分量的研究课题。理解用户的需求同时也为我们正在进行的指代消解的研究留下了非常广阔的空间。

P37: anchor text在Page Rank算法中有着非常重要的作用,它虽然一定程度上不是很良构,但是它汇总了所引用网页的内容。
Note: 这个东西非常有用,让我想起来先前看过的一篇Anchor Text Mining的文章。非常值得继续的一个题目。

P38: Anatomy of a Large-scale Hypertextual Web Search Engine。这篇论文(可以翻译成《大型超文本网络搜索引擎解剖》)中佩奇和布林描述了Pagerank依照网站被链接的次数多寡,建立索引和排序,以及按照哪种顺序显示搜索结果,需要做那些复杂的数学运算。
Note: 经典的论文,需要细致认真的阅读。一定要抽事件来看看。

P43: 结识于斯坦福大学校园的佩奇和布林,利用信用卡创立公司,专门做好一件事。他们只提供搜索业务,不提供理财指南或者网络聊天。Google搜索引擎的拼字检查功能和工具条等种种创新,使得寻找信息成为既快又准的体验。
Note: 专注于一点才能将全身的力量发挥到极致!

P52: 雅虎CEO,泰利.席梅尔(Terry S.Semel)已将Yahoo带向下一块新疆土:量身裁制搜索(Customized Search)。席梅尔打算提供视个人品味、兴趣,甚至是所在位置,提供各取所需的搜索服务。广告主已经蠢蠢欲动,准备迎接这群目标明确的受众。要提供这种量身裁制的搜索服务,必须先搜集个人信息。这方面Yahoo绝对居于优势。它已经聚集了1.41亿名用户的基本资料,Google确等于0。
Note: 个性化时代的到来需要我们准备好各种相关技术,迎接挑战需要大家的通力配合!

P60: Google的成长历程给我们的另一个启示是:最坏的时机,也许正是最好的实际。不经历一番寒彻骨,怎得梅花扑鼻香?经过艰困环境洗礼得企业,体质更加坚实!
Note: 对企业如此,对实验室,对个人也是如此!应该感激挫折和失败。因为,它们让你成长!

待续……

HIT-机器学习小组第三次活动内容征集

这是我在HIT-IR-BBS-Machine Learning版发的帖子
link:
http://ir.hit.edu.cn/cgi-bin/newbbs/topic.cgi?forum=20&topic=433&show=0
-----------------------------------

亲爱的各位同学以及校外的朋友,
你们好!
今年3月份我们HIT-Machine Learning Study Group在几十位热心朋友的支持下成立了,并且分别在2005年3月12日和4月16日举行了我们的第一期和第二期讨论活动。两次活动的内容如下:
下载链接:HIT-IR-BBS-Machine Learning版FAQ on some hot topics
http://ir.hit.edu.cn/cgi-bin/newbbs/topic.cgi?forum=20&topic=327&show=0

第一次活动:SVM综述
1svm简介-skiffer.ppt
2SVM-bbs-caddie.ppt
2人工智能报告-caddie.doc
3SVM研究-quietsea.ppt
3支持向量机简介-quietsea.ppt
4Feature Selection-billLang.ppt

第二次活动:各种工具使用经验交流
1car_Overview_Machine_learning_for_NLP Overview ML4NLP.ppt
2quietsea_libsvm
Data sets
Libsvm-2.6
Libsvm-2.6使用介绍.ppt

在两次讨论活动中我们得到了诸多方面的大力支持,诸位朋友也在讨论会上尽情的发言,大家的收获都是巨大的。我们在这个过程中受益很多。之后原定计划是5月17日举行第三次活动,但是由于一些原因没有能够如期举行。这样一种非常良好的活动形式为什么不继续下去呢?咱们的活动内容活动形式都可以在原有基础上充分的发展下去。

通过和一些朋友商量之后,我们感觉12月份是一个非常好的季节,在2005年的最后一个月里我们希望举行一期机器学习的讨论活动,因为半年过去了,朋友们在机器学习方面都有了很多更新更好的认识,为什么不在和大家分享的过程中完善自己的想法,锻炼自己的能力吸取新鲜的思想呢?

这是一个很好的机会,想必大家都会珍惜的。

在此,向大家征集讨论内容,感兴趣的朋友请回帖注明你最希望了解到什么,你愿意和大家分享什么:
模板:

id:……………………
wish to know:……………………
like to share:……………………

大家一起行动起来吧,这个过程中你将会受益无穷的。除了哈工大的朋友,我们也热情欢迎外校的朋友一起来参与。

申明:12月的讨论会只邀请那些参与回帖的朋友。



2005年11月12日

Good book-The Art Of Unix Programming


It was a very nice book. We could read the reviews about it as following:

Writing better software: 30 years of UNIX development wisdom In this book, five years in the making, the author encapsulates three decades of unwritten, hard-won software engineering wisdom. Raymond brings together for the first time the philosophy, design patterns, tools, culture, and traditions that make UNIX home to the world's best and most innovative software, and shows how these are carried forward in Linux and today's open-source movement. Using examples from leading open-source projects, he shows UNIX and Linux programmers how to apply this wisdom in building software that's more elegant, more portable, more reusable, and longer-lived.

There were 17 rules about it. Each one was very classical. But they were not simple design patterns. I believed they were better than that.
1. Rule of Modularity: Write simple parts connected by clean interfaces.
2. Rule of Clarity: Clarity is better than cleverness.
3. Rule of Composition: Design programs to be connected to other programs.
4. Rule of Separation: Separate policy from mechanism; separate interfaces from engines.
5. Rule of Simplicity: Design for simplicity; add complexity only where you must.
6. Rule of Parsimony: Write a big program only when it is clear by demonstration that nothing else will do.
7. Rule of Transparency: Design for visibility to make inspection and debugging easier.
8. Rule of Robustness: Robustness is the child of transparency and simplicity.
9. Rule of Representation: Fold knowledge into data so program logic can be stupid and robust.
10. Rule of Least Surprise: In interface design, always do the least surprising thing.
11. Rule of Silence: When a program has nothing surprising to say, it should say nothing.
12. Rule of Repair: When you must fail, fail noisily and as soon as possible.
13. Rule of Economy: Programmer time is expensive; conserve it in preference to machine time.
14. Rule of Generation: Avoid hand-hacking; write programs to write programs when you can.
15. Rule of Optimization: Prototype before polishing. Get it working before you optimize it.
16. Rule of Diversity: Distrust all claims for “one true way”.
17. Rule of Extensibility: Design for the future, because it will be here sooner than you think.

2005年11月11日

Model Selection

Do you know model selection? I heard it this afternoon. There were many related techniques. Originally, I believed it was about choosing a better model from several different models. For example, one of ME, one of SVM, other one is of Decision Trees. I did not know any other method except comparing the final accuracy and recall.

After discussion some friends, I knew it was about based on one model for choosing the best parameters. The over-fitting problem was well known. How to avoid it? We could use some criteria for measuring. For example, we could use Maximum Description Length and others.

It was different from selection of models of different mechanism. So I had one idea about selection. We could do a lot of selection, such as data selection, feature selection, models of different mechanism selection, model(parameter selection). There were so many selections, but how to select? It was a big problem. We should have a nice architecture to solve it.

2005年11月10日

Professional?!

今天和网友们在天大BBS人工智能版和别人讨论了下面这个题目:
一个母亲有两个孩子,其中一个是男孩,问另外一个是女孩的概率是多少?
刚开始的时候我想当然的认为是1/2。因为第一个孩子是男是女对第二个孩子没有任何影响的。

经过在网上和朋友的讨论,发现我的想当然的结论是错误的。因为其中一个非常关键的字眼是“其中一个是……”,这种情形下的概率需要考虑成两个孩子的是无序的。记得大一的时候就学习过这种题目,有序环境下的概率和无序下的概率是不一样的。我的后来的一个详细的推导如下:
---------------------------------------------
首先题目很容易想成是“一个母亲有两个孩子,第一个是男孩,问第二个孩子是女孩的概率是多少?”这种情况下的推导是
P(B=女孩|A=男孩) = P(B=女孩,A=男孩)/P(A=男孩) = P(B=女孩)×P(A=男孩)/P(A=男孩) = P(B=女孩) = 1/2
即答案是1/2

而实际上题目中所指的两个孩子是没有顺序的,不能假设他们的大小关系

表格证明如下:
考虑两个孩子的大小时,两个孩子A、B的性别有如下八种可能:
A B 其中一个孩子是男孩时考虑 另外一个是女孩
大、男 小、男 yes
大、男 小、女 yes yes
大、女 小、男 yes yes
大、女 小、女
小、男 大、男 yes
小、男 大、女 yes yes
小、女 大、男 yes yes
小、女 大、女

因此题目中的概率应该为 4/6 = 2/3

记得大一时上概率的时候就专门练习过有序和无序的概率是不一样的,呵呵,现在看来俺应该从新复习一下大一的概率论了 ^_^
---------------------------------------------

这个事情让我想到了一个问题,那就是做学问过程中的潜台词。举个例子,多人同时阅读一篇经典论文,但是各自的理解都不完全相通,大家都会根据一些想当然的事实和背景知识来推理一些东西。这个过程中容易出现各种各样的问题。这就说明咱们做研究的过程中需要对一件事情处理过程中的每个细节都不能放过,一定要非常严谨的完成每个步骤,这样作出来的东西才是经得起推敲的成果。

做事必须处处Professional!这就是这件事情给我的启发。

2005年11月9日

法语编码处理经验小结

近些日子在处理一些法语文件的时候,总是在Ultraedit里面看到很多非常生僻的汉字,就像乱码一样。原因好像就是那些法语中带帽子的字符附近的编码存在问题。为了解决这个问题,我采用了很多种可能的办法。用python中的encode和Unicode处理过,用mentor撰写的c++版的encode和Unicode转换过,用c#的指定打开格式和输出格式的方法重写文件……。这些方法一一都不奏效。或许我还没有掌握其核心方法。

查看文件编码最好的方法就是用ie打开然后右键单击看自动选择编码方式的结果。今天意外用ie保存一个文本文件时看到了一个编码格式的选择,我把那些自动编码为西欧字符集的文件用Unicode utf-8保存后再用ultraedit发现可以正常显示了。这种方法对于转换小文件非常的高效实用。但是处理大文件时IE打开文件的时间会非常的长。

这种方法还需要进一步的研究一下。

2005年11月8日

Blog&Wiki with 信息抽取

随着Blog和Wiki时代的来临,以及RSS应用日渐壮大,现在的自然语言处理面临了新的挑战。以往的信息趋向于规范化,现在的信息非规范化的程度越来越严重。在这种情形下咱们原本积累的技术就需要可持续,自适应的发展下去。在这种每日信息量剧增的时代,如何做好自然语言处理及涉及到的信息抽取的问题就越发严重起来。

信息抽取主要包含实体抽取,共指抽取,关系抽取,以及再上层的模板生成与内容自动填写。这些东西的研究都需要很多的底层资源的支持。为此我们应该做好那些底层的相关资源和技术的积累工作。其中涉及到的每个环节每个细节都需要我们严肃认真的对待和完成,需要做到professional级别。

Good chance! Try more and do more! @

2005年11月7日

Good research chance on wikis and blogs

NEW TEXT - Wikis and blogs and other dynamic text sources

Trento, Italy April 3, 2006

newtext@sics.se

http://www.sics.se/jussi/newtext

Call for participation

The EACL 2006 Workshop on New Text will be hosted in conjunction withthe 11th Conference of the European Chapter of the Association for Computational Linguistics ( EACL, http://eacl06.itc.it/ ) that will take place April 3-7, 2006, in Trento, Italy.

New types of text sources, multi-lingual, with numerous cooperating or even adversarial authors and little or no editorial control are one effect of the recently dramatically lowered publication threshold.

Many contain linguistic items or features classically associated with spoken language - combining the high interactivity of dialogue with the low bandwidth of written text and with the multicasting capabilities of digital communication.
New material published today most noticeably includes *blogs* - a genre that has evolved from diaries, logbooks, commentaries, columns, and editorials into a multi-faceted and networked churn of text with widely ranging viewpoints and perspectives and varying application and ambition on the part of the creator. One of the most noticeable charateristics of the blog genre is its opinionated nature and its timeliness. Blog texts are often ill-edited and hastily cobbled together in a language reminiscent of brief notes, spoken asides, or short letters, rather than of essays or newsprint. This, at any rate, is the public perception.

Another emergent genre is that of the *wiki*. More closely patterned on a classic text genre, that of the encyclopedia, wiki texts are written and edited by open teams of authors. In contrast to blogs, wikis have high ambitions as regards factual correctness, persistence, editorial quality, and trustworthiness.
Bridging the two are genres such as discussion boards, web fora, and mailing lists.

Let us call these various new types of text (or indeed other modes of linguistic communication) collectively NEW TEXT.

THIS WORKSHOP is intended to discuss the analysis and application of new text, formulate research measures that are crying out to be taken, discuss which methodological steps are obsoleted, and which babies can be saved from the bath water.

NEW TEXT - Challenge questions

NEW TEXT provides a number of research issues, immediately obvious questions, and tentative applications for our research fields:

1. New possibilities for the philologically inclined: How does new text cast new light on human communicative behaviour? This includes question on style and genre: the characteristics of new text and relations to traditional media. Do blogs in fact resemble spoken language in any important way? Do wikis hold up their promise of qualitative information dissemination?

2. New challenges for building text analysis tools -- how are the today's algorithms portable to new text? This includes questions on multilinguality, code-switching, register variation, and formality melange apparent in new text.

3. New challenges for evaluation methodologies for information access
systems:

+ Can new text, with dynamic information sources and streams of variable quality and impact be plugged into relevance-oriented evaluation frameworks without revising the target notion of text relevance?

+ Some new texts have high social impact; some sink without a trace; some have high import in tightly knit circles and communities. Traditional media have sales figures, citation indices, and distribution analyses. How can the impact of new texts be analyzed?

+ New texts have variable perceived intellectual status and quality -- how can it be measured and predicted?

4. New opportunities for new services -- e.g. linking different types of text in dynamic and interactive sessions of information refinement and elaboration.
Signing up for the workshop

To participate in the workshop: begin by announcing your interest to us (newtext@sics.se) as soon as possible! We may be sending out a data set and a common task for everyone to play with before the workshop.

If you wish to present your work or your ideas at the workshop you are invited to submit full papers on original, unpublished work in the topic area. A presentation should address some of the challenge questions stated above. We are also thinking of making a sample text set available for experimentation for all participants before the workshop.

Submissions should be formatted using the EACL 2006 stylefiles with overt author and affiliation information and not exceeding 8 pages.

The EACL 2006 stylefiles are available at
http://eacl06.itc.it/submission/submission.htm .

LaTeX submissions are much preferred.

Please send your PDF file no later than January 6, 2006, to newtext@sics.se
Each submission will be reviewed at least by two members of the programme committee. Accepted papers will be published in the workshop proceedings.
Dual submissions to the ma in EACL 2006 conference and this workshop are allowed; if you submit to the main session, do indicate this when you submit to the workshop. If your paper is accepted for the main session, you should withdraw your paper from the workshop upon notification by the main session.
Important dates

* Deadline for workshop paper submissions: Jan. 6, 2006
* Notification of workshop paper acceptance: Jan. 27, 2006
* Deadline for camera-ready workshop papers: Feb. 10, 2006

Workshop program committee
* Jussi Karlgren, SICS (chair)
* Shlomo Argamon, IIT
* Bj?rn Gamb?ck, SICS
* Michael Gamon, Microsoft
* Gilad Mishne, University of Amsterdam
* Martin Svensson, SICS
* ?zlem Uzuner, MIT

2005年11月6日

挑战人生享受人生--MS^2培训后有感

短短三周的MS^2课程已经结束了,从第一堂课的大家彼此之间的不是很了解和不敢随时发言,到最后一堂课上各个小组精彩绝伦的组合演讲,以及最后晚餐时大家畅所欲言自己所学到的感受最深的东西。可以说,我们所有学员都经历了一种人生的升华。这其间有忙着写作业、准备资料直到凌晨的疲乏,还有课堂上老师幽默的风格让我们开怀一笑,也有我们大家一起合作制作纸塔以及一起到大街上害羞的收集25个签名的时候。整个过程都是那么的精彩,那么的让人难以忘怀。

从中学习到的东西有太多太多。我最大的一个感受是我们都有了更大的信心和勇气去挑战生活中遇到的各种问题,以及把握遇到的可能的各种机遇。总的来说我们学习到了一下几个方面的内容:企业文化、时间管理、职业素质、商业礼仪、交流技巧、产品生产周期、项目管理等7大项。每一项其实都可以单独拿出来好好的汇报一下。这一点可以从我们已经撰写完的如下几篇blog中了解到:

October 20, 2005 MS^3
October 22, 2005 MS^2第二堂-时间管理
October 24, 2005 公司与个人成长
October 29, 2005 25 signatures
November 03, 2005 Good to Great
November 04, 2005 MSN Messenger8.0项目计划书
November 05, 2005 Xiaoning Lin & MS^2 Final Day!

这里我感觉可以写下的东西很多,但是如果草草了事有可能只是每次课堂上学到东西的简单的罗列,这样还不如直接去看已经写好的几篇blog。我在想这门课之前和之后我究竟发生了什么“化学变化”。以前的时候我也经常听到很多精彩的报告,也有过很多很深的感触,自己也做到了一些,但是还有很多东西都没有很好的去落实。还记得培训的第一堂课和最后一堂课我们的华老师都给我们讲述了这样一个事情。那就是他也不指望我们把课堂上学习到的那些感觉很好的东西都一一照作,只要我们能够每堂课上的内容照作一点点就行的。所以我自己的目标也是认真严肃的整理出几条自己感觉很能采用上的几条。如下的几点我想我自己需要踏踏实实的去做。

1。时间规划
所谓人无远虑,必有近忧。如果时间没有安排好,肯定会经常出现手忙脚乱的情形。以往自己也经常做时间规划,每次规划安排各个时间段的任务的时候都安排得非常得充实。但是等到后来经常会出现前面得几条完成得非常好,但是后面得几条确总是不能按时完成,结果时间过去了,导致原先得计划等于没有做过。我想其中有两个最关键的原因。

一我把时间安排得太紧太满,没有充分考虑到很多可能的突发事件,或者完成某件事情的时候没有很好的估计好可能的时间。这个问题其实也是非常的严重。现在我知道了这个问题的本质原因,那就是自己过分自信了一些,安排时间的时候总认为自己能够准确无误的恰到好处的完成。这个毛病不是我一个人有的,这是年轻人的通病。一个很好的解决方案就是首先紧紧的安排好所需要的时间计划,然后将这个计划中的每个时间段的长度乘以三。这样下来再微调一下完成事情的顺序。这样安排出来的计划一定能够得到很好的执行,而且不会出现计划等于浪费时间的情况。

二是以前没有很好的处理好紧急而不重要的事情和重要而不紧急的事情的时间分配上的关系。正如October 22, 2005 MS^2第二堂-时间管理下面的那个二维表格中指出的现状那样,我现在也是将二者的合理时间分配比例倒置了。以后再处理事情的时候我的解决方法是在首先保证完成重要而且紧急的事情基础上,快速完成紧急而不重要的事情,然后集中精力完成那些重要而不紧急的事情,时间分配上应该是 重要且紧急:重要不紧急:不重要但紧急 = 2:7:1。三种事情都应该在自己的TODOLIST里面每天至少更新三次(早上,中午,晚上)三个时段工作下来获得的结果想必肯定是非常完善的。还有一点是要注意工作的效率,正常工作的时候需要全身心的去工作,周末休息的时候需要完全放松的去休息,而且还有一点是每周要坚持至少三次较大量的运动。

2。交流技巧
其实交流技巧在我们的生活中需要很多很多。最为基本和永远不会错的方法是真诚的去和别人毫无猜忌的交流。在这个基础上只需要加上一些必备的商务礼仪或者职业规范,那就能够很好的解决交流这个问题。当然在不同的场合需要不同的交流方法,在真诚的基础上稍加注意就能取得良好的效果。当然交流的最终目的是为了和别人达成目标中的一致,出现分歧的时候不要去恶意批评和打击别人,而是应该把问题摆在台面上,互相认真的分析问题,找出分歧的本质所在,然后达成一致,从而实现交流的最终目的。当然,这个过程中需要有耐心,而却认认真真的去和别人探讨。

心诚,仔细,耐心,终能达成一致!

3。做好身边的小事
这一点其实在交流技巧课上老师也强调了很多次,之所以单独列举出来,是因为我觉得它得重要性不亚于交流技巧。它其实是涉及到如何做人的问题。那么多大的事情是身边的小事呢?在这边我听到过很多的例子,比如出入电梯的时候为后面的人把一下电梯门,用完卫生间后冲一下,轮到你做的打扫卫生之类的事情不要因为是干净的就不需要打扫,看到周围的同学同事有困难了顺手帮助一下,等等。

古语云:不因善小而不为,不因恶小而为之。说的就是这种事情。人的习惯和修养的养成不是一朝一夕的,这些小事的完成能够让你养成良好的习惯,从而培养起专业化的素质,通过你的行为会影响到你周围的人,大家在一段时间的效仿之后就会形成一种集体的作风,身边的人都这样相互对待,那么你会感受到这种氛围带来的便利以及大家心声上的共鸣。


4。项目管理
有人说人生就是一个项目,需要采用项目管理的方法来进行运作。Xiaoning老师说做科学研究其实也是在不断的完成项目,只是项目使用的模型和通常的项目开发模型不是非常的一致,而是需要采用Code&Fix的方法。Xiaoning老师还说如果能够重来一次,需要进行人生目标分析,概要设计需要的技能和培训过程,然后分阶段并行的实行详细设计、实践、测试、总结,以及经常的综合集成与再次设计。我觉得求学过程也是一个项目,只是这个项目中的模型不是一个非常清晰的模型,而是许多模型的综合交错。如何将这个项目管理好,这是一门非常重要的学问。

在完成项目之前,一定要好好的分析项目的类型,然后进行良好的选取开发模型,之后再进行具体的动作。这个过程完全是具体问题具体分析的过程。

------------------------------------------------------------------------------------------------
总结:以上总结的几条中,我终于分析得到了自己在课程前后对比发生的“化学变化”。对于这门课程我非常的感激,感谢华老师的无私教导,感谢同堂同学门的相互指点和学习,感谢MSRA创造了这样一种教学模式和教学内容。

2005年11月5日

Xiaoning Lin & MS^2 Final Day!

一想到是MS^2培训的最后一天大家上起课来都感到振奋有余 ^_^
上午的学习内容是Product Lifecycle Models,主将人是Xiaoning Lin博士。在简短的自我介绍后我们得知他是98年和开复一起建立MSRA的创始人之一,有着多年丰富的项目管理经验。开篇主将的内容和我们当初在学习软件工程时的内容差不多,但是挺起来缺非常的好懂。Xiaoning老师给我们介绍了每种模型的使用范围和情况。我首次听说了作研究其实也需要Lifecycle model,这种模型非常的简单,就是软件工程里面的Code&Fix模型。其实本质上就是想到一个新的idea,然后立即实现,然后要么发出论文,要么作出项目。在介绍中强调的Parallel WaterFall我感觉很像现在大型的项目开发下面的工程模型,总体设计之后划分为小块然后进行详细的设计编码测试,最后是汇总的集成与测试。对于那些需求不是很明确的项目,Incremental的模型比较好,根据用户不是很明确的需求先快速开发一个原型系统,然后根据用户的反馈修改,直到用户满意后再开始最后一次的详细设计与实现。还有一种比较
实用的开发模型就是Staged Delivery Model。就是将需要开发的项目中的Features按照重要性和关联性分成几个类别,然后每个阶段实现一部分,每个阶段发布一个版本。在Microsoft中流行这两种模型:Shrink-Wrap 和 Service。前者和常见的分阶段并行设计方法大同小异,后一个模型主要是针对现在网络时代下的快速开发模型。在提问阶段我向Xiaoning博士请教了现在流行的XP编程的事情。他说这种模型非常的好,现在美国总部那边有人正在进行详细的研究。现在Visual Studio 2005中已经部分囊括了XP编程的理念。这样看来以后需要进一步的学习和使用XP编程的方法。

随后的课程Xiaoning老师介绍了他的24年计算机生涯,以及如果返回求学时代会作些什么。其中提到了一个很有名的论断:

改变你能改变的;有度量接受你不能改变的;有智慧区分你能改变的和不能改变的。

这句话我以前也听说过,Xiaoning老师说它的出处是Bible。同时Xiaoning老师的理解和建议是:

改变我们自己,在现有的环境下,最大限度的实现自己的理想。

Xiaoning老师的报告中提到了几种事情上不同的境界,我归纳整理如下:
学习的境界:
-学会答案
----学会一个解
-学会方法
----学会一种方法
-学会学习
----学会找到方法的方法
-学会做事
----超越“纸上谈兵”,与实际“融会贯通”
-学会做人
----学会做有价值的自我
注:在Xiaoning老师讲这个之前询问我们对于学习的本质的理解。我举手说是学会如何学习。后来他说有人提到过:所谓大学就是
你学完之后忘记所学的一切之后剩下的东西。关键是要学会如何做人,也就是所谓的素质。这才是根本。我觉得这个说法很有道理,因为做人是一辈子最关键的事情,其它事情都是能够付之努力就能学到的。

编程的境界 vs 写文章的境界
-学会写程序 vs -学字、词、句、文法、句法
-学会高效的写程序 vs -快速写文章
-学会写高效的程序 vs -写简洁明快的好文章
-学会设计程序 vs -对于不同文章选择结构、流程、方法
-学会设计有用的程序 vs -写人们喜欢看的文章
注:联想自己的编程和写文章,我现在都还处在第二个境界,看来这方面还需要我投入很多的时间。

学习数学的境界
-解数学题
-物理问题->数学问题
-实际问题->数学问题
-实际问题->数学问题->软件解
注:以前多次参加过的数学建模竞赛仅仅让我处在了第三个阶段,至于完全自己编写软件来解决问题,我还需要多多的锻炼。

Xiaoning老师讲完这些后给我们讲述了“如果我能重新开始”。提到的几个要点如下:
-确立相对明确的目标
-根据这一目标确定要掌握的专业、课程、技能和知识
-选作大量的相关实践项目
-对每一个实践项目
--确立一个模拟的实际工作中的用户场景
--尽量以实际工作中的方法和标准做每件事
--碰到不会的东西,虚心向这方面比较专业的人员请教,并且切实掌握
--团队合作中尽量做好自己的,让团队取得最大限度的成功

年轻人比起年长者的优势在于年轻,年轻就是资本。当拥有年轻的时候一定要敢于创,敢于理性的冒险。做事时一定要在保证生存的情况下不要估计钱的多少,做自己真正想要做的和让自己快乐的事情,这样才能最大限度的实现自己的人生价值。


尾注:以上很多东西都是罗列出来的,细细品味才能发现其中本质的东西。

2005年11月4日

MSN Messenger8.0项目计划书

昨天MS^2课程上老师给我们布置了一个作业,那就是完成一个项目计划书,每个小组的题目不一样,我们组的题目是《下一代MSN Messenger的设计》。这几天我们小组的每位成员都非常的忙,有的在赶www的论文,有的在忙着工作的面试,有的在赶mentor的项目进度。我们商定用一个晚上的时间来完成这件事情。
晚上6:30我们在5楼的Lounge集合,海滨,太峰和我,我们三人开始了头脑风暴式的讨论。在我们对于当前msn messenger以及众多的IM之中进行比较后我们分析得到了如下的一些结论:

下一代的MSN Messenger应该是一个完全个性化的,人与人之间进行良好交流的平台,而且能够完成个人网络信息代理的功能。基于此我们讨论除了下一代Msn Messenger应该具备的三个特点:智能专家,贴心宝贝,真实感聊天。

其中智能专家需要完成良好的自然语言交互级别的信息获取,需要在一个很大的服务器上构建Hierarchal的Automatic expert系统,然后在和用户进行信息交互的过程中实现Hierarchal结构中的动态转移以及协作,从而在对话中完成用户的信息获取。

贴心宝贝需要完成的是个人关注的或者相关的信息的采集与整合后的信息推送服务。比如订阅RSS等信息源时需要进行RSS的推荐和针对个性化的信息归纳整合然后推送,比如用户可以进行阅读,收听等多种方式。当然这个过程中需要对各种信息的重要性根据个人的profile信息进行自适应的生成和有选择的整合推送。

而真实感聊天我构想了很多的特征。首先需要让聊天的个体感受到一种虚拟真实的两天场景,类似于可视电话的形式。其中的个性化定制方面,用户只需要输入一些日常拍摄的DV或者一些个人喜欢的照片,然后就会生成与用户个性相关的卡通人物。用户可以选择自己喜欢的场景,比如树林中,海边,湖边等等。在聊天开始的时候可以在公有的聊天环境里面进行profile的共鸣。比如我们预先在profile采集系统中获得的用户profile中获得的个人感兴趣的东西,如果交谈双方都有相通的一些兴趣,那么在聊天三位的初始场景中就能高亮看到这些东西,这样在进行聊天的时候可以非常方便的进行下去,而且也会效果良好。在聊天的过程中我们需要的是语音聊天,现在已经可以根据用户的语音来判断用户的表情,我们在适当实时采集用户的手势以及肢体语言,然后在三维的立体场景中将预先生成的用户个性人物完成表情与肢体语言的匹配。这种聊天环境下用户体验到的将是一种非常真实的感受。在聊天过程中我们可以根据大家讨论的内容自动生成信息岛屿,每个岛屿上生成实时的聊天主题以及主题下内容的自动树型结构生成。这样在三位场景中用户实时聊天可以知道到目前为止都聊了那些内容,哪些需要进一步的讨论,哪些可以告一段落。其中一个功能是专门针对头脑风暴这种类型的聊天的,那就是根据聊天过程中生成的信息岛屿来自动生成讨论的最终结果并且讨论后发送给各个参与讨论的用户。

上面的三个模块都需要一个Profile Management的模块来进行支持。根据近几日的新闻显示,微软等关注搜索的公司都将做这种工作。我们定义的用户profile的管理氛围三个步骤,首先是初始化的用户填表,然后是根据用户在使用电脑的过程中的使用习惯和经常阅读的文档的内容来自动分析用户的profile,还有一点就是profile的自动反馈更新,更行过程需要获取用户的经常性的变化的行为模式。由于这个部分的工作可能会在近期出现一些相关的研究工作,所以我们可以充分利用其它研究小组的研究成果。

我们的头脑风暴进行到了晚上8:30左右才结束,之后大家按照老师预先给大家参考的一个模板以及我们定义好的三个模块进行分工。等到11点我们完成了各自的第一个draft,然后我们开始合并三个slides进行讨论。整个过程还算顺利,只是等我们回到寝室又像昨晚一样是凌晨以后了。有付出才会有收获,相信我们明天的演讲一定能够取得成功!

2005年11月3日

Good to Great

聆听这种大师级的演讲已经有很长一段时间没有过了。晚上的MS^2培训课上MSRA形象计算组的徐迎庆老师给我们《随便聊聊》了一下。一个半小时的演讲让我感受到了这位学者的风采以及他的个人魅力。其中讲述了他20多年的工作体会,以及其中对于做人做事的一些感悟。我备受感慨的一些体会如下:

From Good to Great
其中提到的一个例子是我们进口了德国汽车的原装生产线,配件也是从德国进口的,在中国完成的只是一些简单的装配任务,但是现在的情形是中国装配出来的德国汽车就是要比德国本土装配出来的汽车质量要差一些。徐老师在德国求学的时候就向他的一位朋友询问过这个事情的原因。了解得到的答案是德国人在装配汽车的时候追求的高品质即Great,而在中国转配汽车的时候追求的是转配好即Good。这就是其中的差异。现在有一本书名叫Good to Great,其中讲述了很多事例。我们在做研究的时候其实也是一个道理。其实作研究就是那么几个常见的步骤,但是为什么别人能够做到世界最好,出来那么多的成果,是因为别人一定比咱们聪明很多么,我想不是这样的,那是因为咱们常常出现的情况是每个步骤都比别人完成的要差一些,最终的结果自然就是比别人的综合水平要比别人低一些,那么为什么咱们不能够做到和别人一样好,甚至比别人更好呢。争取把每一步都做到最好,做到professional的水平,最后的结果一定也会是Great的。

做事一定要有计划
这个事情我也反反复复的想过和做过很多次了,不外乎就是做好月度、周度、日度计划,然后实行。为什么常常会出现那些不是很恰当的计划,并且在最终的执行过程中每每出现不能很好执行起来的情况呢。我想原因不外乎是计划做的不好。这个事情其实就是一个自我管理的过程,其中需要好好的揣摩和体会,最终才能找到真正适合自己的时间管理方案出来。

徐老师给我们讲述了他给他指导的每位VS都讲的一段话:学好做好两三年,受益二三十年。扎扎实实的做好每件事情,一定会出来成果的。两三年的努力得到的将是终身的高质量的精神生活和物质生活。其实我觉得这个过程就是一个获得良好习惯和品质的过程,这种东西在求学时代做好了,肯定会受益终身的。

从头到尾徐老师还一直在强调意见事情,那就是小处一定要做好,这样才能养成良好的习惯,养成一个好习惯不容易,需要随时保持,但是养成一个坏习惯却是非常容易的事情,一不小心就会失去很多的东西。

讲课过程中徐老师提到了一首他很喜欢的诗。那是阎锡山的诗:

做人要天天进步以求新
谁新谁存在
做事要见见认真以求对
谁对谁成功

这个需要细细领悟,我现在也非常喜欢这首诗了。

2005年11月2日

Keep going on your ideas!

This evening, when I was off duty, I returned to BUAA for the ping-pong club activity this evening. When I walked on the streets of BUAA, I felt I was a stranger here. Nobody recognized me. Nobody knew me. It was a strange feeling.

I thought more about my hometown. Now, I had left it six years and stayed there no more than 15 days each year. People there only knew my little experience when I was young. Each time, when I joined into another place, I was a stranger. It was also said that you were nobody, you were nothing. But on internet, I had made acquaintances with many people by discussing some questions on NLP and machine learning. So the only thing I should do was learning more, finding more, and writing more. After two years accumulation, I began to know little about NLP and machine learning. Some fresh ideas were in my mind. But I had very little time to study and realize them. The current task to my personal research was reading more and doing deep research on my ideas. Under the experience of my technology innovation contest in 2003, I could do better.

Under my time management experience and quick survey on new topics, I would realize them. It was saying that good start was half success. I trusted myself.

2005年11月1日

高质量编程 vs. 高质量阅读

《高质量C++/C编程指南》是一本好书。2004年的时候我的师兄Cr999就对我说过。当时也翻过一遍的,只是当时学习的比较仓促,只学会了其中代码格式。后来又经常学习别的编程语言,这本书的学习也就到了脑海深入。好书的学习是需要像脑海里的记忆那样经常复习的。这是我今日的感受。

这本书在网上有电子版,用Google不难找到。一看有117页。按照原先的习惯,它的电子版可能会被我认真的看上几十页,然后由于一些零时性的事情被打断,后来再看的时候由于需要看看前面讲的一些东西,重新在大脑寄存器里面恢复被打断时的影像,然后又被打断,如此反复,最终我会放弃继续阅读这本书。

现在我越来越感觉到“好书易求,难于一读”。有人说书非借不能读也。别人的书借来总会认认真真赶在还期之前读完,有时还要熬夜体会。而自己买的书经常由于想到时间充裕而束之高阁,买回半年甚至一年后还没有翻过一页。这个道理看起来很是奇怪,但是它就是在我们的生活中无数次的被应验着。仔细想想原因就是我们没有处理好紧急而不重要的事情和重要而不紧急的事情时间上分配的原则。在前些日子我的blog里面有介绍时间管理的一个表格,里面介绍了应该抽出大量的时间完成重要而不紧急的事情,那些紧急而不重要的事情应该分配尽量少的时间完成。好书获得之时心里总想这个事情非常的重要,但是它又不是非常紧急的事情,结果由于在时间控制上的失恒导致了阅读最佳时机的丢失。

下午5点左右我在编写一段C++代码的时候找到了这本书的电子版,想要赶紧阅读下来,然后打印出来放在包里,7点左右回到北航找到一个自习室淅沥哗啦的非常高效和干脆的把这本书读完了,回到寝室时间也不过10:00。书中提到的内容确实非常的重要。这个小小的事件让我体会到了这种高效的好处。还有一个提示是读书特别是好书一定要阅读纸版的,那样你能在上面做笔记,会有更多的思考。

好书易求,难于一读。以后我会经常采用这种方法,抽取整块的时间来阅读我想要阅读的好书的。其实也可以在我的TOSOLIST里面列出自己想要学习的书籍,然后定期抽空出来好好阅读的。嗯,这个方法不错!

2005年10月31日

世界勤俭日

看到自己的blog今天的节日提醒一栏是“世界勤俭日”。几个红字映入眼帘时,我感到一惊。因为来到北京之后很多以前的朋友看到我时都说我变胖了一些。我自己确实也感觉到了这一点。本来希格玛B1的饮食就已经有点营养过剩了,我们一大帮VS还经常在附近的小店里盘旋,不过也没有办法,谁让B1的价格和附近饭店的价格差不多而且B1的食物时间长了会让人有想换换口味的想法。在我们的日常生活中最便宜的就餐方式还是到北航的学生食堂里去,那里吃饭的时候能够感到在像是在咱们学校那样,便宜而且非常可口还能经常换换。我们也有一断时间在北航吃饭的。

我想之所以有人设立这个节日,目的还是为了提醒人们要注意勤俭吧。
转载一篇:

  选自人民教育出版社《中华传统美德格言》


  勤俭
  
  勤俭就是勤劳节俭,包括努力工作和节约用度两个重要方面。我国自古就以勤俭作为修身治家治国的美德,《尚书》说:“惟日孜孜,无敢逸豫。”《左传》引古语说:“民生在勤,勤则不匮。”《周易》提出“俭德辟难”之说,《墨子》有“俭节则昌,淫佚则亡”之论。古人认为能否做到勤俭,是关系到生存败亡的大事,不可轻忽。在现代社会,经济增长和物质消费的观念已经发生很大的变化,但勤俭作为一种美德,作为一种工作态度、生活作风或治国方针,还是要大力提倡的。

  君子以俭德辟难。
  【出处】《周易·否》。
  【大意】君子用俭朴的德行来避免危难。
  【提示】《周易》含有朴素的辩证思想,有许多地方阐述事物变化的道理。这句话就有辩证的思想。一方面,阐明俭朴的德行有助于防患于未然,防止奢靡腐化等行为;另一方面,在面临危难的时候,特别是在面临物质匮乏的困难时,具备俭朴的德行有助于克服危难。《周易》的作者认为,天地万物都有顺与不顺、通与不通之时,不顺不通,就要修身养德,不能过分彰显自己,以渡过难关。

  克勤于邦,克俭于家。
  【出处】《尚书·大禹谟》。
  【大意】在国家事业上要勤劳,在家庭生活上要节俭。
  【提示】克勤克俭,是我国人民的传统美德。传说中的古代圣贤都是这样做的,他们对于国家大事尽心尽力。大禹勤劳于治水大业,数过家门而不入。尧特别关心群众,认为别人挨饿受冻,是自己的工作没有做到家,是自己的过错。古代圣贤的生活却十分节俭,经常穿着粗布衣裳,吃粗米饭,喝野菜汤。由于尧、舜、禹在事业和生活上克勤克俭,所以赢得了百姓的拥戴。

  俭,德之共也;侈,恶之大也。
  【出处】《左传·庄公二十四年》。
  【大意】节俭,是善行中的大德;奢侈,是邪恶中的大恶。
  【提示】鲁庄公命人在庙堂的柱子上涂红漆,在椽子上雕花纹,这都是奢侈而不合礼法的事情。大夫御孙劝谏他时,说了这句话,并指出这样做实际上是在先人的“大德”中注入了“大恶”,不但不能取悦先人,反而是辱没了他们。可见,古人是从礼的规范和德的大小的高度来看待节俭,而把奢侈浪费看做一种恶行。在物质极大丰富的今天,戒奢以俭,不靡费财物,仍是值得我们崇尚的美德。

  民生在勤,勤则不匮。
  【出处】《左传·宣公十二年》。
  【大意】老百姓的生计在于辛勤劳作,只有勤于劳作,财物才不会匮乏。
  【提示】这是一句古老的格言。古人明白,只要老百姓辛勤劳动,社会安定,百姓和国家都会随之富足起来。我们现在仍应保持以勤为本的美德,在各自的岗位上辛勤劳动,这样,国家才会更加富强,人民生活才会更加富裕。

  俭节则昌,淫佚则亡。
  【出处】《墨子·辞过》。
  【大意】节俭就会昌盛,淫佚享乐就会败亡。
  【提示】在先秦诸子之中,墨子以乐于过类似苦行僧的生活而闻名。他痛恨统治者的骄奢淫逸、靡费财物,提倡节俭。他到处宣扬自己的观点,吸引了大批人做他的弟子,在先秦诸子中独树一帜。
  锄禾日当午,汗滴禾下土。

  谁知盘中餐,粒粒皆辛苦。
  【出处】李绅《悯农》。
  【大意】农夫在中午的炎炎烈日下锄禾,滴滴汗珠掉在生长禾苗的土中。又有谁知道盘中的饭食,每一粒都是这样辛苦得来。
  【提示】这首诗语言浅显而内涵深邃。有一个故事说,一个财主的儿子不知道稼穑之艰难,常到一个饭馆里吃饺子,但把饺子皮全吐掉,只吃肉馅。后来家里遭遇火灾,丽楼美阁一夕之间夷为平地,他成了乞丐,要饭要到这个饭馆,老板以饺子皮招待他,他深为感动。老板说,不用谢,这都是你当初扔掉的皮,我拣起晒干了而已。财主的儿子很惭愧,后来勤奋劳动,生活节俭,家道重又殷富起来。这个故事,也印证了“谁知盘中餐,粒粒皆辛苦”的道理。

  历览前贤国与家,成由勤俭破由奢。
  【出处】李商隐《咏史》。
  【大意】纵观历史,大到邦国,小到家庭,无不是兴于勤俭,亡于奢靡。
  【提示】古往今来,成功的创业者大都经过艰苦奋斗的阶段,所以比较注意勤俭节约。但是对守业者来说则正好相反,他们没有经历过创业的艰辛,容易贪图奢侈享乐,最终的命运必然是事业的衰败,国家的灭亡。这是几千年的历史所昭示的真理。

  忧劳可以兴国,逸豫可以亡身。
  【出处】《新五代史·伶官传序》。
  【大意】忧虑操劳国事可以使国家兴盛发达,追求安逸享乐可以招致自己的灭亡。
  【提示】五代时的后唐庄宗李存勖,一开始励精图治,奋发有为,击败各个敌手称帝。但他后来沉湎于音乐戏曲,宠爱伶人,不思进取,部下作乱,伶人发难,在位三年就死于兵乱之中。欧阳修在撰写《伶官传》时,有感于这段历史,阐发了“忧劳可以兴国,逸豫可以亡身”的道理。中国文化有着很强的忧患意识,特别是在国家动荡、民不聊生时更是如此。孔子说“人无远虑,必有近忧”,孟子讲“生于忧患而死于安乐”,就是分别从个人与国家的角度强调了保持忧患意识的重要性。魏征即使在大唐盛世,也规劝皇帝“居安思危,戒奢以俭”,以实现长治久安。

  由俭入奢易,由奢入俭难。
  【出处】司马光《训俭示康》。
  【大意】从节俭变得奢侈容易,从奢侈转到节俭则很困难。
  【提示】这是司马光引述他人的话,用来训诫子孙。它强调要自觉保持俭朴,防止奢侈,含有自勉、警世之意。人都想过好日子,这本无可厚非。但是过于奢华是不可取的,而且这种追求是永无止境的。商纣王用了双象牙筷子,他的臣子就要逃走,原因是看到了纣王的贪欲一发,将不可遏止。所以,坚持节俭要有自律的能力。

  取之有度,用之有节,则常足。
  【出处】《资治通鉴》卷二百三十四。
  【大意】有计划地索取,有节制地消费,就会常保富足。
  【提示】这是唐朝的陆贽给皇帝上书中的话,旨在强调节俭的意义。大至一国,小至一家,量入为出都是重要的理财原则。推而广之,资源和财物总是有限的,不能肆意挥霍。只有“取之有度,用之有节”,才有可能持续发展。

  惟俭可以助廉,惟恕可以成德。
  【出处】《宋史·范纯仁列传》。
  【大意】只有节俭可以使人廉洁奉公,只有宽容可以使人养成好的品德。
  【提示】“俭”和“恕”是中国古代政治家常用的两个概念。因为古代社会生产力不发达,粮食产量低,几年的丰收才有一年的积蓄,所以特别要节俭。对于官员而言,贪污受贿,不廉洁,往往是因为贪得无厌、迷恋奢侈生活,而俭朴的德行有助于抑制这种过分的欲望,所以,节俭是富国的重要国策,也是防腐倡廉的重要途径。“恕”作为儒家的一种伦理道德范畴,要求以仁爱之心待人。对官员来说,经常能设身处地地为百姓着想,就一定会得到百姓拥护,这样才能治理好国家。
  一粥一饭,当思来处不易;

  半丝半缕,恒念物力维艰。
  【出处】朱柏庐《治家格言》。
  【大意】即使是一顿粥、一顿饭,也应当想到它来得不容易;即使是半根丝、半根线,也要想到劳作的艰辛。
  【提示】朱柏庐是我国明末清初的教育家,提倡家庭教育。他的《治家格言》又名《朱子家训》,是一部专门教育人们勤俭治家的格言集。节俭,作为中华民族的传统美德,它首先是尊重劳动和从事劳动的人。我们的食物和衣裳,都来之不易,要通过种植者、烹饪者、纺织者的许多劳动生产出来,不能轻易浪费。所以,这段话成为我国传统的“治家格言”。


2005年10月30日

香山之行

久违的香山今天终于落入我们的眼帘。来京快半年了也没有机会去。现在据说是上香山看枫叶的最佳时机。实验室的车老大,晓光,尚林,还有车老大的一位朋友在北外的女同学,际洲,陈议,世奇和我共八人早上经过一路颠簸终于在9点半香山脚集合成功。

在迈向香山售票处的蜿蜒小道中,我们看到了很多的小店,各式各样的工艺品小吃琳琅满目。颇有我们峨眉山脚80年代后期旅游道上的氛围。顿时我就像回到了家乡一样,四处观看着。
到山脚买好门票后我们开始了爬山的征途。整个山道台阶只有1500米左右,比起我们峨眉山的海拔3099米可就是九牛一毛了。不过在山道上走起来和在峨眉山上登山时感觉还是有些相似的,只是峨眉山上不会同时在一段很窄的山道上拥挤上几千人。在山道上往上走的时候真是人挨着人。每个台阶上都是人。这种情形就像是蚂蚁搬家那样。这样也好,我们不用走得很快。要是换了人少得情形估计我们很快就能到山顶,也就会更加得大汉淋漓了。

香山得海拔我估计不超过500米,大概一个多小时我们就登上山顶了。从山顶往山脚看去还真有在峨眉山上爬到一个小山坡时那种了望得感觉。今天得天气非常的好,看附近的事物非常的清晰,越往上走看到的视野就越开阔,在山顶上看到了远处颐和园的昆明湖,植物园的热带雨林馆。这种感觉就像作研究过程中随着了解的深入逐渐看到越来越清晰的细节。山顶上也是人挤人的情形,看了几眼后我们就开始找个人少的地方开始享用我们准备的午餐。沿着另外一条山道我们往下走了半天才找到一块僻静的地方开始好好休息,大家开始玩这边比较流行的警察与杀手的游戏。

毕竟还是秋天,山顶上凉风席席而来,顿感凉意。本以为能够看到枫叶无数,却只看到了很多的椭圆状的红叶,难免让有人感到一丝遗憾。好在半山有人在出售采集好的枫叶,价格是一元一把,每把大概只有五片叶子。整个山道上到处有人在出售着这种枫叶。那些远到而来的游人真有很多都买了下来。

在山脚处我们稍做休息,最后在等车十分困难的情况下选定了一辆所谓的黑车返回北航了。香山之旅那种了望远处的感觉甚感不错,大有看海之后让人心胸开阔无比的感觉。

2005年10月29日

25 signatures

The whole day, we have the regular Microsoft Master Program Training. It was the fourth time. The course today was communication skills. In the noon, before the lunch time, Mr. Hua gave us a task to practice our communication skills. The title was collecting 25 signatures in one hour in the street near Sigma Building.

We nearly 30 students went out the building with Mr. Hua. We should finish this task alone. Each of us had his solution. Standing at the door of Sigma, I had two ideas. One was collecting usual health feedback in the front of Wall market. The other was collecting feedback about the traffic safety consciousness at the cross near Sigma. Finally, I chose the latter.

I usually went to opposite of Sigma in this street. Other employees and VSs had the same requirement. Each time, we should go to the crossroad. But we should wait a long time before the traffic light becoming green. There was some bug of that traffic light. It was usual red to cars and red to passerby. So when it was red to cars many passersby crossed the street. And there were four groups’ traffic lights. Sometime the smaller corner road had some cars still running. So the drivers of that corner should be very careful. And the passersby should be also. So we all believed it was not safe. I want to survey about the passersby suggestions. Comparing the amount of waiting for traffic lights and waiting for buses beside the traffic lights, I found it was more convenient to ask the latter.

After the nice preparing and selection, I began to ask one by one. After my introduction, I asked their signature. If somebody believed it was not safe, they could write their name on unsafe block in my table, vice versa. After half an hour I finished my survey. There were 80% believing it was not safe to passersby. But 20% believed it was safe. There was a universal cognition that the traffic lights in that crossroad should be upgraded.

When I returned to the training room, I was very happy. I believed it was a nice form to practice us. All of us were exciting about such activity. Our solutions were different from each others. Somebody asked signatures directly without any other survey. Someone asked signatures for signatures software system. It was very interesting. We all liked it.

2005年10月28日

A partner from Nanjing University and Bowling

This morning, Wei Chen, who was from Nanjing University, came here. On Dr.Cheng Niu and Leishi's arrangement, he was my partner on my current machine translation project. I was very glad and welcome him. As I had many things should be done.

At first, I introduced my works background, current works and future works to him. Nowadays, I was working on manual check some machine translation result accuracy. I divided my final 4000 entries into two parts, one for him, one for me.

This evening, after our works had been done, we six visiting students went to CuiGong Hotel for bowling. We had only three frames each one. It was a nice activity.

2005年10月27日

第二界全国信息检索与内容安全学术会议

下午有幸来到融科大厦参加了这次学术会议。会议是上午开始的。我们IR实验室到会的共有7人,三位老师,四位同学。主要过来就是想见见我的老师和师兄们。下午就算是我蹭听了一下午的报告了。好在这边参加会议的人都能够领到论文集。

下午两点在信息检索的会场遇到了张刚师兄,他给了我一本论文集。报告开始之前我和志昌师兄坐在一起,我右手边的是百度公司的人员,和他们聊了一会儿之后后面有位与会者询问了我的名字,原来他就是前一阵子在和我用mail讨论WSD的那位沈阳的同学,他还说我们刘老师前几天在他们那边做了一个精彩的报告。嗯,我也像在邮件中说的那样等到实习结束回到学校后就给他发送那篇他需要的WSD的博士论文。呵呵,感觉这个世界真是小呀。这感觉就像刚到MSRA的第一天就遇到以前经常讨论问题而未曾谋面的小崔一样。

在信息检索会场我听到了四个精彩的报告,主要了解到了一些比较新的ideas。比如《一种基于潜在语义的Markov网络信息检索模型》中采用了LSI和Markov结合起来做Query扩展。这个Idea巧妙之处在于很好的应用了现在比较流行的Graphical Model来实现Query的扩展推理。这也反应了国外最近几年比较流行的Graphical Model在国内也开始应用起来,想必这个东西在国内的检索研究中会出现越来越热的情形。这个报告结束后的讨论出现了一个有趣的现象,那就是提问题的都是咱们实验室的人,志昌师兄最先发问,我也问了一个关于词义的问题,晓光问了两个问题,洪宇师兄也问了一个。

张刚师兄主讲的《基于链接的分布式信息检索文档划分的研究》中主要采用了虚拟页面的方式来对一个网页集合进行建模,将集合中所有的入链和出链都合并成虚拟网页的入链和出链。基于这种建模方法在网页入链和出链的基础上完成大规模网页聚类任务,其中的一个需求是要聚出100个数目固定的类别,其中采用的一个技巧是将暂时不能放入固有中心的网页放回网页链表的末尾,等到其它网页结束后再次使用这个网页来放入其它中心从而完成聚类。这个技巧确实能够在速度上实现加快的作用,但是我对此置疑会否出现聚类的顺序不同会导致生成的最终类别不同。

《关于广义向量空间模型中布尔运算的修正》中提到一个很有意思的idea.那就是Wong提出的GVSM(Generalized Vector Space Model)出现了不满足布尔运算的情况。作者将GVSM其中的一个定义修改之后就出现了满足布尔运算全部定律的情形。这是我在IR&NLP领域看到的第一篇没有任何试验,只有相关数学证明的论文。嗯,这个很有意思。看来在咱们的领域里面也需要一些纯理论上的证明。后来一位老师指出其中存在着数据稀疏的问题,本来VSM模型是一个n维的空间,现在GVSM把它变成了一个2的n次方的空间,在这种环境下更容易出现数据稀疏的问题。这个问题需要详细的研究下去。

最后一个报告是清华大学张敏老师下面的一个博士生完成的《面向信息检索需要的网络信息数据清理研究》。这篇文章从问题分析,问题解决,特征抽取和选择,以及最后的实验,我感觉都是比较好的。颇有国外比较好的会议论文的风格。其中提到的思想就是将网络上的网页分类为高质量网页和其它网页。然后对高质量网页进行索引检索,这样在TREC数据集上预处理过后就能实现索引量接近50%节省的基础上损失一点点的检索准确率。这个方法我觉得很像前几天在研究院听到的那位日本学者讲述的句法分析是采用动态规划的方法大幅度提高分析速度而只牺牲一点点的准确率的情形。感觉这种做法在IR&NLP领域非常值得推广,这其实就是一个速度与质量的取舍问题,如果牺牲一点点的准确率而得到速度的大幅度提升的话,那样会产生非常好的效果,特别是对于超大规模的信息检索问题。

四点左右我和实验室的老师同学们一起转到了另外一个文本分类、聚类及过滤的分会场。这里也听到了四个精彩的报告。最先主将的是文勖的《类别主特征结合句法特征的中文问题层次分类》。其中的核心思想就是利用依存句法分析来自动抽取问题分类需要的特征,然后放入SVM完成分类任务。在提到句法分析时一位TRS的吕学强老师提到了一个问题就是关于汉语句子都能用一颗树来进行表示吗?由于时间比较短,这个问题没有讨论下去。会后我找到吕老师向他询问了这个问题。因为我以前也遇到过这个问题,就是“我和张华分别去吃饭和睡觉”能否用句法分析成一棵树的问题。吕老师和我的讨论结果是这个句子中主要是并列成分的分析。吕老师提到的汉语句子不一定能被分析成一个树状结构的原因是,汉语不像英语的语法那样严谨可以用句法分析来很好的实现。汉语中存在很多的连动结构之类的特殊句法。我又问“那么能否对于连动结构,我们将前面短句的主语放到后面连动子句中作为主语继续采用句法分析呢?”吕老师说我说的只是连动句的一个应用上的解决方案,对于汉语而言其中还存在了太多的问题,这个问题在北大那边也有人开始重视起来。嗯,我感觉这个里面可能存在很多值得研究的东西。就是能够为汉语单独建立一个句子级的分析方式呢?

后面的一个报告是我在MSRA的同学朱慕华的《面向支持向量机的降维方法比较分析》。其中的核心思想是采用LSI来对文本向量进行维度预处理级的约简,然后再放入SVM进行应用。这个idea确实不错。

之后的报告是北京大学一位博士生的《中文文本聚类的特征单元比较》。其中的Contribution就是在文本聚类时分别比较1-gram,2-gram,3-gram,word级别的文本向量表示基元,得到最后的结论是在不同的语料上表示方法的效能没有统一的结论。我提出的意见是不能一刀切,必须要针对具体的词性采用具体的表示形式,不能一刀切。这个想法作者还没有很好的想到解决方案。我觉得以后有时间可以想想这个问题。对于我自己进行的研究也需要解决这个问题。

最后一个报告是《一个改进的中文文本过滤系统的设计与实现》。洪宇师兄对于篇文章提出了很好的问题,那就是作者的体系结构里面有明显的反馈机制,但是在具体实现中根本没有体现这个。我的问题是其中的正例词集和负例词集有没有交集,线性组合中的几个系数如何确定。结果是有交集,参数人为确定。我感觉那个交集应该取消,参数也不能人工设置。


整个会议我只能参加一个下午的,但是从中我发现了一些趋势性的东西。那就是LSI得到了很到的应用,由于LSI良好的数据稀疏解决能力,使得它能够在表示文本的时候可以起到很好的效果。这个表示方法我觉得还是存在许多的问题,比如如何选定最后生成的主对角矩阵排序后需要选取的元素的个数,有没有关注到词义级别的建模方法。嗯,有空俺要好好研究一下这个东西。因为对我的研究工作也是非常有用的。

还有一个想法就是我前一阵子琢磨过的图模型以及小波分析的东西不能丢下,其中蕴藏了巨大的研究价值和应用价值。

今天参会收获颇丰,也结识了几位朋友。晚上实验室所有在京的毕业生以及到会的老师同学们一起在会场附近的郭林饭店聚餐了一次,其间大家回忆了以前一起度过的美好时光,度过了一个开心的夜晚。

2005年10月26日

中国最美的地方

这些地方你都去过哪些呀?等俺将来有空了,嘿嘿,还得有钱了,一定去看看这些美丽的地方!下面列表中11类山里面,俺家乡峨眉山排名第一哦,大家有空真的去看看,那里风光实在不错!
----------------------------------------------

1湖泊入围名单

  101 西藏巴松湖
  102 新疆博斯腾湖
  103 吉林长白山天池
  104 内蒙古达里诺尔湖
  106 湖北东湖
  107 内蒙呼伦湖
  108 黑龙江镜泊湖
  109 新疆喀纳斯湖
  110 云南泸沽湖
  111 西藏玛旁雍错
  112 西藏纳木错
  114 青海青海湖
  115 西藏然乌湖
  117 新疆赛里木湖
  118 江苏太湖
  119 浙江西湖

2森林入围名单

  201吉林长白山美人松林
  202吉林长白山原始红松阔叶混交林
  203内蒙古红花尔基樟子松林
  204新疆天山雪岭云杉林
  205新疆轮台胡杨林
  206湖北神农架原始林
  207安徽黄山黄山松林
  208四川岷江流域原始云杉冷杉混交林
  209四川九寨沟云杉冷杉林
  210云南西部高山杜鹃林
  211西藏波密岗乡云杉林
  212西藏扎曲半常绿阔叶林
  213贵州荔波喀斯特森林
  214云南西双版纳热带雨林
  215海南尖峰岭热带雨林
  216黑龙江内蒙古大兴安岭兴安落叶松林

3草原入围名单

  301内蒙古呼伦贝尔草原
  302内蒙古锡林郭勒草原
  303内蒙古鄂尔多斯草原
  304黑龙江、吉林松嫩平原草甸草原
  305青海、甘肃祁连山山地草甸草原
  306甘南草原
  307新疆巴音布鲁克山地草原
  308新疆伊犁草原
  309新疆天山山地草原
  310西藏那曲高寒草原
  311云南西北高寒草甸
  312川西、川西北高寒草甸

4城区入围名单

  401福建厦门鼓浪屿
  402澳门历史城区
  403江苏苏州老城区
  404浙江杭州西湖周边
  405山东青岛八大关
  406上海新天地
  407北京什刹海地区
  408香港半山电梯周边
  409天津五大道


5乡村古镇入围名单

  501安徽西递
  502广西桂林阳朔西街
  503贵州黎平肇兴侗寨
  504江西婺源
  505闽西客家土楼
  506四川丹巴藏寨
  507江苏苏州同里
  508湘西凤凰
  509新疆喀纳斯湖畔图瓦村
  510云南红河大羊街乡哈尼村落
  511云南丽江大研镇
  512浙江楠溪江古村落
  513浙江西塘


6旅游洞穴入围名单

  601北京房山石花洞
  602重庆丰都雪玉洞
  603重庆武隆芙蓉洞
  604贵州毕节织金洞
  605湖北利川腾龙洞
  606湖南桑植九天洞
  607湖南新化梅山龙宫
  608湖南张家界黄龙洞
  609辽宁本溪水洞
  610浙江桐庐瑶琳洞

7岛屿入围名单

  701南沙群岛以美济礁太平岛等为代表
  702西沙群岛以永兴岛东岛等为代
  703海南省万宁县大洲岛
  704海南省蜈歧(牛奇)洲岛
  705香港東平洲
  706广东省海陵岛
  707广东万山群岛及庙湾
  708广西北海涠洲岛
  709福建厦门鼓浪屿
  710福建漳州林进屿、南碇岛
  711福建福鼎大嵛山
  712台湾省兰屿
  713澎湖列岛以澎湖岛为代表
  714浙江省普陀岛
  715浙江省朱家尖岛
  716浙江省嵊泗列岛
  717浙江温州南麂岛
  718山东庙岛列岛(长岛) 8瀑布入围名单


8瀑布入围名单


  801福建九龙漈瀑布
  802广西德天瀑布
  803贵州赤水风景区瀑布群
  804贵州滴水滩瀑布
  805贵州天河潭瀑布
  806贵州黄果树瀑布
  807河南焦作云台山瀑布
  808海南吊罗山瀑布群
  809海南琼中黎母山瀑布群
  810黑龙江镜泊湖吊水楼瀑布
  811江西省庐山三叠泉瀑布
  812晋陕交界黄河壶口瀑布
  813重庆雪宝山天水瀑布
  814四川九寨沟诺日朗瀑布
  815西藏藏布巴东瀑布群
  816云南罗平九龙瀑布
  817浙江雁荡山大龙湫瀑布9峡谷入围名单

9峡谷入围名单

  901长白山大峡谷(松花江上游的吉林抚松、松江境内)
  902长江三峡(瞿塘峡、巫峡、西陵峡)
  903大渡河金口大峡谷(四川乐山市金口河—汉源县乌斯河)
  904大宁河小三峡(重庆巫山县、巫溪县境内)
  905贡嘎山大峡谷(四川泸定县海螺沟、燕子沟、南门关沟)
  906黄河晋陕大峡谷(内蒙古托克托县河口镇—山西禹门口)
  907金沙江虎跳峡(云南香格里拉县虎跳峡镇—丽江市大具乡)
  908昆仑山大峡谷(新疆喀什市塔什库尔干县境内)
  909澜沧江梅里大峡谷(云南德钦县佛山—燕门)
  910怒江大峡谷(西藏察隅县察瓦龙—云南怒江州六库)
  911南盘江大峡谷(贵州兴义市马岭河峡谷)
  912帕隆藏布大峡谷(西藏波密县古乡湖—林芝县门中)
  913秦岭大峡谷(陕西周至县黑峪峡谷、西安长安区凤仪口峡谷)
  914太行山大峡谷(拒马河峡谷系—北京房山、河北涞源;滹沱河峡谷系—河北阜平、井陉、赞皇;漳河峡谷系—河南林州、山西长治;沁河峡谷系—河南焦作、山西晋城)
  915太鲁阁大峡谷(台湾花莲县立雾溪)
  916天山库车大峡谷(新疆库车县)
  917乌江大峡谷(重庆武隆—贵州源河)
  918雅砻江大峡谷(四川木里县白碉—盐源县周家坪)
  919雅鲁藏布大峡谷(西藏米林县派乡—墨脱县巴昔卡)
  920浙西大峡谷(浙江临安天目山东南坡)

10冰川入围名单

  1001西藏阿扎冰川
  1002新疆音苏盖提冰川
  1003四川海螺沟冰川
  1004西藏卡钦冰川
  1005新疆科克萨依冰川
  1006西藏来古冰川
  1007西藏米堆冰川
  1008甘肃七一冰川
  1009新疆特拉木坎力冰川
  1010甘肃透明梦柯冰川
  1011新疆天山一号冰川
  1012新疆土盖别里齐冰川
  1013新疆托木尔冰川
  1014云南玉龙雪山冰川
  1015西藏博康加勒冰川
  1016西藏绒布冰川

11山入围名单

  1101 四川峨眉山
  1102 四川稻城三神山
  1103 西藏冈仁波齐峰
  1104 四川贡嘎山
  1105 安徽黄山
  1106 陕西华山
  1107 西藏洛子峰
  1108 云南梅里雪山
  1109 西藏南迦巴瓦峰
  1110 青海年保玉则
  1111 新疆乔戈里峰
  1112 四川三奥雪山
  1113 陕西太白山
  1114 山东泰山
  1115 贵州乌蒙山
  1116 四川雪宝顶
  1117 西藏希夏邦马峰
  1118台湾玉山
  1119云南玉龙雪山
  1120西藏珠穆朗玛峰
  1121湖北武当山
  1122 吉林长白山
  1123福建武夷山

12沙漠入围名单

  1201内蒙古巴丹吉林沙漠腹地
  1202新疆古尔班通古特沙漠腹地
  1203内蒙古呼伦贝尔沙地腹地
  1204内蒙古浑善达克沙地腹地
  1205内蒙古科尔沁沙地腹地
  1206内蒙古库布齐沙漠腹地
  1207新疆库姆塔格沙漠腹地
  1208甘肃敦煌鸣沙山、月牙泉
  1209宁夏沙湖
  1210宁夏沙坡头
  1211新疆塔克拉玛干沙漠腹地
  1212宁夏腾格里沙漠腹地

13雅丹入围名单

  1301甘肃敦煌国家地质公园雅丹
  1302青海柴达木盆地雅丹
  1303新疆克拉玛依乌尔禾岩石雅丹
  1304新疆罗布泊白龙堆雅丹
  1305新疆罗布泊三陇沙雅丹
  1306新疆奇台风城

14湿地入围名单

  1401新疆巴音布鲁克湿地
  1402海南东寨港湿地
  1403山东黄河三角洲湿地
  1404江苏盐城湿地
  1405辽宁辽河三角洲湿地
  1406吉林龙湾湿地
  1407香港米埔和后海湾湿地
  1408甘肃、四川若尔盖湿地
  1409黑龙江三江平原湿地
  1410吉林向海湿地
  141黑龙江扎龙湿地

15海岸入围名单

  1501河北昌黎黄金海岸
  1502辽宁大连金石滩
  1503山东荣成成山头
  1504山东日照万平口海滩
  1505浙江海宁市盐官镇钱塘江海岸
  1506福建东山岛海滩
  1507福建崇武古城海岸
  1508福建漳浦县六鳌半岛抽象画廊海岸
  1509台湾野柳
  1510台湾清水断崖
  1511台湾鹅銮鼻珊瑚礁海岸
  1512广东深圳大鹏半岛海滩
  1513香港维多利亚港
  1514广西钦州三娘湾
  1515广西北海银滩
  1516海南东寨红树林
  1517海南博鳌
  1518海南三亚亚龙湾
  1519海南三亚天涯海角



2005年10月25日

Same program different result!

This morning, I was running a perl program on a windows 2003 server. But with the same input and program, the final results were different. I did not know the reason. The possible reason was that program was based on the memory content.

I would analyze more about it. It was well known that perl was a good script programming language. But it was cramped. There was another better language--Python. I was learning some materials on it. There was a nice book on Text Processing in Python. It was recommanded by Cr999. Its link was http://www.gnosis.cx/TPiP/

2005年10月24日

公司与个人成长

最近上MS^2的培训课程,其中一个作业是写一篇关于公司的价值观和个人成长的文章。如下是我写完的内容。以做备份。
----------------------------------------
经常接触一些已经工作了的朋友,对于如何看待公司有着很多种不同的观点。

有人说公司就是自己的家,其中有许多的感情在里面,伴随着公司的发展壮大自己也在其中收获了很多,有酸甜苦辣,也有自己的茁壮成长。走在路上遇见朋友都会情不自禁的夸赞自己的公司,时时处处都会以自己的公司为荣。其中的感情就像是家一样。家长就是公司的领导们,而自己就是家里的小孩,从学校毕业的时候就像家里的小孩,在公司里面经历着许许多多的学习工作,自己的能力水平也在不断的提高,得到后来自己也成了公司里的领导,开始带领更多的新人开始新的征程。整个公司的发展史就像一个家族的历史一样。任何人提起这个公司都非常的尊敬和仰慕它。
另外有人说,公司是老板们压榨企业员工的工具。老板们披着形式化的公司的皮来欺骗着自己的员工。经常出现没名的加班以及额外的任务,但是到后来公司却没有给员工合理的回报。公司老板玩的始终是一套把戏,那就是不断的从社会上招聘那些刚刚毕业的学生们,然后宏伟的向他们进行各种训练,最后训练出来的都是任劳任怨的机器人。等到这一批新人基本被压榨完了,新人们发现了公司的面孔,也就会陆陆续续的离开。然后公司的老板们又开始新一轮的招聘和培训以及终极目标的压榨。公司的老板们为了使这种压榨机制能够持久的维护下去,想了各种各样的手段,什么员工年终奖金,股票期权等等。那些高层的老板们则各个收入丰厚,下面的员工们则为了挣到为数不多的奖金而时时拼搏。

社会上,上面两种公司都比比皆是。当然我们说前者是我们学习的榜样,也是使得公司良性循环必须的体制。这个里面体现出来的完全就是一种公司价值观和个人成长的关系问题。纵观世界范围内的公司,几乎每时每刻都会有新的公司诞生,这一点在美国硅谷得到了最好的体现,当然随着改革开放以及与世界经济的融合,中国也在出现这种类似的情形。但是在大量诞生的公司之中真正能够存活下来的还是那些注重企业价值观以及关心企业员工个人成长的公司才能不断发展和壮大起来。

一个公司的价值观,从某种程度上反映了公司高层领导的价值观。各个公司的高层领导其实在他们一生的摸爬滚打中学会了很多很多,他们深知社会需要什么样的人才,需要什么样的价值观。他们对待自己的公司更有在家中培养孩子的感觉。这种情形直接影响了公司高层如何对待自己的员工,也就间接决定了整个公司对外交往的价值观。试想,一个对待自己的员工很开明很友善的公司,很难对外做出很不符合大家风格的决定。我们说公司的价值观在影响这公司里面每位员工的成长。因为公司要发展壮大,要开拓新的市场,靠的就是自己下属的员工,只有依靠他们才能够实现公司领导们的管理和规划的良策。

在MSRA做Intern的这四个月里,我们已经深刻的体会到了很多微软的企业文化,也就是微软公司的价值观。从这里的研究氛围研究环境以及丰富的业余生活就能够很好的发觉这一点。在MS^2课堂上我们学习到了更多的这方面的东西,现在对于微软也更加的了解。不得不说,微软是一个伟大的企业,是一个影响着人类历史进程的公司。在推进电脑在人们日常生活的应用方面微软走在了世界的前列。微软是一位巨人,一直在推陈出新的引导着业界的发展。

最近一阵子,微软刚刚度过了她30岁的生日,微软也到了自己的而立之年。微软的30年是桌面时代的30年,在这个时代微软对人类历史的发展进程产生了很大的推动作用。一贯保持着勃勃生机的微软,现在又开始了新的征程。因为一个新的时代正在到来,那就是web时代。这个时代需要微软更加的努力和发展。这样才能保持活力和创新的能力。微软的使命是“帮助全世界的人们和商业充分的发挥他们的潜力”。这完全体现了她的价值观。我们也充分相信,微软在新的时代能够创造出更大的成绩。因为在微软公司聚集了数以万计的优秀人才。他们正在微软公司实现着自己的个人成长,他们的业绩也越来越好。

好的企业需要好的价值观也需要优秀的人才在其中实现自己的成长。这一点让我们在就业的时候可以作出更好的选择。

2005年10月23日

Code Reading Skills

Before some days, I bought the book Code Reading.
There was an English edition of it. http://lingix.gro.clinux.org/pub/codereading.chm You can read it.

I began to read it. At the beginning of Chapter 2, there was a analysis of echo command in Unix. One nice example of strcmp was a macro about it:
#define STREQ(a, b) (*(a)==*(b) && strcmp((a), (b)) == 0)
It was a nice realization of strcmp. Can you analysis its beauty?

There was another hint for programming. You should check the return value of printing to file. Maybe it was the end of the file length limit. So you can not write the file again.

The two hints were very nice to me. I liked to read it.

2005年10月22日

MS^2第二堂-时间管理

经过报名推荐筛选,我有幸参加了MS Master(MS^2) Student Program Training。这次是第一期,是一种非常好的培训形式,共有九堂课。周三晚上我们经历了四个半小时的课程,那堂课主要介绍了很多微软的历史,价值观,公司架构,微软在中国的发展等内容。Harry 在那堂课上进行了精彩的开学演讲。

今天是我们MS^2培训的第二次和第三次,从早上9:30开始一直到晚上7:00才结束。整个儿下来觉得很累,因为没有午休的时间。今天的主题是时间管理和效能。以前虽然自己零零散散的学习过一些这方面的东西,也收到了很好的效果,但是今天的课程算是系统的学习这些内容。这里简单的小结一下今天学习的内容。

时间管理不是去管理时间,而是自己合理的安排自己在各个时段需要完成的工作。在基本的时间管理中有著名的四个象限的问题,两个坐标系分别是事情的紧急程度以及重要程度。按照这样的标准,可以将分为四个象限来划分各种事情。第一象限是重要而且紧急的事情,第二象限是重要而不紧急的事情,第三象限是不重要而紧急的事情,第四象限是不紧急而且不重要的事情。如下表所示:















紧急不紧急
重要现状20%~25%
理想状态25%~30%
解决方案
 1.兵贵速战速决
 2.快刀斩乱麻
现状15%
理想状态65%~80%
解决方案

 1.决胜于庙堂之上
 2.信任团队
不重要现状20%~60%
理想状态15%
解决方案
 1.舍得
 2.勇于拒绝
 3.交付给他人
现状2%~3%
理想状态<=1%
解决方案
 1.怡情养性
 2.轻松一下


基本的时间管理中常见的五个陷阱及解决方案如下:





















陷阱名称解释及方案
1.时间配置不对规划终于做事
最好的控制是预防
预防胜于处理
2.拖延不急的事情拖延之后会变成紧急的事情
这件事情令人很为难,但是非作不可,因此我将立即做完它,以便尽快忘掉它。
3.事必躬亲韩非子.八经
 -下君,尽己之能
 -中君,尽人之力
 -上君,尽人之智
诸葛亮凡事必躬亲,后来过劳而死。
为何事必躬亲
  -因为怕别人取代
  -不放心别人,不信任别人
  -要求标准过高
4.有求必应这样会花太多的时间,导致个人事务没有处理好。
适当情形下需要说不,需要适应的拒绝
5.沟通不够自己承担所有事情
出现错误不及时汇报
最后一分钟才通知
不和团队合作


提高工作效率的方法:
1.了解自己每天的工作时段的特性并且很好的分配工作内容
2.以PDCA(Plan, Do, Check, Action)分布每天及周一到周五的工作
3.保持良好的体力:养成运动的习惯
4.身心均衡发展:培养良好的嗜好

有效率的会议包含如下内容:
1.会议成功与否在于你是否能帮助每个人的互动
2.有效率的会议需要小心的准备与记录
3.每个会议都意味着高成本
 3-1. 参与人员的薪金
 3-2. 准备所花的成本
 3-3. 心理成本
 3-4. 机会成本

如何计划一个好的会议
1.是否一定要召开会议才能解决这个问题
如果以下任何一条发生都需要取消
 -电话或者书面通知即可
 -关键人物不能参加
 -准备时间不够
2.决定会议目的
3.确定参加人员:只召集对会议或讨论有意义的人员
4.确定议程:会议议程应会前发出,让参加人有时间思考
5.确定设备、场地、时间
6.后续
 -指定专人做会议记录
 -只记录行动事项
 -会后立即公布


如何处理情绪低潮
 -每天至少完成一件事情
 -完成事情的定义
   -完整的
   -相关的
   -善后的
   -记录的文件
 -通常完成一件完整的任务后就会有力气再做第二件事情


会上大家都畅所欲言,我也把自己以前积累的一些经验和大家一起分享了,比如Tadalist之类的非常好的时间管理方案以及管理工具。

培训内容之一还有一个很重要的题目就是职业素质和商业礼仪,其中包含了五项:外表,态度,声誉,行为,举止等。这些东西的学习也是非常重要的。

在整堂课程中华老师非常的幽默内容也很充实,大家都觉得非常的受益。中午午餐时间我们大家也是在教室里吃的,期间老师给了我们每个小组10张白纸,要求在半个小时之内堆出最大的高度。最后我们小组的竹节设计加上完美的基座方案和作品获得了第一名的成绩。嗯,^_^,很高兴的事情!

2005年10月21日

Encoding Problem

These days, I was puzzled by the Encoding problem. I had worked out a French file. But it was not displayed well in UltraEdit. There was another French file which was extracted from another database in well displaying.

I had not found out the final solution. My mentor and my friends told me there was some transferring tools could realize it. I should pay more on it. Some day, I had written some function for UTF8 encoding transferring. But it was on Chinese. Nowadays, I would pay more attention on other languages.
There was a link on Unicode Encoding, maybe useful for you also.
http://blog.china-pub.com/more.asp?name=lanfengye&id=23614

2005年10月20日

MS^3

This evening, there was a Microsoft Master(MS^2) Student Program. We, thirty interns, had a nice first class. From 6:00pm, Harry gave a welcome talk and Hua began to introduce the main class content. First we were divided into six groups with five persons respectively. Then we had a short order with Pizza. During our supper 20 minutes, we had to be familiar with each other. As one of our group member would be selected to give a short presentation about the group members’ information.

Haibin Huang, Taifeng Wang, Yinghua Zhou, Jing Wang, and I were in group one. After our brainstorm, we got our group name: MS^3. We are MicroSoft interns. Now we were doing Machine translation(me), Search technology(Taifeng, Yinghua, Jingwang). So our name was MS^3. We all believed it was a cool name.

During the ongoing four hours, we had the first class. It was more on introduction of Microsoft History, Value, state of the Art.

Until 10:50pm, we finished the first class. We all thought it was very long. However, it was a good chance for knowing many fresh guys. There were eight similar classes left. We would spend our free time in three weeks for it.vMS^3
This evening, there was a Microsoft Master(MS^2) Student Program. We, thirty interns, had a nice first class. From 6:00pm, Harry gave a welcome talk and Hua began to introduce the main class content. First we were divided into six groups with five persons respectively. Then we had a short order with Pizza. During our supper 20 minutes, we had to be familiar with each other. As one of our group member would be selected to give a short presentation about the group members’ information.

Haibin Huang, Taifeng Wang, Yinghua Zhou, Jing Wang, and I were in group one. After our brainstorm, we got our group name: MS^3. We are MicroSoft interns. Now we were doing Machine translation(me), Search technology(Taifeng, Yinghua, Jingwang). So our name was MS^3. We all believed it was a cool name.

During the ongoing four hours, we had the first class. It was more on introduction of Microsoft History, Value, state of the Art.

Until 10:50pm, we finished the first class. We all thought it was very long. However, it was a good chance for knowing many fresh guys.