到成都就是晚上7点多了,买到的车票是晚上10点的,到家也就12点半了,多亏爸爸和表弟来接我了。凌晨2点到家。
哈哈,终于到家了。^-^
2005年1月25日
2005年1月23日
2005年1月22日
2005年1月21日
Be for your time!
Be for your time! How can we achieve this goal?
There is a famous site named as BE FOR TIME. In it, there are so many items for entertainment.
This evening, there were seven students of our laboratory went to it for happy. This was my third time going there. But this was my first time for nightlong entertainment.
There was a interesting football match on table. Two people cooperate in a group, one for vanguard and center, one for backfielder and goalkeeper. When we played firstly, we were all extracted by it. As the time going, our level was improved.
After about an hour, we all tired. Then we began to play the brave game with a box building blocks. The body, who let the heap collapse, will be honest to answer any question. our questions all surrounded the personal affection. After so many times, we all told person feeling. During the process, we learned so much about affection. Listening others experimence, and telling other your expeimence, this was a special type of feeling. So nice feeling about it!
How to enjoy your life? Be for your time!
There is a famous site named as BE FOR TIME. In it, there are so many items for entertainment.
This evening, there were seven students of our laboratory went to it for happy. This was my third time going there. But this was my first time for nightlong entertainment.
There was a interesting football match on table. Two people cooperate in a group, one for vanguard and center, one for backfielder and goalkeeper. When we played firstly, we were all extracted by it. As the time going, our level was improved.
After about an hour, we all tired. Then we began to play the brave game with a box building blocks. The body, who let the heap collapse, will be honest to answer any question. our questions all surrounded the personal affection. After so many times, we all told person feeling. During the process, we learned so much about affection. Listening others experimence, and telling other your expeimence, this was a special type of feeling. So nice feeling about it!
How to enjoy your life? Be for your time!
2005年1月20日
IR English Speaking Group
This morning, Bright told me to see the comments on our IR forum. There is a piece of news about our IR English speaking group. Gold, Simply, Taozi, have practised their English in every morning. There is a trend to enlarge the group. The group would like to recruit more members. The time table is 7:30 to 8:30 in the moring.
I am very glad to take part in it. So my direct task, now, is to finish my bolg writing, and then go to sleep, and then get up early.
Let me try once.
I am very glad to take part in it. So my direct task, now, is to finish my bolg writing, and then go to sleep, and then get up early.
Let me try once.
2005年1月19日
定量分析&如何做研究
早早来到实验室,看到618有博士答辩。题目是:开放层次式系统的生存性增强技术研究。出于对这个题目中“生存性”和“增强”的好奇,8:30我坐在了最后一排,开始等待答辩的开始。
答辩博士1988年就已经硕士毕业,2000年开始读博,四年时间就完成了博士学位。他在论文反面着实厉害,共有10篇文章,一篇国际期刊,三篇一级,三篇SCI,一篇EI,两篇国际会议。答辩开始时介绍了一些自组织生存系统原理,后来是资源发现等一些问题。后来讲到了一个“易碎性”的基本概念和实验结果。整个介绍没有什么精彩之处。反倒是教授们的提问甚为有趣,我也从中学到了一些新的东西。
答辩委员会中王义和老师对那个“易碎性”的基本概念进行了置疑。博士报告中提到的概念非常的模糊,整个概念的定义方法就是定性的描述了一下,提到一些“概率很大”之类的修饰语。但是王老师反问“什么较概率很大”时,却没了下文。其中一位老师也指出了这个问题,提出意见是需要讲基本概念采用定量描述,不要有任何的歧义。
还有一点是英文摘要的重要性。英文摘要反映了博士生的英文水平,必须要认认真真的撰写。
最后一点是在验证理论成果的时候必须将理论结果进行非常细致完备的验证和分析。由此我想到了我们大一大二时的大学物理实验,那时候每个式样都要求非常认真的撰写实验报告。现在回想起来才真正的领悟到大学物理实验的重要性。是的,那个时候的训练培养了我们科学严谨的作风。实验必须填写实验报告,这一点以后必须一贯的执行下去。
下午实验室进行了本学期最后一次例会,刘老师主讲了《怎样做研究》。记得这是刘老师第三次在实验室主讲这个话题了。每次的内容都比上一次深入很多。今天的报告尤为精彩。从方法,内容,注意事项,等等,各个方面进行了讲述。真个过程刘老师的幽默、严谨,让我再次领略了刘老师的风采。研究兴趣非常重要,研究兴趣是可以逐渐培养的,当然最终还是需要靠自己的努力。科学大海,不择细流,需要经常吸纳其他领域的研究方法和成果。做研究,隔行如隔山,隔行不隔道。基本的道理都是相通的。做研究必须要养成打破沙锅问到底的态度,否则不可能出高水平的研究成果。刘老师再次给我们讲述了深蓝之父许峰雄从事一项研究的前提:“有足够兴趣” 并且 “能够做到世界第一” 并且 “能够产生经济效益”。
做研究过程中存在一种螺旋上升的循环:读(30%)-> 想(20%)->做(20%)->写(30%)->读……。这个过程必须认认真真的贯彻。
做研究讲求深度,浮在表面很可能作出和别人重度的研究。需要扎扎实实的做,深入到里面有才会产生高水平的成果。研究中需要对数据敏感的分析,特别是对于出错的数据需要主条分析原因和改经的方法。
研究也需要和别人的交往。弱国无外交。必须把自己的研究做深做透后才会有和别人谈判、交流的基础。
刘老师的报告结束后进行了实验室的Pd.D term check。主要讲述的大家研究中的一些情况。讲述模板是
1.国际上在做些什么
2.当前的热点和难点是什么
3.准备解决哪几个难点
4.准备如何解决
接下来就是实验室的各位博士生讲述他们的工作。报告中刘老师也有很多的点评,对我而言值得借鉴之处总结如下:
1.任何概念、定义必须精确
2.构建语料时需要详细设计和准备
3.密切跟踪你所在领域的牛人
4.一年级时必须达到的要求是编程过关,实现编程无障碍的状态
体会颇多,似有杂乱之嫌,仅做记录。
答辩博士1988年就已经硕士毕业,2000年开始读博,四年时间就完成了博士学位。他在论文反面着实厉害,共有10篇文章,一篇国际期刊,三篇一级,三篇SCI,一篇EI,两篇国际会议。答辩开始时介绍了一些自组织生存系统原理,后来是资源发现等一些问题。后来讲到了一个“易碎性”的基本概念和实验结果。整个介绍没有什么精彩之处。反倒是教授们的提问甚为有趣,我也从中学到了一些新的东西。
答辩委员会中王义和老师对那个“易碎性”的基本概念进行了置疑。博士报告中提到的概念非常的模糊,整个概念的定义方法就是定性的描述了一下,提到一些“概率很大”之类的修饰语。但是王老师反问“什么较概率很大”时,却没了下文。其中一位老师也指出了这个问题,提出意见是需要讲基本概念采用定量描述,不要有任何的歧义。
还有一点是英文摘要的重要性。英文摘要反映了博士生的英文水平,必须要认认真真的撰写。
最后一点是在验证理论成果的时候必须将理论结果进行非常细致完备的验证和分析。由此我想到了我们大一大二时的大学物理实验,那时候每个式样都要求非常认真的撰写实验报告。现在回想起来才真正的领悟到大学物理实验的重要性。是的,那个时候的训练培养了我们科学严谨的作风。实验必须填写实验报告,这一点以后必须一贯的执行下去。
下午实验室进行了本学期最后一次例会,刘老师主讲了《怎样做研究》。记得这是刘老师第三次在实验室主讲这个话题了。每次的内容都比上一次深入很多。今天的报告尤为精彩。从方法,内容,注意事项,等等,各个方面进行了讲述。真个过程刘老师的幽默、严谨,让我再次领略了刘老师的风采。研究兴趣非常重要,研究兴趣是可以逐渐培养的,当然最终还是需要靠自己的努力。科学大海,不择细流,需要经常吸纳其他领域的研究方法和成果。做研究,隔行如隔山,隔行不隔道。基本的道理都是相通的。做研究必须要养成打破沙锅问到底的态度,否则不可能出高水平的研究成果。刘老师再次给我们讲述了深蓝之父许峰雄从事一项研究的前提:“有足够兴趣” 并且 “能够做到世界第一” 并且 “能够产生经济效益”。
做研究过程中存在一种螺旋上升的循环:读(30%)-> 想(20%)->做(20%)->写(30%)->读……。这个过程必须认认真真的贯彻。
做研究讲求深度,浮在表面很可能作出和别人重度的研究。需要扎扎实实的做,深入到里面有才会产生高水平的成果。研究中需要对数据敏感的分析,特别是对于出错的数据需要主条分析原因和改经的方法。
研究也需要和别人的交往。弱国无外交。必须把自己的研究做深做透后才会有和别人谈判、交流的基础。
刘老师的报告结束后进行了实验室的Pd.D term check。主要讲述的大家研究中的一些情况。讲述模板是
1.国际上在做些什么
2.当前的热点和难点是什么
3.准备解决哪几个难点
4.准备如何解决
接下来就是实验室的各位博士生讲述他们的工作。报告中刘老师也有很多的点评,对我而言值得借鉴之处总结如下:
1.任何概念、定义必须精确
2.构建语料时需要详细设计和准备
3.密切跟踪你所在领域的牛人
4.一年级时必须达到的要求是编程过关,实现编程无障碍的状态
体会颇多,似有杂乱之嫌,仅做记录。
2005年1月18日
Ostringstream
I was converting the PFR corpus into my XML style. I must change them into utf8 code. But the output function was complicated. As learned in C++ Primer, I tried to use the ostringstream.
Formaly, I believed the ostringstream is a derive of string class. So I used clear method for clearing the content of the string. But that could not run correctly.
I don't know how to modifiy my program. The single solution is asking in CSDN.
Formaly, I believed the ostringstream is a derive of string class. So I used clear method for clearing the content of the string. But that could not run correctly.
I don't know how to modifiy my program. The single solution is asking in CSDN.
2005年1月17日
可可西里
在一位朋友的推荐下,终于看了这部最近获得金马奖的片子--《可可西里》。
整部电影是按照来自北京的记者马玉进入可可西里后的十几天里每一天的经历来组织的。看起来非常连贯。可可西里的十几天里,每天都会有事情发生。巡山队员的困难太多了,沙漠、大风雪、猎羊者、饥饿、贫穷。
真的很难想象他们从成立之处是怎么坚持到最后的。队长日泰被打死的时候,马占林(经历过当年真实事件的人)看着日泰长久的没有离开,据说这一段完全不是导演安排的。
一切都是按照真实事件来报道的。或许现在的观众已经对那些虚拟的、作作的、脱离实际的电影不再感兴趣。为真实也!
看完片子,久久不能平静。想必每位观众都被打动了吧。
整部电影是按照来自北京的记者马玉进入可可西里后的十几天里每一天的经历来组织的。看起来非常连贯。可可西里的十几天里,每天都会有事情发生。巡山队员的困难太多了,沙漠、大风雪、猎羊者、饥饿、贫穷。
真的很难想象他们从成立之处是怎么坚持到最后的。队长日泰被打死的时候,马占林(经历过当年真实事件的人)看着日泰长久的没有离开,据说这一段完全不是导演安排的。
一切都是按照真实事件来报道的。或许现在的观众已经对那些虚拟的、作作的、脱离实际的电影不再感兴趣。为真实也!
看完片子,久久不能平静。想必每位观众都被打动了吧。
2005年1月16日
2005年1月15日
Converting corpus
This was mu whole days work on converting corpus.
Based on yeaterday's work, I am preparing for the converting. I found a problem of our laboratory. I wanted to use the PFR corpus. But there were three edition of this corpus. And each edition had different feature. So I must merge them first. It is some troublesome.
After this converting task, I could make a suggestion about this situation.
Based on yeaterday's work, I am preparing for the converting. I found a problem of our laboratory. I wanted to use the PFR corpus. But there were three edition of this corpus. And each edition had different feature. So I must merge them first. It is some troublesome.
After this converting task, I could make a suggestion about this situation.
2005年1月14日
Starting Anaphora Resolution Research
Today, nice day, I started my anaphora resolution research. Dr.Tliu has told us often that we should prepare some standard corpus, and then try all kinds of methods. So the standard corpus is the first step of my work.
But until now, there is only ACE2004 coreference corpus I could use. But it is not suitable for our research. So I want to annotate some corpus by myself. But the annotating tool is very troublesome to make. I ask question on a maillist, and use google. After my simple survey, I found some useful tools, as follows:
After test, I decide to use PALinkA(Perspicuous and Adjustable Links Annotator). It is good enough for my work.
Thanks for the enthusiastic friends who gave me information on the tools.
But until now, there is only ACE2004 coreference corpus I could use. But it is not suitable for our research. So I want to annotate some corpus by myself. But the annotating tool is very troublesome to make. I ask question on a maillist, and use google. After my simple survey, I found some useful tools, as follows:
- Alembic workbench a natural language engineering environment for the development of tagged corpora
- ATLAS Architecture and Tools for Linguistic Analysis Systems
- CLaRK system an XML Based System For Corpora Development
- GATE is an architecture, framework and
development environment for language engineering which can be also used to
annotate texts. - MMAX a tool for multi-modal annotation in XML
- PALinkA: http://clg.wlv.ac.uk/projects/PALinkA/
After test, I decide to use PALinkA(Perspicuous and Adjustable Links Annotator). It is good enough for my work.
Thanks for the enthusiastic friends who gave me information on the tools.
2005年1月13日
My Homepage
When I read my former homepage, I found there were so many old information. My homepage should be updated.
I added some new modules into my homepage. When I finished I fell nice.
Welcome to my new homepage.
I added some new modules into my homepage. When I finished I fell nice.
Welcome to my new homepage.
2005年1月12日
2005年1月11日
年度计划随想
年度计划是什么?这是我在写了一半内容的时候思考的问题。
有人以前说过“计划没有变化快”。意指零时会发生的事情太多,根本无法预料。又有人说“人无远虑必有近忧”。意指长期理想和短期计划的关系。针对我的具体情况,具体分析一下优惠得到什么样子的结论呢?
从过去的一年来看,我做计划的次数非常多,但是每次计划中的每项内容真正坚持下来的有多多少。为什么每次都会出现这样的情况呢?又有人说过,在每次定计划的时候不要给自己定的满满的,那样你不可能坚持下来。真正能够每天坚持下来的一定是能够很容易就完成的任务。反思自己为什么能够坚持每天写blog。曾经simply师姐问过我这个问题,我当时很轻松的说是将这种习惯融入了血液,就像每天吃饭睡觉一样。是呀。如果什么东西每天能够像吃饭睡觉一样去对待的话,那肯定是能够坚持下来的。但是吃饭睡觉的这种习惯是不进行就会难受,就会有非常严重的惩罚机制来约束的。静坐长思己过。我想我找到了答案。那就是要把你需要定制的计划尽量弱化他的难度,而且要抱着一颗轻松容易的心态去完成,这样制定出的计划才能够真正坚持下去。
年度计划的制定还有必要吗?有人说计划不是写在纸上的,而是写在实际行动上的。我想我的计划已经基本写在我的大脑里面了。想来大致也就是要加强机器学习、编程能力、英语能力、指代消解研究能力等几个方面。但是当我想要制定这个看起来非常宏伟的年度计划的时候我却不知如何进展下去了。我想详细的计划是需要一段时间一段时间的制定的,而且还需要结合一些很有效的手段来实现。
不知为何,一开始写blog就想得很多。原先Dr.Tliu来给我们制定月度计划模板的时候提出过计划与小结的模板。那就是要先列出上月阅读报告中的计划内容,然后针对本月的工作来查看上次计划完成的情况。找出完成和没有完成的原因,然后逐步改进制定和完成计划的能力。这种约束机制我感觉非常的好。它可以非常好的监督我们的计划和工作,而且每个月都可以有一次反馈,而且是正反馈。
这种计划方式非常好。可以细致执行。
有人以前说过“计划没有变化快”。意指零时会发生的事情太多,根本无法预料。又有人说“人无远虑必有近忧”。意指长期理想和短期计划的关系。针对我的具体情况,具体分析一下优惠得到什么样子的结论呢?
从过去的一年来看,我做计划的次数非常多,但是每次计划中的每项内容真正坚持下来的有多多少。为什么每次都会出现这样的情况呢?又有人说过,在每次定计划的时候不要给自己定的满满的,那样你不可能坚持下来。真正能够每天坚持下来的一定是能够很容易就完成的任务。反思自己为什么能够坚持每天写blog。曾经simply师姐问过我这个问题,我当时很轻松的说是将这种习惯融入了血液,就像每天吃饭睡觉一样。是呀。如果什么东西每天能够像吃饭睡觉一样去对待的话,那肯定是能够坚持下来的。但是吃饭睡觉的这种习惯是不进行就会难受,就会有非常严重的惩罚机制来约束的。静坐长思己过。我想我找到了答案。那就是要把你需要定制的计划尽量弱化他的难度,而且要抱着一颗轻松容易的心态去完成,这样制定出的计划才能够真正坚持下去。
年度计划的制定还有必要吗?有人说计划不是写在纸上的,而是写在实际行动上的。我想我的计划已经基本写在我的大脑里面了。想来大致也就是要加强机器学习、编程能力、英语能力、指代消解研究能力等几个方面。但是当我想要制定这个看起来非常宏伟的年度计划的时候我却不知如何进展下去了。我想详细的计划是需要一段时间一段时间的制定的,而且还需要结合一些很有效的手段来实现。
不知为何,一开始写blog就想得很多。原先Dr.Tliu来给我们制定月度计划模板的时候提出过计划与小结的模板。那就是要先列出上月阅读报告中的计划内容,然后针对本月的工作来查看上次计划完成的情况。找出完成和没有完成的原因,然后逐步改进制定和完成计划的能力。这种约束机制我感觉非常的好。它可以非常好的监督我们的计划和工作,而且每个月都可以有一次反馈,而且是正反馈。
这种计划方式非常好。可以细致执行。
2005年1月10日
并行计算考试
最终还是考试了。
考试时间是两个半小时。大家在那里都是如坐针毡。因为考试题目大出大家的意料。原本估计必定要考的知识点很少考到,书上很难想到是考点的东西居然被考了很多。
先不管考试最后的成绩能够如何,这次考试给了我很大的启发。
无论学习什么东西,都需要踏踏实实的紧张下去。学习任务的完成应该是重在平时,而不是考前十几天才开始非常着急的学习和复习。其实从时间总量上来看,绝对是一模一样的。忽然想到了微软亚洲研究院副院长洪小文博士前些天在讲如何写好论文时提到修改自己撰写的论文的技巧。洪院长说,改自己论文的时候不能采用很快的看很多遍,而应改每天很认真的看一遍到两遍。时间总量是一样的,但是效果却远远不一样。
学习应该每天进展一点,不能拖到最后再赶,谁能保证到时候你有时间全身心的投入到复习中的。其实平时每天进展一点,心情上也是很愉快的,而讲复习压在最后整天都会很难受的。
这个道理原先我就懂,但就是执行不力。言而总之,就是时间的分配上不太合理。这个问题是我在新的一年里必须解决的问题。
考试时间是两个半小时。大家在那里都是如坐针毡。因为考试题目大出大家的意料。原本估计必定要考的知识点很少考到,书上很难想到是考点的东西居然被考了很多。
先不管考试最后的成绩能够如何,这次考试给了我很大的启发。
无论学习什么东西,都需要踏踏实实的紧张下去。学习任务的完成应该是重在平时,而不是考前十几天才开始非常着急的学习和复习。其实从时间总量上来看,绝对是一模一样的。忽然想到了微软亚洲研究院副院长洪小文博士前些天在讲如何写好论文时提到修改自己撰写的论文的技巧。洪院长说,改自己论文的时候不能采用很快的看很多遍,而应改每天很认真的看一遍到两遍。时间总量是一样的,但是效果却远远不一样。
学习应该每天进展一点,不能拖到最后再赶,谁能保证到时候你有时间全身心的投入到复习中的。其实平时每天进展一点,心情上也是很愉快的,而讲复习压在最后整天都会很难受的。
这个道理原先我就懂,但就是执行不力。言而总之,就是时间的分配上不太合理。这个问题是我在新的一年里必须解决的问题。
2005年1月8日
并行计算考试复习专贴
并行计算的考试迫在眉睫。早上在看书时遇到问题去找别人讨论的时候获得不少经验。仔细想来,自己的问和别人的答以及整个讨论过程我们讨论完后就完了。别人在读书时可能也会遇到和我一样的问题,那么别人也会去经历同样的过程。如果将自己的和别人讨论的过程记录下来放在网上,那么别人在查看我们的记录的时候就可以很快的解决可能遇到的问题。这个问题就像是金山公司和我们合作的自动客户服务系统一样,构建很多的FAQ,然后检索,检索不到的再用人工服务。如果并行计算或者别的考试也能构建很多的FAQ,那就简直造福大家了。
基于此想法,我在咱们实验室论坛上发了一个“并行计算考试复习专贴”的帖子,并且将汪易早上给我的一个资料给大家共享了。随后邀请了很多人来一起讨论。
发贴时间是早上10:12。现在的状态是“回复28次,点击453次”。从IP来看,主要是我们年级在各个实验室的同学。现在看看论坛上的讨论记录,感觉这种形式非常的好。自己在和别人的讨论过程中明白了很多问题。
基于此想法,我在咱们实验室论坛上发了一个“并行计算考试复习专贴”的帖子,并且将汪易早上给我的一个资料给大家共享了。随后邀请了很多人来一起讨论。
发贴时间是早上10:12。现在的状态是“回复28次,点击453次”。从IP来看,主要是我们年级在各个实验室的同学。现在看看论坛上的讨论记录,感觉这种形式非常的好。自己在和别人的讨论过程中明白了很多问题。
2005年1月7日
实用的研究
上午周明老师到三个实验室走访,在综合楼的访问结束后要到邵馆李生老师那里去一趟,刘老师让我给周明老师引路。
一路上周老师开始询问了我的一些情况,还向我介绍一些微软研究院的情况。微软以及微软研究院有这样一个特点,凡事应用和需求驱动,做一些有用的研究和开发。研究院自然语言组现在正在研究和开发中的TIME系统的目标就是要作出一个平台,其中集成许多的工具,以供微软的其他部们,或者将来的用户直接调用。昨天介绍到的那个求职简历的自动信息抽取就是一个应用驱动的例子。我问周老师,为什么需要将求职简历进行信息抽取,不是简历都要求按照表格磊填写吗?周老师说,国内的一些求职者一般都会按照要求的表格来填写,但是现在很多国外的或者归国的人经常递交一些其他样子的简历,而微软又不能因为别人简历不是表格的形式就将别人拒之门外,所以需要进行简历的信息抽取。这些简历信息的抽取只需要按照一些模板个格式来抽取就可以了,而不需要深层的分析,所以难度也不是非常大。
去年研究院来哈工大参观的时候见到过一个聊天机器人,但当时我是该项目的组长,周老师对这个项目产生了极大的兴趣。我向周老师提起这件事时,周老师也谈了许多。他说,现在他一直想做一个聊天机器人。由于已经退出那个项目,我向周老师简要介绍了一下那个项目的发展方向。
周老师告诉我,现在他还想做的一件事情是客户求助信件的分类。现在微软以及微软研究院每天都会收到很多的求助信件,求助信件的分类以及自动转发给相关人员就是一个迫在眉睫的研究项目。我认为这个想法就像自动客户服务的系统。其中可以研究和开发的东西有很多。
一路上周老师还谈了一些对微软亚洲研究院访问学生的基本要求。
短短的十五分钟,我受到了很多启发。真诚感谢周明老师!
一路上周老师开始询问了我的一些情况,还向我介绍一些微软研究院的情况。微软以及微软研究院有这样一个特点,凡事应用和需求驱动,做一些有用的研究和开发。研究院自然语言组现在正在研究和开发中的TIME系统的目标就是要作出一个平台,其中集成许多的工具,以供微软的其他部们,或者将来的用户直接调用。昨天介绍到的那个求职简历的自动信息抽取就是一个应用驱动的例子。我问周老师,为什么需要将求职简历进行信息抽取,不是简历都要求按照表格磊填写吗?周老师说,国内的一些求职者一般都会按照要求的表格来填写,但是现在很多国外的或者归国的人经常递交一些其他样子的简历,而微软又不能因为别人简历不是表格的形式就将别人拒之门外,所以需要进行简历的信息抽取。这些简历信息的抽取只需要按照一些模板个格式来抽取就可以了,而不需要深层的分析,所以难度也不是非常大。
去年研究院来哈工大参观的时候见到过一个聊天机器人,但当时我是该项目的组长,周老师对这个项目产生了极大的兴趣。我向周老师提起这件事时,周老师也谈了许多。他说,现在他一直想做一个聊天机器人。由于已经退出那个项目,我向周老师简要介绍了一下那个项目的发展方向。
周老师告诉我,现在他还想做的一件事情是客户求助信件的分类。现在微软以及微软研究院每天都会收到很多的求助信件,求助信件的分类以及自动转发给相关人员就是一个迫在眉睫的研究项目。我认为这个想法就像自动客户服务的系统。其中可以研究和开发的东西有很多。
一路上周老师还谈了一些对微软亚洲研究院访问学生的基本要求。
短短的十五分钟,我受到了很多启发。真诚感谢周明老师!
2005年1月6日
MSRA reports
今天上午微软亚洲研究院的三位专家在L002进行了三场报告。其中洪小文副院长主讲内容是How to Publish a (good) paper。
洪院长的报告很精彩,主要是针对国际期刊的论文写作技巧。首先强调的是
Good paper=good content + writing skills
Writing skills= structure + flow + argument.
报告中纠正了以往大家存在的一些误解,如下:
A few misconceptions:
.The more, the better.
.The bigger, the more.
.The more complex, the better.
--Lots of mach theory, and formulas.
.The more skillingm the better.
.The more authoritative, the better.
在洪院长讲到AAAI的审稿意见表的内容时候,我在想,我们平时阅读论文时究竟需要学习什么东西。原本我的论文学习都是在学习别人的基本内容和基本框架。偶尔看到一些比较精彩的英语表达方式也没有记下来,现在隐约记得一个To our best knowledge(就我们所知)。看来英文论文的学习需要加入一些新的元素。
接下来的报告是周明博士的报告,主要内容就是微软亚洲研究院自然语言处理组正在进行中的TIME系统的基本内容和下一步的计划。其中提到的将分词、BaseNP合而为一的方法很吸引人。
由于时间的关系,最后一个报告是研究院语音组组长Frank Soong的报告。这个报告只进行了大约二十分钟,其中很多内容是语音处理的未来展望。但是讲述之间提到了一些研究的方法。研究的时候一般每个研究点上的研究都有空间进行下去,在做具体研究时需要做到在一个点上作死。也就是说要在这个点上的各个方面形成一个非常系统的研究,以致于别人的一提到这个研究点时就会立刻想到你的研究报告。
Frank Soong非常有文采,也很幽默。其中提到一句话是“宇宙间的研究其实都是相通的……”。顿时间彷佛研究范围一下增大了很多很多。
今日的报告收获很大。名家风采,实该领略!
洪院长的报告很精彩,主要是针对国际期刊的论文写作技巧。首先强调的是
Good paper=good content + writing skills
Writing skills= structure + flow + argument.
报告中纠正了以往大家存在的一些误解,如下:
A few misconceptions:
.The more, the better.
.The bigger, the more.
.The more complex, the better.
--Lots of mach theory, and formulas.
.The more skillingm the better.
.The more authoritative, the better.
在洪院长讲到AAAI的审稿意见表的内容时候,我在想,我们平时阅读论文时究竟需要学习什么东西。原本我的论文学习都是在学习别人的基本内容和基本框架。偶尔看到一些比较精彩的英语表达方式也没有记下来,现在隐约记得一个To our best knowledge(就我们所知)。看来英文论文的学习需要加入一些新的元素。
接下来的报告是周明博士的报告,主要内容就是微软亚洲研究院自然语言处理组正在进行中的TIME系统的基本内容和下一步的计划。其中提到的将分词、BaseNP合而为一的方法很吸引人。
由于时间的关系,最后一个报告是研究院语音组组长Frank Soong的报告。这个报告只进行了大约二十分钟,其中很多内容是语音处理的未来展望。但是讲述之间提到了一些研究的方法。研究的时候一般每个研究点上的研究都有空间进行下去,在做具体研究时需要做到在一个点上作死。也就是说要在这个点上的各个方面形成一个非常系统的研究,以致于别人的一提到这个研究点时就会立刻想到你的研究报告。
Frank Soong非常有文采,也很幽默。其中提到一句话是“宇宙间的研究其实都是相通的……”。顿时间彷佛研究范围一下增大了很多很多。
今日的报告收获很大。名家风采,实该领略!
2005年1月5日
英文学习之重要
今天听了一天的报告,上午是搜索引擎小组的讨论会。非常佩服CR的系统架构能力以及他的命名想象力。
下午是哈尔滨工业大学语言语音教育部-微软联合实验室的揭牌仪式。学院里的自然语言处理实验室、机器智能与翻译研究室、信息检索研究室、语音处理研究室加上微软亚洲研究院一起成立的。微软亚洲研究院已经到哈工大来访过很多次了。今天来访的人员有微软亚洲研究院副院长洪小文博士、自然语言处理组组长周明博士、语音处理组组长Frank Soong。
哈工大各个研究室主任介绍研究室的情况后,洪小文博士、周明博士、Frank Soong博士给大家提出了一些非常有建设性的意见和建议。其中Frank Soong的一些话让我很受启发。
他强调的第一点是要注意借鉴实验室内其他人员的研究技术,一个实验室内经常有很多的金矿,但是往往存在的已过问题就是挖掘不够。
他是在2004年11月加盟微软研究院的。他发现在微软研究院的访问学生里英语能力普遍不高,相比之下哈工大的学生比清华北大的学生的英文能力差一些,主要体现在英文speech和写作能力。
英文的学习非常重要,这一点已经被提醒过很多遍了。考完试一定要将自己收集的那些英语学习资源好好利用起来。
下午是哈尔滨工业大学语言语音教育部-微软联合实验室的揭牌仪式。学院里的自然语言处理实验室、机器智能与翻译研究室、信息检索研究室、语音处理研究室加上微软亚洲研究院一起成立的。微软亚洲研究院已经到哈工大来访过很多次了。今天来访的人员有微软亚洲研究院副院长洪小文博士、自然语言处理组组长周明博士、语音处理组组长Frank Soong。
哈工大各个研究室主任介绍研究室的情况后,洪小文博士、周明博士、Frank Soong博士给大家提出了一些非常有建设性的意见和建议。其中Frank Soong的一些话让我很受启发。
他强调的第一点是要注意借鉴实验室内其他人员的研究技术,一个实验室内经常有很多的金矿,但是往往存在的已过问题就是挖掘不够。
他是在2004年11月加盟微软研究院的。他发现在微软研究院的访问学生里英语能力普遍不高,相比之下哈工大的学生比清华北大的学生的英文能力差一些,主要体现在英文speech和写作能力。
英文的学习非常重要,这一点已经被提醒过很多遍了。考完试一定要将自己收集的那些英语学习资源好好利用起来。
2005年1月4日
Nice books in Machine Learning
This morning, when I reviewed the Machine Learning area, I found a person named as mokuram shared some nice books on www.mofile.com.
The books were as follows:
Pattern Classification
Principles of Data Mining
Data Mining: Concepts, Models, Methods, and Algorithms
Survey of Text Mining
Mining the Web, discovering Knowledge from Hypertext Data
Web Data Mining and Applications in Business Intelligence and Counter-Terrorism
An Introduction to Support Vector Machines and Other Kernel-based Learning Methods.
These books were very nice for our research. The final book was very nwely on SVM. Principles of Data Mining was published by MIT, and very classical for DM.
Last days, I studied on the book Learn Prolog Now. This afternoon, I found a nice Chinese website on Prolog http://cdtzx.swiki.net/1. It was so nice.
I began to read the ample content one by one.
Today, one more nice book is Data mining: Practical Machinie Learning Techniques with JAVA Implementations. It introduced the package of WEKA. I plan to read it.
The books were as follows:
Pattern Classification
Principles of Data Mining
Data Mining: Concepts, Models, Methods, and Algorithms
Survey of Text Mining
Mining the Web, discovering Knowledge from Hypertext Data
Web Data Mining and Applications in Business Intelligence and Counter-Terrorism
An Introduction to Support Vector Machines and Other Kernel-based Learning Methods.
These books were very nice for our research. The final book was very nwely on SVM. Principles of Data Mining was published by MIT, and very classical for DM.
Last days, I studied on the book Learn Prolog Now. This afternoon, I found a nice Chinese website on Prolog http://cdtzx.swiki.net/1. It was so nice.
I began to read the ample content one by one.
Today, one more nice book is Data mining: Practical Machinie Learning Techniques with JAVA Implementations. It introduced the package of WEKA. I plan to read it.
2005年1月3日
2005年1月2日
Weka
"Weka" stands for the Waikato Environment for Knowledge Analysis. (Also, the weka, pronounced to rhyme with Mecca, is a flightless bird with an inquisitive nature found only on the islands of New Zealand.) The system is written in Java, an objectoriented programming language that is widely available for all major computer platforms, and Weka has been tested under Linux, Windows, and Macintosh operating systems. Java allows us to provide a uniform interface to many different learning algorithms, along with methods for pre- and postprocessing and for evaluating the result of learning schemes on any given dataset. The interface is described in this chapter.
There are several different levels at which Weka can be used. First of all, it provides implementations of state-of-the-art learning algorithms that you can apply to your dataset from the command line. It also includes a variety of tools for transforming datasets, like the algorithms for discretization discussed in Chapter 7. You can preprocess a dataset, feed it into a learning scheme, and analyze the resulting classifier and its performance—all without writing any program code at all. As an example to get you started, we will explain how to transform a spreadsheet into a dataset with the right format for this process, and how to build a decision tree from it.
Learning how to build decision trees is just the beginning: there are many other algorithms to explore. The most important resource for navigating through the software is the online documentation, which has been automatically generated from the source code and concisely reflects its structure. We will explain how to use this documentation and identify Weka’s major building blocks, highlighting which parts contain supervised learning methods, which contain tools for data preprocessing, and which contain methods for other learning schemes. The online documentation is very helpful even if you do no more than process datasets from the command line, because it is the only complete list of available algorithms.
Weka is continually growing, and—being generated automatically from the source code—the online documentation is always up to date. Moreover, it becomes essential if you want to proceed to the next level and access the library from your own Java programs, or to write and test learning schemes of your own.
One way of using Weka is to apply a learning method to a dataset and analyze its output to extract information about the data. Another is to apply several learners and compare their performance in order to choose one for prediction. The learning methods are called classifiers. They all have the same command-line interface, and there is a set of generic command-line options—as well as some scheme-specific ones. The performance of all classifiers is measured by a common evaluation module. We explain the command-line options and show how to interpret the output of the evaluation procedure. We describe the output of decision and model trees. We include a list of the major learning schemes and their most important scheme-specific options. In addition, we show you how to test the capabilities of a particular learning scheme, and how to obtain a bias-variance decomposition of its performance on any given dataset.
Implementations of actual learning schemes are the most valuable resource that Weka provides. But tools for preprocessing the data, called filters, come a close second. Like classifiers, filters have a standardized command-line interface, and there is a basic set of command-line options that they all have in common. We will show how different filters can be used, list the filter algorithms, and describe their scheme-specific options.
The main focus of Weka is on classifier and filter algorithms. However, it also includes implementations of algorithms for learning association rules and for clustering data for which no class value is specified. We briefly discuss how to use these implementations, and point out their limitations.
GETTING STARTED
In most data mining applications, the machine learning component is just a small part of a far larger software system. If you intend to write a data mining application, you will want to access the programs in Weka from inside your own code. By doing so, you can solve the machine learning subproblem of your application with a minimum of additional programming. We show you how to do that by presenting an example of a simple data mining application in Java. This will enable you to become familiar with the basic data structures in Weka, representing instances, classifiers, and filters.
If you intend to become an expert in machine learning algorithms (or, indeed, if you already are one), you’ll probably want to implement your own algorithms without having to address such mundane details as reading the data from a file, implementing filtering algorithms, or providing code to evaluate the results. If so, we have good news for you: Weka already includes all this. In order to make full use of it, you must become acquainted with the basic data structures. To help you reach this point, we discuss these structures in more detail and explain example implementations of a classifier and a filter.
There are several different levels at which Weka can be used. First of all, it provides implementations of state-of-the-art learning algorithms that you can apply to your dataset from the command line. It also includes a variety of tools for transforming datasets, like the algorithms for discretization discussed in Chapter 7. You can preprocess a dataset, feed it into a learning scheme, and analyze the resulting classifier and its performance—all without writing any program code at all. As an example to get you started, we will explain how to transform a spreadsheet into a dataset with the right format for this process, and how to build a decision tree from it.
Learning how to build decision trees is just the beginning: there are many other algorithms to explore. The most important resource for navigating through the software is the online documentation, which has been automatically generated from the source code and concisely reflects its structure. We will explain how to use this documentation and identify Weka’s major building blocks, highlighting which parts contain supervised learning methods, which contain tools for data preprocessing, and which contain methods for other learning schemes. The online documentation is very helpful even if you do no more than process datasets from the command line, because it is the only complete list of available algorithms.
Weka is continually growing, and—being generated automatically from the source code—the online documentation is always up to date. Moreover, it becomes essential if you want to proceed to the next level and access the library from your own Java programs, or to write and test learning schemes of your own.
One way of using Weka is to apply a learning method to a dataset and analyze its output to extract information about the data. Another is to apply several learners and compare their performance in order to choose one for prediction. The learning methods are called classifiers. They all have the same command-line interface, and there is a set of generic command-line options—as well as some scheme-specific ones. The performance of all classifiers is measured by a common evaluation module. We explain the command-line options and show how to interpret the output of the evaluation procedure. We describe the output of decision and model trees. We include a list of the major learning schemes and their most important scheme-specific options. In addition, we show you how to test the capabilities of a particular learning scheme, and how to obtain a bias-variance decomposition of its performance on any given dataset.
Implementations of actual learning schemes are the most valuable resource that Weka provides. But tools for preprocessing the data, called filters, come a close second. Like classifiers, filters have a standardized command-line interface, and there is a basic set of command-line options that they all have in common. We will show how different filters can be used, list the filter algorithms, and describe their scheme-specific options.
The main focus of Weka is on classifier and filter algorithms. However, it also includes implementations of algorithms for learning association rules and for clustering data for which no class value is specified. We briefly discuss how to use these implementations, and point out their limitations.
GETTING STARTED
In most data mining applications, the machine learning component is just a small part of a far larger software system. If you intend to write a data mining application, you will want to access the programs in Weka from inside your own code. By doing so, you can solve the machine learning subproblem of your application with a minimum of additional programming. We show you how to do that by presenting an example of a simple data mining application in Java. This will enable you to become familiar with the basic data structures in Weka, representing instances, classifiers, and filters.
If you intend to become an expert in machine learning algorithms (or, indeed, if you already are one), you’ll probably want to implement your own algorithms without having to address such mundane details as reading the data from a file, implementing filtering algorithms, or providing code to evaluate the results. If so, we have good news for you: Weka already includes all this. In order to make full use of it, you must become acquainted with the basic data structures. To help you reach this point, we discuss these structures in more detail and explain example implementations of a classifier and a filter.
2005年1月1日
New year's day!
This is new year's day! So nice day. But there was a exam on Parallel Computing after nine days. This was the main topic of my recent days.
订阅:
博文 (Atom)