2005年3月31日
日投篮球三百下,我愿常做IR人
晚上9:30,Gold,simply,Yyn,刘怀军,我,如期来到篮球场,开始今天的晚练。跑了几圈后开始投篮练习。大家再投球之余不断的说笑着。Simply数次罚球后终于在大家的期待下投入绝佳一球。Yyn也频频进球。Gold师兄高投发威,屡进数球。刘怀军远投也进了不少。我重点练习了一下两分球。
晚上大家在篮框下的气氛是和谐活跃的。带着愉悦的心情回到实验室记下了这个blog,已表纪念。希望这种感觉,这种生活能够永远坚持下去。
2005年3月30日
2005年3月29日
Generic Algorithm
C++ was powerful with generic algorithm. I had reviewed the basic materials today. The last phrase was practising each generic algorithm one by one. Right now, I had tested about seven of them.
Keep on tomorrow.
2005年3月28日
xerces-c_2_6_0
I would solve it tomorrow.
2005年3月27日
交流的意义
我一直坚信:一个人的力量是有限的,一个人的学识是有限的,一个人的灵感是有限的。那么我们的社会中那么多的“牛”人,那么多的“牛”校、“牛”组织是怎么“牛”起来的呢?
原本我相信天才的存在,一直把自己看成那种怎么看都不是天才的那种,然后勤勤恳恳学习和工作。但是现在看来天才并不存在。所谓天才,那是站在巨人的肩膀上出现的。那些天才原先本是诸如我类的凡夫俗子,但是他们在成长的过程中,学会了在他之前的那些“巨人”们的知识、经验、技巧、理论等等可以“快速”(相对于人类几千年的历史)继承的精神遗产,然后借助于很多的机遇和灵感才得以成为众人心中的“天才”。这种成为“天才”的方式在欧洲中世纪到上个世纪出现了很多。
时间的巨轮让我们出现在二十一世纪的中国,出现在哈工大这样一所全国高等学府中。其实我们已经非常非常的幸运了。因为我们的环境比起以往的任何一位“牛”人的环境都要好。在现在的情景下,我们当初会出现那些当年站在巨人肩上的“牛”人么?答案是肯定的。事实上,现在的科技科技学术届的泰斗们多还是以前的那种成才方式。
环视我们现在的环境,我们与他们现在不同的东西就是便捷无限的网络环境。在其中几乎能够找到任何东西,包括各种做研究需要的数据、论文、工具、方法、技巧。以往成为很难得的环境,现在非常“轻易”(我们未曾经历那种困难的过渡)的摆在我们的面前。来到IR的一年半时间里,我收集了很多关于如何做研究的资料,也看了一些别人做研究的体会和心得,深感以往做研究的艰难。我们现在的环境好了,但是新的问题又出现了。
网络中存在了大量的知识,可以说如果现在能够制造出一个基于网络知识库的Robot,那么它将是无所不能的。我们每一个在网络中有生存镜像的人现在都智能算是这个Robot的一个分布式系统,如果分开独立的完成工作或者科研,那么与以往先辈们做研究唯一不同的就是可以在一个异常庞大、异常快速的图书馆中查找相关资料。
目前国际上几乎每天都会有各种各样的会议在召开,达到国际年会,小到一些实验室的Seminar。交流的重要性大家都非常的清楚。
让交流成为习惯。这是我们机器学习小组在3月12日晚上的第一次活动中提出的口号。第一次活动中的三位主讲人对于这个口号都非常的赞同。最近我们正在筹建第二次关于机器学习工具使用经验的交流活动。虽然目前答应主讲的人只有两个,但是我相信到时候会有很多人愿意主讲的。
交流下能迸发思维的火花。这一点我有深刻的体会。在机器学习小组的第一次活动中,大家的讨论下对于SVM中的一种直接去除支持向量的方法找到了改进的方法;对于SVM操作之前和之后的特征选择也有了深入的认识。我们IR实验室的Reading Group,Coding Group的多次讨论活动均取得了很好的效果。
今天下午我们实验室举行了自创立以来的第一次茶话会。活动形式是在会场中心的桌子上放满糖果和一些葡萄酒。九位最新加盟实验室的成员纷纷做了精彩的自我介绍。其间李生老师、刘挺老师还有很多的点评。之后大家一起分享葡萄酒和糖果,全体成员三五成群的讨论着各种各样的话题。这种活动形式非常的好,感觉就像置身于国际会议的那种coffee break中。
交流,在我们的实验室中形成了一种很好的氛围。我相信我们的实验室会走向更大的成功。我也非常希望将机器学习小组的交流程度再提高一些。
2005年3月26日
2005年3月25日
转变
兄弟和我大一的时候一起住地下室,同寝四人分外和睦。他本是聪敏勤奋之人,不想在大四上学期考研之时没有复习好,转到工作去了。上班第一天,就把工作给辞退了,回家专心准备考研。考研复习是苦的,经历过高考的人都知道高考的痛楚。考研比高考更难,因为不但有巨大的竞争,还有各种各样的压力特别是还是在家里准备第二次考研。
兄弟这次考研复习的一路上得到了大家的支持与帮助。考研开始前本估计没有任何问题的。但是考研成绩下来,数学却没有考到理想中的分数,低得让人发慌。来学校之前,和家人商量好硕说是软件学院也是可以上的,无非就是学费贵不少而已。兄弟来学校的那天晚上,我和大龙在方便食堂给他举行了简单的“接风仪式”。兄弟在学校的这段时间很难熬的。因为考研成绩比较低。后来在网上看到兄弟能够参加复试,并且之后的复试成绩非常好,再后来公布录取名单时,兄弟居然在深圳公费的名单里面。知道这个消息的兄弟姐妹们都非常的替他高兴。高兴之余就是兄弟想要和大家一醉方休。
明天晚上兄弟就要回山西了,今晚在哈尔滨的咱们班同学全集在一起。在一个火锅店大家坐了下来。兄弟开始就说了,今晚他不喝醉誓不罢休。在座的四位男生和四位女生纷纷劝阻。开始大家都很少量的叫酒,后来也不知道叫了多少次,大家都晕沉沉的。还有一个同学和喝得太急一直在那里睡着。
约莫十点半,我们的“班搓”结束了。几个男生互相扶着准备回寝室。后来那个喝急了睡觉的同学觉得难受,兄弟喝得最多也很晕。我们分成两组,我和仁清送难受得同学到医院,大龙送兄弟回寝室。在医院点滴时看到同屋还躺着一个通信大四的学生,毕业之前的郁闷导致一人喝酒被送到医院。大龙一会儿也来到医院。在医院折腾到12:30,我和仁清还有大龙才将喝得难受得同学从医院送回寝室。
等我回到寝室也12:50了。晕沉沉的开始睡觉。
兄弟在喝最后一杯酒时哭了,说了好多话,虽然喝了很多,但是大家都知道他说的不是胡话,全是心里话。兄弟的考研路上付出了很多很多,最后能够公费到深圳真的很激动。
人不是不能转变的,关键是看你转变的动机和决心。这一点给我很深的启发。祝福兄弟!
2005年3月24日
IRLab Basketball Match
During one hour's playing, I was in charge of backfielder. My guarding goal was Hu Xiaoguang. All the members of this match had hight morale. I did not play good. Our team had less training before the match. The final resukt was 25:24. Our team lost this match.
Summarizing about this match, we had the belief to win them next time.
2005年3月23日
Can Machines Think?(2)
Loebner Prize Gold Medal
The Loebner Prize is the first formal instantiation of a Turing Test. The test is named after Alan Turing the brilliant British mathematician. Among his many accomplishments was basic research in computing science. In 1950, in the article Computing Machinery and Intelligence which appeared in the philosophical journal Mind, Alan Turing asked the question "Can a Machine Think?"He answered in the affirmative, but a central question was: "If a computer could think, how could we tell?" Turing's suggestion was, that if the responses from the computer were indistinguishable from that of a human,the computer could be said to be thinking.
In 1990 Hugh Loebner agreed with The Cambridge Center for Behavioral Studies to underwrite a contest designed to implement the Turing Test. Dr. Loebner pledged a Grand Prize of $100,000 and a Gold Medal for the first computer whose responses were indistinguishable from a human's. Each year an annual prize of $2000 and a bronze medal is awarded to the most human computer. The winner of the annual contest is the best entry relative to other entries that year, irrespective of how good it is in an absolute sense.
Further information on the development of the Loebner Prize and the reasons for its existence is available in Loebner's article In Response to the article Lessons from a Restricted Turing Test by Stuart Shieber.
In 2005 the $25,000 and the Silver Medal will be at risk.
The fifteenth annual Loebner Prize contest take place:
10:00 - 16:00, Sunday, 18 Sept 2005, at 220 W. 98th St #2B, New York, NY.
Important Dates: All times
Friday, April 1, 2005: Opening date for submission of entries.
Thursday, June 30, 2005: Closing date for entries.
Thursday, July 21, 2005: Prescreening results announced (if necessary)
Thursday, Sept 1, 2005: Semi-final 8 results announced (if necessary)
Sunday, Sept 18, 2005: Loebner Prize 2005 Contest in NY
1991 Joseph Weintraub , Thinking Systems Software
1992 Joseph Weintraub, Thinking Systems Software
1993 Joseph Weintraub, Thinking Systems Software
1994 Thomas Whalen , Government of Canada Communications Research Center
1995 Joseph Weintraub, Thinking Systems Software
1996 Jason Hutchens Centre for Intelligent Information Processing, University of Western Australia
1997 David Levy, Intelligent Research Ltd.
1998 Robby Garner
1999 Robby Garner
2000 Richard Wallace
(another link)
2001 Richard Wallace
2002 Kevin Copple
2003 Juergen Pirner
2004 Richard Wallace
This test was interesting and challenging.
2005年3月22日
Can Machines Think?
When I began to read the book Artificial Intelligence: A Modern Approach, 2rd Edition. There was a chapter or reviewing the history of AI.
It was well-known that during the gestation of AI, A.M. Turing's famous paper Computing Machinery and Intelligence was a milestone of AI. In our book, this paper was mentioned. It was introduced that the main content of it were Turing test, machine learning, genetic algorithm and reinforcement learning. I was attracted by its content, and urged reading it.
Last night, I found out and printed the paper. It had 22 papers. I could not help reading it last night. And then I read it during my spare time today. Just now, I had read through it. I had so many ideas about it, as follows:
1. The accuracy of defition. When you wanted to define a concept, you must define all the factors of your concept. For example, Turing proposed to consider the question, "Can machines think?" Then, in his paper, he used so many pages for discussion of "machine" and "think". To "think", Turing gave us the famous "Imitation Game", i.e., "Turing Test".
2. To the Imitation Game, Turing set up an accurate entironment of his game. He considered so many objections and analysis them one by one. Full consideration was prerequisite.
3. Turing gave the basic idea about learning machine. "The machine has to be so constructed that events which shortly preceded the occurrence if a punishment signal are unlikely to be repeated, whereas a reward signal increased the probability of repetition of the events which led up to it." Maybe his idea of publishments and rewards was the foundation of modern machine learning theory.
4. "In the process of trying to imitate an adult human mind we are bound to think a good deal about the process which has brought it to the state that it is in. We may notice three components.
(a) The initial state of the mind, say at birth,
(b) The education to which it has been subjected,
(c) Other experiecne, not to be described as education, to which it has been subjected."
Turing compared the initial state of the mind to the state of birth. This was heuristic to me. To a baby, his initial state maybe is the human genetic structure. They was hereditary material.
This was so nice a paper that I wanted to read it again.
The motivation of my reading of this paper was only my curiosity to artificial intelligence. I spent nearly a whole day on it. There were so many emergent tasks for me. I must finish them firstly, then continue my curiosity.
2005年3月21日
IR Jogging Group(2)
After six circles, we didnot feel tired. And then we went to have some physical exercises. The whole process we practised was about half an hour.
Nice feeling!
2005年3月20日
演讲-报告-技巧,杂记
来到IR感受到了新鲜的气息,学到了太多太多。演讲-报告的相关技巧就不只一次得到指点。
还记得我的第一次报告是在我2003.7.26进入实验室后完成科技创新课题接近尾声时。那时9月12日需要参加科技创新的答辩,需要采用ppt进行演讲。说实话,被告知需要准备ppt时我的大脑里一片空白。因为在那之前我没有任何做ppt的经验。没有办法之余,感慨自己幸亏加入了IR。在Carl师兄的点播下,在钻研实验室其他老师和师兄师姐的ppt的基础上,我完成了我的第一个ppt。为了取得好的效果,我模仿了IR里报告预演的流程,进行了科技创新的答辩演练。在演练时,作为全国最佳辩手的世奇给了我很大的帮助,其中一条我至今记忆犹新,那就是刚上台之时用眼神扫视一下全体听众。在9月12号那天,上午10点答辩时我从容应对,取得了很好的效果。我一直相信,那个ppt以及在IR的答辩预演是我能获得科技创新竞赛一等奖的一个重要因素。后来11月份在实验室给大家讲述灰色系统的那个ppt以及那次演讲也让我得到了很大的锻炼。
在各种重要场合聆听过刘老师的精彩演讲,潜移默化之间我也学到了很多的演讲技巧。刘老师很强调演讲者大脑中的听众模型。
前几天的XML Pre-Discussion上,刘老师又一次给予了我很多的演讲和做报告方面的指导。前天的TS&QA联合FSNLP学习会议上,世奇的演讲让我很受感动。我为世奇的演讲能力折服。从他那里我又学到了语速控制的方法。
今天实验室例会上卢老师讲述了他两天之后即将在新加坡的一个自然语言处理国际会议上的报告。报告结束后点评时,刘老师给我们提到了在不同场合、不同人群面前演讲的听众模型切换的问题。之后刘老师的报告富于激情,抑扬顿挫掌握的非常好。轮到我讲今天的内容之前,刘老师又一次向我提醒需要讲得慢一些。
轮到我讲我准备的内容时候我努力做到了这些原则。但是却犯了一些让听众感觉不好的内容。开头说了不少听众不要的“废话”。比如,我说到了几句“这个地方刚才刘老师讲了我就不讲了”和“这个东西是用于详细看的,这里不介绍了”等很冗余的话。一个半小时左右我结束了我的报告。整个报告在内容上我感觉时很丰富的。里面夹杂了一些我这两天的想法,而且采用了FreeMind思维导图形式来组织我的报告内容。
由于内容太多,讲的过程中我自己出现了一点点思维混乱的情况,幸亏刘老师及时帮我解围。讲完报告后刘老师对我的报告内容给予肯定,同时也在演讲注意事项上给予了我很多的指点。主要内容我概括了一下:
1.讲话速度需要节奏放慢,放缓,应该多听听温家宝总理的那种讲话方式。逐字逐句的说。
2.需要抑扬顿挫的进行讲话。演讲者的这种演讲风格才会吸引大家更多的注意,而且会取得更好的效果。
3.在关键的地方需要强调性的发音,比如音调放低,放缓。
4.如果准备内容较多,但出现时间不够的情况,可以采用略过一些内容的方式,而不是着急的加快语速。
5.需要在不同的听众群体前采用不同的听众模型,对于小范围的讨论可以详细介绍一些细节部分的内容;在全体成员参加的会议上可以注重框架方面的介绍和演示。
6.介绍一些别人不熟悉的概念之前需要讲概念讲清楚一些之后再介绍一些实例。在介绍相关概念时,如果没有说清楚A,就不要急于介绍A.a或者B概念。
7.做报告时可能会略过的内容尽量不要出现在ppt中。
非常感激刘老师对我的细致耐心的指点。当然,演讲和报告,我认为,是一门很丰富的学问,很值得好好揣摩,细细体会,并且不断实践。我会好好领会刘老师的指点的,并且争取在以后的做报告或者演讲的过程中克服各种不足之处。
2005年3月19日
VML & SVG
联想我现在的工作,我认为可以实现XML文本数据集上的可视化任务,可以首先在句法分析的结果上进行相关的分析和显示。
在网上胡乱查找了一番,看到了两个非常有意思的语言: VML和SVG。在网上找到了一个关于三种网络图形显示语言的对比收集如下:
------------------------------------
GML、SVG、VML的比较
GML、SVG和VML都是基于XML的可用来描述矢量图形的标记语言,都是XML词表,它们的语法并不难理解,但它们都有各自不同的用途和特点,下面简单介绍一下。
GML(Geography Markup Language)
是基于XML的空间信息编码标准,由OpenGIS Consortium (OGC)提出,得到了许多公司的大力支持,如Oracle、Galdos、MapInfo、CubeWerx等。运用GML,封装的地理数据和图形解释是清楚分离的。
GML基于XML用文本表示地理信息
由于GML可看成是XML的一个具体的词表,熟悉了XML就比较容易理解GML。而且随着XML的应用日益广泛,GML也将受益。另外文本比较简单、直观,容易理解和编辑。
GML封装了地理信息及其属性
GML基于地理信息抽象模型,即空间实体特征及属性封装。地理特征包括一系列的属性和相应的几何信息,一般来说属性由名字、类型和值组成,几何信息由基本元素如点、线、面、曲线、多边形等组成。目前GML主要局限在二维应用,正扩展到二维半和三维空间以及特征间的拓扑关系。GML允许相当复杂的特征,如特征间的嵌套。例如飞机场由出租汽车道、飞机跑道等组成。
GML封装了空间地理参考系统
空间地理参考系统是地理信息系统数据处理的基础。GML封装了空间地理参考系统、主要的投影关系等,保证分布式处理的扩展性和灵活性。
GML可以实现地理数据的分布式存储
GML对地理数据的分发是非常方便的技术手段,但其作用不止局限于此,同样可以成为地理数据分布式存储的重要手段。主要的技术工具是XLink和Xpointer。
从上边的介绍可以看出GML作为描述空间信息的元语言的一些优点。它只能描述空间实体的矢量信息和属性,具体显示的时候可采用两种不同的途径:
l GML Drawà Display
l GML Transform à SVG, VML Draw àDisplay
第一种途径需要直接操作GML数据进行分析并显示。
第二种途径是把GML数据转换成相应的图形格式的数据,例如SVG,VML及X3D。然后由已经存在的支持这几种图形格式的软件进行显示。下面介绍一下SVG和VML。
VML(Vector Markup Language)
是一个最初由Microsoft开发的XML词表,现在也只有IE5.0以上版本对VML提供支持。使用VML可以在IE中绘制矢量图形,所以有人认为VML就是在IE中实现了画笔的功能。下面介绍一下VML的优点:
基于XML标准
XML是公认拥有无穷生命力的下一代网络标记语言, VML具有先天的优势,它的表示方法简单,易于扩展等等。
支持高质量的矢量图形显示
VML支持广泛的矢量图形特征,它们基于由相连接的直线和曲线描述路径。在VML中使用两个基本的元素:shape和group。这两个元素定义了VML的全部结构;shape描述一个矢量图形元素,而group用来将这些图形结合起来,这样它们可以作为一个整体进行处理。
VML规范包括大量的支持多种不同矢量图形特征的元素。下面是VML的预定义图形元素: Shape、Path、 Line 、Polyline、Curve 、Rect、Roundrect、 Oval、 Arc、 Group
由文本构成的图像,并可集成到HTML
由于VML使用简单的文本来表示图像,这样就可用很少的字节来表示比较复杂的图像。VML与HTML兼容,通过在HTML中声明VML命名空间并声明处理函数,就可以和其他HTML元素一样使用VML元素,在客户端浏览器显示图像。VML标记里面可以定义DHTML大部分属性和事件,比如说id, name, title, onmouseover 等等。
支持交互与动画
但VML的功能不只是绘图,他还可以在图形中嵌入文本,并可实现超链,还可通过脚本语言实现一定的动画功能。VML赏析
SVG(Scalable Vector Graphics)
SVG是一种基于XML的开放的矢量图形描述语言。SVG图像是与XML1.0兼容的文档,SVG元素是指示如何绘制图像的一些指令,阅读器(Viewer)解释这些指令,把SVG图像在指定设备上显示出来。使用SVG可以在网页上显示出各种各样的高质量的矢量图形,支持很多您想象得出的功能:几何图形、动画、渐变色、滤镜效果等。最关键的是,它也是完全用普通文本来描述的!也就是说,这是一种专门为网络而设计的基于文本的图像格式。
SVG是对PGML和VML的一种综合,所以VML的优点也就成为SVG的优点,例如:
基于XML标准
高质量的矢量图像
由文本构成的图像
我们可以不用任何图像处理工具,仅仅用记事本就可以生成一个SVG图像。这对于图像处理的工作者来说可能会感到不可思议。其实仔细想想也可以理解,矢量图像一般是以算法指令来描述,建立在文本基础上的SVG图像中所有的描述语句都可以直接观察到,所以也非常容易进行二次修改与更新,"可升级"的特点在这里可以得到恰当的反映。
另外,与VML相比SVG还有一些优点:
灵活的文件格式
SVG可升级的特性不仅仅表现在二次修改方面,还表现在另外很多地方,包括这里介绍的灵活的文件格式。在以前的图像中,文本都作为位图而保存于图像中,图像形成以后不能单独对文本进行修改;在PNG格式中这一点有所改进,文本可作为一个独立的层存在;SVG更灵活地扩展了图像的文件格式,它由三个部分组成:矢量图形、位图和文字。这样SVG不仅仅可以应用矢量图像和文字对象,同样可以纳入位图,可以制作出任何其它格式图像能达到的效果。由于文件格式是文本形式的,可以很容易地在以后任何时候进行修改。而且在页面运行的过程中,也可以对很多部分做即时的修改,其中的图形描述还可以重复使用。
支持交互和动画
SVG支持SMIL(synchronized multimedia integration language),使得用户可以自由的同SVG中的元素完成一些交互的动作,从而完成既定的目标,这一点在目前单独依靠图片是完成不了的,需要由网页中的脚本语句来实现。
支持字符查找
查找"图片"中的字符,在SVG中成为可能。而这在其它格式的图片文件中则是不可能的。
支持Xlink 和Xpointer
这样就可以在SVG文档之间制作超级链接。
SVG作为W3C组织正式推荐的图像格式,拥有众多的支持机构。像Adobe公司已经宣称将在推出的Adobe图像处理套件如Illustrator、Photoshop、GoLive和Cyber Studio中集成SVG的全部功能,并且还提供Netscape Navigator和IE的插件,以便使其能够直接支持SVG文件的浏览。Netscape和Microsoft公司也已经开始进军SVG领域,这标志着未来的网络浏览器将会内置对SVG文件的支持功能。
总结
GML、SVG、VML都与矢量图形有着密切的关系:GML在表示实体的空间信息的同时加入了实体的其他属性信息,是表示实体的空间信息和属性的编码标准,但它并不支持直接显示图形。而VML和SVG是在表示图形的矢量信息同时加入了图形的显示信息(即以什么样的样式显示矢量图形),是显示矢量图形的两种比较好的格式。相比之下,SVG是综合了VML的优点后推出的,是国际标准,它比VML具有更多的优点,也有更广阔的前景。但由于VML有IE的支持,而SVG要想在浏览器中显示就需要安装插件,在这一点上,VML优于SVG。
------------------------------------
2005年3月18日
头脑风暴
第一次是在上周的实验室例会之前的一次讨论实验室一系列规范的制定。第二次就是在昨天晚上进行的XML Pre-Discussioon。讨论会是临时决定的,特邀了一些实验室成员参加晚上7:30的讨论会。我讲述了一些基本的XML相关简介后,开始进入正式的话题。大家对于XML NLP 标准操作类的制定,XML Scheme详细规则制定上有很多建设性的意见和建议。
听完这次报告我感受到了集体的力量。人多了,new idea就多了,考虑问题也就更加全面。看来集思广益是必要的,以后可以经常举行类似的讨论。
讨论形式和头脑风暴非常的类似,自然也就出现了会议记录如和进行的问题。这几天初学FreeMind软件的过程中,发现采用它来进行头脑风暴的会议记录非常的方便。可以在下次类似的会议上试用一下。
2005年3月17日
[Collection]信息积累量变质变定律
如果上述定律是成立的,那么,桌面搜索完全有理由导致更多的“信息剧变”,因为用户终端的信息总量要远远超过目前我们能够搜索到的互联网信息总量。
2005年3月16日
XML representation
I had made some progress today. Firstly, I found out some introduction about XML, DTD vs. Schema, and one paper "Hierarchical XML Layers Representation for Heavily Annotated Corpus." It was a nice paper about my task.
This weekend, I will give a introduction on XML and our task for NLP. I must prepare it good enough. So I asked help from Carl. He gave me some constructive suggestions. Thanks for him.
Keep in trying for the task.
2005年3月15日
IR Jogging Group
This evening, Gold, Simply, Bright and me composed our IR Jogging Group. The captain was Simply. We all fell the importance of keeping in practice. We liked jogging.
When it came 21:30, we all turned up around our campus. Following the suggestion of Simply, we all had jogged two circles around our campus. This was the first time for me to have two circles. But I sticked to finish it.
Ok. Nice feeling about the jogging. I fell good. So nice a jogging group. May wish to keep it.
2005年3月14日
Old roommate
This evening, when I was working in our lab, my old roommate, Yong He, came back to our campus. Hailong Chen and me took our blanketries to him. Since he had not taken any other things except some books and a wash bag.
After the fail of last enrollment exam of graduate, he took it again this year, and achieved some nice performance. Congratulation to him. I fell happy about his coming.
As had come in Harbin before an hour, he was hungry. We three came to the convenient eatery and had a simple meal.
Glad about his coming!
2005年3月13日
MindMap
I began to understand it. There were so many materials on it. After I reviewed these introductions, I was exciting about its function. Let me try more.
2005年3月12日
HIT-MachineLearningGroup-SVM-Review
I had tried my best to it. I tried to keep calmness. The three speakers were so good on there presentations. After their introduction, I had realized the beginning, development, and hot-points of current research. The most gain of this activity for me, I believed, was that I met so many experts of machine learning. And they were in our campus. If I had some problems, I could discuss with them directly.
The brief about this activity was in my research block of my homepage.
2005年3月11日
[Collection]天秤座——星座古诗韵(宋词版)
浪淘沙 欧阳修 |
把酒祝东风,且共从容。垂杨紫陌洛城东。总是当时携手处,游遍芳丛。
聚散苦匆匆,此情无穷。今年花胜去年红。可喜明年花更好,知与谁同?
这是一首追忆友人的词。
天秤属于风向星座,阳性,守护星是金星,天秤座的明显特质是和谐、团结,善于交友。词的上片极写聚会时的风景美丽、旷性怡情:“把酒祝东风,且共从容。垂杨紫陌洛城东”;如此的美景永远留在记忆中;但是更主要的并不是风景,风景在与朋友在一起的时候才更显得美丽:“总是当时携手处,游遍芳丛”。下片尽写回忆与期望。与朋友在一起的心情总是最好的,所以离别的时候也格外的伤感:“聚散苦匆匆,此情无穷”。而“今年花胜去年红。可喜明年花更好,知与谁同?”则是对朋友相聚的期望,由此可见,与朋友之间和谐的友情在天秤座心目中是永恒的。
2005年3月10日
The China Computer World Award
Liqi Gao was excited also. I fell happy to hear this news. Since Liqi Gao was so good for this award. I would like to see this was a tradition of our lab. Since Carl had obtained it in 2001. Wang Zhen and me had obtained it last year. Yes. Prof.Tliu had said maybe there was some link between our lab and the award.
So nice news to Liqi Gao, and to our lab!
2005年3月9日
Feature Selection: Do we need it?
I had decided the paper only before 6 days, just after Shiqi Zhao's turn. I chose the papers about feature selection. I had experienced on this topic. On my anaphora resolution research, I had used some features. But for ACE, I found out that 28 features were better than 31 features. However, 29 features were better than 28 features. That time, I had not any idea about feature selection. So finally, I used 29 features. Maybe if I used some feature selection algorithms, I would obtain some better results on ACE.
After a short survey about feature selection research, I chose a paper which had been published on the Journal of Machine Learning Research. The paper was Lei Yu and Huan Liu. "Efficient Feature Selection via Analysis of Relevance and Redundancy". Journal of Machine Learning Research, 5(Oct), 1205-1224, 2004. It was of 20 pages. So it was a challenge for me!
Although I had practiced on my slides two times, I fell little tense at beginning. Maybe after one minute, I was in the nice state.
The outline of my presentation was as figure 1.
Figure 1. Outline of my presentation on Feature Selection: Do we need it?
My presentation slides' link was in my Homepage's My research related materials.
I had spent 55 minutes for my presentation. And finally, I made a short demo about hot to using the software.
I believed I had tried my best for the presentation. It was not only a presentation about feature selection, but also a beginning of research on feature selection.
2005年3月8日
Identical mapping in ANN
The main idea about identical mapping was as follows:
For example, you had 8 input nodes, 8 output nodes, and log(8)=3 implied nodes. You could use some data vectors, such as (a1,a2,...,a8) for input. The training data format is ((a1,a2,...,a8),(a1,a2,...,a8)). Just as figure 1.
Figure 1. Identical Mapping
After the training, the input layer had the ability of changing the format of the input data. So you could use the input for some application, i.e. such as data compression. And then for decompression, you could use the output layer.
I was excited by such net structure. Since there was a very important application for us. That was feature selection. Yes. You could construct the original full feature set. And then use the identical mapping network to choose the best transferred features on the implicit layer. It was a nice idea.
I believed there was another useful application for identical mapping network. That was data encrypt and decode.
I could try it in my research!
2005年3月7日
How to do research with high quality?
When I finished the temp preparation for my presentation about feature selection. I was convinced by the authors research on this point. I had many many ideas about, but I wanted to pack up and share after my presentation on Wednesday.
The left time was shorter and shorter. I must practise more.
2005年3月6日
Slides of Feature Selection
I have another point that a book on your table is others. Only after you studied it, you could master it finally.
I began to prepare the slides of that paper on Feature selection. I had used all my skills on it. And I found out that the more times you made slides, the more skills you could hold.
It was tiring to prepare it. However, as I knew the goodness about the presentation, I fell happy.
This afternoon, Yu Hong, Jialun Deng, Xincheng Yuan and me had a basket match with others on the wet playground. Nice practice!
2005年3月5日
Bavaria Roast
Some of us had been to it and given nice appraisement. So we went to it at once.
Its style was like to Hans which was another famous toast restaurant in Harbin. But the service was better and cheaper. I liked it. But having much meat was not good for health. We could not go often.
2005年3月4日
HIT Machine Learning Group
But the biggest probblem is the location as we needed a projecting camera. I thought many places and finally my supervisor Prof.Tliu helped me. He encouraged me about this discussion. Thanks to him in advance.
I had make sure the date is March 12. I believed it would be a nice discussion. Until now, there are so many persons interested in it. So good news!
2005年3月3日
Exciting days!
This evening, we had the reading group. Shiqi Zhao introduced a paper on conditional random field model. I knew this model last term, but had no time for reading it. His pronunciation was perfect, I think so. The model's main idea was simple. I admired the first person who had constructed this model.
When I returned to my bedroom, I found the nice book Artifical Intelligence: A modern approach(2rd edition) on my bed. It was so nice a book that I wanted to borrow it last year. There was two pages which were about Anaphora Resolution. I read them as soon as fast. The related information was simple. It's survery only covering Hobbs's theory of 1978. Little disappointed!
Next Thursday, I was to make presentation in reading group. After a simple survey, I had chosed a neweat paper about feature selection. It was 20 pages, some complicated. It was a challenge to me.
2005年3月2日
[collection]Comparision kinds of machine learning methods(con)
[1] 统计分析方法
统计分析方法使利用统计、概率的原理对关系中各属性进行统计分析,从而找出他们之间的关系和规律。统计分析方法使数据挖掘最基本的技术方法之一。常用的统计分析方法有判别分析、因子分析、相关分析、回归分析等。判别分析是建立一个或多个判别函数,并确定一个判别标准,然后对未知属性的对象,根据测定的观测值,将其划归已知类别中的一类。因子分析是用较少的综合变量来表达多个观察变量。根据相关性大小把变量分组,使得各组内的变量之间相关性较高,不同组变量间的相关性较低,相关分析是用相关系数来度量变量之间的相关程度。回归分析是用数学方程来表示变量间的数量关系,方法有线性回归和非线性回归。
[2] 遗传算法
遗传算法是一种优化技术,它利用生物进化的一系列概念进行问题的搜索,最终达到优化的目的。在遗传算法的实施中,首先要对求解的问题进行编码(染色体),产生初始群体;然后计算个体的适应度,再进行染色体的复制、交换、突变等操作,便产生新的个体。重复以上操作,直到求得最佳或较佳的个体。遗传算子主要有繁殖(选择)算子。交叉(重组)算子和变异(突变)算子。遗传算法可起到产生优良后代的作用,经过若干代遗传。将会得到满足要求的后代(问题的解)。在数据挖掘中,为了适应遗传算法,往往把数据挖掘任务表达为一种搜索问题,发挥遗传算法的优化搜索能力。遗传算法往往具有计算简单、优化效果好的特点,它在处理组合优化问题方面也有一定的优势,是一种应用遗传学原理和自然选择机制来搜索最优解的方法。这种方法先产生一组解法,然后用重组、突变和选择等进化过程来得到下一代解法,随着进化过程的继续,较差解法被抛弃,从而逐步得到最优解法。
[3] 粗集方法
粗集方法是模拟人类的抽象的逻辑思维,它以各种更接近人们对事物的描述方式的定性、定量或者混合信息为输入,输入空间与输出空间的映射关系是通过简单的决策表简化得到的,它通过考察知识表达中不同属性的重要性,来确定哪些知识是冗余的,哪些知识是有用的,进行简化知识表达的空间是基于不可分辨关系的思想和知识简化的方法,从数据中推理逻辑规则作为知识系统的模型。它以对观察和测量所得数据进行分类的能力为基础,从中发现、推理知识和分辨系统的某些特点、过程、对象等,特别适合与数据简化、数据相关性的发现、发现数据的相似或差别、发现数据模式、数据的近似分类等。粗集方法被广泛应用于不精确、不确定、不完全的信息的分类、差异性分析和因果关系挖掘等。
[4] 决策数方法
决策树利用树型结构来表示决策集合,这些决策集合通过对数据集的分类产生规则。首先,利用训练集生成一个测试函数,根据不同取值建立树的分支;在每个分支子集中建立下层节点和分支,这样便生成一棵决策树。然后对决策树进行剪枝处理,最后把决策树转换为规则,利用这些规则可以对新事例进行分类。
[5] 神经网络方法
神经网络是模拟人类的形象直觉思维,在生物神经网络研究的基础上,根据生物神经元和神经网络的特点,通过简化、归纳,提炼总结出来的一类并行处理网络。利用非线性映射的思想和并行处理的方法,神经网络本身结构可以表达输出与输入的关联知识。输入空间与输出空间的映射关系,是通过网络结构的不断学习、调整,最后以网络的特定结构来表达的。神经网络法是在计算机上模拟神经元及其链接的方法。神经网络实际上是从已知数据项到目标数据项的一种复杂的非线性映射,它获取的知识就存在于网络结构中。神经网络主要用来进行分类、估计和预测等有向数据挖掘,也可以用于聚集等无向数据挖掘,如自组织图。
[6] 聚类方法
聚类算法是通过对变量的比较,把具有相似性特征的数据归为一类。因此,通过聚类以后,数据集就转化为类集,在类集中,同一类数据具有相似的变量值,不同类数据的变量值不具有相似性。聚类用于描述和发现数据库中以前未知的数据类别。其中,样本数据中不包含类别变量,数据挖掘将具有共同趋势和模式的数据元组聚集为一类,使类别内各元组相似程度最高,类间差异最大。区分不同的类是属于数据挖掘过程的一部分,这些类不是事先定义好的,而是通过聚类算法采用全自动方式获得。聚类算法是按数据的相似性和差异性,将数据划分为若干子集,子集还可以再分为若干个子集。聚类与分类不同,分类的类别是按应用的要求事先给定的,根据表示的事物特征的数据,可以识别其类别。而聚类的类型不是事先指定的,而是分析数据的结果。通过比较数据的相似性和差异性,发现其特征及分布,从而抽象出聚类的规律。聚类法大致可以分为两种类型:a.分层聚类。分层聚类是基于数学的标准,对数据进行细分或聚类。这种类型适合于数值数据。B.概念聚类。概念聚类是基于数据的非数值属性,对数据进行细分或聚合。
[7] 可视化技术
可视化技术是通过直观的手段来交互的分析数据关系,采用图形方式将信息模式、数据的关联或趋势呈现给用户。例如,把数据库中的多维数据编程多种图形,揭示数据的状况、内在本质及规律。可视化技术主要包括数据、模型和过程3个方面。其中,数据可视化主要有直方图和散点图等;模型可视化的具体方法则与数据挖掘采用的算法有关,例如,决策树算法采用树型表示;过程可视化则采用数据流图来描述知识发现的过程。数据可视化采用比较直观的图形图表方式将挖掘出来的模式表现出来,大大扩展了数据的表达和理解能力。数据可视化正受到日益广泛的重视。可视化技术拓宽了传统的图表功能,可以交互的分析数据关系,使用户对数据的剖析更清楚,改善了数据挖掘的速度和深度。
各种方法的适用性分析如下:
数据挖掘是知识发现的全部过程中的一个特定步骤,也是核心的步骤。一般来说,不存在一个普遍适用的数据挖掘算法。一个算法再某个领域非常有效,但是在另一个领域却可能不太适用。例如,决策树在问题维树高的领域可以得到比较好的分类结果,但对数据类之间的决策分界采用二次多项式描述的分类问题却不太适用。任何一个数据挖掘算法都有其优点和缺点。事实上不存在评判算法优劣的确切标准,因为不同的目标的情况需要的方法也不相同,而且每种技术方法都有其内在局限性,不加判断地应用是毫无意义的。因此,选择方法要由具体应用的目标和情况决定,不能仅仅由算法的性能判断。
在上述数据挖掘算法中,统计分析方法是目前最成熟的数据挖掘技术,主要用来进行分类挖掘、聚类挖掘和关联分析。神经网络法具有对非线性数据快速拟合的能力,对于复杂情况仍能得到精确的预测结果,可处理类别和连续变量;缺点是无法解释结果,对输入数据类型有要求,容易受过度训练的影响,计算量大,不适合处理高维变量,可以用于聚类、分类和序列模式。决策树产生直观、易于理解的规则,分类不需要太多计算时间,且计算容易,处理类别、连续变量,可清楚指明对预测和分类最重要的域;缺点是数据越复杂,决策树分支越多,越难管理,对缺失数据的处理不太有效。适于对记录分类或结果的预测,尤其当目标是生成易理解、解释和可翻译成SQL或自然语言的规则,可用于聚类、分类及序列模式等方面的挖掘。遗传算法可处理许多数据类型,可并行处理,常用于优化神经元网络等技术;缺点是需要参数太多,对许多问题编码比较困难,得到的是满意解而非最优解,计算量大。遗传算法常与其他技术集成,可用于分类、聚类及序列模式分析等挖掘。在现实中,粗集是普遍存在的现象,粗集和其他方法的结合,能够提高数据挖掘能力。具体说来,粗集方法具有如下优点:首先是提供一套数学方法,从数量上严格处理数据分类问题,尤其是当数据具有噪声、不完全性或不精确性时;其次,粗集仅仅分析隐藏在数据中的事实,并没有校正数据中所表现的不一致性,一般将所生成的规则分为确定与可能的规则再次,粗集理论包括了知识的一种形式模型,这种模型将知识定义为不可区分关系的一个集,这就使知识具有一种清晰定义的数学意义,并且可适用数学方法来分析处理;最后,粗集不需要关于数据的任何附加信息。粗集方法可以用于聚类、偏差分析等挖掘任务。聚类方法和可视化技术也可以用于多个方面。在网络信息的知识发现中,对内容的挖掘可以采用关联分析、神经网络法、分类挖掘等方法;对结构的挖掘可以采用关联分析、分类挖掘、聚类挖掘、可视化技术等方法;对使用记录的挖掘可以采用关联分析、分类挖掘、遗传算法等。由于每种方法都有它的长处和不足,应考虑如何结合起来,互相取长补短,从而取得更好的效果。
2005年3月1日
[collection]Comparision kinds of machine learning methods
[1] 统计分析方法
[2] 遗传算法
[3] 粗集方法
[4] 决策数方法
[5] 神经网络方法
[6] 聚类方法
[7] 可视化技术
各种方法的适用性分析如下:
数据挖掘是知识发现的全部过程中的一个特定步骤,也是核心的步骤。一般来说,不存在一个普遍适用的数据挖掘算法。一个算法再某个领域非常有效,但是在另一个领域却可能不太适用。例如,决策树在问题维树高的领域可以得到比较好的分类结果,但对数据类之间的决策分界采用二次多项式描述的分类问题却不太适用。任何一个数据挖掘算法都有其优点和缺点。事实上不存在评判算法优劣的确切标准,因为不同的目标的情况需要的方法也不相同,而且每种技术方法都有其内在局限性,不加判断地应用是毫无意义的。因此,选择方法要由具体应用的目标和情况决定,不能仅仅由算法的性能判断。
在上述数据挖掘算法中,统计分析方法是目前最成熟的数据挖掘技术,主要用来进行分类挖掘、聚类挖掘和关联分析。神经网络法具有对非线性数据快速拟合的能力,对于复杂情况仍能得到精确的预测结果,可处理类别和连续变量;缺点是无法解释结果,对输入数据类型有要求,容易受过度训练的影响,计算量大,不适合处理高维变量,可以用于聚类、分类和序列模式。决策树产生直观、易于理解的规则,分类不需要太多计算时间,且计算容易,处理类别、连续变量,可清楚指明对预测和分类最重要的域;缺点是数据越复杂,决策树分支越多,越难管理,对缺失数据的处理不太有效。适于对记录分类或结果的预测,尤其当目标是生成易理解、解释和可翻译成SQL或自然语言的规则,可用于聚类、分类及序列模式等方面的挖掘。遗传算法可处理许多数据类型,可并行处理,常用于优化神经元网络等技术;缺点是需要参数太多,对许多问题编码比较困难,得到的是满意解而非最优解,计算量大。遗传算法常与其他技术集成,可用于分类、聚类及序列模式分析等挖掘。在现实中,粗集是普遍存在的现象,粗集和其他方法的结合,能够提高数据挖掘能力。具体说来,粗集方法具有如下优点:首先是提供一套数学方法,从数量上严格处理数据分类问题,尤其是当数据具有噪声、不完全性或不精确性时;其次,粗集仅仅分析隐藏在数据中的事实,并没有校正数据中所表现的不一致性,一般将所生成的规则分为确定与可能的规则再次,粗集理论包括了知识的一种形式模型,这种模型将知识定义为不可区分关系的一个集,这就使知识具有一种清晰定义的数学意义,并且可适用数学方法来分析处理;最后,粗集不需要关于数据的任何附加信息。粗集方法可以用于聚类、偏差分析等挖掘任务。聚类方法和可视化技术也可以用于多个方面。在网络信息的知识发现中,对内容的挖掘可以采用关联分析、神经网络法、分类挖掘等方法;对结构的挖掘可以采用关联分析、分类挖掘、聚类挖掘、可视化技术等方法;对使用记录的挖掘可以采用关联分析、分类挖掘、遗传算法等。由于每种方法都有它的长处和不足,应考虑如何结合起来,互相取长补短,从而取得更好的效果。