2004年12月31日

Month reports

It was time for me to write my month reports. Although there were two days left for us to submit, I'd like to write it today. As this was the end day of this year. Why not finish this year's work in this year? If I suspend to tomorrow or the day after tomorrow, I would keep bad habit.

I had done the month reports easy. I made it based on my blog and my regular working documents. This time I introduced the papers management experience first. And then wrote the papers reading outline of seven papers. I made a detail plan of next month later.

Right now, I knew the advantage of writing blog. Why not keep on?

Dicsourse-new detectors for definite description resolution: a survey and a preliminary proposal

Title:Dicsourse-new detectors for definite description resolution: a survey and a preliminary proposal针对确定性描述的新描述识别:综述和初步建议
Author:Massimo Poesio; Olga Uryupina; Renata Vieira
Author organization:
Massimo Poesio, University of Essex,Computer Science and Cognitive Science(UK)
Olga Uryupina, Universitat des Saarlandes, Computerlinguistik (Germany)
Renata Vieira, Unisinos, Computacao Aplicada (Brazil)

Conference: Proceedings of the Workshop on Reference Resolution and its Applications. ACL2004
Summary:
English:
Vieira and Poesio (2000) proposed an algorithm for definite description (DD) resolution that incorporates a number of heuristics for detecting discoursenew descriptions. The inclusion of such detectors was motivated by the observation that more than 50% of definite descriptions (DDs) in an average corpus are discourse new (Poesio and Vieira, 1998), but whereas the inclusion of detectors for non-anaphoric pronouns in algorithms such as Lappin and Leass’ (1994) leads to clear improvements in precision, the improvements in anaphoric DD resolution (as opposed to classification) brought about by the detectors were rather small. In fact, Ng and Cardie (2002a) challenged the motivation for the inclusion of such detectors, reporting no improvements, or even worse performance. We re-examine the literature on the topic in detail, and propose a revised algorithm, taking advantage of the improved discourse-new detection techniques developed by Uryupina (2003).

中文:
Vieira and Poesio (2000)提出了一种确定描述(definite description, DD)消解算法。算法中采用了一系列的启发式规则来检测上文中未出现过的话语描述。这种研究的动机在于观察一些平衡语料发现超过50%的话语描述都是当前上文中未出现过的话语描述。但是非指代性代词的消解算法如Lappin and Leass(1994)在精确率上有所提高,而在指代性代词的消解算法由于不是分类问题而导致提高非常少。事实上,Ng and Cardie (2002a)在这类消解问题上进行过开创性研究,结果是没有提高甚至性能有所下降。我们重新详细调研了这个研究点,并在Uryupina (2003)提高未登录描述消解技巧的基础上提出了一种修改性的算法。

为什么要做这个题目:

Poesio and Vieira(1998)在语料上进行研究发现众多语料,诸如Penn Treebank等,有52%的确定性描述(definite description, DD)是当前上文中未出现过的。

别人怎么做的:

Vieira and Poesio (2000)提出了一种确定描述(definite description, DD)消解算法。算法中采用了一系列的启发式规则来检测当前上文中未出现过的话语描述。但是包含非指代性代词识别的消解算法如Lappin and Leass(1994)在精确率上有所提高,而在包含指代性代词识别的消解算法由于不是分类问题而导致提高非常少。事实上,Ng and Cardie (2002a)在这类消解问题上进行过开创性研究,结果是没有提高甚至性能有所下降。
众多相关研究(Poesio and Vieira,1998;Bean and Riloff,1999; Ng and Cardie, 2002a; Uryupina,2003)都一致认为在DDs的DN识别中许多因素都起着重要作用。绝大多数算法采用混合算法来识别肯定性的DDs,识别DN的专有名称,识别功能性的DDs,识别被修饰的DDs来确定关系。
这些研究一致认为DN识别不能和指代消解分开实施。

问题在哪里:

这些机器学习方法的一个问题是这些系统在菜地和DD消解上都没有达到很好的效果,对比一些特殊的算法如下:Ng and Cardie的最好的一个程序版本在各种指代表达式上的F=65.8,但是在DD上的F=29.6(Vieira and Poesio的最好的结果为F=77),代词上的F=28.2(Tetreault, 2001的代词消解算法评测达到F=80)。很明显,这些算法的对比只能在同一个数据集上。正如Mitkov2000讨论的那样,在指代消解的评测中预处理和后处理对指代消解算法的效果具有很大的影响。但是我们认为在效果很好的系统上进行DN识别的评测可以更好的达到我们预期的结果。

作者提出了怎样的新方法:

本文的工作首先是对比了DN识别前后各种算法的代消解效果。采用Vieira and Poesio的算法来检测不包含DN识别的指代消解算法效果,在采用Uryupina的特征集的基础上加上一个简单的统计消解模型来检测加上DN识别的消解效果,数据集都采用Cardie and Ng提到的MUC-7中的数据。
实验结果如下:
----------------------------------
--------| R | P | F |
----------------------------------
Pronouns| 65.5 | 63.0 | 64.2 |
----------------------------------
DDs | 56.7 | 56.1 | 56.4 |
----------------------------------
Table 7.Evaluation of the GUITAR system without DN detector off raw text

----------------------------------------------
--------------------| R | P | F |
----------------------------------------------
Without DN detection| 44.7 | 54.9 | 49.3 |
----------------------------------------------
With DN detection | 41.7 | 80.0 | 54.6 |
----------------------------------------------
Table 8.Using an oracle

这个实验说明了DN识别可以提高精确率30%左右。但是还不能说明它在高性能的指代消解系统上的提高。

本文工作中又提出了一个新的DN识别的特征集,评测数据也是在MUC-7上进行。但是实验没有进行完,现在还没有实验数据和分析。

对个人的研究的指导意义

可以借助这种方法来更好的完成ACE的指代消解的算法和评测。

存在问题和个人想到的改进方案

暂时无

2004年12月30日

Happy New Year's Day!

There were only two days left to New Year's Day.

From 15:00, all the members of our laboratory celebrated in the Qianshoufo Hotel. There were so many entertainment items for us, such as swim, skate, billiards, table tennis, bowls, shuffleboard. We all enjoied ourself.

After the entertainment time, we all began to have the nice dinner. There were twenty-four persons in the dining room. We were divided into three tables. Our table members included Dr.Tliu, Hong Yu, Yu Haibin, Hu Xiaoguang, Zhao Yongzhen, me, Huang Yongguang, Gao Liqi, Chen Yihen. During the dinner time, each of our table members had sung a song at least. We all named ourself as All Star Table.

Yesterday, my neighbor Mr. Luo Junping, who went to harbin for some business, brought me some sausage. The sausage was prepared by my parents. That was my favourite. I ask the kitchen to cook it and then divided into three dishes. All the members of our table were like it. Me, too. I had a lot of it. So nice dish.

Abid was invited to sing a song. Although we all could not understand what he sang, we all thanked him.

After the dinner, we had a photo of the whole laboratory. We all happied today!

Thanks to Dr.Tliu, thanks to our laboratory.

Happy new year to every one!

2004年12月29日

Using word similarity lists for resolving indirect anaphora

论文题目:Using word similarity lists for resolving indirect anaphora采用词语相似度列表来消解间接指代

论文出处:ACL2004 workshop on coreference resolution

发表时间:2004, July 25-26

论文作者: Caroline Gasperin and Renata Viera

作者单位: PIPCA-Unisinos Sao Leopoldo, Brazil
Summary:
English:
In this work we test the use of word similarity lists for anaphora resolution in Portuguese corpora. We applied an automatic lexical acquisition technique over parsed texts to identify semantically similar words. After that, we made use of this lexical knowledge to resolve coreferent definite descriptions where the head-noun of the anaphora is different from the head-noun of its antecent, which we call indirect anaphora.

中文:
本文中我们采用词语相似度列表在葡萄牙语语料上进行指代消解。我们采用了一种自动获取词汇的技术在句法分析后的文本上识别语义相似的词语。然后利用词汇知识来消解确定修饰的间接指代。这里的间接指代是指先行词和指代词的核型名词不同的情况。


为什么要做这个题目

简介指代消解主要解决先行词和指代词的核心词不一样,但是语义比较相关的短语也需要进行消解。

别人怎么做的

以前在英文上有人用过词汇相似度列表来进行指代消解(Poesio etal., 2002; Schulte im Walde, 1997; Bunescu, 2003)。

本文主要是在葡萄牙语上的指代消解,而且论文中介绍的词语相似度列表的方法需要查阅许多其他的论文。不符合现在的调研方向。先阅读到此。以后有机会再阅读。

Learn Prolog, Now!

When I was finding some information on machine learning, I clicked into a web which introduced the natural language processing. Iin that page there were some links to the prolog syntax analysis programs.

I had seen many useful prolog programs that could solve the natural language processing problem. So, I'd like to know something about this programming language.

Prolog, shorted by Program in Logic, can induce lots of results from the knowledge base.

After finding some useful information, I finded a nice book named as Learn Prolog Now! The useful software of prolog programming is SWI-prolog.

2004年12月28日

创造性的研究

晚上实验室Reading group讨论会上闲暇时和师姐讨论中国博士和外国博士的创造性研究的问题。师姐认为现在咱们的创造性的研究太少了,美国那边的许多博士的论文本生就奠定了将来的成就。我补充道,据报道中国现在的博士数量已经超过了美国,但是科研实力上还是远远落后于美国。为什么呢?我想大概是因为要求不一样吧。

现在有人说博士非常难念,但是看看现在国内的博士们的研究内容,出了个别情况外,很多都是水平较为低下的。

为什么会出现这种情况呢?

我猜,呵呵,也只能是猜了,是因为科研的过程中存在一些问题:首先的调研工作进行的不是很彻底,以致于一些工作和别人的重复了也不知道;其次是吃苦精神不够,读博有人说是一种人生的历练,需要非常的吃苦才行;开放性不够,博士的研究应该是非常开放的,但是许多的研究,随着程度的深入慢慢的变得越来越窄,研究越多就越不愿意去吸纳其他学科的研究成果和思想。

面对自己的研究,我能做些什么呢?现在我的状态是调研共指消解的研究现状,调研的工作还不太够。首先解决调研问题吧。写出一个像样的综述才能开始下一步的工作。

2004年12月27日

Applying Coreference to Improve Name Recognition

论文题目: Applying Coreference to Improve Name Recognition利用共指来提高名称识别

论文出处: ACL2004 workshop on Coreference resolution

发表时间:2004年7月25日

论文作者:Heng JI and Ralph GRISHMAN

作者单位:纽约大学计算机系

摘要:
English:
We present a novel method of applying the results of coreference resolution to improve Name Recognition for Chinese. We consider first some methods for gauging the confidence of individual tags assigned by a statistical name tagger. For names with low confidence, we show how these names can be filtered using coreference features to improve accuracy. In addition, we present rules which use coreference information to correct some name tagging errors. Finally, we show how these gains can be magnified by clustering documents and using cross-document coreference in these cluters. These combined methods yield an absolute improvement of about 3.1% in tagger F score.

中文:
我们提出了一种新颖的利用共指消解结果来提高中文名称识别的方法。首先,我们采用一个统计名称识别器来进行标注,然后采用一些方法来计算每个单独标记的可信度。对于可信度较低的名称,我们展示了如何利用共指特征来过滤并提高名称识别的准确率。然后,我们提出了一些规则来利用共指信息校正名称识别的错误。最后,我们利用文本聚类和跨文档共指消解来考察名称识别效果的提高。这种结合在标注F值上产生了3.1%的提高。




为什么要做这个题目:为了提高名称识别的准确率

别人怎么做的:

在做NE识别方面,有人利用HMM(Bikel et al, 1997),最大熵(Borthwick et al, 1998, Chieu and Ng 2002),决策树(Sekine at al, 1998),条件随机域(McCallum and Li, 2003),基于类别的语言模型(Sun et al. 2002),基于Agent的方法(Ye et al, 2002)和支持向量机。

问题在哪里

这些机器学习方法应用在名称识别上时效果的好坏都会依赖于标注语料库的大小和使用特征的范围。更为特殊的是,多数方法都是采用规模很小的上下文信息,例如当前词的前一个或两个词语以及跟随的名称。如果测试时遇到一个没有见过的词语,并且出现在一个信息量很少的上下文,那么就会很难进行识别。


作者提出了怎样的新方法

作者利用共指消解的结果来挖掘全局信息从而增加识别的准确率。在一篇文档中进行共指消解可以很好的用于名称识别,在多篇文档中的共指消解可以更好的用于名称识别。本文中采用的共指消解算法是基于一些启发式规则的方法,规则如下
-----------------------------------------------
Rule Type Rule Description

Name & Name
----All
--------Ident(i, j) Mentioni and Mentionj are identical
--------Abbrev(i, j) Mentioni is an abbreviation of Mentionj
--------Modifier(i, j) Mentionj = Modifier + “de” + Mentioni
--------Formal(i, j) Formal and informal ways of referring to the same entity(Ex. “美国国防部 / American Defense Dept. & 五角大楼/ Pentagon”)
----PER
--------Substring(i, j) Mentioni is a substring of Mentionj
--------Title(i, j) Mentionj = Mentioni + title word; or Mentionj = LastName + title word
----ORG
--------Head(i, j) Mentioni and Mentionj have the same head
----GPE
--------Head(i, j) Mentioni and Mentionj have the same head
--------Capital(i, j) Mentioni: country name;Mentionj: name of the capital of this country Applied in restricted context.
--------Country(i, j) Mentioni and Mentionj are different names referring to the same country.(Ex. “中国 / China & 华夏 / Huaxia & 共和国 / Republic”)

Name & Nominal
----All
--------RSub(i, j) Namei is a right substring of Nominalj
--------Apposition(i, j) Nominalj is the apposite of Namei
--------Modifier2(i, j) Nominalj = Determiner/Modifier + Namei/ head
----GPE
--------Ref(i, j) Nominalj = Namei + GPE Ref Word (examples of GPE Ref Word: “方面 / Side”, “政府/Government”, “共和国 / Republic”, “自治政府/ Municipality”)

Nominal & Nominal
----All
--------IdentN(i, j) Nominali and Nominalj are identical
--------Modifier3(i, j) Nominalj = Determiner/Modifier + Nominali
-----------------------------------------------

这些规则不包含代词的消解问题。
采用MUC的评测机制,在人工标注生成的mentions语料上评测的结果是R=82.7%,p=95.1%,F=88.47%
在机器自动生成mentions上进行的评测结果是R=74。3%,p=84.5%,F=79.07%


这种方法从理论上分析有何长处

对于名称识别:增加了特征的来源。并且很好的利用了全局信息。
对于共指消解:简单、快速。

还存在哪些问题

正如规则中的说明一样,很多规则是很难用机器自动进行的,比如Formal(i,j)。这些模块的实现还需要一些技术。

个人想到的改进方案或者个人的创新观点

规则加上一些统计的方法来完成任务。

2004年12月26日

Remember the advice

Remember the advice:
you can lose your money, you can spent all of it, and if you work hard you get it all back. But if you waste your time, you're never gonna get it back.

It were classical words in Without.a.Paddle.2004.

I believed it was true.

2004年12月25日

圣诞祝语

今年圣诞收到的祝福非常多,在网上甚至出现了这样一个帖子:圣诞祝语100句,总有一句适合你。非常有趣。列举如下。祝我的朋友们永远快乐、幸福!


圣诞祝语100句,总有一句适合你

01 以往的圣诞都是灰色的,今年有了你,一切都变得不同,我的世界一下子变得豁然开朗多姿多彩,我衷心地谢谢您。
02 我要把一切喜讯变成奶油,所有祝福柔成巧克力,所有快乐做成蛋糕答谢你,然后说声圣诞快乐!
03 我默默祈祷愿圣诞老人能在即将到来的圣诞之夜送我一个与我牵手同伴共同度过这奇妙的圣诞夜,结果他将你送给我。
04 考虑到24小时之内将会有铺天盖地的祝福短信堵塞网络,一向有远见聪明的我提前恭祝圣诞快乐、新年快乐!
05 如果每年的今夜有一个很肥的老人从窗口跳进来抓住你,把你装进袋子里,你不用担心,因为我想要的圣诞礼物就是你。
06 也许岁月将往事退色,或许空间将彼此隔离,但知道珍惜的依然是真心的友谊将再次对你说声圣诞快乐!
07 圣诞老人说所谓幸福是一个有健康的身体,有深爱你的人,一帮可依赖的朋友,当你收到此信息时,一切随之拥有。
08 送你一颗聚满礼物的圣诞树,顶上最大最亮的那颗星是我的真心,下面挂的是我的痴心,制造材料的是我一颗不变有心:圣诞快乐!
09 这是我发给你的三天后的信息,别偷看哦,叫你别看,还看,祝你圣诞快乐!
10 在这洋人的节日里,好想和你在一起,享受这醉人的气氛,然而你我分割两地,我只好在这轻声地对你说:“亲爱的,圣诞快乐!”
11 想念你的笑,想念你的外套,想念你白色袜子,装满圣诞的礼物。
12 圣诞节到了也,你有没有在床头挂起臭袜子哦,圣诞老公公会把我最好的礼物丢进去的,圣诞快乐!
13 圣诞老人说,今年他要把礼物装在我们两的袜子里,所以平安夜你一定要陪在我身边。
14 Merry Christmas and best wishes for happy new year!
15 在这迷人的圣诞,你躲在家里生蛋蛋,生了一堆恐龙蛋,还有一只小鸡蛋,猪,圣诞快乐!
16 快乐圣诞,什么是圣诞快乐?不是那快乐的阳光,也不是鸟儿的啁啾,那是愉快的念头和幸福的笑容,是温馨慈爱的问候。
17 这些天来一直有个问题困惑着我,你明明不是鸡,为什么人人都要祝你圣诞快乐呢?
18 知道圣诞节是谁的节日吗?不知道,是你的节日嘛,是圣诞节啊!笨蛋。
19 HI,你怎么还在这啊,你知道你的重要性吗?没了你,谁拉着圣诞老公公去给大家送礼物啊,圣诞快乐!
20 心到,想到,看到,闻到,听到,人到,手到,脚到,说到,做到,得到,时间到,你的礼物没到,只有
我的祝福传到。
21 因为你的存在,这一天是有更特别的意义,因为可以和你一起相约在树下许下一个共同的心愿,让我们相爱一生吧。
22 如果你是圣诞,我是元旦,你是圣诞老人,我是驯鹿道夫,你是圣诞老婆婆,我是圣诞老公公,祝你圣诞快乐!
23 平安夜请给我与你共度的机会,小小的要求能满足我吗?
24 在这美好的日子,没有最美的词句,没有多情的言语,没有精美的礼品,有的只是朋友深深的祝福,圣诞
快乐!
25 在这24号的晚上,煮两个鸡蛋,我吃一个,送给你的就是一个圣诞,祝你节日快乐!
26 圣诞树上耀眼的彩灯,那是我祈祷你平安一生,圣诞夜里优扬的钟声,那是我祝福你快乐一生。
27 圣诞前夜的晚上,我想和你一起走入教堂,好不好?
28 喜欢你是很久远的事了,真的好想在这个圣诞之夜与你共跳华尔兹,伏在你的身边轻轻地说,我好喜欢你。
29 亲爱的,尽管我不能陪你度过我们的第一个圣诞节,但是我还要送给你我深深的祝福,愿你明天更美丽。
30 白雪飘飘,鹿铃霄霄,甜蜜的平安夜又来到,小手摆摆,舞姿曼曼,快乐的圣诞节日多美好。
31 在这个特别的日子里,我想跟你说一声:“圣诞快乐!”
32 各位圣诞老人,圣诞快乐吗?不快乐就多寄一些礼物给我吧,我知道你们都是购物狂,一个个购完物就再送点,心里才觉得爽。
33 Merry Christmas 愿世界充满祥和,我以最真诚的心祝福你拥有幸福的一年,愿主保佑你,阿门。
34 圣诞节快乐!看短信的快把礼物送来,不然你这个圣诞夜会坐立不安咯,听到没有,别笑大傻瓜!
35 相识相知未相见,平安夜的朋友,平安夜我们能相聚在一起吗?
36 我向圣诞老人许了愿,我希望不管你的脚多臭,在明早当你穿起袜子时,等收到我托圣诞老人带给你的满
满的祝福,暖暖你的心和脚丫子。
37 小巫婆,圣诞节又要到了,我有祝福给你,希望你不要再笨了呆了,要可可爱爱的哦,哎呀,反正就是你
要过的比我幸福就对了哦。
38 值此圣诞到来之际,我只有一句话要告诉你,今天早饭我没吃,中饭我没吃,下班我去找你。
39 好久没有听到你的声音,好久没有人听我谈心,在雪花飞舞的日子里,真的好想你,祝你圣诞节快乐!
40 如果你现在一个人,我祝你圣诞快乐,二个人那也祝圣诞快乐,如果是一伙人,请告诉我,你们在什么地
方。
41 我想在你最高兴时说出我的心里话,浪漫的圣诞夜里机会来了,你高兴得像头小猪,生气时更像,哈哈。
42 今年圣诞不收礼,收礼只收短信息
43 圣诞老人问:“今天是什么日子啊?”小精灵说:“今天是圣诞节啊!”圣诞老人说:“哦,真糟糕,又要加班,我最恨这一天了。”
44 美酒、蜡烛、大餐,多么完美的圣诞节,唯独就缺你我的朋友,还有你的钱包。
45 亲爱的,你比圣诞树上的星星还明亮,你比驯鹿还可爱,但你把胡子剃了吗,我可不想你和圣诞老人一个模样。
46 听,圣诞老人的铃声,快去看看啊,怎么这么快就回来了,什么,倒垃圾的,别太急哦!
47 你怎么才起啊,快睁大眼睛,昨天夜里我爬上你的床,在你枕头下藏了一件很特别的礼物哦!
48 愿圣诞之光普照你的每一个日子,愿阳光鲜花洒满你的人生旅程。
49 你快乐,我快乐,大家快乐,快乐圣诞节,哦,我的圣诞礼物呢,快找找,快找找,哦,收到了吗,我带给你的是快乐。
50 圣诞快乐,并不是只在特别的日子才会想起你,但是圣诞节的时候,一定会让你收到我的祝福。
51 当钟声响起,我就是你的!别讲错了,不是婚礼上的钟声,是圣诞的钟声,而我是你献给礼物的人。
52 面对圣诞,面对身边匆匆而过的人,想起你,心中有一种感动。爱就是那种无法言抒的表达。
53 圣诞节又要到了,希望今年的圣诞节能和我爱的人一起过。想问你,你愿意当我爱的人吗?
54 HI!已经有一阵子没见到你了,不知道你现在好不好?圣诞节和新年就要到了,愿你拥有一个难忘和快乐的圣诞!希望你在新的一年要快乐的过哦!
55 平安夜我们去聚餐,圣诞夜我们去唱歌,狂欢夜我们去蹦迪。我要我们在一起!
56 你的离去我不知如何面对,你没有给我任何安慰。我的眼中有泪水,圣诞节你会回来吧?不要让我再次心碎!
57 有句话每年圣诞我都想说,可是苦于没有机会。现在我实在憋不住了,请把你留在我沙发上的袜子拿走!!
58 圣诞节真的觉得好寂寞哦!因为没有你在身边,其实我真的想你了,好想好想好想让你陪我度过这个浪漫
的平安夜。
59 孩子啊,我是圣诞老人,有一份圣诞礼物要送给你。什么,你们家没有烟窗,还是不去买了!
60 圣诞之夜祝福你,愿圣诞节的欢声笑语和欢乐气氛永远萦绕着你!
61 淡淡一点的友情很深,淡淡一点的味道很纯,淡淡一点的祝福最真,祝愿圣诞快乐!
62 请选择愿望:A:巧克力+玫瑰 B:自助餐+烛光 C:电影+零食  D:以上皆是
63 只有钟声响起,愿我的祝福化作飞翔的天使,飞向你的窗口,圣诞快乐!
64 如果你今天没有收到我的圣诞礼物,那一定是你的袜子有个大洞,快补吧。
65 为了响应环保,节省纸张,在圣诞节不要送我圣诞卡了,请直接在尽可能大的纸币上写你的祝词就行了。
66 我没法去教堂为你祈祷,也没有圣诞的歌声,更没有圣诞的礼物,只在心里祈求,希望你健康每一天。
67 昨晚我做了一个梦,圣诞老人送我的礼物是一张两人圣诞晚餐券,你愿意和我一起过我们的第一个圣诞节
吗?
68 宝贝,平安夜的晚上我将和圣诞老人一起了现在你的面前,把眼睛闭上数到三。
69 亲爱的圣诞节快乐,你知道我是谁吗?这个问题对你来说也许不重要,但对我很在意哦。
70 雪在下啊,圣诞老人正踩在外面青青的圣诞树窃笑,睡吧,宝贝,明天你将收到心爱的礼物,恭候我。
71 今年你愿意做我的圣诞老人吗,在圣诞的晚上将礼物放在我的床头。
72 在这时髦的大好日子里,我有万千祝福而无从说起,只想很老土的向你说四个字:圣诞快乐!
73 有你在的每一天都像在过圣诞节。
74 平安夜,祝福你,我的朋友,温馨平安!欢乐时我和你一道分享,不开心时我和你一起承担。
75 送你的礼物实在太重了,鹿车拉不动,只好亲自送了,记得等着我,等着我说圣诞快乐!
76 用中文说圣诞快乐,用英文说Merry Christmas,用心里话说我想要的圣诞礼物什么时候给我啊。
77 空中点点闪烁的银光环绕着缤纷的梦想,祝福你,双手合十许下的心愿,都一一实现在眼前。
78 恭贺圣诞快乐,在新的一年里有甜有蜜,有富有贵,有滋有味,有安有康。
79 钟声是我的问候,歌声是我的祝福,雪花是我的贺卡,美酒是我的飞吻,轻风是我的拥抱,快乐是我的礼
物。
80 请选择愿望:A:巧克力+玫瑰 B:自助餐+烛光 C:电影+零食  D:以上皆是
91 每一朵雪花飘下,每一个烟火燃起,每一秒时间流动,每一份思念传送,都代表着我想要送你的每一个祝
福,圣诞快乐!
92 春节人们用筷子吃饺子,中秋节人们用手吃月饼,圣诞节人们用刀叉吃烧鹅。现在,圣诞节快到了,你还是躲一下吧,免得刀叉落到身上。
93 圣诞佳节恭喜你,发个短信祝福你,成功的事业属于你,开心的笑容常伴你,健康长寿想着你,最后还要
通知你,财神爷爷也要拜访你哦。
94 晚上笑一笑,睡个美满觉,早晨笑一笑,全天生活有情调,工作之余笑一笑,满堂欢喜又热闹,烦恼之时笑一笑,一切烦恼全忘掉,祝圣诞快乐,笑口常开!
95 当雪花飘落,寒风吹起,才发觉,浪漫的圣诞已经飘然而至,这一刻什么都可以忘记,唯独不能忘记的是向好朋友你说声天冷了,注意身体,圣诞快乐!
96 圣诞乐,圣诞乐,快乐心涌,祝福手中握,条条短信是礼物,条条短信是快乐!礼物堆成堆,快乐汇成河。圣诞老人在说话,圣诞快乐!
97 圣诞节的快乐是因为有你在我身边,以后的日子里我会让你天天快乐,祝福是属于我们的,这不是承诺
是信心。
98 圣诞节到了,向支持我的朋友和我所爱的朋友说声感谢,感谢你走进我的生活,我会尽我最大的努力给
你无限的快乐!
99 圣诞老人,你现在已经收到了我的祝福,请马上跑到烟囱口处等待礼物的派送吧,谢谢。
100 ………………………………

2004年12月24日

Christmas Eve

This is another Christmas Eve after my joining IRLab. Reminding last year's Christmas Eve, I was studying in the Lab and watched a movie.

This evening, I with my gf, WF, went to the Lee pond. There were so many people in that big room. All of us enjoied ourselves.

Happy eve! Thanks to WF!

2004年12月23日

午休

中午需要午休吗?

这个话题我自己和自己讨论过很多次。本科的时候由于中午回寝室时不能睡着,所以就在教室睡半小时了。进了实验室后就改在实验室扒在桌上睡觉了。

这学期一直坚持睡午觉,前些日子有时没有睡午觉,一到下午就发困,工作效率急剧下降。今天中午忙到一点左右,回到寝室睡到两点。一觉醒来感觉很舒服,下午的工作效率也很高。

无论在教室还是在实验室我都观察过,一般每个人都回午休一会儿,只是形式不一样。教室里的一般都是扒在桌上睡一觉,但是睡觉醒来回感到有点难受。有一些回寝室睡午觉,睡觉时不但大脑得到了休息,四肢和身体也得到了休息。

回寝室睡觉现在有这个氛围,因为寝室成员都有午睡的习惯,中午没有任何杂音。睡觉质量也非常高。

中午午睡一小时,身体、工作、学习都会效率得到提高!
好习惯就应该坚持下来。

2004年12月22日

Nice software Source Insight

The Problem

You have a multitude of source files spread out all over the place. You have to deal with functions that somebody else wrote. You have to figure out how some piece of code works and see all of its clients. You didn’t write the code, or you wrote it in a past life.

You may be one of the cleverest developers in the world, but if you can’t find all the myriad pieces of your program, or can’t get your head wrapped around the code, then you will not be very productive.



The Solution

Source Insight was designed to enhance your ability to understand and modify your program. Our company mission is to increase programming team productivity by clarifying source code, presenting information in a useful way, and allowing programmers to modify software in large, complex projects.

Think of your program’s source code as a free form database of information. It has not only classes, members, and functions in it, but it has many important comments. (You do have comments, don’t you?)

Your source code also has a history. In fact, many large programs have a long lifetime that includes contributions by many programmers over many years. Some of it is not pretty, but you have to live with it.

Source Insight acts as an information server that surrounds your project’s source code. With it, you can have instant access to symbolic and textual information in your program.

Whether you are new to a project, or an old-timer, Source Insight will give you useful leverage to stay productive.


2004年12月21日

Comments in VS.NET

In VS6.0, if you want to add comments on some modules, it is very convenient using "注释精灵"。 But it is very inconvenient in VS.NET.

In order to solve this problem, I had tried lots of solutions.
1. Try to add "注释精灵" in VS.NET. But I had not managed it. After trying lots of paths, it coud not be run right.
2. Find some add-in modules for VS.NET. But there were few modules included enough functions.

Finally, I want to write a module for this function using VBA.

2004年12月20日

The snow football match

We had discussed it for a long time. This morning we realized it.

In the morning, 9:00, about 16 persons in the snow football playground. We chose a nice court and were divided into two groups. The first group consisted by the five members of IRClub and four members of IRLab. The other group included all the other members of IRLab.

The final score was 2:1.

After the match we all tired.

2004年12月19日

Coreference resolution recent research report

This afternoon, it is my trun to give report on coreference resolution.

I finished the reading outline of the paper Coreference Resolution for Information Extraction and then prepared for it yesterday. But I only made eight slides yeaterday.

This morning, I got up very early at 6:30, and began to continue the prepartion for the presentation. When it came to 11:30, I hade done them as my plan.

This afternoon, in the weekly meeting of our lab, I gave the presentation. My topic is coreference resolution recent research report. I gave the introduction on anaphora resolution and coreference resolution.

After the report, Mrs. Qin gave me some suggestion on my speech speed. I should slow doen my speed. Thanks for Mrs. Qin.

2004年12月18日

Coreference Resolution for Information Extraction

论文题目: Coreference Resolution for Information Extraction 针对信息抽取的指代消解
论文出处: ACL2004 workshop on Coreference resolution
发表时间: 2004
论文作者: Dmitry Zelenko, Chinatsu Aone, Jason Tibbetts
作者单位: 美国华盛顿州SRA International, 4300 Fair Lakes Ct.,Faiefax, VA 22033

摘要:
English:
We compare several approaches to coreference resolution in the context of information extraction. We present a loss-based decoding framework for coreference resolution and a greedy algorithm for approximate coreference decoding, in conjunction with Perceptrpn and logistic regression learning algorithms. We experimentally evaluate the presented approaches using the Automatic Content Extraction evaluation methodology, with promising results.


中文:
我们在信息抽取文本上对比了几种指代消解算法。 我们提出了一种基于损失的解码框架用于指代消解,一种用于近似共指解码的贪心算法,其中联合了感知机和对数回归学习算法。我们在ACE评价方法的基础上实验了我们的方法,获得了很好的结果。

为什么要做这个题目:

指代消解是一个传统的研究课题,研究内容在于确定文本中的话语是否指向现实世界中的同一实体。本文将指代消解限制在针对信息抽取的文本上(命名实体都被抽取出来了)。我们不解决所有的指代消解问题,只是将文本中抽取出来的实体进行分类。
基于抽取的指代消解问题来自于ACE评测中的实体检测和跟踪(EDT)任务。EDT要求检测人名、一般代词、代词等entity mentions,然后将指向同一真实实体的entity mentions合并到一个entity里面。我们采用ACE制定的规范将entity mentions合并后的eneity看成是entity mentions的等价类。
本文中的工作在于将已经抽取出来的Entity mentions合并。


别人怎么做的

共指消解综述
指代消解(Anaphpra resolution)问题已经被广泛研究(详见Mitkov的专著Anaphora resolution),共指消解(Coreference resolution)是和指代消解相似的问题。指代体被称为指代词(anaphora),被指代的词语被称为先行词(antecent)。指代消解将问题限定在名词性(nominal)和代词性(pronominal)的指代词,因此忽视了对于信息抽取非常重要的人名的消解。更进一步,指代消解只研究回指现象(指代词在后,先行词在前)而忽视了较为少见的预指现象(指代词在前,先行词在后)。我们认为共指消解(coreference resolution)是包含预指和回指的人名、名词性、代词性的实体消解。
我们定义文档中的一组entity mentions之间的指代关系coref。任何两个entity mentions之间具有关系coref(x,y),当且仅当x和y之间具有指代关系。
根据包含的entity mentions类型的不同将共指关系划分位以下三个子任务常常是有用的。更精确的说,如果x或y是代词性实体,称为代词消解;如果x或y是名词性实体,称为名词短语消解;如果x和y都是名词实体,称为名词消解。
一个信息抽取系统需要解决三方面的问题。但是不同的模型和算法选择或者适用于名称消解、名词短语消解、代词消解。
大多数早期的指代消解和共指消解工作都是在处理代词消解(Lappin and Leass,1994; Kennedy and Boguraev, 1996)。早期的方法对一篇文档中的每个代词寻找最好的先行词。对“最好”的不同定义产生出了基于话语分析理论的不同的复杂的规则集合。
代词和名词短语消解在九十年代中期由于机器学习方法的应用而得到极大的发展,如Aone and Bennett, 1996; McCarthy and Lehnert, 1995; Ng, 2001; Ng and Cardie, 2002。
消解实例是一对entity mentions的特征表示,用于表明候选先行词和指代词之间的属性。这些特征对于确定待考查的指代词和候选先行语之间的指代关系很有用。消解实例有一个表示是否具有指代关系的属性值,一般用-1和+1表示。大多数的基于学习的系统都需要很大规模的手工特征集。(Ng, 2001)
大量的机器学习方法已经在实验上应用到了共指消解问题上。许多发表的文章都采用决策树算法(Aone and Bennett, 1996; Ng, 2001; Ng and Cardie, 2002)。我们提出了一种全局概率模型用于共指消解:通用概率模型(generative probabilistic)(Charniak et al, 1998)和条件随机域模型(conditional random field model)(McCallum and Wellner, 2003)。
基于学习算法的共指消解分类器的输出需要借助于解码算法(deconding algorithm)来用于划分entity mentions的等价类。一个最为流行的解码算法将将指代词指向最近的一个符合条件的先行词(Ng, 2001)。我们称之为最近链接(link-first)解码算法。另一种可选的解码算法是最佳链接(link-best),将每个候选先行词都计算连接概率,然后挑出最高概率的候选先行词作为最终先行词(Ng and Cardie, 2002)。我们将两种方法都加以考虑并采用新的解码框架下的不同实验来进行对比。
我们的解码算法框架很像(McCallum and Wellner, 2003)的条件随机域模型方法。采用条件随机域的共指解码问题产生了一种相关聚类问题(Bansal et al, 2002)。我们也将共指解码问题简化为相关聚类问题,但是采用了不同的近似方法。
由于缺乏训练数据,我们在名词短语的基础上实现共指聚类。换句话说,名词短语的attribute被用于距离函数,在启发式的聚类算法中产生一个对应于共指消解的聚类划分。


作者提出了怎样的新方法

共指消解框架:共指实例和特征表示、共指实例生成、共指分类器的学习算法、将预测共指分类器结合到聚类话语分析中。
共指实例分五种类型来进行特征表示
共指实例采用的方法是从当前entity mention回退,遇到窗口M之内的共指mention就生成正例,不具有共指关系的mention就生成反例。
共指解码算法采用的是link-first 和link-best方法。
机器学习方法采用的是对数回归和感知机。
构造损失函数来表达对数回归和感知机。但是变换之后的损失函数的求解是NP难问题所以将问题转换为贪心解码算法:先分类,再将分类结果转换为聚类结果。

这种方法从理论上分析有何长处

本文的贪心求解方法算法效率很高

为了验证这种方法的优点作者做了那几个实验,实验结果如何
在ACE2003的英文语料上进行了相关的评测,同样的贪心算法,采用了六种方法

实例生成方法 算法 解码算法 ACE评测得分
连续的 对数回归 link-first 75.9
完全的 对数回归 link-best 74.2
完全的 对数回归 greedy 76.4
连续的 投票感知机 link-first 75.8
完全的 投票感知机 link-best 75.4
完全的 投票感知机 greedy 75.8

ACE2003共105篇英文文本,分为训练文本53篇,测试文本52篇。需要指出的是(LDC,2003)中指出人工标注的水平评分大约在85分左右。在ACE的评测规范中比标准entity中的mentions少的惩罚大于多的情况。

实验是否证明了作者的方法的优越性



还存在哪些问题

ACE的评测是外部评测,我们还需要进行一些内部评测。

个人想到的改进方案或者个人的创新观点

可以和其他机器学习算法进行对比,比如决策树、遗传算法等。

2004年12月17日

Event Clustering on Streaming News Using Co-refernece Chains and Event Words

论文题目:Event Clustering on Streaming News Using Co-refernece Chains and Event Words 利用指代链和事件词的新闻流事件聚类
论文出处 :ACL2004 workshop on coreference resolution
发表时间 :2004
论文作者 :June-Jei Kuo, Hsin-Hsi Chen
作者单位 :Department of Computer Science and Information Engineering,National Taiwan University, Taipei, Taiwan台湾国立大学计算机科学与信息工程系

摘要
English:
Event clustering on streaming news aims to group documents by events automatically. This paper employs co-reference chains to extract the most representative sentences, and then uses them to select the most informative features for clustering. Due to the long span of events, a fixed threshold approach prohibits the latter documents to be clustered and thus decreases the performance. A dynamic threshold using time decay function and spanning window is proposed. Besides the noun phrases in co-reference chains, event words in each sentence are also introduced to improve the related performance. Two models are proposed. The experimental results show that both event words and co-reference chains are useful on event clustering.

中文:
新闻流上的事件聚类目的在于自动根据事件文本聚类。本文利用共指链抽取表示性最强的句子,然后利用这些句子选择最好的信息特征用于聚类。由于事件之间跨度较大,固定阈值的聚类算法限制了后来文档被聚类从而降低了聚类的效果。提出了采用基于时间衰退函数和跨度窗口的动态阈值聚类方法。除去指代链中的名次短语外,每个句子中的事件词也被用于提高相关的效能。提出了两个模型。实验结果显示事件词和指代链对聚类都很有用。



为什么要做这个题目

新闻在网上到处散布,在瞬息万变的网络时代,发现和跟踪新闻事件对于决策的制定非常有用。事件聚类就是要对指定的文档进行有效的聚类。
事件聚类背后需要解决的问题有五个:
多少特征可以用于事件聚类?
对于新来的文档哪个线索模板可以用于指定类别?
各种聚类策略如何影响历史数据和在线数据的聚类效果?
时间因素是怎么影响聚类效果的?
怎样实现多语数据的聚类?

别人怎么做的

Chen and Ku(2002) 将命名实体、其他名词、动词看成是描述同一事件的文档的线索模板。提出了一种二次阈值的中心聚类方法来计算新文档和旧类之间的关联程度。其中采用考虑时间因素的的最小最近使用移除模型用于排除过旧和不重要的术语对聚类的影响。
Chen and Su(2003)将事件聚类看成是多语的多文档自动文摘。他们证明先聚类后翻译比先翻译后聚类的效果好。聚类之后的翻译可以减少翻译的错误。
Fukumoto and Suzuki(2000)提出将主题词和事件词用于事件跟踪。在特征提取方面,他们提出比词性方法更加偏重语义的方法。
Wong, Kuo and Chen(2001)利用这些方法来选取信息丰富的词语用于文本首行的生成,和多文档文摘的抽取句子的排序(Kuo, Wong, Lin and Chen, 2002)。
Bagga and Baldwin(1998)提出基于命名实体的跨文档共指消解,采用每个文档中的指代链来生成当前文档的摘要,然后利用摘要而不是全文来抽取信息词作为文档的特征。
Azzam, Humphreys, and Gaizauskas(1999)提出一种利用指代链生成文摘的简单模型。
Silber and McCoy(2002)提出一种采用词汇链的文摘模型,指出代词和指代消解都是不可缺少的特征。


作者提出了怎样的新方法

在某种程度上指代链和事件词是互相补充的基于语义特征选择的方法。指代链可以看成名词短语的等价类,事件词考虑多文档中的名词和动词术语特征。
本文将指代链和事件词都用于事件聚类。


本文中指代消解方法

由于本文仅仅是应用了指代消解的结果,没有给出指代消解的一些算法和程序。这里将文中对指代消解的讨论部分摘要如下。
Cardie and Wagstaff(1999)指出文档中的指代链列出了名词短语的等价类。指代消解算法的第一步是找出全部的可能的名词短语作为候选。这个过程包括分词、命名实体识别、词性标注、名词短语Chunking化。利用诸如词/短语自身、短语首词词性、命名实体、在文档中的位置、数(单数、复数、未知),代词、性别(男、女、未知)、首词语义等属性来进行分类。在MUC-7(1998)中对英文文档的自动指代消解最好的F值是61.8%。评测中采用了一个手工标注命名实体和指代链的语料。

利用指代链的方法

一个句子包含一条指代链中的任何节点成为改句子覆盖这条指代链。一个句子覆盖的指代链越多其重要性越大。

2004年12月16日

Cross Document Co-reference Resolution Applications for People in the Legal Domain

Author: Choristopher Dozier and Thomas Zielund
Conference: Proceedings of the Workshop on Reference Resolution and its Applications. ACL2004
Summary:
English:
By combining information extraction and record linkage techniques, we have created a repository of references to attorneys, judges, and expert witness across a broard range of text sources. These text sources include news, caselaw, law reviews, Medline abstracts, and legal briefs among others. We briefly describe our cross document co-reference resolution algorithm and discuss applications these resolved references enable. Among these applications is one that shows summaries of relations chains between individuals based on their document co-occurence and cross document co-reference.

中文:
结合信息抽取和链接记录技术,我们从大量文本中构建了一个包含律师、法官、职业见证人的知识库。 这些文本包括新闻、案例、法律回顾、美国联机医学文献分析和检索系统摘要和其他法律纲要。我们简要介绍了我们的跨文档指代消解算法并讨论了如何应用这些消解后的索引。在总多应用中其中之一是基于共现和多文档的共指消解链关系的文摘。

Reading outline:

为什么要做这个题目:

在法律系统中法官、律师、职业见证人都起着非常重要的作用。律师在处理各种事务时需要查看许许多多的文档。为了方便律师的调研需求,我们构建了一个系统自动指向跨文档的律师、法官、职业见证人的索引。这些文本包括新闻、案例、法律回顾、美国联机医学文献分析和检索系统摘要和其他法律纲要。

别人怎么做的:

文中没有提到别人的工作

问题在哪里:

文中没有提到


作者提出了怎样的新方法:

我们的方法是先按照MUC的类型模板抽取每篇文档中的实体,然后基于贝叶斯链接技术多元匹配这些实体。最终利用最后生成的实体组在大量文档中生成各种简要的摘要信息。
采用的指代消解方法是利用一个大规模的法律事务电子词典构建每个实体的框架,通过和跨文档中按照模板抽取出来的实体信息和电子词典中抽取出来的实体框架进行聚类。

这种方法从理论上分析有何长处:

没有提及

为了验证这种方法的优点作者做了那几个实验:

直接完成系统,只是给出了一些实例,没有提及实验

实验结果如何:

未提及

实验是否证明了作者的方法的优越性:

未提及

还存在哪些问题:

仅仅是一个特定域的系统,由于借助了一个非常完善的电子词典,因此很难进行领域的切换。


个人想到的改进方案或者个人的创新观点:

可以采用一些广泛域的词典来构建实体框架信息,然后进行指代消解。

2004年12月15日

Open your eyes

This evening, I was working in the laboratory. So did Abid Khan.

When we talked about the diary habit, we had some different ideas. He thought that it was time-consuming, and without enough things to record. But I believed if you opened your eyes and observed your life, you could found out many many things could be recorded.

I introduced the popular blog to him and suggested he writed a blog too. He thought it was a good idea.

As there was only Wangxiang Che had the rights for adding a user of the blog system of our laboratory. So we must wait for his return from Beijing.

2004年12月14日

Typeset paper

The paper on summarization systems evaluation should be typeset again for another journal. It was in little trouble. I used lots of techniques from the book of the art of word-write and typeset scale documents.

2004年12月13日

Multi-Document Person Name Resolution

Author: Michael Ben Fleischman, Eduard Hovy
Conference: Proceedings of the Workshop on Reference Resolution and its Applications. ACL2004
Summary:
English:
Multi-document person name resolution focuses on the problem of determining if two instances with the same name and from different documents refer to the same individual. We present a two-step approach in which a Maximum Entropy model is trained to give the probability that two names refer to the same individual. We then apply a modified agglomerative clustering technique to partition the instances according to their referents.

中文:
多文档人名消解注重解决确定两个不同文档中的人名实例是否指向同一个实体的问题。我们提出了一种分两步的解决方法:采用最大熵模型来训练两个人名指向同一实体的概率,然后聚类方法来分类人名实例。

Reading outline:

为什么要做这个题目:

哲学家和艺术家在很早以前指出具有同样名称的实例指向同一实体。最近,人名的指代消歧变得越来越受计算语言学界的关注。伴随着因特网在数量和覆盖面上的增长,具有相同名称的不在同一网站上的人名实例指向同一实体的可能性越来越小。这个问题在信息检索、自动问答这类依靠小量数据来处理用户查询的问题中遇到巨大挑战。
另一个指代消歧的问题出现在采用实例构建本体(ontology)时。在构建本体时常常在网站上抽取概念/实例对(如 Paul Simon/Pop star)并添加到数据库中。加入时必须要保证与原来的概念/实例库属于同一个实体。常常出现具有同一名称不同实例的对指向不同的实体(如, Paul Simon/pop star 和 Paul Simon/politician).


别人怎么做的:

Mann and Yarowsky(2003)将多文档人名消解问题看成一个聚类问题,将原文中抽取得到的特征组合看成是词袋,然后采用聚类算法聚出两个类别。他们的工作中采用了两种评测方法:在真实搜索的基础上对人工标注的数据集上评测的精确率/召回率为0.88/0.73,采用伪名(将任何两个名字组合在一起看成一个名称的具有两种实体)达到了86.4%的精确率。
Bagga and Baldwin(1998)另外一种方法。他们首先在单篇文档中进行人名的指代消解,标出全部的指代链信息,然后抽取指代链上每个节点附近的文本构成单片文档中该指代链实体的摘要,然后采用词袋模型来构建每篇文档中每个指代链的向量,再用聚类算法来完成多文档中的人名消解。经过在173篇纽约时报上11个名叫John Smith的实例进行消解,最终达到了0.846的F值。


问题在哪里:

Mann and Yarowsky(2003)提出了许多有用的特征,但是聚类类别收到预先确定的限制;采用伪名的方法来评测很难确定这种方法对真实世界中的问题的泛化能力。
Bagga and Baldwin(1998)虽然他们的方法可以发现可变数量的指代实体,但是由于采用的是简单的词袋模型用于聚类,这就从本质上限制了他们方法的应用。还有一点是他们仅仅是对单人称进行了测试,很难保证对真实世界中的情况有很好的效果。

作者提出了怎样的新方法:

作者提出的方法分为两步:第一步采用最大熵模型来获得任何两个概念/实例对之间具有指代关系的概率,第二步采用了一个改进的聚类算法来合并可能的概念/实例对。
为了完成实验,准备工作如下:
数据:
在ACL数据集上抽取并标注出了2675个概念/实例对,分为训练集(1875个)、开发集(400个)、测试集(400个)。
特征:
名称特征(人口普查词典词频、ACL语料词频、Google上的检索返回条目数)
网页特征(将概念词语分为head1和head2,然后在google中构建query name+head1+head2,abs((name+head1)-(name+head2),(name+head1+head2)/((name+head1)+(name+head2)))
重叠特征(句子范围内查看重叠率)
语义特征(利用wordnet的本体之间查询任何两个词项之间的语义相似度)
统计特征(利用四个条件概率 p(i1=i2|i1->A,i2->B),p(i1->A,i2->B|i1=i2),p(i1->A|i2->B)+p(i2->B|i1->A),p(i1->A,i2->B)/(p(i1->A)+p(i2->B))
模型:采用YASMET Max.Ent package,Gaussian prior with mean 0的平滑方法。
聚类时采用了O(n平方)的算法

这种方法从理论上分析有何长处:
糅合大量特征,很多是网络中的特征,可以很好的完成任务


为了验证这种方法的优点作者做了那几个实验以及结果如何:
最大熵训练任何两个概念/实例对的指代概率,baseline方法(同概念及同指代)达到了83.5%的正确率,最大熵达到了90.75的准确率。聚类时采用了大量的T.Mitchell的机器学习中提到的假设检验的方法来判断实验效果。

实验是否证明了作者的方法的优越性:




还存在哪些问题:

最大熵可以实现特征之间的有机组合,体现在一些权值的设定上,但是这种设定是否达到最佳,还需要和其他方法进行比对。

个人想到的改进方案或者个人的创新观点:

采用遗传算法和最大熵进行比较。特征的选择方法可以借鉴Soon的研究方法中提到的特征来融入更多的特征,并进行更加有效的特征选择。

2004年12月12日

Europe feeling & get-together

This afternoon, the regular weekly meeting was hold. Today, Dr. Tliu gave us a wonderful speech on his europe visiting and feeling.

His feeling may be outlined in some items, as follows:
High quality: Their research, architecture, human diathesis, diligence and so on, are in high quality.
Self-confidence: In some aspects we are not short than them. We should have self-confidence to meet them.
Working hard: Their students' diligence is more than ours. We must studying and working more hard.
Beautiful secnery: Europe is very beautiful.

Dr. Tliu also introduced something on the possible cooperation with Europe. This was nice opportunity.

Tonight, as the original plan, we all classmates in our graduate English course of last term came to our teacher's home.

She Zhiyong and me came to the flower shop to buy some beautiful flowers. And then we all get together in the hall of A building. When it was 4:30 pm, we, eight students, came to teacher's home.

Mrs. Zhang was waiting for us. She was in a fever and could not touch any cold things. So we all help to prepare the chaffy dish. Mrs. Zhang, Lou Xiutao, Luo Chenglin, Sun Jin and me compose the arrangment group for this dinner.

It was a so nice chance for us to prepare this dinner. We sheared the vegetables and preparing the chaffy dish. When we began to savour the dishes, there was a fragrant smelling in the house. We all fell happy.

Mrs. Zhan was so good to us. Thanks for her! She was one of my best teachers.

2004年12月11日

International intercommunion

Abid Khan had invited us to his room for dinner. This evening, when it was 6:00, he came to the lab and guided us. Dr.Tliu, Carl, Simply, Victor, Slchen and me went to his room.

There were three other classmates of Abid. They were cousins and classmates of same univiersity. And each weekend, they would have dinner. And this evening they invited us.

They had made good preparation for us. Following the tradition of their country, the gusts should have the dinner first. And then the hosts could have. We were very suit for it firstly. The dinner was very ample. Abid was good at cooking rice. Some other dishes were made by his cousions. There were salad, mutton, sweet, and so on. Having foreign style dishes, chating with them, we were enjoying ourselves.

After the dinner, we began to chat on many topics, including the ph.d. learning, Harbin lives, cooking, and so on.

During the three hours, we were all in pure English context. So nice experience.

2004年12月10日

Lee pond

This evening, some guys, Jiang Hongfei, Zhang Jian, Yang Yuhang, Zhong Bineng, WF and me, went to lee pond which located nearby our campus. I had not ever gone to that place. I had believed originally it might very expensive.

When we came there, the cost was 10 yuan per man with VIP card. We played chess, card, building block, football on table, and shuffleboard.

When we were play shuffleboard, we all enjoied ourselves.

So nice games.

It was a nice leisure place.

2004年12月9日

GMCM award

The first national graduate mathematical contest of modeling(GMCM, shorted by myself) had been hold during Sep.17th, 2004 to Sep.20th, 2004, four days.

Yesterday morning, I found the award news in our campus website. Oh. So excited that our group has awarded to the first level. This is a so wonderful news for me and our group. I noticed Liu Yu and Yu Qiyue, who were my parters. They were excited, too.

We were lucky and excited. So good news!

2004年12月8日

Anaphora/coreference resolution research!

This morning, Dr.Tliu came back. He was in nice state and brought us Irish chocolate. We were all excited.

I discussed my research plan on anaphora/coreference resolution with Dr.Tliu. And the final result was that I should read more papers about anaphora/coreference resolution. I understood his suggestion. When I had read few papers, if I did some experiments I might do some repeated works of others. And in my original plan I would do some repeated work of others.

So, considering the situation, I should read papers for one or two months. And then do some research.

2004年12月7日

Abid Khan

It was Abid Khan's turn for the presentation of doctoral reading group. This evening, he was in nice apparel with a shirt and a brown tie.

He told lots about his former education, projects, and experience. His English was better than us. But some word like "T" and "D", I thought that he pronounced incorrectly.

After one and a half hours, the meeting was end. And we chated on some other subjects.

When we had no words, it was 22:40. It is too late.

After three hours communication in English, I found my speaking English had been improved.

Good!

2004年12月6日

Biblioscape

最近阅读了许多的文章,但是如何非常有效的管理文章并方便与论文写作却是一个非常让我困惑的问题。
原先选定了Biblioscape 6.1作为管理软件,但是后来发现在Word中导入参考文献时中文的显示存在严重的问题,也就是应该显示中文的地方都显示成了乱码。后来听说Endnote8.0对中文支持的非常好,不会出现Bibioscape在Word中导入出现乱码的问题。但是真正使用Endnote8.0后发现,远不如Biblioscape 6.1对文章的管理方便和有效。

这样摆在我面前的选择就有两个:Biblioscape或者Endnote。因为一旦选择好软件后就需要付出许多的劳动来整理自己阅读到的论文。Biblioscape非常方便,在自己的亲身实践中自己感到非常方便,Endnote在网上一查使用率也非常高。

为了彻底解决这个问题,我花去了一整添的时间来对比各种文献管理软件
主要对比了Reference Manager、Endnote、Biblioscape等等。
找到的最为权威的网页是

Evaluation of Reference Management Software on NT (comparing Papyrus with ProCite, Reference Manager, Endnote, Citation, GetARef, Biblioscape, Library Master, Bibliographica, Scribe, Refs)
http://eis.bris.ac.uk/~ccmjs/rmeval99.htm

但是里面没有介绍对中文的支持情况。在网上查找了很多介绍性的文章,到现在为止堆中文支持最好的软件就是Biblioscape

参考Biblioscape网站上对于中文支持问题的解决的网页,我很顺利的解决了以前遇到的那个中文在Word中的现实问题。

正常在Word中显示的时候真是异常高兴,这样一来以后就可以非常省心的使用Biblioscape了。

结论:对于可能出现大量的中文论文的研究者(例如我们)最好的选择就是Biblioscape。希望本文能够节省您选择类似软件时花费的时间。


2004年12月5日

月末总结

又是一个忙碌的月份,忙于其中似有无为之感,细细想来却也忙了很多事情。这种感觉的出现或许是由于四门考试的压力,或许还是一个根本原因:对自己每一步(或者每一天)的工作没有非常周详的安排。

实验室规定每位成员每月初的第一个星期一提交上月的工作总结。现在看看自己的每月工作总结文件夹,已经有了11个月的工作总结。经常看看自己的总结好处非常多,这里就不一一列出。

这次工作总结,除去下午开会,我写了一整天。末尾处也加上了我的下个月的详细工作计划,每五天为一个工作单位。应该可以完成。

2004年12月4日

模式识别考试

复习了很长时间,原本认为会非常困难的考试,结果在大家的“欣喜”中结束。

BBS上有人说,这次考试就像上此考科学技术哲学一样,就是抄,只是上次不知抄哪里的,这次抄的非常爽,题目绝大多数都是老师给出标准答案的题目。

刚开始上这门课时期望很大。期待在大师的教导下学到模式识别中最核心的东西。使用的教材本是非常出色的国际知名教材,书中明确指出最为精华的一章老师讲的非常少。一门本来实践性很强的课程,居然课程结束了也没有任何一次上机。

课程虽好,老师也很好,教材很好,但是时间太短,丰富的内容看来也只能是自学了 :(

2004年12月3日

陈省身逝世

惊闻陈省身今日去世。
一代宗师,离我们而去。

默哀……

希望中国能够出现更多的英才

2004年12月2日

复习模式识别

模式识别考试将至,同学们纷纷忙着学习和复习。我也不例外。看了书,明白基本原理,但是有人说模式识别作业不用学模式识别也能作,根本没有模式识别的影子。这个观点我同意一半。

模式识别的基本思想是非常简单的,但是要向深刻的理解这些简单的思想却需要很多的数学知识和数学推导。这就是这门课学期来像数学课的原因。模式识别的课程,书很好,是国外经典教材,书中明确指明的最精华的一章确没有在教学中体现出来。书上很有特色的一系列上机题却没有被纳入教学计划。难怪有些同学抱怨模式识别很难学。

确实,如果没有一些实践经验模式识别中的那些算法是不容易理解的。现在虽然复习了一遍左右,但是书中的精华感觉自己还是没有很好的领悟。打算考试结束后每天抽出一点时间来细细体会,并完成那些非常有意义的上机题。

2004年12月1日

NLP exam

This evening we all take the Natural Language Processing exam. The time was from 6:00pm to 8:00.

There were eight subjects. They all were the key points of the course. Dr.Guan Yi had told us many many times about these contents. After detailed review, I solved them one by one quickly. And finally I tanded up my examination paper after 70 minutes.

So recently, there was only the pattern classification exam to me. It will be taken after three days. I must prepare it detailed.