2005年11月30日

今天归IR--Farewell Talk and return

都说最后的晚餐吃的时候感觉很不错,但是等到吃完就是另外一番风味。

上午10点,我准时在Zero Room开始了在全组会议上的Farewell Presentation。题目是AskBill & Query Translation。这是我半年来第一次也是最后一次在全组会议上做报告。报告内容主要是我在MSRA的半年时间里完成的相关工作。整个ppt包含24页,其中使用了我学到的所有制作Slides的技巧。页面的配色和动画的设置非常的耗时,但是最终还是取得了非常好的效果。原本准备的20分钟slide结果却讲了40分钟,原因是我没有充分考虑到其中引起的大量的讨论。这个经验以后一定要好好吸取。

会后周老师代表NLC组向我颁发了MSRA 明日之星的实习生纪念牌,看着上面我的名字,一时之间感情很复杂,一方面是实习了六个月的MSRA即将脱离我的生活轨迹,一方面是即将回到我朝思暮想的哈尔滨的IRLab。其中也算是一种更迭吧,我想年轻人要想变得成熟必须要经历很多的更迭吧。

下午5点半,火车准时启动了,在离开研究院门口的时候吴科、慕华、陈议、际洲纷纷送我出门口直到上出租车,我的兄弟世奇和我一起上了出租车一起往火车站进发。等上车的时候距离开车时间还有半个小时,我和世奇靠在下铺的墙上,彷佛时间回到了半年前的5月16日晚上7点10分左右,那时我们也是这样坐着,想到离别IRLab的大家庭即将开启新的学习生活,心中也是一种莫名的感觉。火车开前15分钟志昌师兄终于来了。开车前五分钟世奇下了火车,话别后开往哈尔滨的列车终于启动了。时间是一种非常奇怪的东西,回想半年的时间过得是那么的快,彷佛自己到了另外一个时空经历过一段时间后又回到了原先的地方,只是人已有好多不在则这里,而是到属于他们的地方去开创自己的未来。

还好是和志昌师兄一起坐火车,车上也就不那么孤独。时间匆匆,明天早上五点我就能回到美丽的哈尔滨了。

2005年11月29日

归IR倒数第二天――Farewell of Jun Lang

MSRA的朋友们,我是郎君。2005年5月17日来到NLC组访问实习,经历了六个月零12天后我非常不舍的向大家说声再见!

每个周二上午你可能都会收到一个Ping Pong Club活动的邀请,发出者就是我。这边认识新朋友的时候时常有人说,“哦,那个Mail就是你发的呀,每次我都当成垃圾邮件直接删掉了”,随后大家都笑笑。现在我已经将Ping Pong俱乐部的全部事宜交给了我们俱乐部的顶尖高手--何因。现在俱乐部在Eileen的帮助下采用了动态邮件列表的方式来和大家进行交互,以后大家就不会所有人都在周二上午收到Ping Pong Club的活动邀请了。哈哈,大家如果想念那个Mail可以把自己添加到邮件列表中(具体事宜请和何因联系)。

在MSRA的日子里,我有幸参加了很多的活多,游玩龙庆峡、京东大峡谷等景点,欣赏美丽的北京郊区风光的同时,了解了很多的朋友,比如最早认识GeYu就是因为一起去龙庆峡。Geyu是名很好的同学,大家都认识了吧,没有认识的一定要认识一下哦。在8月的海报设计大赛中我们天秤小组(Fang Tian, Song Ying, Zhou Zhizhi, Zhen Yuhao, and Lang Jun)获得了Best of Best的大奖,天秤是好样的,大家一起加油呀!还有就是BBQ上的集体兔子舞时所有人都沉醉其中。

MS^2第一期的培训让我学到了很多很多,感谢华老师的精心安排和讲课,感谢Eileen的组织,感谢马昕在Dinner时组织咱们桌精彩的讨论!祝愿MS^2越办越好!

在这里我要感谢我的Mentor 周明老师和牛成老师,两位Mentor的指导和对我学习生活上的帮助是无比巨大的!从两位老师那里我学习到了如何做科研,如何做项目管理的方法,最重要的是在两位老师那里领略了世界级的Researcher的风采。以后我会经常向两位老师学习的。

来到NLC组认识了非常多的好友,
Xu Jun做事严谨,推理精确,时常给予我Machine Learning上的指点;
Zhang Yang活波热情,精通IR Tools,锻炼身体的激情感染了我;
Huang Jizhou执着认真,熟练运用C#,学习新事物的速度让我赞叹;
Chen Yi沉稳负责,QA上无人能比,每每我遇到程序上的问题总是能在他这里快速得到解答;
Hu Yunhua思维敏捷,热心助人,那次CRF的精彩报告让我受益匪浅;
Luo Dijun爱好运动,SQL高手,衷心祝愿你的网球俱乐部早日成立;
Bao Shenghua勤学好问,时常学习到深夜,那种学习的热情让人感动;
Chen Wei好学踏实,一起合作的时间虽短,但是感受到了高水平的动手能力;
Jiang Song乐观健谈,还记得那次Dinner时一起讨论军事的场景;
Zhu Muhua稳健热心,热爱篮球,有空咱们再去挑战台球;
Liu Jingjing具有领导才能,事实上的队长,祝愿队长带领的队伍越来越壮大;
Wu Ke知识渊博,说话幽默,我会想念咱们讨论小波时的那种畅快;
Zhao Shiqi(我的兄弟)幽默热心,时时给大家带来快乐,祝愿在MSRA剩下的一个月里做出高水平论文;
Jiang Long编程高手,堪称NLC组的元老,每次在龙哥这里都能学到很多新鲜的东西。

我认识的朋友还有好多好多,不能一一列举了,祝福同是来自哈工大的王欢良,朱聪慧,国玫学习进步,天天开心!

衷心祝愿MSRA的明天更美好!再见了,朋友

2005年11月28日

归IR倒数第三天--收拾机器

今天整理了一下自己六个月以来所有的资料,感觉有非常多的收获!等回来哈尔滨一定好好总结!想到还有两天就要离开这里了,心里还是有些不舍的。

2005年11月27日

归IR倒数第四天--艰难买到火车票

原本以为今天上午去买火车票应该是非常容易的,目标就是30号晚上9点的T17。等到我上午11点左右去天鸿科园对面的售票点一询问,才知道那趟列车的票已经全部售出,现在只剩下一张软卧了。这和事情让我感到非常的奇怪,因为据说现在很多人都在从哈尔滨往外走,很少有人返回哈尔滨的。这趟车的车票昨晚7点开始在北京各个售票点发售,结果早上就没有了。不知道这其中是那个环节出现了抢购车票的现象。没有办法,俺只能买别的车票了。仔细询问后只剩下了30号下午五点多的一趟特快列车,下铺已经没有了,还有一些中铺和上铺。考虑到check out那天的时间会比较紧,我开始还在犹豫是不是要买这趟车。等了10分钟我决定买的时候,说是现在连中铺都没有了,只剩下几张上铺了。哇!这可让我着急了,赶紧买下两张上铺。现在算来,等到我离开北京的那天一定会非常繁忙的,因为当天上午我还需要做一个在这边实习的总结性报告,还要完成很多的相关手续。看来也只能抓紧每一分钟了。

晚上有幸约到了我本科班在北京的所有同学一起小聚了一把。大家回味着过去的懵懂,闲聊着现在的生活、工作和学习,畅想了一阵儿短暂的未来。同学之情总是那么真挚,祝福我的同学们!

2005年11月26日

归IR倒数第五天——拜访王厚峰老师

今天又办完了一件回哈前需要完成的事情——拜访王厚峰老师。
王厚峰老师现在是北京大学计算语言学研究所的副教授,在国内目前是研究指代消解水平最高的研究人员。在和王老师互通了几次邮件后一周前约好了今天的访问。王老师周末本来是不用上班的,但是最近我的时间很紧张,只能挤到周六了。感谢王老师百忙之中抽出时间来会见我。

早上大约9:15,我准时到达王老师的办公室。这个屋子是王老师自己的办公室,布局很好。王老师和我想象中的一样和蔼。在做完自我介绍后我们开始了长达两个半小时的谈论。来之前我把王老师的论文全部阅读过,心中对王老师是非常的崇敬的。王老师在指代消解上的工作做得越来越细,已经深入到底层去细化各个特征的抽取。其实在完成NLP的相关研究的时候会到达一种算法和方法上的极限,这个时候就自然进入细化特征的阶段。回想自己在指代消解上的研究还差得比较远。

时间飞快!我向王老师请教了关于现在得研究热点、难点、趋势、类型、RST、与其它模块得互动、ACE、可视化、集合划分、跨语言、跨文档、小波分析、错误传播、前景等问题。前后大概算下来有20多个问题。王老师非常认真得和我一起探讨了每一个问题。后来我们达成一种共识,那就是需要在选定标注工具的基础上完成标注规范的制定。我们以后会在这个方向上开展进一步的合作。对于完成这样一个博士课题,王老师对于我提出的那三个最关键的想法还是非常赞成的。当然它们都很有难度,需要做很多细致认真的基础工作。

通过和王老师的这次会谈,我更加坚定了完成这个题目下的博士课题研究的信心和决心。前途光明,道路曲折,需要下苦功!

2005年11月25日

归IR倒数第六天--编程与编码

传说中的昨晚哈尔滨地震最终还是被证明就是谣言。这个年代普通人对谣言没有抵抗力的,但是有非常良好的间接传播能力。祝福我的老师和朋友们平安度过这段“难忘”的日子。

今天的工作主要集中的在修正已经完成的工作中的几个bug。第一个最大的bug是我完成的英法词典里面有很多的乱码,特别是在那些本该有帽子的地方都显示不正常。这个事情以前牛成老师提到过,当时我以为那些就是法语中正确的码断。今天在整理完成工作的时候我才发现原先处理的一个语料中没有将它转换为UTF8编码,所以才出现了这个问题。花了几个小时终于将这个问题彻底解决,现在的词典没有任何的乱码,想要怎么转就怎么转。

牛成老师在下午的时候给我很好的介绍了编程过程中需要注意的字符串编码的问题。以前我编程的时候不太注意这个问题,因为我一直都是用标准C++编程的,以前除了在参加ACE的时候有过将UTF8转换为Ascii的一点点编码转换外,我的程序都是在Ascii和ANCI上完成的。最近的时间里面都在处理法语,这个东东需要非常注意编码格式,其中自然也就涉及到了很多的编码转换的问题。可以说从9月13号以来我工作的一个很大部分都是在和编码转化打交道。时至今日,到上午前我还一直是处在控制输入输出文件格式上,没有在程序中很好的使用编码转换的代码。牛成老师教导我说程序中书写的每个string,不管是标准的还是宽字节,一定要非常清楚的知道当前这个字符串的编码格式,否则程序运行的结果肯定会是不稳定的。这一点一般人在编程的时候都不认真的考虑,感觉程序一次运行通过就算完事了,后果常常是出现第二次运行的时候出现问题。

牛成老师的指点让我感觉非常的受益!因为这个过程中再次验证了那个作研究每个细节都不能放过的观点,一定要做到Professional的程度,对待遇到的任何一个相关问题都要非常规认真的分析和解决,这样才能作出做好的研究。牛成老师就是这样以为Researcher。我非常的敬佩他!

2005年11月24日

归IR倒数第七天

还有一周就要回到哈尔滨的IR实验室大家庭,心里分外的高兴和激动。还有一点很重要的是可以看到亚杰的。哈哈,真是分外想念大家呀!离开哈尔滨算来已经有六个月零7天了。数着日子开始计算准备回哈的日子了。

今天是倒数第七天。在过去的几个月里,我发现了一个现象,那就是快要离开这里的同学都非常的忙,越到最后就越是忙。这两天我也是这样的。今天上午费了九牛二虎之力才将那个非常麻烦的法语编码导致的错误纠正过来,不过还是发现了一些乱码存在里面。下午违拗晚上的时间过得非常快,主要忙着完成自己下周三的Farewell Talk。好久没有这么总结过自己的工作,这个机会非常好,俺会好好珍惜的。

2005年11月23日

禽流感、火灾、地震安全常识一览

祝福哈尔滨的朋友们一切平安
---------------------------------

一、预防禽流感
   
1、禽流感的特点:

      中国畜牧兽医学会禽病学分会副理事长、中国农业大学动物医学院禽病专家杨汉春教授认为禽流感有如下特点:
      禽流感病毒在阳光下只能存活24到48小时,禽流感一般多在冬春两季流行,在5到10月份就基本平复。
      高温亦可杀灭禽流感病毒。禽流感病毒在56摄氏度下只能存活30分钟,在60摄氏度下只能活10分钟。人类在进食禽肉时,只需高温烹煮,即可杀灭可能存在的病毒。
      人类感染禽流感后,症状与流行感冒没有太大区别,只要及时就医,并无大碍。
      高致病性禽流感,一般通过两种途径传染,一是通过禽肉、禽蛋等禽产品的流通进行传播,另一种就是通过飞禽传播,主要是通过大量携带病毒的候鸟迁徙进行传播。
      据他分析,此次禽流感,极有可能与迁徙候鸟参与传播有关。由于候鸟过冬迁徙范围一般较大,所以,通过候鸟传播禽流感的范围一般也会较大。另外,此次高致病禽流感由北向南的传播次序,在某种程度上,也印证了专家关于北方候鸟迁徙到南方过冬,从而一路传播禽流感的猜测和分析。


2、哪些消毒剂能有效杀灭禽流感病毒及其使用方法

  据全国防治高致病性禽流感指挥部办公室介绍,禽流感病毒在外界环境中存活能力较差,只要消毒措施得当,应用养禽过程中常用的醛类、含氯消毒剂、酚类、氧化剂、碱类等消毒剂,均可将环境中的病毒杀死。
  场舍环境采用下列消毒剂消毒效果比较好:
  醛类消毒剂有甲醛、聚甲醛等,其中以甲醛的熏蒸消毒最为常用。密闭的禽舍可按每立方米7克至21克高锰酸钾加入14毫升至42毫升福尔马林进行熏蒸消毒。熏蒸消毒时,室温一般不应低于15摄氏度,相对湿度应为60%至80%,可先在容器中加入高锰酸钾后再加入福尔马林溶液,密闭门窗7小时以上便可达到消毒目的,然后敞开门窗通风换气、消除残余的气味。
  含氯消毒剂的消毒效果取决于有效氯的含量,含量越高,消毒能力越强,包括无机含氯消毒剂和有机含氯消毒剂。可用5%漂白粉溶液喷洒于动物圈舍、笼架、饲槽及车辆等进行消毒。次氯酸杀毒迅速且无残留物和气味,因此常用于食品厂、肉联厂设备和工作台面等物品的消毒。
  碱类制剂主要有氢氧化钠等,消毒用的氢氧化钠制剂大部分是含有94%氢氧化钠的粗制碱液,使用时常加热配成1%至2%的水溶液,用于消毒被病毒污染的鸡舍地面、墙壁、运动场和污物等,也用于屠宰场、食品厂等地面以及运输车船等物品的消毒。喷洒6小时到12小时后用清水冲洗干净。


二、火灾逃生自救九大要诀
 
  第一诀:不入险地,不贪财物。生命是最重要的,不要因为害羞及顾及贵重物品,而把宝贵的逃生时间浪费在穿衣或寻找、拿走贵重物品上。
     第二诀:简易防护,不可缺少。家中、公司、酒家应备有防烟面罩,最简易方法也可用毛巾、口罩蒙鼻,用水浇身,匍匐前进。因为烟气较空气轻而飘于上部,贴近地面逃离是避免烟气吸入的最佳方法。
     第三诀:缓降逃生,滑绳自救。千万不要盲目跳楼,可利用疏散楼梯、阳台、落水管等逃生自救。也可用身边的绳索、床单、窗帘、衣服自制简易救生绳,并用水打湿,紧拴在窗框、暖气管、铁栏杆等固定物上,用毛巾、布条等保护手心、顺绳滑下,或下到未着火的楼层脱离险境。
     第四诀:当机立断,快速撤离。受到火势威胁时,要当机立断披上浸湿的衣物、被褥等向安全出口方向冲出去,千万不要盲目地跟从人流相互拥挤、乱冲乱撞。撤离时,要注意朝明亮处或外面空旷地方跑。当火势不大时,要尽量往楼层下面跑,若通道被烟火封阻,则应背向烟火方向离开,逃到天台、阳台处。
     第五诀:善用通道,莫入电梯。遇火灾不可乘坐电梯或扶梯,要向安全出口方向逃生。
     第六诀:大火袭来,固守待援。大火袭来,假如用手摸到房门已感发烫,此时开门,火焰和浓烟将扑来,这时,可采取关紧门窗,用湿毛巾、湿布塞堵门缝,或用水浸湿棉被,蒙上门窗,防止烟火渗入,等待救援人员到来。
     第七诀:火已烧身,切匆惊跑。身上着火,千万不要奔跑,可就地打滚或用厚重的衣物压灭火苗。
     第八诀:发出信号,寻求救援。若所有逃生线路被大火封锁,要立即退回室内,用打手电筒、挥舞衣物、呼叫等方式向外发送求救信号,引起救援人员的注意。
     第九诀:熟悉环境,暗记出口。无论是居家,还是到酒店、商场、歌厅时,务必留心疏散通道、安全出口及楼梯方位等,当大火燃起、浓烟密布时,便可以摸清道路,尽快逃离现场。


三、地震时的10条须知


1、 为了您自己和家人的人身安全请躲在桌子等坚固家具的下面
 
  大的晃动时间约为1分钟左右。这是首先应顾及的是您自己与家人的人身安全。首先,在重心较低、且结实牢固的桌子下面躲避,并紧紧抓牢桌子腿。在没有桌子等可供藏身的场合,无论如何,也要用坐垫等物保护好头部。



2、    摇晃时立即关火,失火时立即灭火


  大地震时,也会有不能依赖消防车来灭火的情形。因此,我们每个人关火、灭火的这种努力,是能否将地震灾害控制在最小程度的重要因素。
  从平时就养成即便是小的地震也关火的习惯吧。




  为了不使火灾酿成大祸,家里人自不用说,左邻右舍之间互相帮助,厉行早期灭火是极为重要的。
  地震的时候,关火的机会有三次:
  1)第一次机会 在大的晃动来临之前的小的晃动之时
  在感知小的晃动的瞬间,即刻互相招呼:“地震!快关火!”,关闭正在使用的取暖炉、煤气炉等。




  2)第二次机会 在大的晃动停息的时候
  在发生大的晃动时去关火,放在煤气炉、取暖炉上面的水壶等滑落下来,那是很危险的。大的晃动停息后,再一次呼喊:“关火!关火!”,并去关火。




  
  3)第三次机会 在着火之后
  即便发生失火的情形,在1-2分钟之内,还是可以扑灭的。为了能够迅速灭火,请将灭火器、消防水桶经常放置在离用火场所较近的地方。



3. 不要慌张地向户外跑


  地震发生后,慌慌张张地向外跑,碎玻璃、屋顶上的砖瓦、广告牌等掉下来砸在身上,是很危险的。此外,水泥预制板墙、自动售货机等也有倒塌的危险,不要靠近这些物体。



4. 将门打开,确保出口


  钢筋水泥结构的房屋等,由于地震的晃动会造成门窗错位,打不开门,曾经发生有人被封闭在屋子里的事例。请将门打开,确保出口。  
  平时要事先想好万一被关在屋子里,如何逃脱的方法,准备好梯子、绳索等。



5. 户外的场合,要保护好头部,避开危险之处


  当大地剧烈摇晃,站立不稳的时候,人们都会有扶靠、抓住什么的心理。身边的门柱、墙壁大多会成为扶靠的对象。但是,这些看上去挺结实牢固的东西,实际上却是危险的。 
  在1987年日本宫城县海底地震时,由于水泥预制板墙、门柱的倒塌,曾经造成过多人死伤。务必不要靠近水泥预制板墙、门柱等躲避。




  在繁华街、楼区,最危险的是玻璃窗、广告牌等物掉落下来砸伤人。要注意用手或手提包等物保护好头部。
  此外,还应该注意自动售货机翻倒伤人。
  在楼区时,根据情况,进入建筑物中躲避比较安全。



6. 在百货公司、剧场时依工作人员的指示行动


  在百货公司、地下街等人员较多的地方,最可怕的是发生混乱。请依照商店职员、警卫人员的指示来行动。
  就地震而言,据说地下街是比较安全的。即便发生停电,紧急照明电也会即刻亮起来,请镇静地采取行动。
  如发生火灾,即刻会充满烟雾。以压低身体的姿势避难,并做到绝对不吸烟。



  搭乘电梯的话, 在发生地震、火灾时,不能使用电梯。万一 在搭乘电梯时遇到地震,将操作盘上各楼层的按钮全部按下,一旦停下,迅速离开电梯,确认安全后避难。
  高层大厦以及近来的建筑物的电梯,都装有管制运行的装置。地震发生时,会自动的动作,停在最近 的楼层。
  万一被关在电梯中的话,请通过电梯中的专用电话与管理室联系、求助。



7. 汽车靠路边停车,管制区域禁止行驶


  发生大地震时,汽车会象轮胎泄了气似的,无法把握方向盘,难以驾驶。必须充分注意,避开十字路口将车子靠路边停下。为了不妨碍避难疏散的人和紧急车辆的通行,要让出道路的中间部分。
  都市中心地区的绝大部分道路将会全面禁止通行。充分注意汽车收音机的广播,附近有警察的话,要依照其指示行事。
  有必要避难时,为不致卷入火灾,请把车窗关好,车钥匙插在车上,不要锁车门,并和当地的人一起行动。



8. 务必注意山崩、断崖落石或海啸


  在山边、陡峭的倾斜地段,有发生山崩、断崖落石的危险,应迅速到安全的场所避难。
  在海岸边,有遭遇海啸的危险。感知地震或发出海啸警报的话,请注意收音机、电视机等的信息,迅速到安全的场所避难。



9. 避难时要徒步,携带物品应在最少限度


  因地震造成的火灾,蔓延燃烧,出现危机生命、人身安全等情形时,采取避难的措施。避难的方法,原则上以市民防灾组织、街道等为单位,在负责人及警察等带领下采取徒步避难的方式,携带的物品应在最少限度。绝对不能利用汽车、自行车避难。
  对于病人等的避难,当地居民的合作互助是不可缺少的。从平时起,邻里之间有必要在事前就避难的方式等进行商定。



10. 不要听信谣言,不要轻举妄动


  在发生大地震时,人们心理上易产生动摇。为防止混乱,每个人依据正确的信息,冷静地采取行动,极为重要。
  从携带的收音机等中,把握正确的信息。相信从政府、警察、消防等防灾机构直接得到的信息,决不轻信不负责任的流言蜚语,不要轻举妄动。



2005年11月22日

警惕过劳

日本学者列举出27项“过劳”症状和因素,其中有7项者,就有存在“过劳”的潜在危险;有10项者则随时可能发生“过劳死”,一定要引起重视。

1、经常感到疲倦,忘性大;
2、酒量突然下降,即使饮酒也不感到有滋味;
3、突然觉得有衰老感;
4、肩部和颈部发木发僵;
5、因为疲劳和苦闷失眠;
6、有一点小事也烦躁和生气;
7、经常头痛和胸闷;
8、发生高血压、糖尿病,心电图测试结果不正常;
9、体重突然变化大,出现“将军肚”;
10、几乎每天晚上聚餐饮酒;
11、一天喝5杯以上咖啡;
12、经常不吃早饭或吃饭时间不固定;
13、喜欢吃油炸食品;
14、一天吸烟30枝以上;
15、晚上10时也不回家或者12时以后回家占一半以上;
16、上下班单程占2小时以上;
17、最近几年运动也不流汗;
18、自我感觉身体良好而不看病;
19、一天工作10小时以上;
20、星期天也上班;
21、经常出差,每周只在家住两三天;
22、夜班多,工作时间无规律;
23、最近有工作调动或工作变化;
24、升职或者工作量增多;
25、最近以来加班时间突然增加;
26、人际关系突然变坏;
27、最近工作失误或者与人发生不和。

_____________________________________________

朋友们,工作之余注意适当休息一下下哦:)

2005年11月21日

归IR——工作二次交接

离回到哈尔滨还有刚好10天了,上个周末完成了天津之行。今天我们项目组的讨论会上我向我的mentor牛成老师介绍了我上周最新的工作进展,剩下的工作主要还是交接方面的事宜。我需要将前一段时间完成的网络验证的程序切换到别的引擎,同时调研一下自己一直想做的Clique的东西。mentor非常支持我的想法,鼓励我完成这个survey工作。二次交接工作还需要另外一位同学的配合。未来的9天里我需要完成的工作还真不少呢。
不过不要紧,我会慢慢来,一件一件做好的。

2005年11月20日

天津之行--第二天

天津很美,它的古文化大街更美,这里有很多的特色。粘贴几张照片吧
01天津古文化大街街口



02大街正路



03泥人张世家



04海河某桥头



05钢铁桥身



06牛儿力气真大



07与伟人握手



08北洋大学堂(天大前身)


09天津的朋友们

2005年11月19日

天大之行

半年前刚到MSRA的时候,当天就和天大的小崔认识如故,彷佛是多你的老友相会在一起。我们之前只是在网上讨论过一些问题以及相互发送过一些相关的资料。当时我们聊了很多很多,我也在小崔那里学习到了很多很多的,比如rank方面的东西。我们聊的话题中还有一部分是关于在天大举办学生之间的Seminar的相关事宜。随后的日子里我们经常探讨这个话题,讨论了很多关于如何将Seminar办好的方法。

以前就答应过小崔在我回到哈尔滨前会到天大玩一圈,如果有机会的话到他们实验室参观一下,或者作个机器学习相关的报告作为seminar的部分。这个月底我就会回到哈尔滨了,所以在两周前我们就在讨论去天津的行程安排了。一来是实现我当初的承诺,而来也祝贺小崔拿到了MSRA TTG的Offer。原本想在天大介绍一下关于决策树方面的综述,但是我来MSRA后一直在完成项目,没有继续深入的学习和理解机器学习方面的前沿动向,而且现在机器学习中决策树已经出现了有些过时的迹象,现在的主流取向于CRF和SVM。还有一个考虑是我不能清楚的知道参加我们报告会的听众是什么知识背景,没有很好的听众模型就不能很好的做好报告。因此我想做一个非常宽泛的报告,在报告中引出一些相关的话题进行讨论。出于这种打算,我准备在报告会上做一个“信息检索实验室简介”的报告。征得我们老师得许可后,这周我在准备这个报告的相关内容。

今天一早,张扬,际洲,陈议和我,我们四人一起八点多出发踏上了去往天津大学的行程。恰好来自天津大学的张扬也好久没有回去了。

约莫上午11点半,我们到达了天津火车站,打车二十分钟后到达天津大学的北门。走了一会儿那种熟悉的校园绿荫道,我们来到了小崔的寝室。看到自己的老友我们大家都分外激动。张罗一下后我们去吃午饭了。

下午在小崔的带领下我们参观了天大的校园。来到这里我感觉自己彷佛回到了我们的哈工大校园,真是格外的想念和回味我在哈尔滨的生活以及实验室的精彩时光,还好我月底就要回到我们的IR大家庭了。天大的一个最大的特色就是湖多,五个大湖在校园里格外的漂亮。天津大学建立于1895年,原名叫北洋大学堂。校园里绿树成荫,映衬着美丽的湖畔,让人感到格外的舒畅。

四点半左右我们一起来到小崔的所在的人工智能实验室。他们实验室主要在做一些非线性维数约简,流型学习,人工智能,远程教育系统,以及IR的研究。和我们聊天的主要是一位姓孙的博士,他现在带领的小组正在完成一个名为Sogood的股票搜索引擎。其中已经实现了很好的用户需求,可以输入股票代号返回股价和相关文档,目前正在完成K线图之类的分析图表。有一位博一的同学对形式语言、递归函数、程序语义等问题非常有研究兴趣,从他那里我也学习到了很多的关于程序设计需求的逻辑表示的问题。

晚上的报告如期而至。七点在23号大楼4楼的一个教室里面,我们开始了行程中最重要的一个环节——我们的三个报告。教室和我们哈工大A楼大教室差不多,听众大概有60人左右。人工智能实验室的博导何教授也专程赶来。我第一个做报告。报告题目就是《哈工大信息检索实验室简介》。这个slides是我的老师制作的,这是我第一次给别人宣讲我们实验室,自然也感到有些紧张。登上讲台向大家问好后,我开始进入了状态,开始将我们实验室的相关工作进行了介绍。其中涉及到的很多的自然语言处理和信息检索的概念我都一一进行了解释。报告过程中我加入了很多自己对于我们实验室的理解。报告时间大概是55分钟,之后何老师向我询问了文本水印、复述等相关技术的问题。在座也有四位同学向我询问了关于信息抽取、IR for NLP & NLP for IR等问题。

之后的两个报告是我们一起来的际洲的Learning Effective Ranking Funtions for Newsgroup Search。和陈议的A Very Simple Survey of Question Answering System。际洲和陈议的报告中我也学习到了很多的新鲜的东西。比如陈议提到LCC的QA系统能够通过逻辑推理判断两个句子讲述的内容究竟是不是一致。

最后小崔邀请他们实验室的一位姓朱的同学做了《基于网页相关性的SE优化系统》,其中提到了一个非常有趣的工作——非线性维数约简NDR。这个东西能够实现非线性高维空间的维数约简,实现的功能和传统的PCA非常类似,只是完成的工作是基于非线性空间的,而PCA是线性空间的。感觉非常的有用,或许能够推动机器学习的应用!

几个报告都非常的经常,也引来了阵阵掌声。会后我和何老师请教了几个问题。何老师对于我们的来访非常的高兴,说我们的报告给他们带来了很多新鲜的理念和当前的前沿研究内容。对于我们实验室的工作,何老师非常的佩服。我也向何老师说明了以后也非常欢迎他能到我们实验室参观访问,或者进一步的在人工智能、信息检索等领域开展合作。何老师欣然接受了,说有机会一定会去的。

总结一下:报告过程中我看到了很多期待交流的眼神,我也向他们讲述了我对交流的理解,以及我们实验室对于交流的重视。看得出我们的报告还是起到了一些效果的。短短的几个小时,我也学习到了很多的东西,比如LCC和NDR。等我回哈后一定要好好学习这两个东西。

2005年11月18日

Struct的释放问题

以往编写C++程序的时候,比如要将一组对象装入到一个向量里面,我经常是在循环外面申明一个新的对象,然后在循环里面先clear一下,然后装入数据到其中再装入到向量中。这种方法不会引起内存的泄漏问题。最近在写一个程序的时候其中有一个函数需要多次调用,每次调用的时候都需要申请一个结构体,然后处理完结构体再传回放入一个向量中。

编程程序的时候想当然的认为这里不会引起内存泄漏的问题,因为结构体有生存周期,应该会自动释放的。今天在大规模测试我的程序的时候居然发现随着测试样本的增加,内存占用越来越多,幸亏没有进行更大规模的测试,否测机器可能会崩溃掉的。哈哈,后来想到了这个隐含的bug。函数中加上了结构体的释放,这才使得程序在内存消耗上稳定下来。

后来查阅资料明白了,STL自带的各种容器对象都有自带的内存释放操作。而结构体是C的元素,没有加上释放,指针也有类似的问题。

以后编程程序一定要注意这些问题。当然,这也告诉我以后写完程序一定要多做测试,这样才能尽可能的发现和解决各种潜在的问题。

2005年11月17日

应聘经历

如果没有硕博连读,现在我肯定在忙着找工作。下面是我的一个好兄弟(skiffer)的应聘经历,其中涉及到很多的经验和技巧以及对后人的告诫。与大家分享一下吧。共两篇。
source: IR毕业生

1-----------------------------------------
通过自身应聘经历来谈谈就业相关

今天所写都是自己的真实感受
没有哗众取宠的嫌疑
欢迎讨论
但不要骂人
我先简单介绍一下自己
我本科毕业于数学系
比较幸运保送到计算机读研究生
也比较幸运选择了现在的实验室
一个非常优秀的实验室 包括老师 同学 和 整个精神面貌
2003年进入实验室,基本没干什么正事 心态没放好
后来经过导师的教育 我开始意识到问题的严重性
从去年的11月份开始渐渐开展自己的课题 提高自己
包括编程能力和科研能力
到今天为止 水平都很一般
发表论文两三篇
编程能力顶多算中等吧
很多关于计算机的知识没学过
所以计算机基础知识有些欠缺
英语六级没过
成绩全系排在3/4之后
..................

今年9月份 一个偶尔的机会 或者说得益于实验室的名气和实力
AA公司早早给了offer 我那它垫底 最后还是回到了原地 呵呵

后来有个ATC的面谈(非面试),但是有一个很简单的笔试和项目讨论
我说说关于这两个东西的想法吧
笔试确实很简单,但是自己第一次笔试,感觉太简单了 没太在意
早早交了卷 有些自己认为可写可不写的东西就没有写
后来我总结了这个教训,在笔试的时候,不要轻易下手 尽量把情况考虑完美些
因为这不是选择题 可能没有严格的对错之分,可能更多的是好坏之分
字迹要工整 因为这都是给面试官看的 重要性我就不要强调了

在项目讨论的时候,我们组有3个好的创意,其中有2个是我独自提出的
但是在演讲的时候 我没有表现,把机会留给了别人 当然 最后我也失去了继续挑战ATC的机会
总结教训如下:在项目讨论的时候一定要适当的表现自己,让面试官对你有一定的认识
上台表现至少会增加自己被录用的可能性 请大家一定要记住这个教训


接过ms的两个电话面试,没有消息


一个偶然的机会 我去过搜狗和百度面试

在搜狗面试的时候 表现的不卑不亢 后来在我回哈尔滨的时候通知我二面 在后来我也懒得去了 有个人的原因
后来在下午的时候去百度面试 经历了5个面试官 共3个多小时的面试
自我感觉不错的 其中有个面试官我以前认识
不过后来还是被那个科学家给拒绝了 我写信问过那个我认识的面试官
他说对我印象很好 但是具体情况未知 他说可能我与公司的用人准则不符的
百度可能不适合有头脑的人
...
这不是托辞 因为他只是一个实习生,马上要毕业了,不久就要离开百度,所以他的话
还是很可信的

总结教训如下:
我仔细回忆,觉得在最后一个面试官的时候自己表现不好,当时我感觉已经胜券在握了
所以没有很在意第五个面试官 因为前面几个我的表现都很不错
那时候自己有点得意 在做面试题的时候有些不够重视
最后一个题没有给出她满意的结果
也许被拒与这个有关系吧
所以告诫大家千万不要得意 直到offer到手了再说吧
同时一定要认真对待每个面试官每个题,哪怕是很小的题
千万不要掉以轻心

还无聊的去中兴面试了一下 没什么可说的 呵呵
......


这是我整个找工作的过程,我说说自己的感想吧
第一:工大学生质量有些滑坡
腾讯在很多地方校园招聘,看了一下在成都的招聘结果,总共50多人被录取
有5个左右的四川大学的学生,其它都是电子科大的,如果我没记错的话
在南京招聘,15人几乎都是南京大学的......
我看了一下在哈尔滨的招聘,情况很不同了,有黑龙江科技学院的 有黑大的 有理工的
有工程的 ...我没有看不起他们的意思 我只是觉得我们工大学生应该不会比他们差...
我不知道到底是工大学生质量滑坡了?还是HR看走眼了?这个留给大家去思考吧

第二:研究生最好就是多开发工程
至少我发的那几个论文对找工作几乎没有什么用处,开发工程才是正道,越多越好,工程的数目对HR很有说服力,比如A只开发了一个工程,但这个工程很复杂,但是HR并不一定了解它的复杂性,因为专业的不同,当A跟他说我做了某个工程,HR马上会问,还做过别的吗?A说没有了,那么一般HR对A的印象不是特别好
我觉得在如果大家研究生毕业就是为了找个好工作而不是读博士,请开发大量的工程,计算机类的同学练好编程才是硬道理,别的研究能力都是扯淡,你看看google的招聘就知道了
你看看ms的笔试题面试题就知道了...

第三:工大研究生两年不知道是不是研究生竞争力减弱的一个原因?

第四:工大位置对就业影响很大
计算机的学生很多都等着中兴华为过来,说得不好听没什么追求,但是也很无奈
因为很多大公司他们是不会来哈尔滨的,所以你看看水木的bbs,他们大部分讨论的是真正的大公司,因为北京的高校有很多的机会,我们不怕竞争,但是我们需要竞争的机会

第五:工大对就业不够重视
具体情况我就不用说了

第六:基础知识要牢固
腾讯的笔试题,很简单的,我看很多工大学生打了20-30分,呵呵,作对5个选择题
就20-30分了,我不知道他们怎么考的...所以请大家一定要学好基础知识 每个专业都有
本专业的基础知识

第七:校友的作用很大的
我希望毕业后的校友能多多关注母校,学校靠什么?很大程度上靠校友

第八:机会一定要靠自己去争取
那个搜狗和百度的机会都是我自己争取过来的,虽然没有成功,但是却有成功的机会
第九:一切都要靠自己
自己有真本事才是硬道理
仅供参考 欢迎讨论

2-----------------------------------------
对自然语言处理专业的研究生的建议

刚签约工作,心里总有些话要说,我的初衷是写出自己的想法,让大家借鉴,以期望各位同学能找到自己满意的工作,走好迈向成功的第一步。
我硕士方向是做自然语言处理,信息检索的,最近搜索比较热门,我本以为自己能找到比较满意的工作,例如去msn,baidu,东芝,富士通等比较知名的企业,google倒是可遇不可求了,一路走来,最后签约腾讯作搜索,总得说来一般满意,但是没有办法,人生总有无奈,人总要吃饭和生活,而且在腾讯作本专业相关的也挺不错的,所以算满意,而腾讯毕竟是小公司,并且在深圳,以后的发展,特别是对从事互联网行业的人来说发展是很受限的,再加上治安等其他因素,总的说来算是一般满意吧。我为什么没能去上msn,甚至去baidu也没有成功呢?细细想来,仔细剖析,得出如下结论:
自然语言处理的学生为什么没有想象的那么抢手? 、
最近搜索方向异常火爆,而在搜索中要用到一些自然语言处理的知识,很多做自然语言处理的学生,包括我,以为较容易找到自己满意的工作,而结果呢?结果我被baidu拒绝了呵呵,据我说知,在工大这边去msn,baidu的也很少吧?为什么现实会与我们的想象有很大的距离呢?原因如下:
1.自然语言处理在搜索中占得比重并不大,目前很多人对自然语言处理能在搜索中起多大作用持悲观态度。
2.工程在搜索中占得比重很大,大家听过google的报告都知道,google针对搜索这个特定的工程,已经对linux做了很大的改动,他们的并发访问、容错、安全等计算机工程上的东西做得非常好,而如果你仅仅有自然语言的背景,或者有幸发过两三篇论文,有所谓的创新意识,而如果你没有很强的编程能力,也就是说如果你没有很强的计算机基本功,你有自然语言处理的背景根本没有任何作用,除非你有很强的数学功底,对机器学习有很强的认识和理解,可是,又有几个硕士生能够做到?
建议:
1.脱下专业的外衣,摘下专业的光环,埋头苦干,闭关修炼,练好计算机基本功,如数据结构、算法等,李开复博士都介绍过那些重要的东西。
2.在学好基本功的时候,涉猎一些自然语言处理,信息检索相关的课题,这就是一个锦上添花的过程,千万不要以为有了专业方向就有了一切。
3.尽可能多地做工程,我觉得自然语言处理工程的东西比较少,所以硕士生得不到充分的锻炼,这也是咱们的劣势之一,所以应该想办法加强。
4.不要过多地涉及研究,除非是顶级论文,否则你发的论文对找工作没有任何的用处。
5.在应聘别的方向的工作时,往往有一些劣势,我记得有同学在应聘通信方向的工作时,面试官问自然语言处理是什么,他后来花了几分钟的时间去介绍自然语言处理,面试官首先就对你不感兴趣了,第一印象已经不够好了。
如果说你很想去msn,baidu之类的公司应该怎么计划呢?
1.练好计算机基本功
2.对信息检索和自然语言处理的基本技术要有深刻的认识
3.发过一些论文
4.对机器学习有深刻的认识
不过我觉得一个硕士生,特别是工大两年毕业的硕士生,能达到这些条件还是很难的,所以,如果你不能做到以上4点,你可以做好第1,第2点,特别是第1点,就算你没有去上msn,baidu这样与自己专业背景相同的公司,你也会有很多的其他选择,因为你具备了计算机基本功。

2005年11月16日

归IR:开始准备篇

上午NLC组全体员工大会,主要讨论我的mentor牛成老师负责的研究项目。讨论内容就是项目的背景,现状,以及下一步工作计划,不但包括项目的成果也包括论文的发表计划。会末我们确定了每位成员的行动列表和时间安排。由于我月底要离开这里回到哈尔滨,我需要在剩下的半个月里面将我完成的工作全部交接给今天刚到这里的南京大学的同学。当然还得将我前些日子关于我完成的题目中迸发出来的许多研究的ideas交给这位同学,但愿他能在后期将我的想法升华然后发出论文来,这样我的那些ideas也就不算枉费了。

剩下的15天我需要完成的工作还真不少,除了交接工作外还需要将项目的第一个版本的功能全部实现并且代码转交产品组。另外还需要在业余时间拜访北京地区的一些老师和同学,争取在我负责的指代消解研究工作中获得更多的新鲜的ideas。

所剩时间不多,我需要抓紧了。朋友你也要抓紧时间呀,时间真的如流水,一不留神就会流逝的。这让我想起了朱自清的《匆匆》中的那几句:

----------------------------
洗手的时候,日子从水盆里过去;
吃饭的时候,日子从饭碗里过去;
默默时,便从凝然的双眼前过去。
我觉察他去的匆匆了,伸出手遮挽时,他又从遮挽着的手边过去,
天黑时,我躺在床上,他便伶伶俐俐地从我身上跨过,从我脚边飞去了。
等我睁开眼和太阳再见,这算又溜走了一日。
我掩着面叹息。但是新来的日子的影儿又开始在叹息里闪过了。
----------------------------

2005年11月15日

游泳时间

最近一直很忙,每周的锻炼仅限于周一的一小时台球和周三的两小时乒乓球。前些日子在继续的跑步终于在工作和学习压力下淡出我的生活。感觉这样的日子还是有些不是很舒服的。

我们工作大楼地下一层有个健身房。它是早安中国中那个健身房的连锁店,设施和服务都是北京一流的。前些日子到这里问了一下,可惜不办理月卡。刚从Intern转为员工的Leishi在这里有了锻炼卡,多出了三张体验卡邀请我一起去体验一下。这个机会很好呀。邀上以前和我一起到阳光游泳池游泳的陈议,我们三人晚上七点半就往楼下“进发”了。

这个健身房各种锻炼设施都有,比起我们学校的健身房可真是好出很多。可惜游泳池比较小,只有21×7大小。比起阳光的25×15就差远了。嗯,毕竟不是专门的游泳馆呀。

记得上次游泳好像是一个月前了。隔了这么久感觉自己游泳的体力下降了不少,游了十几个个来回就不想游了。洗完澡后感觉还是非常的舒服的。嗯,等到俺下个月回到哈尔滨后一定要坚持经常去游,据说哈尔滨黑大的游泳池可是50×25的呀^_^

2005年11月14日

给你一个支点……

北航自习主楼门口有个叫做“支点”的艺术建筑,下面的铭牌上写着一句话:“阿基米德说,给他一个支点,他能撬动地球。如果给我们一个支点,我们会……”。(大意如此)
给你一个支点,你能做什么呢?
支点难求,但是有了支点你会否珍惜呢,或者你是否还没有发现就在你身边的支点呢?

2005年11月13日

破坏规则&打造更好的新产品

前些日子从慕华那里借来了这本《Google成功的七堂课》。按照原定计划今晚开始学习。这本书详细介绍了Google创业到现在经历的许多的事情。网上得介绍请见Google成功的七堂课
本书共有七课:

•屡屡打破规则,标新立异
•以更好的产品,后来居上
•拿整个世界当实验室,精益求精
•时时以顾客的体验为念
•因为分享,所以成功
•想方设法吸引顶尖的员工
•不使坏也能赚大钱

今晚学习了前两课:破坏规则、打造更好的新产品。这两课的目录如下:
第一课 破坏规则 1
聪明而自信 2
向旧框框说不 5
世纪大拍卖 8
花与股票 9
跳过中间人 10
不重蹈覆辙 12
与狼共舞 14
有本事才能大声 16
行销高手 17
新股亮相 19
募集2 718 281 828美元 20
首日交易价格大涨 22
启示 23
定价透明,一切好办 25
买卖双方同受其惠 27
第二课 打造更好的新产品 31
互联网的灰姑娘 34
网页等级(PageRank) 36
庞大的数据库 38
重新“发现”搜索引擎 40
关键字广告 44
网络搜索战国时代 47
雅虎酋长复仇记 49
微软秣马厉兵 52
秘密调味酱 53
桌面搜索 56
不做门户网站 57

两个小时的阅读过程中我摘录了一些让我感受深刻的一些句子。和大家分享如下:

P7: 为了孕育创造力,他们将继续鼓励员工花20%的时间研究自己感兴趣的构想,而不是听命行事,做上级指定的项目。
Note: 这个事情非常的重要,对于一个技术创新的公司,没有创造力就等于灭亡。而创造力的获得不是一个人能够完成的,上面的领导也不能完全制造出所有的技术创新,他需要每位成员一起头脑风暴般的行事。咱们个人的研究生涯中也需要流出一些时间来完成自己最想完成的与当前事务不是非常相关的构想,这样才能保持持续的研究动力和热情,将研究进行到底!

P8: 在让Google的演讲人评价自己和雅虎时,他们说:“我们的产品比他们的好,下一个问题!”
Note: 在别人眼里,这句答复的确有些高傲的成分,但是它也反应出了Google行事的原则:简单实在!而且在那种场合下过多的对比反而会不明智,真是恰到好处的答复。

P36: Google从一开始,追求的就是一尊完美的搜索引擎。依照佩奇和布林的定义,所谓完美的搜索引擎,是指丝毫不差的了解你的意思,也丝毫不差的给你想要的东西。
Note: Google一直在完善和提高着他们的搜索技术。这个过程中理解用户的意图是非常重要的一步,这也位我们哈工大正在研究的问答式的信息检索留下了足够的研究空间。以前我参与过的基于聊天的信息检索也是一个非常有分量的研究课题。理解用户的需求同时也为我们正在进行的指代消解的研究留下了非常广阔的空间。

P37: anchor text在Page Rank算法中有着非常重要的作用,它虽然一定程度上不是很良构,但是它汇总了所引用网页的内容。
Note: 这个东西非常有用,让我想起来先前看过的一篇Anchor Text Mining的文章。非常值得继续的一个题目。

P38: Anatomy of a Large-scale Hypertextual Web Search Engine。这篇论文(可以翻译成《大型超文本网络搜索引擎解剖》)中佩奇和布林描述了Pagerank依照网站被链接的次数多寡,建立索引和排序,以及按照哪种顺序显示搜索结果,需要做那些复杂的数学运算。
Note: 经典的论文,需要细致认真的阅读。一定要抽事件来看看。

P43: 结识于斯坦福大学校园的佩奇和布林,利用信用卡创立公司,专门做好一件事。他们只提供搜索业务,不提供理财指南或者网络聊天。Google搜索引擎的拼字检查功能和工具条等种种创新,使得寻找信息成为既快又准的体验。
Note: 专注于一点才能将全身的力量发挥到极致!

P52: 雅虎CEO,泰利.席梅尔(Terry S.Semel)已将Yahoo带向下一块新疆土:量身裁制搜索(Customized Search)。席梅尔打算提供视个人品味、兴趣,甚至是所在位置,提供各取所需的搜索服务。广告主已经蠢蠢欲动,准备迎接这群目标明确的受众。要提供这种量身裁制的搜索服务,必须先搜集个人信息。这方面Yahoo绝对居于优势。它已经聚集了1.41亿名用户的基本资料,Google确等于0。
Note: 个性化时代的到来需要我们准备好各种相关技术,迎接挑战需要大家的通力配合!

P60: Google的成长历程给我们的另一个启示是:最坏的时机,也许正是最好的实际。不经历一番寒彻骨,怎得梅花扑鼻香?经过艰困环境洗礼得企业,体质更加坚实!
Note: 对企业如此,对实验室,对个人也是如此!应该感激挫折和失败。因为,它们让你成长!

待续……

HIT-机器学习小组第三次活动内容征集

这是我在HIT-IR-BBS-Machine Learning版发的帖子
link:
http://ir.hit.edu.cn/cgi-bin/newbbs/topic.cgi?forum=20&topic=433&show=0
-----------------------------------

亲爱的各位同学以及校外的朋友,
你们好!
今年3月份我们HIT-Machine Learning Study Group在几十位热心朋友的支持下成立了,并且分别在2005年3月12日和4月16日举行了我们的第一期和第二期讨论活动。两次活动的内容如下:
下载链接:HIT-IR-BBS-Machine Learning版FAQ on some hot topics
http://ir.hit.edu.cn/cgi-bin/newbbs/topic.cgi?forum=20&topic=327&show=0

第一次活动:SVM综述
1svm简介-skiffer.ppt
2SVM-bbs-caddie.ppt
2人工智能报告-caddie.doc
3SVM研究-quietsea.ppt
3支持向量机简介-quietsea.ppt
4Feature Selection-billLang.ppt

第二次活动:各种工具使用经验交流
1car_Overview_Machine_learning_for_NLP Overview ML4NLP.ppt
2quietsea_libsvm
Data sets
Libsvm-2.6
Libsvm-2.6使用介绍.ppt

在两次讨论活动中我们得到了诸多方面的大力支持,诸位朋友也在讨论会上尽情的发言,大家的收获都是巨大的。我们在这个过程中受益很多。之后原定计划是5月17日举行第三次活动,但是由于一些原因没有能够如期举行。这样一种非常良好的活动形式为什么不继续下去呢?咱们的活动内容活动形式都可以在原有基础上充分的发展下去。

通过和一些朋友商量之后,我们感觉12月份是一个非常好的季节,在2005年的最后一个月里我们希望举行一期机器学习的讨论活动,因为半年过去了,朋友们在机器学习方面都有了很多更新更好的认识,为什么不在和大家分享的过程中完善自己的想法,锻炼自己的能力吸取新鲜的思想呢?

这是一个很好的机会,想必大家都会珍惜的。

在此,向大家征集讨论内容,感兴趣的朋友请回帖注明你最希望了解到什么,你愿意和大家分享什么:
模板:

id:……………………
wish to know:……………………
like to share:……………………

大家一起行动起来吧,这个过程中你将会受益无穷的。除了哈工大的朋友,我们也热情欢迎外校的朋友一起来参与。

申明:12月的讨论会只邀请那些参与回帖的朋友。



2005年11月12日

Good book-The Art Of Unix Programming


It was a very nice book. We could read the reviews about it as following:

Writing better software: 30 years of UNIX development wisdom In this book, five years in the making, the author encapsulates three decades of unwritten, hard-won software engineering wisdom. Raymond brings together for the first time the philosophy, design patterns, tools, culture, and traditions that make UNIX home to the world's best and most innovative software, and shows how these are carried forward in Linux and today's open-source movement. Using examples from leading open-source projects, he shows UNIX and Linux programmers how to apply this wisdom in building software that's more elegant, more portable, more reusable, and longer-lived.

There were 17 rules about it. Each one was very classical. But they were not simple design patterns. I believed they were better than that.
1. Rule of Modularity: Write simple parts connected by clean interfaces.
2. Rule of Clarity: Clarity is better than cleverness.
3. Rule of Composition: Design programs to be connected to other programs.
4. Rule of Separation: Separate policy from mechanism; separate interfaces from engines.
5. Rule of Simplicity: Design for simplicity; add complexity only where you must.
6. Rule of Parsimony: Write a big program only when it is clear by demonstration that nothing else will do.
7. Rule of Transparency: Design for visibility to make inspection and debugging easier.
8. Rule of Robustness: Robustness is the child of transparency and simplicity.
9. Rule of Representation: Fold knowledge into data so program logic can be stupid and robust.
10. Rule of Least Surprise: In interface design, always do the least surprising thing.
11. Rule of Silence: When a program has nothing surprising to say, it should say nothing.
12. Rule of Repair: When you must fail, fail noisily and as soon as possible.
13. Rule of Economy: Programmer time is expensive; conserve it in preference to machine time.
14. Rule of Generation: Avoid hand-hacking; write programs to write programs when you can.
15. Rule of Optimization: Prototype before polishing. Get it working before you optimize it.
16. Rule of Diversity: Distrust all claims for “one true way”.
17. Rule of Extensibility: Design for the future, because it will be here sooner than you think.

2005年11月11日

Model Selection

Do you know model selection? I heard it this afternoon. There were many related techniques. Originally, I believed it was about choosing a better model from several different models. For example, one of ME, one of SVM, other one is of Decision Trees. I did not know any other method except comparing the final accuracy and recall.

After discussion some friends, I knew it was about based on one model for choosing the best parameters. The over-fitting problem was well known. How to avoid it? We could use some criteria for measuring. For example, we could use Maximum Description Length and others.

It was different from selection of models of different mechanism. So I had one idea about selection. We could do a lot of selection, such as data selection, feature selection, models of different mechanism selection, model(parameter selection). There were so many selections, but how to select? It was a big problem. We should have a nice architecture to solve it.

2005年11月10日

Professional?!

今天和网友们在天大BBS人工智能版和别人讨论了下面这个题目:
一个母亲有两个孩子,其中一个是男孩,问另外一个是女孩的概率是多少?
刚开始的时候我想当然的认为是1/2。因为第一个孩子是男是女对第二个孩子没有任何影响的。

经过在网上和朋友的讨论,发现我的想当然的结论是错误的。因为其中一个非常关键的字眼是“其中一个是……”,这种情形下的概率需要考虑成两个孩子的是无序的。记得大一的时候就学习过这种题目,有序环境下的概率和无序下的概率是不一样的。我的后来的一个详细的推导如下:
---------------------------------------------
首先题目很容易想成是“一个母亲有两个孩子,第一个是男孩,问第二个孩子是女孩的概率是多少?”这种情况下的推导是
P(B=女孩|A=男孩) = P(B=女孩,A=男孩)/P(A=男孩) = P(B=女孩)×P(A=男孩)/P(A=男孩) = P(B=女孩) = 1/2
即答案是1/2

而实际上题目中所指的两个孩子是没有顺序的,不能假设他们的大小关系

表格证明如下:
考虑两个孩子的大小时,两个孩子A、B的性别有如下八种可能:
A B 其中一个孩子是男孩时考虑 另外一个是女孩
大、男 小、男 yes
大、男 小、女 yes yes
大、女 小、男 yes yes
大、女 小、女
小、男 大、男 yes
小、男 大、女 yes yes
小、女 大、男 yes yes
小、女 大、女

因此题目中的概率应该为 4/6 = 2/3

记得大一时上概率的时候就专门练习过有序和无序的概率是不一样的,呵呵,现在看来俺应该从新复习一下大一的概率论了 ^_^
---------------------------------------------

这个事情让我想到了一个问题,那就是做学问过程中的潜台词。举个例子,多人同时阅读一篇经典论文,但是各自的理解都不完全相通,大家都会根据一些想当然的事实和背景知识来推理一些东西。这个过程中容易出现各种各样的问题。这就说明咱们做研究的过程中需要对一件事情处理过程中的每个细节都不能放过,一定要非常严谨的完成每个步骤,这样作出来的东西才是经得起推敲的成果。

做事必须处处Professional!这就是这件事情给我的启发。

2005年11月9日

法语编码处理经验小结

近些日子在处理一些法语文件的时候,总是在Ultraedit里面看到很多非常生僻的汉字,就像乱码一样。原因好像就是那些法语中带帽子的字符附近的编码存在问题。为了解决这个问题,我采用了很多种可能的办法。用python中的encode和Unicode处理过,用mentor撰写的c++版的encode和Unicode转换过,用c#的指定打开格式和输出格式的方法重写文件……。这些方法一一都不奏效。或许我还没有掌握其核心方法。

查看文件编码最好的方法就是用ie打开然后右键单击看自动选择编码方式的结果。今天意外用ie保存一个文本文件时看到了一个编码格式的选择,我把那些自动编码为西欧字符集的文件用Unicode utf-8保存后再用ultraedit发现可以正常显示了。这种方法对于转换小文件非常的高效实用。但是处理大文件时IE打开文件的时间会非常的长。

这种方法还需要进一步的研究一下。

2005年11月8日

Blog&Wiki with 信息抽取

随着Blog和Wiki时代的来临,以及RSS应用日渐壮大,现在的自然语言处理面临了新的挑战。以往的信息趋向于规范化,现在的信息非规范化的程度越来越严重。在这种情形下咱们原本积累的技术就需要可持续,自适应的发展下去。在这种每日信息量剧增的时代,如何做好自然语言处理及涉及到的信息抽取的问题就越发严重起来。

信息抽取主要包含实体抽取,共指抽取,关系抽取,以及再上层的模板生成与内容自动填写。这些东西的研究都需要很多的底层资源的支持。为此我们应该做好那些底层的相关资源和技术的积累工作。其中涉及到的每个环节每个细节都需要我们严肃认真的对待和完成,需要做到professional级别。

Good chance! Try more and do more! @

2005年11月7日

Good research chance on wikis and blogs

NEW TEXT - Wikis and blogs and other dynamic text sources

Trento, Italy April 3, 2006

newtext@sics.se

http://www.sics.se/jussi/newtext

Call for participation

The EACL 2006 Workshop on New Text will be hosted in conjunction withthe 11th Conference of the European Chapter of the Association for Computational Linguistics ( EACL, http://eacl06.itc.it/ ) that will take place April 3-7, 2006, in Trento, Italy.

New types of text sources, multi-lingual, with numerous cooperating or even adversarial authors and little or no editorial control are one effect of the recently dramatically lowered publication threshold.

Many contain linguistic items or features classically associated with spoken language - combining the high interactivity of dialogue with the low bandwidth of written text and with the multicasting capabilities of digital communication.
New material published today most noticeably includes *blogs* - a genre that has evolved from diaries, logbooks, commentaries, columns, and editorials into a multi-faceted and networked churn of text with widely ranging viewpoints and perspectives and varying application and ambition on the part of the creator. One of the most noticeable charateristics of the blog genre is its opinionated nature and its timeliness. Blog texts are often ill-edited and hastily cobbled together in a language reminiscent of brief notes, spoken asides, or short letters, rather than of essays or newsprint. This, at any rate, is the public perception.

Another emergent genre is that of the *wiki*. More closely patterned on a classic text genre, that of the encyclopedia, wiki texts are written and edited by open teams of authors. In contrast to blogs, wikis have high ambitions as regards factual correctness, persistence, editorial quality, and trustworthiness.
Bridging the two are genres such as discussion boards, web fora, and mailing lists.

Let us call these various new types of text (or indeed other modes of linguistic communication) collectively NEW TEXT.

THIS WORKSHOP is intended to discuss the analysis and application of new text, formulate research measures that are crying out to be taken, discuss which methodological steps are obsoleted, and which babies can be saved from the bath water.

NEW TEXT - Challenge questions

NEW TEXT provides a number of research issues, immediately obvious questions, and tentative applications for our research fields:

1. New possibilities for the philologically inclined: How does new text cast new light on human communicative behaviour? This includes question on style and genre: the characteristics of new text and relations to traditional media. Do blogs in fact resemble spoken language in any important way? Do wikis hold up their promise of qualitative information dissemination?

2. New challenges for building text analysis tools -- how are the today's algorithms portable to new text? This includes questions on multilinguality, code-switching, register variation, and formality melange apparent in new text.

3. New challenges for evaluation methodologies for information access
systems:

+ Can new text, with dynamic information sources and streams of variable quality and impact be plugged into relevance-oriented evaluation frameworks without revising the target notion of text relevance?

+ Some new texts have high social impact; some sink without a trace; some have high import in tightly knit circles and communities. Traditional media have sales figures, citation indices, and distribution analyses. How can the impact of new texts be analyzed?

+ New texts have variable perceived intellectual status and quality -- how can it be measured and predicted?

4. New opportunities for new services -- e.g. linking different types of text in dynamic and interactive sessions of information refinement and elaboration.
Signing up for the workshop

To participate in the workshop: begin by announcing your interest to us (newtext@sics.se) as soon as possible! We may be sending out a data set and a common task for everyone to play with before the workshop.

If you wish to present your work or your ideas at the workshop you are invited to submit full papers on original, unpublished work in the topic area. A presentation should address some of the challenge questions stated above. We are also thinking of making a sample text set available for experimentation for all participants before the workshop.

Submissions should be formatted using the EACL 2006 stylefiles with overt author and affiliation information and not exceeding 8 pages.

The EACL 2006 stylefiles are available at
http://eacl06.itc.it/submission/submission.htm .

LaTeX submissions are much preferred.

Please send your PDF file no later than January 6, 2006, to newtext@sics.se
Each submission will be reviewed at least by two members of the programme committee. Accepted papers will be published in the workshop proceedings.
Dual submissions to the ma in EACL 2006 conference and this workshop are allowed; if you submit to the main session, do indicate this when you submit to the workshop. If your paper is accepted for the main session, you should withdraw your paper from the workshop upon notification by the main session.
Important dates

* Deadline for workshop paper submissions: Jan. 6, 2006
* Notification of workshop paper acceptance: Jan. 27, 2006
* Deadline for camera-ready workshop papers: Feb. 10, 2006

Workshop program committee
* Jussi Karlgren, SICS (chair)
* Shlomo Argamon, IIT
* Bj?rn Gamb?ck, SICS
* Michael Gamon, Microsoft
* Gilad Mishne, University of Amsterdam
* Martin Svensson, SICS
* ?zlem Uzuner, MIT

2005年11月6日

挑战人生享受人生--MS^2培训后有感

短短三周的MS^2课程已经结束了,从第一堂课的大家彼此之间的不是很了解和不敢随时发言,到最后一堂课上各个小组精彩绝伦的组合演讲,以及最后晚餐时大家畅所欲言自己所学到的感受最深的东西。可以说,我们所有学员都经历了一种人生的升华。这其间有忙着写作业、准备资料直到凌晨的疲乏,还有课堂上老师幽默的风格让我们开怀一笑,也有我们大家一起合作制作纸塔以及一起到大街上害羞的收集25个签名的时候。整个过程都是那么的精彩,那么的让人难以忘怀。

从中学习到的东西有太多太多。我最大的一个感受是我们都有了更大的信心和勇气去挑战生活中遇到的各种问题,以及把握遇到的可能的各种机遇。总的来说我们学习到了一下几个方面的内容:企业文化、时间管理、职业素质、商业礼仪、交流技巧、产品生产周期、项目管理等7大项。每一项其实都可以单独拿出来好好的汇报一下。这一点可以从我们已经撰写完的如下几篇blog中了解到:

October 20, 2005 MS^3
October 22, 2005 MS^2第二堂-时间管理
October 24, 2005 公司与个人成长
October 29, 2005 25 signatures
November 03, 2005 Good to Great
November 04, 2005 MSN Messenger8.0项目计划书
November 05, 2005 Xiaoning Lin & MS^2 Final Day!

这里我感觉可以写下的东西很多,但是如果草草了事有可能只是每次课堂上学到东西的简单的罗列,这样还不如直接去看已经写好的几篇blog。我在想这门课之前和之后我究竟发生了什么“化学变化”。以前的时候我也经常听到很多精彩的报告,也有过很多很深的感触,自己也做到了一些,但是还有很多东西都没有很好的去落实。还记得培训的第一堂课和最后一堂课我们的华老师都给我们讲述了这样一个事情。那就是他也不指望我们把课堂上学习到的那些感觉很好的东西都一一照作,只要我们能够每堂课上的内容照作一点点就行的。所以我自己的目标也是认真严肃的整理出几条自己感觉很能采用上的几条。如下的几点我想我自己需要踏踏实实的去做。

1。时间规划
所谓人无远虑,必有近忧。如果时间没有安排好,肯定会经常出现手忙脚乱的情形。以往自己也经常做时间规划,每次规划安排各个时间段的任务的时候都安排得非常得充实。但是等到后来经常会出现前面得几条完成得非常好,但是后面得几条确总是不能按时完成,结果时间过去了,导致原先得计划等于没有做过。我想其中有两个最关键的原因。

一我把时间安排得太紧太满,没有充分考虑到很多可能的突发事件,或者完成某件事情的时候没有很好的估计好可能的时间。这个问题其实也是非常的严重。现在我知道了这个问题的本质原因,那就是自己过分自信了一些,安排时间的时候总认为自己能够准确无误的恰到好处的完成。这个毛病不是我一个人有的,这是年轻人的通病。一个很好的解决方案就是首先紧紧的安排好所需要的时间计划,然后将这个计划中的每个时间段的长度乘以三。这样下来再微调一下完成事情的顺序。这样安排出来的计划一定能够得到很好的执行,而且不会出现计划等于浪费时间的情况。

二是以前没有很好的处理好紧急而不重要的事情和重要而不紧急的事情的时间分配上的关系。正如October 22, 2005 MS^2第二堂-时间管理下面的那个二维表格中指出的现状那样,我现在也是将二者的合理时间分配比例倒置了。以后再处理事情的时候我的解决方法是在首先保证完成重要而且紧急的事情基础上,快速完成紧急而不重要的事情,然后集中精力完成那些重要而不紧急的事情,时间分配上应该是 重要且紧急:重要不紧急:不重要但紧急 = 2:7:1。三种事情都应该在自己的TODOLIST里面每天至少更新三次(早上,中午,晚上)三个时段工作下来获得的结果想必肯定是非常完善的。还有一点是要注意工作的效率,正常工作的时候需要全身心的去工作,周末休息的时候需要完全放松的去休息,而且还有一点是每周要坚持至少三次较大量的运动。

2。交流技巧
其实交流技巧在我们的生活中需要很多很多。最为基本和永远不会错的方法是真诚的去和别人毫无猜忌的交流。在这个基础上只需要加上一些必备的商务礼仪或者职业规范,那就能够很好的解决交流这个问题。当然在不同的场合需要不同的交流方法,在真诚的基础上稍加注意就能取得良好的效果。当然交流的最终目的是为了和别人达成目标中的一致,出现分歧的时候不要去恶意批评和打击别人,而是应该把问题摆在台面上,互相认真的分析问题,找出分歧的本质所在,然后达成一致,从而实现交流的最终目的。当然,这个过程中需要有耐心,而却认认真真的去和别人探讨。

心诚,仔细,耐心,终能达成一致!

3。做好身边的小事
这一点其实在交流技巧课上老师也强调了很多次,之所以单独列举出来,是因为我觉得它得重要性不亚于交流技巧。它其实是涉及到如何做人的问题。那么多大的事情是身边的小事呢?在这边我听到过很多的例子,比如出入电梯的时候为后面的人把一下电梯门,用完卫生间后冲一下,轮到你做的打扫卫生之类的事情不要因为是干净的就不需要打扫,看到周围的同学同事有困难了顺手帮助一下,等等。

古语云:不因善小而不为,不因恶小而为之。说的就是这种事情。人的习惯和修养的养成不是一朝一夕的,这些小事的完成能够让你养成良好的习惯,从而培养起专业化的素质,通过你的行为会影响到你周围的人,大家在一段时间的效仿之后就会形成一种集体的作风,身边的人都这样相互对待,那么你会感受到这种氛围带来的便利以及大家心声上的共鸣。


4。项目管理
有人说人生就是一个项目,需要采用项目管理的方法来进行运作。Xiaoning老师说做科学研究其实也是在不断的完成项目,只是项目使用的模型和通常的项目开发模型不是非常的一致,而是需要采用Code&Fix的方法。Xiaoning老师还说如果能够重来一次,需要进行人生目标分析,概要设计需要的技能和培训过程,然后分阶段并行的实行详细设计、实践、测试、总结,以及经常的综合集成与再次设计。我觉得求学过程也是一个项目,只是这个项目中的模型不是一个非常清晰的模型,而是许多模型的综合交错。如何将这个项目管理好,这是一门非常重要的学问。

在完成项目之前,一定要好好的分析项目的类型,然后进行良好的选取开发模型,之后再进行具体的动作。这个过程完全是具体问题具体分析的过程。

------------------------------------------------------------------------------------------------
总结:以上总结的几条中,我终于分析得到了自己在课程前后对比发生的“化学变化”。对于这门课程我非常的感激,感谢华老师的无私教导,感谢同堂同学门的相互指点和学习,感谢MSRA创造了这样一种教学模式和教学内容。

2005年11月5日

Xiaoning Lin & MS^2 Final Day!

一想到是MS^2培训的最后一天大家上起课来都感到振奋有余 ^_^
上午的学习内容是Product Lifecycle Models,主将人是Xiaoning Lin博士。在简短的自我介绍后我们得知他是98年和开复一起建立MSRA的创始人之一,有着多年丰富的项目管理经验。开篇主将的内容和我们当初在学习软件工程时的内容差不多,但是挺起来缺非常的好懂。Xiaoning老师给我们介绍了每种模型的使用范围和情况。我首次听说了作研究其实也需要Lifecycle model,这种模型非常的简单,就是软件工程里面的Code&Fix模型。其实本质上就是想到一个新的idea,然后立即实现,然后要么发出论文,要么作出项目。在介绍中强调的Parallel WaterFall我感觉很像现在大型的项目开发下面的工程模型,总体设计之后划分为小块然后进行详细的设计编码测试,最后是汇总的集成与测试。对于那些需求不是很明确的项目,Incremental的模型比较好,根据用户不是很明确的需求先快速开发一个原型系统,然后根据用户的反馈修改,直到用户满意后再开始最后一次的详细设计与实现。还有一种比较
实用的开发模型就是Staged Delivery Model。就是将需要开发的项目中的Features按照重要性和关联性分成几个类别,然后每个阶段实现一部分,每个阶段发布一个版本。在Microsoft中流行这两种模型:Shrink-Wrap 和 Service。前者和常见的分阶段并行设计方法大同小异,后一个模型主要是针对现在网络时代下的快速开发模型。在提问阶段我向Xiaoning博士请教了现在流行的XP编程的事情。他说这种模型非常的好,现在美国总部那边有人正在进行详细的研究。现在Visual Studio 2005中已经部分囊括了XP编程的理念。这样看来以后需要进一步的学习和使用XP编程的方法。

随后的课程Xiaoning老师介绍了他的24年计算机生涯,以及如果返回求学时代会作些什么。其中提到了一个很有名的论断:

改变你能改变的;有度量接受你不能改变的;有智慧区分你能改变的和不能改变的。

这句话我以前也听说过,Xiaoning老师说它的出处是Bible。同时Xiaoning老师的理解和建议是:

改变我们自己,在现有的环境下,最大限度的实现自己的理想。

Xiaoning老师的报告中提到了几种事情上不同的境界,我归纳整理如下:
学习的境界:
-学会答案
----学会一个解
-学会方法
----学会一种方法
-学会学习
----学会找到方法的方法
-学会做事
----超越“纸上谈兵”,与实际“融会贯通”
-学会做人
----学会做有价值的自我
注:在Xiaoning老师讲这个之前询问我们对于学习的本质的理解。我举手说是学会如何学习。后来他说有人提到过:所谓大学就是
你学完之后忘记所学的一切之后剩下的东西。关键是要学会如何做人,也就是所谓的素质。这才是根本。我觉得这个说法很有道理,因为做人是一辈子最关键的事情,其它事情都是能够付之努力就能学到的。

编程的境界 vs 写文章的境界
-学会写程序 vs -学字、词、句、文法、句法
-学会高效的写程序 vs -快速写文章
-学会写高效的程序 vs -写简洁明快的好文章
-学会设计程序 vs -对于不同文章选择结构、流程、方法
-学会设计有用的程序 vs -写人们喜欢看的文章
注:联想自己的编程和写文章,我现在都还处在第二个境界,看来这方面还需要我投入很多的时间。

学习数学的境界
-解数学题
-物理问题->数学问题
-实际问题->数学问题
-实际问题->数学问题->软件解
注:以前多次参加过的数学建模竞赛仅仅让我处在了第三个阶段,至于完全自己编写软件来解决问题,我还需要多多的锻炼。

Xiaoning老师讲完这些后给我们讲述了“如果我能重新开始”。提到的几个要点如下:
-确立相对明确的目标
-根据这一目标确定要掌握的专业、课程、技能和知识
-选作大量的相关实践项目
-对每一个实践项目
--确立一个模拟的实际工作中的用户场景
--尽量以实际工作中的方法和标准做每件事
--碰到不会的东西,虚心向这方面比较专业的人员请教,并且切实掌握
--团队合作中尽量做好自己的,让团队取得最大限度的成功

年轻人比起年长者的优势在于年轻,年轻就是资本。当拥有年轻的时候一定要敢于创,敢于理性的冒险。做事时一定要在保证生存的情况下不要估计钱的多少,做自己真正想要做的和让自己快乐的事情,这样才能最大限度的实现自己的人生价值。


尾注:以上很多东西都是罗列出来的,细细品味才能发现其中本质的东西。

2005年11月4日

MSN Messenger8.0项目计划书

昨天MS^2课程上老师给我们布置了一个作业,那就是完成一个项目计划书,每个小组的题目不一样,我们组的题目是《下一代MSN Messenger的设计》。这几天我们小组的每位成员都非常的忙,有的在赶www的论文,有的在忙着工作的面试,有的在赶mentor的项目进度。我们商定用一个晚上的时间来完成这件事情。
晚上6:30我们在5楼的Lounge集合,海滨,太峰和我,我们三人开始了头脑风暴式的讨论。在我们对于当前msn messenger以及众多的IM之中进行比较后我们分析得到了如下的一些结论:

下一代的MSN Messenger应该是一个完全个性化的,人与人之间进行良好交流的平台,而且能够完成个人网络信息代理的功能。基于此我们讨论除了下一代Msn Messenger应该具备的三个特点:智能专家,贴心宝贝,真实感聊天。

其中智能专家需要完成良好的自然语言交互级别的信息获取,需要在一个很大的服务器上构建Hierarchal的Automatic expert系统,然后在和用户进行信息交互的过程中实现Hierarchal结构中的动态转移以及协作,从而在对话中完成用户的信息获取。

贴心宝贝需要完成的是个人关注的或者相关的信息的采集与整合后的信息推送服务。比如订阅RSS等信息源时需要进行RSS的推荐和针对个性化的信息归纳整合然后推送,比如用户可以进行阅读,收听等多种方式。当然这个过程中需要对各种信息的重要性根据个人的profile信息进行自适应的生成和有选择的整合推送。

而真实感聊天我构想了很多的特征。首先需要让聊天的个体感受到一种虚拟真实的两天场景,类似于可视电话的形式。其中的个性化定制方面,用户只需要输入一些日常拍摄的DV或者一些个人喜欢的照片,然后就会生成与用户个性相关的卡通人物。用户可以选择自己喜欢的场景,比如树林中,海边,湖边等等。在聊天开始的时候可以在公有的聊天环境里面进行profile的共鸣。比如我们预先在profile采集系统中获得的用户profile中获得的个人感兴趣的东西,如果交谈双方都有相通的一些兴趣,那么在聊天三位的初始场景中就能高亮看到这些东西,这样在进行聊天的时候可以非常方便的进行下去,而且也会效果良好。在聊天的过程中我们需要的是语音聊天,现在已经可以根据用户的语音来判断用户的表情,我们在适当实时采集用户的手势以及肢体语言,然后在三维的立体场景中将预先生成的用户个性人物完成表情与肢体语言的匹配。这种聊天环境下用户体验到的将是一种非常真实的感受。在聊天过程中我们可以根据大家讨论的内容自动生成信息岛屿,每个岛屿上生成实时的聊天主题以及主题下内容的自动树型结构生成。这样在三位场景中用户实时聊天可以知道到目前为止都聊了那些内容,哪些需要进一步的讨论,哪些可以告一段落。其中一个功能是专门针对头脑风暴这种类型的聊天的,那就是根据聊天过程中生成的信息岛屿来自动生成讨论的最终结果并且讨论后发送给各个参与讨论的用户。

上面的三个模块都需要一个Profile Management的模块来进行支持。根据近几日的新闻显示,微软等关注搜索的公司都将做这种工作。我们定义的用户profile的管理氛围三个步骤,首先是初始化的用户填表,然后是根据用户在使用电脑的过程中的使用习惯和经常阅读的文档的内容来自动分析用户的profile,还有一点就是profile的自动反馈更新,更行过程需要获取用户的经常性的变化的行为模式。由于这个部分的工作可能会在近期出现一些相关的研究工作,所以我们可以充分利用其它研究小组的研究成果。

我们的头脑风暴进行到了晚上8:30左右才结束,之后大家按照老师预先给大家参考的一个模板以及我们定义好的三个模块进行分工。等到11点我们完成了各自的第一个draft,然后我们开始合并三个slides进行讨论。整个过程还算顺利,只是等我们回到寝室又像昨晚一样是凌晨以后了。有付出才会有收获,相信我们明天的演讲一定能够取得成功!

2005年11月3日

Good to Great

聆听这种大师级的演讲已经有很长一段时间没有过了。晚上的MS^2培训课上MSRA形象计算组的徐迎庆老师给我们《随便聊聊》了一下。一个半小时的演讲让我感受到了这位学者的风采以及他的个人魅力。其中讲述了他20多年的工作体会,以及其中对于做人做事的一些感悟。我备受感慨的一些体会如下:

From Good to Great
其中提到的一个例子是我们进口了德国汽车的原装生产线,配件也是从德国进口的,在中国完成的只是一些简单的装配任务,但是现在的情形是中国装配出来的德国汽车就是要比德国本土装配出来的汽车质量要差一些。徐老师在德国求学的时候就向他的一位朋友询问过这个事情的原因。了解得到的答案是德国人在装配汽车的时候追求的高品质即Great,而在中国转配汽车的时候追求的是转配好即Good。这就是其中的差异。现在有一本书名叫Good to Great,其中讲述了很多事例。我们在做研究的时候其实也是一个道理。其实作研究就是那么几个常见的步骤,但是为什么别人能够做到世界最好,出来那么多的成果,是因为别人一定比咱们聪明很多么,我想不是这样的,那是因为咱们常常出现的情况是每个步骤都比别人完成的要差一些,最终的结果自然就是比别人的综合水平要比别人低一些,那么为什么咱们不能够做到和别人一样好,甚至比别人更好呢。争取把每一步都做到最好,做到professional的水平,最后的结果一定也会是Great的。

做事一定要有计划
这个事情我也反反复复的想过和做过很多次了,不外乎就是做好月度、周度、日度计划,然后实行。为什么常常会出现那些不是很恰当的计划,并且在最终的执行过程中每每出现不能很好执行起来的情况呢。我想原因不外乎是计划做的不好。这个事情其实就是一个自我管理的过程,其中需要好好的揣摩和体会,最终才能找到真正适合自己的时间管理方案出来。

徐老师给我们讲述了他给他指导的每位VS都讲的一段话:学好做好两三年,受益二三十年。扎扎实实的做好每件事情,一定会出来成果的。两三年的努力得到的将是终身的高质量的精神生活和物质生活。其实我觉得这个过程就是一个获得良好习惯和品质的过程,这种东西在求学时代做好了,肯定会受益终身的。

从头到尾徐老师还一直在强调意见事情,那就是小处一定要做好,这样才能养成良好的习惯,养成一个好习惯不容易,需要随时保持,但是养成一个坏习惯却是非常容易的事情,一不小心就会失去很多的东西。

讲课过程中徐老师提到了一首他很喜欢的诗。那是阎锡山的诗:

做人要天天进步以求新
谁新谁存在
做事要见见认真以求对
谁对谁成功

这个需要细细领悟,我现在也非常喜欢这首诗了。

2005年11月2日

Keep going on your ideas!

This evening, when I was off duty, I returned to BUAA for the ping-pong club activity this evening. When I walked on the streets of BUAA, I felt I was a stranger here. Nobody recognized me. Nobody knew me. It was a strange feeling.

I thought more about my hometown. Now, I had left it six years and stayed there no more than 15 days each year. People there only knew my little experience when I was young. Each time, when I joined into another place, I was a stranger. It was also said that you were nobody, you were nothing. But on internet, I had made acquaintances with many people by discussing some questions on NLP and machine learning. So the only thing I should do was learning more, finding more, and writing more. After two years accumulation, I began to know little about NLP and machine learning. Some fresh ideas were in my mind. But I had very little time to study and realize them. The current task to my personal research was reading more and doing deep research on my ideas. Under the experience of my technology innovation contest in 2003, I could do better.

Under my time management experience and quick survey on new topics, I would realize them. It was saying that good start was half success. I trusted myself.

2005年11月1日

高质量编程 vs. 高质量阅读

《高质量C++/C编程指南》是一本好书。2004年的时候我的师兄Cr999就对我说过。当时也翻过一遍的,只是当时学习的比较仓促,只学会了其中代码格式。后来又经常学习别的编程语言,这本书的学习也就到了脑海深入。好书的学习是需要像脑海里的记忆那样经常复习的。这是我今日的感受。

这本书在网上有电子版,用Google不难找到。一看有117页。按照原先的习惯,它的电子版可能会被我认真的看上几十页,然后由于一些零时性的事情被打断,后来再看的时候由于需要看看前面讲的一些东西,重新在大脑寄存器里面恢复被打断时的影像,然后又被打断,如此反复,最终我会放弃继续阅读这本书。

现在我越来越感觉到“好书易求,难于一读”。有人说书非借不能读也。别人的书借来总会认认真真赶在还期之前读完,有时还要熬夜体会。而自己买的书经常由于想到时间充裕而束之高阁,买回半年甚至一年后还没有翻过一页。这个道理看起来很是奇怪,但是它就是在我们的生活中无数次的被应验着。仔细想想原因就是我们没有处理好紧急而不重要的事情和重要而不紧急的事情时间上分配的原则。在前些日子我的blog里面有介绍时间管理的一个表格,里面介绍了应该抽出大量的时间完成重要而不紧急的事情,那些紧急而不重要的事情应该分配尽量少的时间完成。好书获得之时心里总想这个事情非常的重要,但是它又不是非常紧急的事情,结果由于在时间控制上的失恒导致了阅读最佳时机的丢失。

下午5点左右我在编写一段C++代码的时候找到了这本书的电子版,想要赶紧阅读下来,然后打印出来放在包里,7点左右回到北航找到一个自习室淅沥哗啦的非常高效和干脆的把这本书读完了,回到寝室时间也不过10:00。书中提到的内容确实非常的重要。这个小小的事件让我体会到了这种高效的好处。还有一个提示是读书特别是好书一定要阅读纸版的,那样你能在上面做笔记,会有更多的思考。

好书易求,难于一读。以后我会经常采用这种方法,抽取整块的时间来阅读我想要阅读的好书的。其实也可以在我的TOSOLIST里面列出自己想要学习的书籍,然后定期抽空出来好好阅读的。嗯,这个方法不错!