2019年8月11日
想再次恢复Blog的撰写
回想自己博士毕业后的十年光景,自己读的论文越来越少。且不说自己的专业领域发生了一些偏移:文本挖掘-》机器翻译-》知识图谱-》情感分析-》语音识别-》智能对话-》基础自然语言处理-》推荐、运筹、数据挖掘。自己在不断的漂移这所谓的学术领域。但是读过博士的人都知道,读论文是活水灌溉学术土壤的必备,而且必须坚定的在同一片田地里浇灌,才有可能做出显著的成果来。
我想,我是到了该读一些论文的时候了,读书时在实验室的Reading Group和Coding Group是很好的模式,值得再我自己身上发挥出来,进而带动团队可以认真开展起来。
嗯,试试看。
2009年5月23日
个人知识管理系统
一度有这种经历,自己以前弄过的东西,由于过了很长时间,就是忘了该怎么弄,非得经历较长的时间才能恢复起那种技能,或者几乎就是需要重新经历一遍才行。还有这样一种经历,自己信心满满的准备学习一种分为很多部分的资料,开始几天坚持得很好,但是由于临时性的事情打乱了我的计划,使得我渐渐成为计划容易执行困难的人。还有一种情况,我在更新我的个人网站(纯HTML撰写)时,更新一次比较麻烦,如果不能访问到服务器的文件夹,几乎就无法更。
为了解决上面三种困扰,我花了三天时间更新了自己的个人网站系统,并且具有个人知识管理的功能。这里备份一下基本的搭建流程,以备将来查找。
----------------------------------
1. 初始安装:下载moin-1.8.3.tar.gz,解压后在主目录下新建"mywiki"文件夹,将wiki目录下的data和underlay文件夹拷贝放入mywiki文件夹中,然后在主目录下修改wikiconfig.py中对应的site_name为你喜欢的名字,logo_string中修改你的logo(注意这里的/moin_static183就是\wiki\htdocs\),data_dir为'./mywiki/data',data_underlay_dir = './mywiki/underlay/', 设置超级用户superuser = [u"yourid", ], 设置网站访问权限acl_right_default = u"yourid:read,write,delete,revert,admin All:read"(这样写yourid有管理员权限,其他人有只读权限);记得将acl_rights_before注释掉,这样便于利用moin自带的单网页权限控制,后面会介绍;修改navi_bar为你需要的网站目录结构,修改网站主题theme_default为你喜欢的,可以安装新主题。然后运行主目录下的wikiserver.py,即可在你本地浏览器中访问你的个人wiki网站了,地址http://localhost:8080 这里的端口8080可以在wikiserverconfig.py中修改配置。
2. 权限管理:在对应的wiki页面源码顶部添加"#acl Default -All",就可以实现相关页面的私有化。如果不希望你的系统被注册新用户的话,可以将\MoinMoin\action\newaccount.py删除。
3. 个性化配置:首先是如何切换网站主题,在初始安装过程中的theme_default进行修改。系统默认的主题有四个classic,modern,modernized,rightsidebar。也可以安装新的主题,一般流程为在http://moinmo.in/ThemeMarket 页面中选定并下载你需要的主题压缩包,解压后将主题名称的文件夹拷贝放入wiki\htdocs\,将主题名称的py文件放入mywiki\data\plugin\theme\。然后就可以如法修改为你喜欢的主题了。如果需要进一步做细微的调整,可以修改对应主题的py程序(这个需要一点点python功底)。这里说明几个不容易看明白的个性化配置选项。
3.1 在对应主题的py程序中def title(self, d)函数返回的链接似乎有问题,生成在页面顶部的链接点击时会出现找不到的情况。我的修改如下:将这段
修改为
html = '''
<ul id="pagelocation">%s </ul>
''' % "".join(content)
html = '''
<ul id="pagelocation">%s</ul>
''' % "".join('''<li><a class="backlink" href="/''' + d['page_name'] + '" rel="nofollow">' + d['page_name'] + '</a></li>')
3.2 对应的def wikipanel是你的目录块,我将下面几行注释掉了,感觉不必输出wiki字样
#u'<h1>%s</h1>' % _("Wiki"),
#u'<h1>%s</h1>',
3.3同样的pagepanel中注释掉了
#u'<h1>%s</h1>' % _("Page"),
#u'<h1>%s</h1>',
3.4 由于我最终采用了sinorca4moin这种类似于http://www.scipy.org/网站的主题,页面顶端的header部分感觉比较罗嗦,我在def header函数块中注释掉了middle header部分使得不显示logo等相关部分,还注释掉了其中的self.msg(d), self.iconbar(d),等冗余部分。相应的注释还需要在editorheader部分同样进行,因为这部分是管编辑状态下的页面顶端内容的。
3.5 改动比较大的应该算是其中的def footer函数块了。这里主管每个页面的底栏部分。我把其中的self.credits(d),self.showversion(d, **keywords) 注释掉了,替换为自己的版权信息。
做完这些配置,我的wiki个人网站系统就非常的符合我的口味了。
4. 插件安装:这个部分是我花费了较多时间来逐一尝试和学习的,也就是这个部分的内容使得我的这个个人网站wiki系统非常的棒。
我自己在moin官网上下载并安装了如下的macro和parser。安装方法就是将相应的macro拷贝放入mywiki/data/plugin/macro,将相应的parser拷贝放入mywiki/data/plugin/parser即可:
Macros:PageComment2(可以添加和网友交互的注释框,用来方便的实现留言板), MonthCalendarTopList(将所在页面的monthcalender抽取出最新的记录), EventCalendar(比monthcalender高级的月历,类似于google calender,不知为何只能安装原始的0.8版,功能比最新版差很多,不倾向于推荐),MonthCalendarHack(原先的monthcalender必须要求日期页面采用= xxx =的格式,hack后可以采用'''xxx'''来实现), Color2(实现文本颜色)
Parsers:todo(实现todolist的功能), eventcal(用于EventCalender 0.80版)
5. 高级用法:经过这次安装和不断的上网查找信息,我学会了一些更高级的moin用法,其中最高兴的功能就是Include,可以实现相关页面的嵌入,配合上正则表达式还可以将任何一个Monthcalender中的日历内容批量式显示在任何页面中。
---------------------
经过以上无补,我的个人知识管理系统搭建好了。Moin作为个人知识管理系统的好处可以参见这个slides: DriveIntoMoinPub
2009年5月17日
latex实现带换行的文本框
问题是这样的,我想在latex里实现带换行功能的文本框。
最直接的想到了如下代码
\fbox{abcd \\ abcd \\ abcd}
生成文件后你会发现,这里的换行根本不起作用。
开始已经找到了pstricks还有tikz来实现这个功能(也花了好几个小时来了解)。但是最终发现这个东西只能在pdflatex编译模式下实现。我现在的文章必须用dvipdf模式,为此不得不放弃这种方法。
后来在看latex的flowdoc包的demo时,不经意间发现这里能够实现换行功能。仔细分析,原来采用了\shortstack命令来实现。查看了一些资料后得知其语法如下:
\shortstack[位置]{图文物件}
这会像叠罗汉一样的把「图文物件」叠在一个栏位内,和叠罗汉不同的是,后进的叠在最下面,先进的会被往上堆高,底部的基准线是固定的,高度则是往上增高,各图文物件由换行符号来换行,也就是说可以由换行符号来决定他们之间的间隔。当然,这要自行注意他的高度,否则会和其上的其他内容重叠。「位置」可为l, r, c之一,是指居中,或靠这个栏位的左右边的意思。
最终我的带换行的不受编译模式限制的文本框实现如下:
\fbox{\shortstack[l]{abcd \\ abcd \\ abcd}}
哎!原来这样简单,加一个shortstack就行了,让我折腾了一个下午。备份与此,仅供参考,希望能够节省寻找同样问题答案的朋友的时间!
2009年5月15日
只读(学)经典
人生是由时间构成的,如果想要学习东西的话一定要读或者学那些最为经典的东西。这样一方面能够学到真正的好东西,另一方面能够节省大量的时间。
就像练习太极那样,一定要在好的修炼方法以及名师的指引下,勤加练习和领悟,才能够快速进步。至少《学习的艺术》一书的作者是这样的套路。
英语上我选定了VOA来进行修炼,选定了沪江的VOA网站作为每日跟进的地方。这个网站非常棒,大家注册后就能发现它的强大。网址:http://voa.hjenglish.com/
数学上,在我曾经收集的三组读物里首先选定了Introduction to Linear Algebra一书,这本书今年已经出版到第四版了。可惜的是网上居然没能找到这本书前面几版的电子版,能找到的也就是这本书的习题解答的pdf版,或者是其他电子书冒充的 :) 最终选定了MIT Course 18.06来作为我学习的目标。这门课的老师就是这本书的作者。下载视频后对照视频录音的文本学习居然感觉非常的舒服。哈哈,终于找到学习的感觉了。虽然有34个视频,我相信在坚持练习太极的劲头下我会坚持下来的。
只读经典,努力!
2009年4月24日
我心目中论文发表的最高境界
在实验室,我唯一主讲过的一次Coding Group上,我说出了我心目中最高境界的论文发表是什么样子的。当时的原话是“论文+数据+源码”,论文发表在期刊或者会议上,相关的数据和源码提供下载地址。
确实,这种论文会更加的透明和更加具有跟进实验的可能性,当然也需要作者对自己的成果有100%的信心。一旦看到这种论文,我都会由衷的产生敬意。
最近发现Science的论文很多都有Supporting Online Material,很多都是相关数据以及源码。稍微了解了一下,发现生物医学领域的很多期刊都有Supporting Online Material,反倒是AI(包括NLP和Machine Learning)方面的几乎没有。
纵观自己所有的论文,能够下载数据的有一篇,能够下载程序有两篇。但是都没有做到我所期待的理想状态。争取以后自己的论文都能在网上提供可以下载的数据和源码。
2009年4月14日
坏消息,好消息
都说没有消息就是好消息。最近消息有两个,一个是坏消息,ACL论文被拒;一个是好消息,我可以开始写博士论文了。
坏消息说明自己的水平离ACL还差得远,还得加油啊,加上去年的EMNLP和今年年初的IJCAI,我是有且只有三次会议被拒啊!感觉搞研究就像练太极。先学会基本的套路和架子,然后不断练习,不断提高内功,最终就会汇集点滴成为江河,并最终成为大海大洋。
好消息让我距离自己的年度目标接近了一点。还得写好博士论文才行啊。说来很巧,2007年4月15日我开始写博士的开题报告。刚好过去两整年,我开始写博士论文。为了让最终版的论文尽量美观一些并且撰写方便些,我准备再次采用Latex环境。这两天在准备撰写环境,基本配置如下:WinEdt5.5 + Jabref2.4.2 + Table Designer + latable + Graphics Interface。Latex模板采用我们学校的Latex小组整理的PlutoThesis_GBK_1.9.2.20090324。首先自动采集完所有相关的SCI、EI参考文献的Bibtex信息,开始进行逐渐的整合。
希望自己在逐渐的整理各种资料的过程中能够再迸发一些想法和论文出来,以补遗憾。
2009年3月31日
机器学习小组第五次活动
--
╱◥██◣ ╭╭ ⌒╮ 让交流成为习惯!
︱田︱田田| ╰--------------------------------------------------------
Douban Reading Group: http://www.douban.com/group/95386/
HIT-Machine Learning QQ Group: 27980716
HIT-Machine Learning Maillist: http://groups.google.com/group/hit-machine-learning-group?hl=en
╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬╬
2009年3月21日
NLP&IR研究在计算机产业链中的位置
突发奇想,标题所示的问题成为我思考的一个集中点。
上网找到了Goole中国研究员吴军的浪潮之巅系列中的第四章“计算机工业的生态链”。读完顿觉IT业是一个神秘的行业。
时常听到朋友们说现在的内存就像白菜,价格低得都不行了。现在的笔记本价格也是一跌再跌。这样一来,引发出来的对于NLP&IR等相关领域有什么影响呢?
个人感觉NLP&IR在整个IT产业里面扮演着越来越重要的角色。最抢眼的Google&Baidu等掌握数据就掌握一切的搜索公司的盈利模式,以及xx&xx(等这两个公司发达了再写明)等NLP&IR基础技术服务公司,都在不断的深化着NLP&IR技术。各种硬件的性价比的不断提升,对于NLP&IR里很多以前不能做的事情,现在都能尝试展开。但是这些公司真正的目的就是为了大力发展和强化NLP&IR技术么?我想本质上不是的。原因可能是技术的强化能够增强用户的粘滞力,从而在盈利模式的框架里面能够赚取更多的利益。对于公司而言,盈利是第一位的,也是永恒不变的,其他事宜都是围绕这个目标旋转的。
另外一种驱动NLP&IR前进的动力就是纯粹的研究。细想一下,NLP比IR年纪大很多,早先的想法是从人工智能的角度来推动NLP的研究,更多的是理想主义的力量。IR是新兴的行业,换句话说是更能带来巨大价值的方向,而且这种价值可以在短期之内见效。传统的NLP在遇到IR之前几乎快要不行了,IR的出现带来了需求,带来了数据,加上依赖数据的统计机器学习方法的大规模引入,从而带来了整个NLP行业的大规模发展。
但是NLP&IR研究在IT业中究竟能够多大分量呢。我个人感觉,只能占到很小很小的部分。可以说,那些大公司或者大的IT受益者在大口大口的吃肉的时候,搞NLP&IR研究的人可以跟着喝点肉汤。当然,这是在整个行业欣欣向荣的时候。一旦出现一些大的经济震荡或者危机,那么搞NLP&IR研究的人就只能喝稀粥了,而且粥越来越稀。
这个问题有点深刻,还得继续思考。
以上是胡思乱想的结果,纯属瞎猜乱蒙,可能词不达意,如有雷同纯属巧合。欢迎广大朋友拍砖表玉 :)
2009年2月26日
2008年12月23日
Latex经验之label必须跟随caption
晚上又被折腾了一把,最后发现表格和图片的label必须紧随caption,否则就会被篡改为对应subsection的章节号。
出现这个问题是临时按照style规定将caption放到表格底部,但是没有同时移动label。
想想latex的原理,也确实该将label紧随caption。
备份与此。
2008年12月19日
Google抵制QQ?
昨晚发生了一件非常奇怪的事情,在google group的页面里面一旦加入QQ的邮箱地址就会导致整个页面的内容变成空白,非管理员就会发现该页面不存在。
这个规律是经过一个小时的折腾才发现的。猜想是Google抵制QQ的一种方法。
如果真是这样的话,似乎有点小气了 :)
2008年12月16日
2008年12月21日机器学习小组第四次活动
时间:12月21日(周日)下午两点
地点:正心楼109
报告人:(按拼音排序)
贺惠新:流形学习理论概述
胡清华:混合数据粗糙集模型和算法
纪荣嵘:视觉辞典: 以文喻景
郎君: Inductive Logic Programming in a nutshell
邹权: 样本类别不平衡的分类算法及其在生物信息学中的应用
参加人:欢迎哈尔滨各大院校的机器学习爱好者参与
随后进行所有与会者讨论: “Machine Learning for you”
这将是一次交流的盛宴,期待大家的支持和参与,会上咱们还会进一步讨论以后的组织形式。
您的热情和参与是咱们前进的动力!
让交流成为习惯,让共享创造价值!
为了便于讨论会后更好的给大家发送本次活动的相关资料,请准备参加的同学在下面的链接里留下个人信息:
http://groups.google.com/group/hit-machine-learning-group/web/%E7%AC%AC%E5%9B%9B%E6%AC%A1%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E8%AE%A8%E8%AE%BA%E6%B4%BB%E5%8A%A8%E6%8A%A5%E5%90%8D
-------------------------------------------------------------------------
参考:
南京大学的第六届机器学习及其应用研讨会
http://lamda.nju.edu.cn/conf/mla08/
机器学习小组第一次活动: SVM review 2005.03.12 HIT-NewTech Building 618
http://ir.hit.edu.cn/~bill_lang/My_Free_Resource/Machine_Learning/HIT_Machine_Learning_Group_1_SVM_Review.rar
机器学习小组第二次活动: Tools Experience 2005.04.16 HIT-NewTech Building 618
http://ir.hit.edu.cn/~bill_lang/My_Free_Resource/Machine_Learning/HIT_Machine_Learning_Group_2_Tools_Experience.rar
机器学习小组第三次活动: Rough Set Survey 2006.08.05 HIT Building for Power Department 620
http://ir.hit.edu.cn/~bill_lang/My_Free_Resource/Machine_Learning/HIT_Machine_Learning_Group_3_Rough_Set_Survey.rar
2008年11月28日
想起数学建模的日子,转载《数模十大常用算法及说明~》
数模十大常用算法及说明~
Link: http://www.madio.cn/home/space-131883-do-blog-id-6.html
1. 蒙特卡罗算法。该算法又称随机性模拟算法,是通过计算机仿真来解决问题的算法,同时可以通过模拟来检验自己模型的正确性,几乎是比赛时必用的方法
2. 数据拟合、参数估计、插值等数据处理算法。比赛中通常会遇到大量的数据需要处理,而处理数据的关键就在于这些算法,通常使用 MATLAB 作为工具。
3 . 线性规划、整数规划、多元规划、二次规划等规划类算法。建模竞赛大多数问题属于最优化问题,很多时候这些问题可以用数学规划算法来描述,通常使用 Lindo 、 Lingo 软件求解。
4. 图论算法。这类算法可以分为很多种,包括最短路、网络流、二分图等算法,涉及到图论的问题可以用这些方法解决,需要认真准备。
5. 动态规划、回溯搜索、分治算法、分支定界等计算机算法。这些算法是算法设计中比较常用的方法,竞赛中很多场合会用到。
6. 最优化理论的三大非经典算法:模拟退火算法、神经网络算法、遗传算法。这些问题是用来解决一些较困难的最优化问题的,对于有些问题非常有帮助,但是算法的实现比较困难,需慎重使用。
7. 网格算法和穷举法。两者都是暴力搜索最优点的算法,在很多竞赛题中有应用,当重点讨论模型本身而轻视算法的时候,可以使用这种暴力方案,最好使用一些高级语言作为编程工具。
8. 一些连续数据离散化方法。很多问题都是实际来的,数据可以是连续的,而计算机只能处理离散的数据,因此将其离散化后进行差分代替微分、求和代替积分等思想是非常重要的。
9. 数值分析算法。如果在比赛中采用高级语言进行编程的话,那些数值分析中常用的算法比如方程组 求解、矩阵运算、函数积分等算法就需要额外编写库函数进行调用。
10. 图象处理算法。赛题中有一类问题与图形有关,即使问题与图形无关,论文中也会需要图片来说明问题,这些图形如何展示以及如何处理就是需要解决的问题,通常使用 MATLAB 进行处理。
以下将结合历年的竞赛题,对这十类算法进行详细地说明。
2 十类算法的详细说明
2.1 蒙特卡罗算法
�
大多数建模赛题中都离不开计算机仿真,随机性模拟是非常常见的算法之一。
举个例子就是 97 年的 A 题,每个零件都有自己的标定值,也都有自己的容差等级,而求解最优的组合方案将要面对着的是一个极其复杂的公式和 108 种容差选取方案,根本不可能去求解析解,那如何去找到最优的方案呢?随机性模拟搜索最优方案就是其中的一种方法,在每个零件可行的区间中按照正态分布随机 的选取一个标定值和选取一个容差值作为一种方案,然后通过蒙特卡罗算法仿真出大量的方案,从中选取一个最佳的。另一个例子就是去年 y 的彩票第二问,要求设计一种更好的方案,首先方案的优劣取决于很多复杂的因素,同样不可能刻画出一个模型进行求解,只能靠随机仿真模拟。
2.2 数据拟合、参数估计、插值等算法
数据拟合在很多赛题中有应用,与图形处理有关的问题很多与拟合有关系,一个例子就是 98 年美国赛 A 题,生物组织切片的三维插值处理, 94 年 A 题逢山开路,山体海拔高度的插值计算,还有吵的沸沸扬扬可能会考的“非典”问题也要用到数据拟合算法,观察数据的走向进行处理。此类问题在 MATLAB 中有很多现成的函数可以调用,熟悉 MATLAB ,这些方法都能游刃有余的用好。
2.3 规划类问题算法
竞赛中 很多问题都和数学规划有关,可以说不少的模型都可以归结为一组不等式作为约束条件、几个函数表达式作为目标函数的问题,遇到这类问题,求解就是关键了,比 如 98 年 B 题,用很多不等式完全可以把问题刻画清楚,因此列举出规划后用 Lindo 、 Lingo 等软件来进行解决比较方便,所以还需要熟悉这两个软件。
2.4 图论问题
98 年 B 题、 00 年 B 题、 95 年锁具装箱等问题体现了图论问题的重要性,这类问题算法有很多,包括: Dijkstra 、 Floyd 、 Prim 、 Bellman-Ford ,最大流,二分匹配等问题。每一个算法都应该实现一遍,否则到比赛时再写就晚了。
2.5 计算机算法设计中的问题
计算机算法设计包括很多内容:动态规划、回溯搜索、分治算法、分支定界。比如 92 年 B 题用分枝定界法, 97 年 B 题是典型的动态规划问题,此外 98 年 B 题体现了分治算法。这方面问题和 ACM 程序设计竞赛中的问题类似,推荐看一下《计算机算法设计与分析》(电子工业出版社)等与计算机算法有关的书。
2.6 最优化理论的三大非经典算法
这十几年来最优化理论有了飞速发展,模拟退火法、神经网络、遗传算法这三类算法发展很快。近几年的赛题越来越复杂,很多问题没有什么很好的模型可以借 鉴,于是这三类算法很多时候可以派上用场,比如: 97 年 A 题的模拟退火算法, 00 年 B 题的神经网络分类算法,象 01 年 B 题这种难题也可以使用神经网络,还有美国竞赛 89 年 A 题也和 BP 算法有关系,当时是 86 年刚提出 BP 算法, 89 年就考了,说明赛题可能是当今前沿科技的抽象体现。 03 年 B 题伽马刀问题也是目前研究的课题,目前算法最佳的是遗传算法。
2.7 网格算法和穷举算法 ;
网格算法和穷举法一样,只是网格法是连续问题的穷举。比如要求在 N 个变量情况下的最优化问题,那么对这些变量可取的空间进行采点,比如在 [ a; b ] 区间内取 M +1 个点,就是 a; a +( b ? a ) =M; a +2 ¢ ( b ? a ) =M ; …; b 那 , 么这样循环就需要进行 ( M + 1) N 次运算,所以计算量很大。
比如 97 年 A 题、 99 年 B 题都可以用网格法搜索,这种方法最好在运算速度较快的计算机中进行,还有要用高级语言来做,最好不要用 MATLAB 做网格,否则会算很久的。
穷举法大家都熟悉,就不说了。
2.8 一些连续数据离散化的方法
大部分物理问题的编程解决,都和这种方法有一定的联系。物理问题是反映我们生活在一个连续的世界中,计算机只能处理离散的量,所以需要对连续量进行离散处理。这种方法应用很广,而且和上面的很多算法有关。事实上,网格算法、蒙特卡罗算法、模拟退火都用了这个思想。
2.9 数值分析算法
这类算法是针对高级语言而专门设的,如果你用的是 MATLAB 、 Mathematica ,大可不必准备,因为象数值分析中有很多函数一般的数学软件是具备的。
2.10 图象处理算法
01 年 A 题中需要你会读 BMP 图象、美国赛 98 年 A 题需要你知道三维插值计算, 03 年 B 题要求更高,不但需要编程计算还要进行处理,而数模论文中也有很多图片需要展示,因此图象处理就是关键。
2008年11月26日
[转载]语义网模式:语义技术概论
值得关注的技术,同时让我不禁联想到Collective Intelligence。
原文链接:http://www.yeeyan.com/articles/view/16804/18658
简介: 本文将分析语义网的趋势与技术,包括一些正在涌现的模式,对不同趋势的分类等等。
本文将分析语义网的趋势与技术,包括一些正在涌现的模式,对不同趋势的分类等等。
支 持语义网的基础技术都已经就绪了,同时很多创业公司和大型公司都在努力地利用这些技术以实现更好的客户价值。对于不同的人来说,语义网有着不同的意义。对 于一些人来说,语义网是一个数据的网络,其中数据被表示为RDF与OWL,又或者是Microformats格式。另外有人认为语义网是与网络服务相关的 一个概念。也有人认为它更多地与人工智能相关。而商家则总是会试图通过终端用户的价值来重新定义这个问题,他们认为不管怎样,一个实在的、方便的应用对于 消费者与企业来说才是重要的。这种不一致并非偶然,因为它的技术与概念涉及面甚广,有一些是可以实现的,有一些则只能猜测。
1、 自底向上与自顶向下
语义网的方法主要可分为两类:经典的自底向上和新兴的自顶向下的方式。自底向上的方法关注于标注好的信息,使用RDF表示,所以这些信息是机器可读的。自顶向下则着重于利用现成的页面信息,从中自动抽取出有意义的信息。近年来每一种方法都有一定的发展。
自 底向上的方法的一个喜讯来自于Yahoo搜索引擎支持RDF与microformats的声明。这是一个对于内容发布者、Yahoo和消费者来说三赢的举 措:发布者有了标注自己信息的激励,Yahoo可以更有效地利用这些信息,用户可以得到更好、更精确的结果。另一个喜讯来自于Dapper关于提供语义网 络服务的声明,这项服务可以让内容发布者给现有的网页添加语义标注。可以期待的是,这种语义工具越多,发布者标注网页就会越容易。自动标注工具的发展与标 注激励的增多,会使得自底向上的方法更加引人注目。
尽管工具与激励都有了,但要使得自底向上的方法流行起来还是有相当的难度。事实上, 今天google的技术已经可以在一定程度上理解那些非结构化的网页信息。类似地,自顶向下的语义工具关注点在于怎样处理现有的非完美的信息。这些方法主 要是利用自然语言处理的技术来进行实体的抽取,这些方法包括识别文档中特定实体(与人名、公司、地点等)的文本分析技术,以及能获取特定领域信息的垂直搜 索引擎。
自顶向下的技术关注于从非结构化的信息中获得知识,但它同样可以处理结构化的信息,自底向上的标注技术越多,自顶向下方法的性能就越能得到提高。
2、 标注技术:RDF,Microformats与Meta信息
在 自底向上的标注方法中,有几种候选的标注技术,它们都很强大,对它们的选择需要在简单性及完全性之间作一个权衡。最完备的方法是RDF:一种强大的基于图 的语言,用于表示事物、属性及事物间的关系。简单地来说,你可以认为RDF是这样的一种语言,它通过这样的方式来表达事实:Alex IS human (类型表达), Alex HAS a brain (属性表达), and Alex IS the father of Alice, Lilly, and Sofia (关系表达)。RDF很强大,但因为它是以高度递归、精确与数学化而著称的,同时它也是很复杂的。
当 前,大多RDF的使用都是为了解决数据的互通性。例如,医学组织使用RDF来表述染色体组数据库。因为信息被标准化了,所以,原来孤立的数据库就可以被一 起查询并相互比较了。一般说来,除了语义方面的意义,RDF最主要的好处在于实现互通性与标准化,特别是对于企业来说(下文有论述)。
Microfomats 提供了一个简单的方法――CSS风格-―来给现有的HTML文档添加语义标记,简洁的meta数据被嵌入到原有的HTML文档中。比较流行的 Microformats标签包括hCard:描述个人及公司联系信息;hReview:添加到评论页的meta信息;与hCalendar:描述事件的 标签。
Microformats因它的简单而得到流行,但它的能力仍然是很有限的。例如被传统的语义团体认为是很必要的层次结构的描 述,它就做不到。此外,为了使得标记集最小化,难免地它们表达的意思就显得比较模糊。这就引出了另外一个问题:把标签嵌入到HTML文档中是不是一种合适 的做法?然而,虽然仍存在很多的问题,Microformats还是因为它的简单而广受青睐,像Flickr, Eventful, LinkediIn及其它很多公司都在采用microformats,特别在是Yahoo的搜索声明发布之后。
还有一种更为简单的方法 就是把meta数据放在meta头中。这种方法已经在一定程度上被使用,可惜的是使用得还不是十分广泛。纽约时报最近为他们的新闻页面启动了一个标注扩 展,这种方法的好处已经在那些主题或事件页面中显现出来。例如,一个新闻页面可以通过一组关键词来标识:地点、日期、时间、人物与类别。另一个例子是关于 书的页面,O’Reilly.com已经在页面的meta头里加入了书本的信息:作者、ISBN与书的类别。
尽管所有这些方法不尽相同,但相同之处是它们都是很管用的。越多的网页被标注,就会有越多的标准会被实现,同时信息也会变得更为强大与更易于得到。
3、 消费者与企业
关 于语义网的讨论中,在用户与企业的关注点是不一样的。从消费者的立场来说,我们需要一个杀手级的应用(killer app),可以给用户传递实在而简单的价值。因为用户只会关注产品的实用性,而不会在乎它建立在什么技术之上。问题在于,直到目前为止,语义网的关注点更 多的都还停留在理论层面,如标注信息以使得机器可读。我们可以给出这样的承诺:一但信息都被标注,网络就会变成一个大型的RDF数据库,大量激动人心的应 用也会应运而生。但也有怀疑者指出,首先你必须得达成那样的假设。
已经有很多基于语义网的应用,如通用及垂直搜索引擎、文本助理工具、 个人信息管理系统、语义浏览工具等等,但在它们为大众所接受之前,还有很长的路要走。即便这些技术成功了,用户也不会有兴趣知道那背后使用了些什么技术。 所以说在用户层面推广语义网技术是没什么前景的。
企业就不一样了,第一,企业比较习惯于技术方面的论调,对于它们来说,利用语义技术可以增加产品的智能程度,从而形成市场价值。“我们的产品更好更聪明,因为我们使用语义网”,听起来这对企业来说是一个很不错的宣传。
从 企业层面来说,RDF解决了数据的互通性标准的问题。这个问题其实在软件行业的早期便已出现,你可以忘掉语义网,只把它看作是一个标准协议,一个使得两个 程序可以互通信息的标准。这对企业来说无疑是极具价值的。RDF提供了一个基于XML的通讯方案,它所描述的前景使得企业并不在乎它的复杂性。但还存在着 一个扩展性的问题,跟已经普及优化的关系型数据库不同,基于XML的数据库并没有普及,这归咎于其可扩展性与查询能力。就像九十年代末的对象数据库一样, 基于XML的数据库承载了太多的期望,让我们拭目以待。
4、 语义API
语义API是随着语义网的发展而发展的, 这类网络服务以非结构化的文本作为输入,输出一些实体与关系。例如路透社的Open Calais API,这项服务接受原始文本的输入,返回文本中的人名、地点、公司等信息,并在原文中加以标注。另一个例子是TextWise的 SemanticHacker API,该公司还提供了一百万美元的悬赏,以奖励基于它的API的最好的商业语义网应用。这个API可以把文档中的信息分为不同的类别(称为语义指纹), 输出文档中的实体与主题。这点和Calais的很相似,但它还提供了一个主题的层次结构,文档中的实际对象是结构中的叶节点。再一个例子来自于 Dapper,那是一个有助于从无结构的HTML页面提取结构化信息的网络服务。Dapper的工作依赖于用户在页面上为对象定义一些属性,比如,一个图 片出版商会定义作者、ISBN和页数的信息在哪里,然后Dapper应用就可以为该站点创建一个识别器,之后就可以通过API来读取它的信息。从技术的角 度来看,这似乎是个倒退,但实际上Dapper的技术在实际当中非常有用。举个典型的情景为例,对于一个并没有专门API可以读取其信息的网站,即便是一 个不懂得技术的人都可以在短时间内用Dapper来构造一个API。这是最强大、最快捷的把网站变为网络服务的途径。
5、 搜索技术
可 能语义网发展的最初动机就是因为很久以来搜索的质量都已经很难再得到提升。关于对页面语义的理解能提高搜索质量这一点假设也已经被证实。语义网搜索两个主 要的竞争者Hakia与PowerSet都已经做出不少的进步,但仍然不足够。因为,基于统计的google算法,在处理人物、城市与公司等实体时表现得 与语义技术同样的好。当你提问“法国总统是谁”时,它能返回一个足够好的答案。
越来越多人意识到对搜索技术边缘化的改进是很难击败 google的,因而转向寻找语义网的杀手级应用。很有可能,理解语义对于搜索引擎是有帮助的,但就此并不足以构建一个更好的搜索引擎。充分结合语义、新 颖的展示方式与对用户的识别能提升下一代搜索引擎的搜索体验。另有一些方法试图在搜索结果上应用语义。Google也在尝试把搜索结果分为不同的类别,用 户可以决定他们对哪些类别感兴趣。
搜索是一场竞赛,很多语义公司都在追逐其中。也许会有另一种提高搜索质量的可能:文本处理技术与语义数据库的结合。下面我们即将谈到。
6、 文本处理技术
我们已经看到越来越多的文本处理工具进入消费市场。像Snap、Yahoo Shortcuts或SmartLinks那样的文本导航应用可以“理解”文本与链接中的对象,并附加相应的信息于其上。其结果是用户根本不需要搜索就可以得到对信息的理解。
让 我们想得更远一些,文本工具使用语义的方式可以更为有趣。文本工具不再解析用户在搜索框里输入的关键词,而是依赖于对网络文档的分析。这样对语义的理解会 更为精确,或者说减少猜测性。随后文本工具给用户提供几类相关的结果供选择。这种方式从根本上不同于传统的把大量文档中得到的正确结果一起堆放在用户面前 的方式。
同样有越来越多的文本处理工具跟浏览器结合起来。自顶向下的语义技术不需要发布者做任何事情,因而可以想像上下文、文本工具可 以结合在浏览器里。Firefox的推荐扩展页里提供了很多的文本浏览解决方案,如Interclue, ThumbStrips, Cooliris与BlueOrganizer等。
7、 语义数据库
语义数据库是标注型语义网应用的一个发展方 向。Twine正在beta测试阶段,它着眼于建立一个关于人物、公司、事件、地点的私人知识库,数据来源为各类论坛的非结构化内容,这些内容可通过书 签、邮件或手工的方式进行提交。这项技术仍有待成熟,但它所能带来的好处显而易见。可以意想的一个基于Twine的应用为个性化的搜索,通过个人的知识库 来对搜索结果进行过滤。Twine底层的数据表示方式是RDF,可以开放给其它的语义网络服务所采用,但其核心的算法,如实体提取是通过语义API的方式 商业化的。路透社也提供了类似的API接口。
另外一个语义数据库的先行者是一家叫Metaweb的公司,它的产品的Freebase。 从它所展现的形式来看,Freebase只是一个基于RDF的更结构化的wikipedia翻版。但是Freebase的目标是建立一个像 wikipedia那样的世界信息库,这个信息库的强大之处在于它可以进行精确的查询(就像关系型数据库那样)。所以它的前景依然是更好的搜索。但问题在 于,Freebase怎样保持与世界信息同步俱进?google每天对网络文档进行索引,可以随着网络发展而发展。Freebase现在的信息仅来自于个 人编辑及从wikipedia或其它数据库中抓回的数据。如果要扩展这个产品,就必须完善从全网络获取非结构化信息、解析并更新数据库这一处理流程。
保持与世界同步这一问题对所有数据库方法都是一种挑战。对于Twine来说,需要有不断的用户数据加入,而对于Freebase来说,则需要有来自不断的来自网络的数据加入。这些问题解决起来并不简单,在真正实用之前都必须要有一个妥善的处理。
8、 结论
所 有新技术的出现都需要定义一些概念和得到一些类别。语义网提供了一个很激动人心的前景:提高信息的可发现性,实现复杂的搜索,新颖的网络浏览方式。此外语 义网对不同的人有不同的意义,它对于企业和对于消费者的定义是不同的,在自顶向下VS自底向上,microformats VS RDF等不同类型中也有不同的含义。除了这些模式,我们也看到了语义API与文本浏览工具的发展。所有的这些都还处于其早期发展阶段,但都承载着改变我们 与网络信息交互方式的期望。
2008年11月25日
第六届机器学习及其应用研讨会见闻

南京之行的经历
1 行程及经历
1.1 哈尔滨
1.1.1 早起早市早到
1.2 沈阳
1.2.1 老朱胖了些
1.3 上海
1.3.1 行路匆匆,雨天赶路
1.4 苏州
1.4.1 夜半三更到苏州,混沌好吃
1.4.2 游玩拙政园
1.4.3 第一次坐动车
1.5 南京
1.5.1 雨夜遭遇无出租车
1.5.2 半夜踩点
1.5.2.1 遇到贺惠新
1.5.3 上午的盛会
1.5.4 上午中场遇到很多熟人和新朋友
1.5.4.1 周俊生
1.5.4.2 黄书剑
1.5.5 中午的聚餐
1.5.6 晚上聚餐南京论剑
1.5.6.1 碰到刘未鹏
1.5.7 夜半参观南大NLP实验室
1.5.8 中午的西餐
1.5.9 下午遇到许元直
1.5.10 最精彩的部分会议回顾
1.5.11 夜逛夫子庙
1.5.12 赶往火车站
2 游览的两个地方
2.1 苏州拙政园
2.1.1 苏州园林的美景
2.1.2 植物、楼阁、美景
2.1.3 游玩最好的季节
2.2 南京夫子庙
2.2.1 秦淮河畔
2.2.2 南京小吃
2.2.3 美丽古都
3 机器学习研讨会
3.1 一群大牛
3.1.1 牛棚里的聚会,牛仔们的膜拜
3.2 相关的新东西
3.2.1 泛化
3.2.2 盲人摸象
3.2.3 LDA
3.2.3.1 Latent Directlet Allocation优于LSI
3.2.3.2 层次化降维
3.2.3.3 Unsupervised + Ontology
3.2.3.4 Supervised LDA David Blei
3.2.4 MapReduce
3.2.4.1 将同一机器的任务分摊
3.2.4.2 多个机器的通讯会成为最终瓶颈
3.2.4.3 这里的多个机器没有限制,普通机器就可以实现
3.2.4.4 百度正在采用开源软件来搭建底层的文件平台,从而实现mapreduce
3.2.5 BrowseRank
3.2.5.1 李航的SIGIR best student paper
3.2.5.2 挖掘用户浏览器上的浏览行为
3.2.5.3 包括对URL输入的学习
3.2.6 MultiLabel MultiInstance
3.2.6.1 周志华
3.2.6.2 如何用到NLP上
3.2.6.3 子概念发现只对复杂的大量数据才有效
3.2.6.4 问题表示很重要
3.2.7 不平衡样本处理
3.2.7.1 将Margin偏向少的类别即可
3.2.8 Transfer Learning
3.2.8.1 Qiang Yang
3.2.8.2 Text Categorization with Knowledge Transfer from Heterogeneous Data Source
3.2.9 Manifold
3.2.9.1 流行学习的主要方法是映射到三维空间中进行
3.2.9.2 CVPR的New Topics: Computing on Manifold
3.2.9.3 zhaotuo
3.2.9.3.1 k-nearest neighborhood在manifold的论文有没有最新或者适合扫盲的啊
3.2.9.3.2 tourzhao: ISOMAP
3.2.9.3.3 还有一个LLE
3.2.9.3.4 这两个看完,看Locality Preserving Projection
3.2.9.3.5 你去scholar.google.com直接搜
3.2.9.3.6 就是引用率最高的
3.2.10 两大最好算法
3.2.10.1 SVM
3.2.10.2 Boosting
3.2.11 目前最好的学习框架
3.2.11.1 AdaBoost + Decision Tree
3.2.11.2 AdaBoost不会过拟合
3.2.11.3 选择多个分类器时需要考虑到分散性
3.2.12 Decision Stump
3.2.12.1 只有一层的决策树
3.2.13 参数敏感性测试分析方法
3.2.13.1 4个参数固定其中的三个,随机化另一个1000次,得到结果曲线
3.2.14 因果挖掘
3.2.14.1 数据集上最大化分类相关数据集,求出条件独立的所有组合,随后进行分析
3.2.14.2 贝叶斯网络
3.2.14.3 因果网络
3.2.15 Principal Component Analysis
3.2.15.1 主成份分析
3.2.16 CVM
3.2.16.1 大数据集上的SVM算法
3.2.16.2 保证分类性能的基础上最大化运行速度
3.2.17 学习一些运筹学和凸优化算法,例如MIT的课程
3.2.18 Feature Map
3.2.19 Tom Mitchell
3.2.19.1 大脑研究,备受关注,AAAI最后一个Science报告
3.2.20 Social Network
3.2.20.1 在AAAI以及NIPS上都非常重视
3.2.20.2 Generating Useful Network-based Features for Analyzing Social Networks
3.2.21 Markov Logic Network
3.2.21.1 ICML08的一个热点
3.2.22 Online Learning
3.2.23 Deep Belief Nets新东西,NIPS2007有workshop
3.2.24 Semantic Web
3.2.25 Collective Intelligence
3.2.26 弱可学习理论
3.2.27 LASSO
3.2.28 特征选择
3.2.28.1 特征选择的目的是提高计算效率,转为发现自然模型的真实变量。 和重采样结合暗示一种有趣的路线:不必精心选择子模型, 使用变量选择挑选需要的子模型。
3.2.28.2 Feature Selection for Activity Recognition in Multi-Robot Domains
3.2.29 数据表示
3.2.29.1 Importance of Semantic Representation: Dataless Classification
3.2.30 Deep Learning
3.2.30.1 ICML08的一个热点
3.2.31 http://videolectures.net
3.2.32 Markov Chain Monte Carlo with People
3.3 顶级会议回顾
3.3.1 会议形式
3.3.1.1 参加过牛会的牛人介绍
3.3.1.2 简介
3.3.1.3 最新趋势
3.3.1.4 有趣的论文
3.3.2 AAAI08
3.3.2.1 杨强
3.3.2.1.1 香港科技大学
3.3.2.1.2 教授
3.3.2.2 集中在传统AI上
3.3.2.3 有趣的话题
3.3.2.3.1 Social Network
3.3.2.3.2 Transfer Learning
3.3.2.3.3 Markov Logic Network
3.3.2.4 Tom Mitchell的脑研究备受关注
3.3.2.5 有专门的NLP Track
3.3.3 COLT08
3.3.3.1 王立威
3.3.3.1.1 北大信息科技学院
3.3.3.1.2 博士
3.3.3.2 Online Learning有点火
3.3.3.3 论文技巧
3.3.3.3.1 新模型
3.3.3.3.2 各种模型的关系
3.3.3.3.3 解决了一些Open Problem
3.3.4 CVPR08
3.3.4.1 林宙辰
3.3.4.1.1 MSRA
3.3.4.1.2 博士
3.3.4.2 Best Paper的评选很随机也没有意思
3.3.4.3 图像方面的传统研究
3.3.4.4 开始转向机器学习,因为学习问题是图像问题的出路
3.3.5 ICML08
3.3.5.1 James Kwok
3.3.5.1.1 香港科技大学
3.3.5.1.2 教授
3.3.5.2 从统计期刊上找东西用到ML上
3.3.5.3 类似的可以从ML期刊上找东西用到NLP上
3.3.5.4 应验三流的数学家做机器学习,三流的机器学习专家做NLP 三流的NLP专家做推广
3.3.5.5 DeepLearning是新的事物
3.3.6 NIPS2007
3.3.6.1 Irwin King
3.3.6.1.1 香港中文大学
3.3.6.1.2 教授
3.3.6.2 每年12月初召开,由于VISA问题改在加拿大召开
3.3.6.3 审稿双盲,可以Argue,通常没用,还可能降低分数
3.3.6.4 每天早上7:30-8:30早餐,上午Oral,晚上Poster到12点,很累,Poster很精彩
3.3.6.5 Social Network研究很多
3.3.6.6 Human Computation开始流行
3.3.6.7 Deep Belief Net
3.3.6.7.1 新事物
3.3.6.8 启发
3.3.6.8.1 看大会的workshop很重要,可能两三年后会成为单独的会议
3.3.6.8.2 NIPS07有workshop deep belief net,很多大牛参会
3.3.7 WWW08
3.3.7.1 李航
3.3.7.1.1 MSRA
3.3.7.1.2 主任研究员
3.3.7.2 www喜欢新的idea,基础研究学术强不适合
3.3.7.3 论文先写Good Story,数学公式多些较好
3.3.7.4 三个Track
3.3.7.4.1 Semantic Web
3.3.7.4.2 Search Track
3.3.7.4.3 Data Mining Track
3.3.7.5 论文录用率
3.3.7.5.1 12%
3.3.7.5.2 至少444才能
3.3.7.5.3 论文不好写,一定要有趣
3.3.8 SIGIR08
3.3.8.1 李航
3.3.8.2 喜欢New Scientific Finding
3.3.8.2.1 偏学术
3.3.8.2.2 现实中用不上
3.3.8.2.3 注重实验
3.3.8.2.4 越来越理论化
3.3.8.3 一定要使用Trec数据
3.3.8.4 可以从会议的Best Paper看会议的风格
3.3.8.5 Collective Intelligence有用
3.3.8.6 Document Analysis
3.3.9 UAI08
3.3.9.1 张长水
3.3.9.1.1 清华大学自动化系
3.3.9.1.2 教授
3.3.9.2 小会
3.3.9.3 与COLT并行举行
4 总体感受
4.1 行万里路,读万卷书
4.2 交流成为习惯
感谢templer纠正3.2.3.4应该是david blei
感谢浙朱纠正3.2.3.1的LDA为Latent Directlet Allocation
2008年11月4日
练武不练功,到老一场空
近日《李小龙传奇》正在热播,偷闲看了一点。领悟有两点:“练武不练功,到老一场空”,“什么对练武有用就学习什么”。
第 一句话对于我经历过的所谓的学了很多种机器学习方法算种警示。记得一位师弟说过,很多我们正在学习的机器学习方法都是花架子。因为我们都未能真正学会。相 反,对于正在进行的研究却没有进行深入的思考。眼看读博第三年快要结束了,应该算是“老人”了,真有一点“一场空”的感觉。还是那句话,只要现在开始,那 就不算晚。好好学习数学咯。
第二句对于我们做计算机应用的人来说至关重要。因为本质上计算机应用没有自身的理论体系,都是在弄一些所谓交叉学科相关的东西。只有兼容并包、从善如流才能保持前进的脚步。
李小龙每天都是在基本功的练习中开始新的一天的。反观自己,想想实际情况,还是学点数学较好。
翻过来再说说这几日看《统计学》这本书的一些感触吧。
说 来也怪,看的东西以前自己都曾经学过,只是时间长了,在脑子里便没有了时常的提醒。这两天看的是相关性和回归分析两部分。在进行统计时,我们很容易被一些 统计量蒙混了双眼。因为很可能正在被计算的两个统计量之间的强相关性是由第三个变量导致的。在没有任何先验知识的情况下,计算机能够发现这种特殊性么?如 果能的话,那就是人工智能了吧 :) 。 相关性分析是特征选择里非常重要的一个东西。这样看来,特征选择也是有改进的余地的。
今天看 到一个有趣的例子。说幼儿园入学时平均智商高的小朋友毕业时平均智商降低了,反倒是入学时智商低的毕业时智商变高了。难道是幼儿园起到了让孩子们智商平均 化的作用么?看到这个例子,我先也是一惊。后来得知,这个叫回归谬论。在回归分析里,第一次统计时很好和很差的结果,往往在第二次统计时会变得次好和次 差。这是因为统计得到的结果是观测值,包含真实值和随机值两部分。先后两次测量的随机部分运气上往往会出现交换。结果就出现了这种回归效应。
这本数学书很不错,那就是几乎不用数学公式,复杂的原理和计算用通俗的文字就能展现。好书一本!
2008年10月20日
实验设计的偏性
早上开始学习第一本数学基础书籍《统计学》,(参见前几日的数学书籍列表)。我争取这次我是认真的开始学习数学了。
本书开篇就是介绍统计学里面的实验设计,而且阐述原理是没有用任何数学公式。这和我以前本科时学习的统计学课本真是大不一样的风格,顿时就感觉这本书很有意思了:)
看完第一章“对照实验”和第二章“观察研究”的前两节。有两点收获。
1. 实验结果的可靠性需要深思。例如在进行新药物对疾病的有效性实验设计时,需要考虑到那些主动愿意接种疫苗的病人往往具有更良好的教育背景以及生活习惯,从 而更容易使得疫苗的有效性得以发挥。另外一个例子是一种新药在长达数年的实验过程中,是否坚持服新药也是一个非常重要的因素。如果在服新药实验的群体,整 体死亡率是20%,其中坚持者的死亡率是15%,不坚持者的死亡率是25%;而服旧药的群体的整体死亡率是21%,其中坚持服用者的死亡率是15%,不坚 持服用者是28%。在这组数据中,不能因为服用新药的群体中坚持服用的15%优于不坚持服用者的25%而认为新药是有效的。因为旧药也就有类似的规律。这 反映了坚持服药的人往往更加注重个人生活的质量和平时的保养。
2. 对照研究是实验者决定实验对象采用哪种方案,例如新药的服用与否。观察研究是实验者安排他们自己到不同的组中去,而实验者只是观察所发生的情况,例如观察吸烟10年以上人群的规律。
实验设计是一个非常值得重视的环节,个人感觉在NLP的研究里,一些实验设计是在有不经意间的偏性的。这里有两点值得以后注意:
a. 完全随机的双盲实验:研究者和被观察者都不知道方案和对象的匹配情况,而且这种匹配情况也是完全随机的
b. 观察研究实验结果往往混杂着各种因素,对这些因素进行研究的一种方法就是对较小和较均匀的组分开来比较。例如吸烟者和不吸烟者与死亡率的统计时就需要考虑 到男人比女人更容易得心脏病,需要对吸烟男性与不吸烟男性进行比较,对吸烟女性与不吸烟女性进行比较。年龄是另外一个复杂变量,因为老年人有不同程度的吸 烟习惯,并且他们患肺癌的风险较大。对已在吸烟者与不吸烟者之间的比较需要按年龄和性别分开来进行。
以后进行俺们自个儿的实验时也需要考虑到这些因素啊。
2008年10月19日
2008年10月18日
[转载一篇很有趣的八卦]计算机图书排版的八卦
Source: http://blog.youxu.info/2008/10/13/trivia-about-computer-typesetting/
大 家都知道, 计算机科学家超级爱动手自己开发工具, 而且对美有超乎常人的需求. Knuth 爷爷当年觉得自己辛辛苦苦的好书被排版成地摊上的厕纸一样, 一怒之下自己搞出了红遍大江南北的 TeX. 从此整个世界都清净了. 排版是计算机科学家研究的一个很好玩的领域, 这篇文章就谈谈我所知道的关于排版的八卦.
先说 Knuth 爷爷的吧. 首先, 是在设计 TeX 的过程中, 这位老爷爷研究了很多著名的字体, 成了名动一时的字体专家, 据说和乔布斯并称为加州最懂字体设计的两个搞IT的 (我瞎说的). 研究字体之余, 他就研究收集各大书法家的作品, 然后这位老爷爷又是一个基督教徒, 所以干脆用它的收藏出了一本书, 叫做 <3:16>. 这本书特别牛逼, 是一本用计算机科学研究上帝存在的. 而且发挥计算机科学的小幽默, 取圣经每章的第3节第16小句, 还证明了这个和随机一样好.
还是克爷爷, 写完TeX之后不过瘾, 要写本书来冲冲喜, 于是写出了极其牛B名字的 The TeXbook. 一语双关, 表现了牛人一贯的狂妄. 写完这个他又想写写自己的字体和绘图系统设计(metafont 系统) 所以干脆出了五卷书, 行话称作ABCDE, 也是用名字来表明: 看, 基本的入门书, 你非看不可.
跑题一下: Knuth 爷爷最喜欢让人家看到他提出的名字就腿发软. 比如他提出了一个叫做 Literate Programming 的东西, 并且很不怀好意的对 Dijkstra 说, 小样, 当年你说 structured programming 的时候我非要用 goto, 结果人家都说我是 unstructured programming (没结构的编程), 现在我要提出一个叫做 literate programming 的东西, 你要是不跟着我混, 人家就会叫你 illiterate programming (没文化的编程). 在这么邪恶的名字下, 全世界程序员只好个个听这个老头的话, 乖乖的使用文档和程序融为一体的”有文化的”编程习惯.
其实克爷爷属于斯坦福家族的. 在70-80年代, 世界上还有一个NB的研究机构: 贝尔实验室. 贝尔实验室自己也开发了自己的排版工具: Troff. 开发者是著名的K, 就是 K&R 里面的那个K. 这个 Troff 也是一个牛到极点的排版软件, 比如说, 当年那些科学家都对出版社的排版不满意, 所以都威胁出版社说: 我自己来排版, 你们只管印刷就行了. 就是因为这帮科学家开了这个传统, 所以后来出版商遇到想自己排版的, 都用巨崇拜的眼光打量着你.
说到 troff, 以下大名鼎鼎的书都是用 troff 排版的:
Advanced Programming in the UNIX Environment
The AWK Programming Language
The C Programming Language
Compilers: Principles, Techniques, and Tools
Computer Networks, 3rd Ed.
Computer Networks And Internets, 3rd Ed.
The Design and Implementation of the 4.4BSD Operating System
Effective TCP/IP Programming
The Elements of Programming Style, 2nd Ed.
Internetworking With TCP/IP Volume 123
More Programming Pearls
The Practice of Programming
Software Tools
Unix Network Programming
The UNIX Programming Environment
Programming in C++
所以说, troff 排版的无烂书. 当然, TeX 家族也不是吃素的, SICP, TAoCP, CLRS 都是用 TeX 搞出来的. 陶哲轩也说, 鉴别民科文章第一步就是看是不是用TeX排版的. 可见排版排得专业, 也是好文章的一个先决条件.
我觉得可以把以上的结论概括成 徐氏排版定理, 如果一本书, 不是以上所说两个软件排版的, 又不是 O’Relly 出版的, 那是好书的概率也就不怎么大了. 作为一个作者来讲, 一定要记得用 troff 或者 latex 排版 :)
troff 和 latex 都是一脉相承的, 理念也差不多, 所以牛B的开发人员两头都在玩, 比如一个叫做 Werner Lemberg 的牛人, 就是 troff 的开发人员, 同时还跑到 TeX 那里开发了支持中日韩的 CJK 包. (大家都知道, 软件的中文支持从来都不是中国人开发的)
史上最牛的程序员 Bill Joy 同学据说用了一个周末就写出了 vi, 所以大家都怀疑, 他用了半个小时的时间写了 BSD 上的 troff. 他写的这个程序, 被SUN用着, 一直用到今天.
最 后强行插播一条广告: 我最近要写一本小册子, 叫做 Motifs in Computer Science (原名叫 Meta Ideas in Computer Science). 一定保证用 LaTeX+Troff+reStructuredText 排版, 按照我的 Troff/Latex 排版无烂书结论, 这本书也不是太烂. 欢迎捧场.
再补充一则八卦: 话说当年 PDP-11小型机特别贵, 但是贝尔实验室的科学家又想要用. 怎么办呢? 于是, 他们发挥了科学家爱忽悠的能力, 去和经理说: 你看, 我们文档的排版很烂吧(当年还是打字机时代), 你们投资一下搞一个小型机回来, 我们保证给你们开发一个在这个机器上用的文档排版系统. 经理一听, 大笔一挥说: 买之!. 科学家一听都乐了, 哈哈, 我们有新玩具了. 然后, 他们就开始在 PDP11 上开发 UNIX 了. 经理也不懂, 看他们搞的好玩, 就不时来问问: 老大们, 排版系统怎么样了? 贝尔的科学家一边敷衍敷衍, 一边继续搞 UNIX 和 C 语言. 等这两样都搞好了, 瞬间就写了一个排版软件, 就是 nroff. 经理可乐了, 说, 哎, 我们终于投资有回报了啊. 科学家也乐了, 因为若干年之后, C 和 UNIX 红遍大江南北, 因此两人拿下图灵奖. 所以说, 做研究这东西, 一定要先把基金忽悠过来, 然后想干啥干啥, 最后结果反而超出预料. (贝尔实验室的人居然研究宇宙背景辐射拿诺贝尔奖, 这种宽松宽容的基础研究在其他地方是很难遇到的).
2008年10月17日
SVM-Light-Tk1.2 SST Kernel vs ST kernel vs PT Kernel
近日完成一组实验,发现SVM-Light-TK 1.2 中有个-D参数,默认的-D是Subset Tree Kernel,-D设为0时是SubTree结构。再看SVM-Light-TK 作者06年ECML论文时发现三种树型结构拓展的关系。原来还有一种子树拓展结构,名叫Partial Tree,图3。
三者的关系是SubTree最为严格,扩展出来的子树必须是原始树中带有完整的所有叶节点的子树。
Subset Tree较为放松,允许扩展出来的子树不必包含各层完整的所有叶节点,但是要求同一层的兄弟非叶节点不能缺少,也就是语法规则不能遭到破坏。
Partial Tree最为宽泛,在Subset Tree的基础上允许同一层的兄弟非叶节点缺少。
上面三幅图中子树数量分别是6,10,30。
遗憾的是目前的SVM-Light-TK 1.2中还没有嵌入对Partial Tree的支持。