Bill_Lang: 2008-11

2008年11月29日

重温《功夫熊猫》

昨晚和女友一起在影院重温了《功夫熊猫》，除了全场的啼笑皆非，还有几句有点意思的话值得思考。

Master Wugui said to Po, "Yesterday is history, tomorrow is mystery, but today is a gift!"
Master Wugui said to Shifu, "you just need to believe."
The secret ingredient is ... nothing.

相信和信心非常重要。它们能引导你完成看似不可能的事情！

2008年11月28日

想起数学建模的日子，转载《数模十大常用算法及说明～》

数模十大常用算法及说明～

Link: http://www.madio.cn/home/space-131883-do-blog-id-6.html

1. 蒙特卡罗算法。该算法又称随机性模拟算法，是通过计算机仿真来解决问题的算法，同时可以通过模拟来检验自己模型的正确性，几乎是比赛时必用的方法
　　2. 数据拟合、参数估计、插值等数据处理算法。比赛中通常会遇到大量的数据需要处理，而处理数据的关键就在于这些算法，通常使用 MATLAB 作为工具。
　　3　. 线性规划、整数规划、多元规划、二次规划等规划类算法。建模竞赛大多数问题属于最优化问题，很多时候这些问题可以用数学规划算法来描述，通常使用 Lindo 、 Lingo 软件求解。
　　4. 图论算法。这类算法可以分为很多种，包括最短路、网络流、二分图等算法，涉及到图论的问题可以用这些方法解决，需要认真准备。
　　5. 动态规划、回溯搜索、分治算法、分支定界等计算机算法。这些算法是算法设计中比较常用的方法，竞赛中很多场合会用到。　
　6. 最优化理论的三大非经典算法：模拟退火算法、神经网络算法、遗传算法。这些问题是用来解决一些较困难的最优化问题的，对于有些问题非常有帮助，但是算法的实现比较困难，需慎重使用。
　　7. 网格算法和穷举法。两者都是暴力搜索最优点的算法，在很多竞赛题中有应用，当重点讨论模型本身而轻视算法的时候，可以使用这种暴力方案，最好使用一些高级语言作为编程工具。
　　8. 一些连续数据离散化方法。很多问题都是实际来的，数据可以是连续的，而计算机只能处理离散的数据，因此将其离散化后进行差分代替微分、求和代替积分等思想是非常重要的。
　　9. 数值分析算法。如果在比赛中采用高级语言进行编程的话，那些数值分析中常用的算法比如方程组求解、矩阵运算、函数积分等算法就需要额外编写库函数进行调用。
　　10. 图象处理算法。赛题中有一类问题与图形有关，即使问题与图形无关，论文中也会需要图片来说明问题，这些图形如何展示以及如何处理就是需要解决的问题，通常使用 MATLAB 进行处理。
以下将结合历年的竞赛题，对这十类算法进行详细地说明。
　　2 十类算法的详细说明
　　2.1 蒙特卡罗算法
�
　　大多数建模赛题中都离不开计算机仿真，随机性模拟是非常常见的算法之一。

　　举个例子就是 97 年的 A 题，每个零件都有自己的标定值，也都有自己的容差等级，而求解最优的组合方案将要面对着的是一个极其复杂的公式和 108 种容差选取方案，根本不可能去求解析解，那如何去找到最优的方案呢？随机性模拟搜索最优方案就是其中的一种方法，在每个零件可行的区间中按照正态分布随机的选取一个标定值和选取一个容差值作为一种方案，然后通过蒙特卡罗算法仿真出大量的方案，从中选取一个最佳的。另一个例子就是去年 y 的彩票第二问，要求设计一种更好的方案，首先方案的优劣取决于很多复杂的因素，同样不可能刻画出一个模型进行求解，只能靠随机仿真模拟。
　　2.2 数据拟合、参数估计、插值等算法
　　数据拟合在很多赛题中有应用，与图形处理有关的问题很多与拟合有关系，一个例子就是 98 年美国赛 A 题，生物组织切片的三维插值处理， 94 年 A 题逢山开路，山体海拔高度的插值计算，还有吵的沸沸扬扬可能会考的“非典”问题也要用到数据拟合算法，观察数据的走向进行处理。此类问题在 MATLAB 中有很多现成的函数可以调用，熟悉 MATLAB ，这些方法都能游刃有余的用好。
　　2.3 规划类问题算法
　　竞赛中很多问题都和数学规划有关，可以说不少的模型都可以归结为一组不等式作为约束条件、几个函数表达式作为目标函数的问题，遇到这类问题，求解就是关键了，比如 98 年 B 题，用很多不等式完全可以把问题刻画清楚，因此列举出规划后用 Lindo 、 Lingo 等软件来进行解决比较方便，所以还需要熟悉这两个软件。
　　2.4 图论问题
　　98 年 B 题、 00 年 B 题、 95 年锁具装箱等问题体现了图论问题的重要性，这类问题算法有很多，包括： Dijkstra 、 Floyd 、 Prim 、 Bellman-Ford ，最大流，二分匹配等问题。每一个算法都应该实现一遍，否则到比赛时再写就晚了。
　　2.5 计算机算法设计中的问题

　　计算机算法设计包括很多内容：动态规划、回溯搜索、分治算法、分支定界。比如 92 年 B 题用分枝定界法， 97 年 B 题是典型的动态规划问题，此外 98 年 B 题体现了分治算法。这方面问题和 ACM 程序设计竞赛中的问题类似，推荐看一下《计算机算法设计与分析》（电子工业出版社）等与计算机算法有关的书。

　　2.6 最优化理论的三大非经典算法

　　这十几年来最优化理论有了飞速发展，模拟退火法、神经网络、遗传算法这三类算法发展很快。近几年的赛题越来越复杂，很多问题没有什么很好的模型可以借鉴，于是这三类算法很多时候可以派上用场，比如： 97 年 A 题的模拟退火算法， 00 年 B 题的神经网络分类算法，象 01 年 B 题这种难题也可以使用神经网络，还有美国竞赛 89 年 A 题也和 BP 算法有关系，当时是 86 年刚提出 BP 算法， 89 年就考了，说明赛题可能是当今前沿科技的抽象体现。 03 年 B 题伽马刀问题也是目前研究的课题，目前算法最佳的是遗传算法。

　　2.7 网格算法和穷举算法 ;

　　网格算法和穷举法一样，只是网格法是连续问题的穷举。比如要求在 N 个变量情况下的最优化问题，那么对这些变量可取的空间进行采点，比如在 [ a; b ] 区间内取 M +1 个点，就是 a; a +( b ? a ) =M; a +2 ￠ ( b ? a ) =M ; …； b 那 , 么这样循环就需要进行 ( M + 1) N 次运算，所以计算量很大。
　　比如 97 年 A 题、 99 年 B 题都可以用网格法搜索，这种方法最好在运算速度较快的计算机中进行，还有要用高级语言来做，最好不要用 MATLAB 做网格，否则会算很久的。

　　穷举法大家都熟悉，就不说了。
　　2.8 一些连续数据离散化的方法

　　大部分物理问题的编程解决，都和这种方法有一定的联系。物理问题是反映我们生活在一个连续的世界中，计算机只能处理离散的量，所以需要对连续量进行离散处理。这种方法应用很广，而且和上面的很多算法有关。事实上，网格算法、蒙特卡罗算法、模拟退火都用了这个思想。

　　2.9 数值分析算法
　　这类算法是针对高级语言而专门设的，如果你用的是 MATLAB 、 Mathematica ，大可不必准备，因为象数值分析中有很多函数一般的数学软件是具备的。

　　2.10 图象处理算法

　　01 年 A 题中需要你会读 BMP 图象、美国赛 98 年 A 题需要你知道三维插值计算， 03 年 B 题要求更高，不但需要编程计算还要进行处理，而数模论文中也有很多图片需要展示，因此图象处理就是关键。

2008年11月26日

[转载]语义网模式：语义技术概论

值得关注的技术，同时让我不禁联想到Collective Intelligence。

原文链接：http://www.yeeyan.com/articles/view/16804/18658

简介: 本文将分析语义网的趋势与技术，包括一些正在涌现的模式，对不同趋势的分类等等。

本文将分析语义网的趋势与技术，包括一些正在涌现的模式，对不同趋势的分类等等。

支持语义网的基础技术都已经就绪了，同时很多创业公司和大型公司都在努力地利用这些技术以实现更好的客户价值。对于不同的人来说，语义网有着不同的意义。对于一些人来说，语义网是一个数据的网络，其中数据被表示为RDF与OWL，又或者是Microformats格式。另外有人认为语义网是与网络服务相关的一个概念。也有人认为它更多地与人工智能相关。而商家则总是会试图通过终端用户的价值来重新定义这个问题，他们认为不管怎样，一个实在的、方便的应用对于消费者与企业来说才是重要的。这种不一致并非偶然，因为它的技术与概念涉及面甚广，有一些是可以实现的，有一些则只能猜测。

1、自底向上与自顶向下

语义网的方法主要可分为两类：经典的自底向上和新兴的自顶向下的方式。自底向上的方法关注于标注好的信息，使用RDF表示，所以这些信息是机器可读的。自顶向下则着重于利用现成的页面信息，从中自动抽取出有意义的信息。近年来每一种方法都有一定的发展。

自底向上的方法的一个喜讯来自于Yahoo搜索引擎支持RDF与microformats的声明。这是一个对于内容发布者、Yahoo和消费者来说三赢的举措：发布者有了标注自己信息的激励，Yahoo可以更有效地利用这些信息，用户可以得到更好、更精确的结果。另一个喜讯来自于Dapper关于提供语义网络服务的声明，这项服务可以让内容发布者给现有的网页添加语义标注。可以期待的是，这种语义工具越多，发布者标注网页就会越容易。自动标注工具的发展与标注激励的增多，会使得自底向上的方法更加引人注目。

尽管工具与激励都有了，但要使得自底向上的方法流行起来还是有相当的难度。事实上，今天google的技术已经可以在一定程度上理解那些非结构化的网页信息。类似地，自顶向下的语义工具关注点在于怎样处理现有的非完美的信息。这些方法主要是利用自然语言处理的技术来进行实体的抽取，这些方法包括识别文档中特定实体（与人名、公司、地点等）的文本分析技术，以及能获取特定领域信息的垂直搜索引擎。

自顶向下的技术关注于从非结构化的信息中获得知识，但它同样可以处理结构化的信息，自底向上的标注技术越多，自顶向下方法的性能就越能得到提高。

2、标注技术：RDF，Microformats与Meta信息

在自底向上的标注方法中，有几种候选的标注技术，它们都很强大，对它们的选择需要在简单性及完全性之间作一个权衡。最完备的方法是RDF：一种强大的基于图的语言，用于表示事物、属性及事物间的关系。简单地来说，你可以认为RDF是这样的一种语言，它通过这样的方式来表达事实：Alex IS human (类型表达), Alex HAS a brain (属性表达), and Alex IS the father of Alice, Lilly, and Sofia (关系表达)。RDF很强大，但因为它是以高度递归、精确与数学化而著称的，同时它也是很复杂的。

当前，大多RDF的使用都是为了解决数据的互通性。例如，医学组织使用RDF来表述染色体组数据库。因为信息被标准化了，所以，原来孤立的数据库就可以被一起查询并相互比较了。一般说来，除了语义方面的意义，RDF最主要的好处在于实现互通性与标准化，特别是对于企业来说（下文有论述）。

Microfomats 提供了一个简单的方法――CSS风格－―来给现有的HTML文档添加语义标记，简洁的meta数据被嵌入到原有的HTML文档中。比较流行的 Microformats标签包括hCard：描述个人及公司联系信息；hReview：添加到评论页的meta信息；与hCalendar：描述事件的标签。

Microformats因它的简单而得到流行，但它的能力仍然是很有限的。例如被传统的语义团体认为是很必要的层次结构的描述，它就做不到。此外，为了使得标记集最小化，难免地它们表达的意思就显得比较模糊。这就引出了另外一个问题：把标签嵌入到HTML文档中是不是一种合适的做法？然而，虽然仍存在很多的问题，Microformats还是因为它的简单而广受青睐，像Flickr, Eventful, LinkediIn及其它很多公司都在采用microformats，特别在是Yahoo的搜索声明发布之后。

还有一种更为简单的方法就是把meta数据放在meta头中。这种方法已经在一定程度上被使用，可惜的是使用得还不是十分广泛。纽约时报最近为他们的新闻页面启动了一个标注扩展，这种方法的好处已经在那些主题或事件页面中显现出来。例如，一个新闻页面可以通过一组关键词来标识：地点、日期、时间、人物与类别。另一个例子是关于书的页面，O’Reilly.com已经在页面的meta头里加入了书本的信息：作者、ISBN与书的类别。

尽管所有这些方法不尽相同，但相同之处是它们都是很管用的。越多的网页被标注，就会有越多的标准会被实现，同时信息也会变得更为强大与更易于得到。

3、消费者与企业

关于语义网的讨论中，在用户与企业的关注点是不一样的。从消费者的立场来说，我们需要一个杀手级的应用（killer app），可以给用户传递实在而简单的价值。因为用户只会关注产品的实用性，而不会在乎它建立在什么技术之上。问题在于，直到目前为止，语义网的关注点更多的都还停留在理论层面，如标注信息以使得机器可读。我们可以给出这样的承诺：一但信息都被标注，网络就会变成一个大型的RDF数据库，大量激动人心的应用也会应运而生。但也有怀疑者指出，首先你必须得达成那样的假设。

已经有很多基于语义网的应用，如通用及垂直搜索引擎、文本助理工具、个人信息管理系统、语义浏览工具等等，但在它们为大众所接受之前，还有很长的路要走。即便这些技术成功了，用户也不会有兴趣知道那背后使用了些什么技术。所以说在用户层面推广语义网技术是没什么前景的。

企业就不一样了，第一，企业比较习惯于技术方面的论调，对于它们来说，利用语义技术可以增加产品的智能程度，从而形成市场价值。“我们的产品更好更聪明，因为我们使用语义网”，听起来这对企业来说是一个很不错的宣传。

从企业层面来说，RDF解决了数据的互通性标准的问题。这个问题其实在软件行业的早期便已出现，你可以忘掉语义网，只把它看作是一个标准协议，一个使得两个程序可以互通信息的标准。这对企业来说无疑是极具价值的。RDF提供了一个基于XML的通讯方案，它所描述的前景使得企业并不在乎它的复杂性。但还存在着一个扩展性的问题，跟已经普及优化的关系型数据库不同，基于XML的数据库并没有普及，这归咎于其可扩展性与查询能力。就像九十年代末的对象数据库一样，基于XML的数据库承载了太多的期望，让我们拭目以待。

4、语义API

语义API是随着语义网的发展而发展的，这类网络服务以非结构化的文本作为输入，输出一些实体与关系。例如路透社的Open Calais API，这项服务接受原始文本的输入，返回文本中的人名、地点、公司等信息，并在原文中加以标注。另一个例子是TextWise的 SemanticHacker API，该公司还提供了一百万美元的悬赏，以奖励基于它的API的最好的商业语义网应用。这个API可以把文档中的信息分为不同的类别（称为语义指纹），输出文档中的实体与主题。这点和Calais的很相似，但它还提供了一个主题的层次结构，文档中的实际对象是结构中的叶节点。再一个例子来自于 Dapper，那是一个有助于从无结构的HTML页面提取结构化信息的网络服务。Dapper的工作依赖于用户在页面上为对象定义一些属性，比如，一个图片出版商会定义作者、ISBN和页数的信息在哪里，然后Dapper应用就可以为该站点创建一个识别器，之后就可以通过API来读取它的信息。从技术的角度来看，这似乎是个倒退，但实际上Dapper的技术在实际当中非常有用。举个典型的情景为例，对于一个并没有专门API可以读取其信息的网站，即便是一个不懂得技术的人都可以在短时间内用Dapper来构造一个API。这是最强大、最快捷的把网站变为网络服务的途径。

5、搜索技术

可能语义网发展的最初动机就是因为很久以来搜索的质量都已经很难再得到提升。关于对页面语义的理解能提高搜索质量这一点假设也已经被证实。语义网搜索两个主要的竞争者Hakia与PowerSet都已经做出不少的进步，但仍然不足够。因为，基于统计的google算法，在处理人物、城市与公司等实体时表现得与语义技术同样的好。当你提问“法国总统是谁”时，它能返回一个足够好的答案。

越来越多人意识到对搜索技术边缘化的改进是很难击败 google的，因而转向寻找语义网的杀手级应用。很有可能，理解语义对于搜索引擎是有帮助的，但就此并不足以构建一个更好的搜索引擎。充分结合语义、新颖的展示方式与对用户的识别能提升下一代搜索引擎的搜索体验。另有一些方法试图在搜索结果上应用语义。Google也在尝试把搜索结果分为不同的类别，用户可以决定他们对哪些类别感兴趣。

搜索是一场竞赛，很多语义公司都在追逐其中。也许会有另一种提高搜索质量的可能：文本处理技术与语义数据库的结合。下面我们即将谈到。

6、文本处理技术

我们已经看到越来越多的文本处理工具进入消费市场。像Snap、Yahoo Shortcuts或SmartLinks那样的文本导航应用可以“理解”文本与链接中的对象，并附加相应的信息于其上。其结果是用户根本不需要搜索就可以得到对信息的理解。

让我们想得更远一些，文本工具使用语义的方式可以更为有趣。文本工具不再解析用户在搜索框里输入的关键词，而是依赖于对网络文档的分析。这样对语义的理解会更为精确，或者说减少猜测性。随后文本工具给用户提供几类相关的结果供选择。这种方式从根本上不同于传统的把大量文档中得到的正确结果一起堆放在用户面前的方式。

同样有越来越多的文本处理工具跟浏览器结合起来。自顶向下的语义技术不需要发布者做任何事情，因而可以想像上下文、文本工具可以结合在浏览器里。Firefox的推荐扩展页里提供了很多的文本浏览解决方案，如Interclue, ThumbStrips, Cooliris与BlueOrganizer等。

7、语义数据库

语义数据库是标注型语义网应用的一个发展方向。Twine正在beta测试阶段，它着眼于建立一个关于人物、公司、事件、地点的私人知识库，数据来源为各类论坛的非结构化内容，这些内容可通过书签、邮件或手工的方式进行提交。这项技术仍有待成熟，但它所能带来的好处显而易见。可以意想的一个基于Twine的应用为个性化的搜索，通过个人的知识库来对搜索结果进行过滤。Twine底层的数据表示方式是RDF，可以开放给其它的语义网络服务所采用，但其核心的算法，如实体提取是通过语义API的方式商业化的。路透社也提供了类似的API接口。

另外一个语义数据库的先行者是一家叫Metaweb的公司，它的产品的Freebase。从它所展现的形式来看，Freebase只是一个基于RDF的更结构化的wikipedia翻版。但是Freebase的目标是建立一个像 wikipedia那样的世界信息库，这个信息库的强大之处在于它可以进行精确的查询（就像关系型数据库那样）。所以它的前景依然是更好的搜索。但问题在于，Freebase怎样保持与世界信息同步俱进？google每天对网络文档进行索引，可以随着网络发展而发展。Freebase现在的信息仅来自于个人编辑及从wikipedia或其它数据库中抓回的数据。如果要扩展这个产品，就必须完善从全网络获取非结构化信息、解析并更新数据库这一处理流程。

保持与世界同步这一问题对所有数据库方法都是一种挑战。对于Twine来说，需要有不断的用户数据加入，而对于Freebase来说，则需要有来自不断的来自网络的数据加入。这些问题解决起来并不简单，在真正实用之前都必须要有一个妥善的处理。

8、结论

所有新技术的出现都需要定义一些概念和得到一些类别。语义网提供了一个很激动人心的前景：提高信息的可发现性，实现复杂的搜索，新颖的网络浏览方式。此外语义网对不同的人有不同的意义，它对于企业和对于消费者的定义是不同的，在自顶向下VS自底向上，microformats VS RDF等不同类型中也有不同的含义。除了这些模式，我们也看到了语义API与文本浏览工具的发展。所有的这些都还处于其早期发展阶段，但都承载着改变我们与网络信息交互方式的期望。

感《腾讯十年》

刚读完这本介绍腾讯起家至今的书，感触很多，值得借鉴的东西也有很多。这里首先感谢Gold师兄免费提供了本书的阅读权，遗憾的是未能按时归还师兄。在腾讯北京的大楼里，非常有幸看到了这本书，也感受到一点点腾讯的企业文化。再次感谢两位师兄的接待 :)

书中展示了腾讯的历史，也理清了腾讯的发展战略的变化历程。有几点我觉得非常值得创业人士或者团队建设借鉴。

1. 定位：企业或者团队的目标一定要明确，需要完成的宏观业务也需要有自身的特色，同时还需要有相当的技术深度。当然，这需要一个过程，正如书中提到的“南坡”和“北坡”的对比。

2. 盈利模式：或者叫生存的依赖。刚创立时不必太考虑这个问题。一种好的模式是，好东西大家都会喜爱，大家喜爱的东西自然会有生存下来的渠道，这似乎是水到渠成的原理。反过来，如果起初就过于关注如何挣钱，如何获得利益，很可能最终会把整个公司或者团队拖垮。一句话，先做有用的东西，不必考虑太多，名利最终都会主动找上你。

3. 关注文化：精神的力量是无穷的。一个团队的文化建设尤其重要，因为人是社会性的动物，只有大家形成默契并适当放松后才能取得更大的成绩。文化也是团队的灵魂。好的文化让人引以为豪，让人动力十足。

4. 不断提升：发展到一定阶段肯定会遇到困难也会取得成绩，一定要适时的总结和吸取经验教训，并不断开拓新的局面，当然一个非常重要的因素就是要不断适时的调整战略。

5. 公益：纵观当今，但凡有所成就的企业或者个人，都会特别关注这一点。日行一善，终能让人心里舒坦。取之于民，用之于民，这样才能不断发展。

这本书适合一口气读完，那样能体会更深一些。本书的不足之处我只能找到一点，那就是书里有一处文字错误：第116页第7行。多了一个英文字母"g"。

2008年11月25日

第六届机器学习及其应用研讨会见闻

今年有幸没有错过南京大学的这次机器学习及应用研讨会，感谢朱同学、李同学以及各路好友的接洽和帮助。做了一个思维导图，但是苦于转成图片后不容易看清，采用下面的方式来报道这一路的见闻

南京之行的经历
1 行程及经历
1.1 哈尔滨
1.1.1 早起早市早到
1.2 沈阳
1.2.1 老朱胖了些
1.3 上海
1.3.1 行路匆匆，雨天赶路
1.4 苏州
1.4.1 夜半三更到苏州，混沌好吃
1.4.2 游玩拙政园
1.4.3 第一次坐动车
1.5 南京
1.5.1 雨夜遭遇无出租车
1.5.2 半夜踩点
1.5.2.1 遇到贺惠新
1.5.3 上午的盛会
1.5.4 上午中场遇到很多熟人和新朋友
1.5.4.1 周俊生
1.5.4.2 黄书剑
1.5.5 中午的聚餐
1.5.6 晚上聚餐南京论剑
1.5.6.1 碰到刘未鹏
1.5.7 夜半参观南大NLP实验室
1.5.8 中午的西餐
1.5.9 下午遇到许元直
1.5.10 最精彩的部分会议回顾
1.5.11 夜逛夫子庙
1.5.12 赶往火车站
2 游览的两个地方
2.1 苏州拙政园
2.1.1 苏州园林的美景
2.1.2 植物、楼阁、美景
2.1.3 游玩最好的季节
2.2 南京夫子庙
2.2.1 秦淮河畔
2.2.2 南京小吃
2.2.3 美丽古都
3 机器学习研讨会
3.1 一群大牛
3.1.1 牛棚里的聚会，牛仔们的膜拜
3.2 相关的新东西
3.2.1 泛化
3.2.2 盲人摸象
3.2.3 LDA
3.2.3.1 Latent Directlet Allocation优于LSI
3.2.3.2 层次化降维
3.2.3.3 Unsupervised + Ontology
3.2.3.4 Supervised LDA David Blei
3.2.4 MapReduce
3.2.4.1 将同一机器的任务分摊
3.2.4.2 多个机器的通讯会成为最终瓶颈
3.2.4.3 这里的多个机器没有限制，普通机器就可以实现
3.2.4.4 百度正在采用开源软件来搭建底层的文件平台，从而实现mapreduce
3.2.5 BrowseRank
3.2.5.1 李航的SIGIR best student paper
3.2.5.2 挖掘用户浏览器上的浏览行为
3.2.5.3 包括对URL输入的学习
3.2.6 MultiLabel MultiInstance
3.2.6.1 周志华
3.2.6.2 如何用到NLP上
3.2.6.3 子概念发现只对复杂的大量数据才有效
3.2.6.4 问题表示很重要
3.2.7 不平衡样本处理
3.2.7.1 将Margin偏向少的类别即可
3.2.8 Transfer Learning
3.2.8.1 Qiang Yang
3.2.8.2 Text Categorization with Knowledge Transfer from Heterogeneous Data Source
3.2.9 Manifold
3.2.9.1 流行学习的主要方法是映射到三维空间中进行
3.2.9.2 CVPR的New Topics: Computing on Manifold
3.2.9.3 zhaotuo
3.2.9.3.1 k-nearest neighborhood在manifold的论文有没有最新或者适合扫盲的啊
3.2.9.3.2 tourzhao: ISOMAP
3.2.9.3.3 还有一个LLE
3.2.9.3.4 这两个看完，看Locality Preserving Projection
3.2.9.3.5 你去scholar.google.com直接搜
3.2.9.3.6 就是引用率最高的
3.2.10 两大最好算法
3.2.10.1 SVM
3.2.10.2 Boosting
3.2.11 目前最好的学习框架
3.2.11.1 AdaBoost + Decision Tree
3.2.11.2 AdaBoost不会过拟合
3.2.11.3 选择多个分类器时需要考虑到分散性
3.2.12 Decision Stump
3.2.12.1 只有一层的决策树
3.2.13 参数敏感性测试分析方法
3.2.13.1 4个参数固定其中的三个，随机化另一个1000次，得到结果曲线
3.2.14 因果挖掘
3.2.14.1 数据集上最大化分类相关数据集，求出条件独立的所有组合，随后进行分析
3.2.14.2 贝叶斯网络
3.2.14.3 因果网络
3.2.15 Principal Component Analysis
3.2.15.1 主成份分析
3.2.16 CVM
3.2.16.1 大数据集上的SVM算法
3.2.16.2 保证分类性能的基础上最大化运行速度
3.2.17 学习一些运筹学和凸优化算法，例如MIT的课程
3.2.18 Feature Map
3.2.19 Tom Mitchell
3.2.19.1 大脑研究，备受关注，AAAI最后一个Science报告
3.2.20 Social Network
3.2.20.1 在AAAI以及NIPS上都非常重视
3.2.20.2 Generating Useful Network-based Features for Analyzing Social Networks
3.2.21 Markov Logic Network
3.2.21.1 ICML08的一个热点
3.2.22 Online Learning
3.2.23 Deep Belief Nets新东西，NIPS2007有workshop
3.2.24 Semantic Web
3.2.25 Collective Intelligence
3.2.26 弱可学习理论
3.2.27 LASSO
3.2.28 特征选择
3.2.28.1 特征选择的目的是提高计算效率，转为发现自然模型的真实变量。和重采样结合暗示一种有趣的路线：不必精心选择子模型，使用变量选择挑选需要的子模型。
3.2.28.2 Feature Selection for Activity Recognition in Multi-Robot Domains
3.2.29 数据表示
3.2.29.1 Importance of Semantic Representation: Dataless Classification
3.2.30 Deep Learning
3.2.30.1 ICML08的一个热点
3.2.31 http://videolectures.net
3.2.32 Markov Chain Monte Carlo with People
3.3 顶级会议回顾
3.3.1 会议形式
3.3.1.1 参加过牛会的牛人介绍
3.3.1.2 简介
3.3.1.3 最新趋势
3.3.1.4 有趣的论文
3.3.2 AAAI08
3.3.2.1 杨强
3.3.2.1.1 香港科技大学
3.3.2.1.2 教授
3.3.2.2 集中在传统AI上
3.3.2.3 有趣的话题
3.3.2.3.1 Social Network
3.3.2.3.2 Transfer Learning
3.3.2.3.3 Markov Logic Network
3.3.2.4 Tom Mitchell的脑研究备受关注
3.3.2.5 有专门的NLP Track
3.3.3 COLT08
3.3.3.1 王立威
3.3.3.1.1 北大信息科技学院
3.3.3.1.2 博士
3.3.3.2 Online Learning有点火
3.3.3.3 论文技巧
3.3.3.3.1 新模型
3.3.3.3.2 各种模型的关系
3.3.3.3.3 解决了一些Open Problem
3.3.4 CVPR08
3.3.4.1 林宙辰
3.3.4.1.1 MSRA
3.3.4.1.2 博士
3.3.4.2 Best Paper的评选很随机也没有意思
3.3.4.3 图像方面的传统研究
3.3.4.4 开始转向机器学习，因为学习问题是图像问题的出路
3.3.5 ICML08
3.3.5.1 James Kwok
3.3.5.1.1 香港科技大学
3.3.5.1.2 教授
3.3.5.2 从统计期刊上找东西用到ML上
3.3.5.3 类似的可以从ML期刊上找东西用到NLP上
3.3.5.4 应验三流的数学家做机器学习，三流的机器学习专家做NLP 三流的NLP专家做推广
3.3.5.5 DeepLearning是新的事物
3.3.6 NIPS2007
3.3.6.1 Irwin King
3.3.6.1.1 香港中文大学
3.3.6.1.2 教授
3.3.6.2 每年12月初召开，由于VISA问题改在加拿大召开
3.3.6.3 审稿双盲，可以Argue，通常没用，还可能降低分数
3.3.6.4 每天早上7：30-8：30早餐，上午Oral，晚上Poster到12点，很累，Poster很精彩
3.3.6.5 Social Network研究很多
3.3.6.6 Human Computation开始流行
3.3.6.7 Deep Belief Net
3.3.6.7.1 新事物
3.3.6.8 启发
3.3.6.8.1 看大会的workshop很重要，可能两三年后会成为单独的会议
3.3.6.8.2 NIPS07有workshop deep belief net，很多大牛参会
3.3.7 WWW08
3.3.7.1 李航
3.3.7.1.1 MSRA
3.3.7.1.2 主任研究员
3.3.7.2 www喜欢新的idea，基础研究学术强不适合
3.3.7.3 论文先写Good Story，数学公式多些较好
3.3.7.4 三个Track
3.3.7.4.1 Semantic Web
3.3.7.4.2 Search Track
3.3.7.4.3 Data Mining Track
3.3.7.5 论文录用率
3.3.7.5.1 12%
3.3.7.5.2 至少444才能
3.3.7.5.3 论文不好写，一定要有趣
3.3.8 SIGIR08
3.3.8.1 李航
3.3.8.2 喜欢New Scientific Finding
3.3.8.2.1 偏学术
3.3.8.2.2 现实中用不上
3.3.8.2.3 注重实验
3.3.8.2.4 越来越理论化
3.3.8.3 一定要使用Trec数据
3.3.8.4 可以从会议的Best Paper看会议的风格
3.3.8.5 Collective Intelligence有用
3.3.8.6 Document Analysis
3.3.9 UAI08
3.3.9.1 张长水
3.3.9.1.1 清华大学自动化系
3.3.9.1.2 教授
3.3.9.2 小会
3.3.9.3 与COLT并行举行
4 总体感受
4.1 行万里路，读万卷书
4.2 交流成为习惯

致谢：
感谢templer纠正3.2.3.4应该是david blei
感谢浙朱纠正3.2.3.1的LDA为Latent Directlet Allocation

2008年11月23日

纪念李小龙

看完了《李小龙传奇》，我的心情久久不能平静。我深深的被李小龙的精神感动了。一个重要的感受是：

让交流成为习惯！在和别人交流时是真心实意的，绝对坦诚的那种。最终他赢得了所有人的尊重和一大批人的追随，并最终在26种武术和中国古代哲学的基础长创立了截拳道！坚持自己的理想，最终实现了他人生的三个目标。李小龙创立截拳道的过程值得我们搞科研的人深思。可是他的一点不足是忽略了适当的休息，并最终为世人留下了遗憾。

纪念这位伟大的中国人，Bruce Lee！

2008年11月4日

练武不练功，到老一场空

近日《李小龙传奇》正在热播，偷闲看了一点。领悟有两点：“练武不练功，到老一场空”，“什么对练武有用就学习什么”。

第一句话对于我经历过的所谓的学了很多种机器学习方法算种警示。记得一位师弟说过，很多我们正在学习的机器学习方法都是花架子。因为我们都未能真正学会。相反，对于正在进行的研究却没有进行深入的思考。眼看读博第三年快要结束了，应该算是“老人”了，真有一点“一场空”的感觉。还是那句话，只要现在开始，那就不算晚。好好学习数学咯。

第二句对于我们做计算机应用的人来说至关重要。因为本质上计算机应用没有自身的理论体系，都是在弄一些所谓交叉学科相关的东西。只有兼容并包、从善如流才能保持前进的脚步。

李小龙每天都是在基本功的练习中开始新的一天的。反观自己，想想实际情况，还是学点数学较好。

翻过来再说说这几日看《统计学》这本书的一些感触吧。

说来也怪，看的东西以前自己都曾经学过，只是时间长了，在脑子里便没有了时常的提醒。这两天看的是相关性和回归分析两部分。在进行统计时，我们很容易被一些统计量蒙混了双眼。因为很可能正在被计算的两个统计量之间的强相关性是由第三个变量导致的。在没有任何先验知识的情况下，计算机能够发现这种特殊性么？如果能的话，那就是人工智能了吧 :) 。相关性分析是特征选择里非常重要的一个东西。这样看来，特征选择也是有改进的余地的。

今天看到一个有趣的例子。说幼儿园入学时平均智商高的小朋友毕业时平均智商降低了，反倒是入学时智商低的毕业时智商变高了。难道是幼儿园起到了让孩子们智商平均化的作用么？看到这个例子，我先也是一惊。后来得知，这个叫回归谬论。在回归分析里，第一次统计时很好和很差的结果，往往在第二次统计时会变得次好和次差。这是因为统计得到的结果是观测值，包含真实值和随机值两部分。先后两次测量的随机部分运气上往往会出现交换。结果就出现了这种回归效应。

这本数学书很不错，那就是几乎不用数学公式，复杂的原理和计算用通俗的文字就能展现。好书一本！

订阅：博文 (Atom)

Bill_Lang