Bill_Lang: 第六届机器学习及其应用研讨会见闻

今年有幸没有错过南京大学的这次机器学习及应用研讨会，感谢朱同学、李同学以及各路好友的接洽和帮助。做了一个思维导图，但是苦于转成图片后不容易看清，采用下面的方式来报道这一路的见闻

南京之行的经历
1 行程及经历
1.1 哈尔滨
1.1.1 早起早市早到
1.2 沈阳
1.2.1 老朱胖了些
1.3 上海
1.3.1 行路匆匆，雨天赶路
1.4 苏州
1.4.1 夜半三更到苏州，混沌好吃
1.4.2 游玩拙政园
1.4.3 第一次坐动车
1.5 南京
1.5.1 雨夜遭遇无出租车
1.5.2 半夜踩点
1.5.2.1 遇到贺惠新
1.5.3 上午的盛会
1.5.4 上午中场遇到很多熟人和新朋友
1.5.4.1 周俊生
1.5.4.2 黄书剑
1.5.5 中午的聚餐
1.5.6 晚上聚餐南京论剑
1.5.6.1 碰到刘未鹏
1.5.7 夜半参观南大NLP实验室
1.5.8 中午的西餐
1.5.9 下午遇到许元直
1.5.10 最精彩的部分会议回顾
1.5.11 夜逛夫子庙
1.5.12 赶往火车站
2 游览的两个地方
2.1 苏州拙政园
2.1.1 苏州园林的美景
2.1.2 植物、楼阁、美景
2.1.3 游玩最好的季节
2.2 南京夫子庙
2.2.1 秦淮河畔
2.2.2 南京小吃
2.2.3 美丽古都
3 机器学习研讨会
3.1 一群大牛
3.1.1 牛棚里的聚会，牛仔们的膜拜
3.2 相关的新东西
3.2.1 泛化
3.2.2 盲人摸象
3.2.3 LDA
3.2.3.1 Latent Directlet Allocation优于LSI
3.2.3.2 层次化降维
3.2.3.3 Unsupervised + Ontology
3.2.3.4 Supervised LDA David Blei
3.2.4 MapReduce
3.2.4.1 将同一机器的任务分摊
3.2.4.2 多个机器的通讯会成为最终瓶颈
3.2.4.3 这里的多个机器没有限制，普通机器就可以实现
3.2.4.4 百度正在采用开源软件来搭建底层的文件平台，从而实现mapreduce
3.2.5 BrowseRank
3.2.5.1 李航的SIGIR best student paper
3.2.5.2 挖掘用户浏览器上的浏览行为
3.2.5.3 包括对URL输入的学习
3.2.6 MultiLabel MultiInstance
3.2.6.1 周志华
3.2.6.2 如何用到NLP上
3.2.6.3 子概念发现只对复杂的大量数据才有效
3.2.6.4 问题表示很重要
3.2.7 不平衡样本处理
3.2.7.1 将Margin偏向少的类别即可
3.2.8 Transfer Learning
3.2.8.1 Qiang Yang
3.2.8.2 Text Categorization with Knowledge Transfer from Heterogeneous Data Source
3.2.9 Manifold
3.2.9.1 流行学习的主要方法是映射到三维空间中进行
3.2.9.2 CVPR的New Topics: Computing on Manifold
3.2.9.3 zhaotuo
3.2.9.3.1 k-nearest neighborhood在manifold的论文有没有最新或者适合扫盲的啊
3.2.9.3.2 tourzhao: ISOMAP
3.2.9.3.3 还有一个LLE
3.2.9.3.4 这两个看完，看Locality Preserving Projection
3.2.9.3.5 你去scholar.google.com直接搜
3.2.9.3.6 就是引用率最高的
3.2.10 两大最好算法
3.2.10.1 SVM
3.2.10.2 Boosting
3.2.11 目前最好的学习框架
3.2.11.1 AdaBoost + Decision Tree
3.2.11.2 AdaBoost不会过拟合
3.2.11.3 选择多个分类器时需要考虑到分散性
3.2.12 Decision Stump
3.2.12.1 只有一层的决策树
3.2.13 参数敏感性测试分析方法
3.2.13.1 4个参数固定其中的三个，随机化另一个1000次，得到结果曲线
3.2.14 因果挖掘
3.2.14.1 数据集上最大化分类相关数据集，求出条件独立的所有组合，随后进行分析
3.2.14.2 贝叶斯网络
3.2.14.3 因果网络
3.2.15 Principal Component Analysis
3.2.15.1 主成份分析
3.2.16 CVM
3.2.16.1 大数据集上的SVM算法
3.2.16.2 保证分类性能的基础上最大化运行速度
3.2.17 学习一些运筹学和凸优化算法，例如MIT的课程
3.2.18 Feature Map
3.2.19 Tom Mitchell
3.2.19.1 大脑研究，备受关注，AAAI最后一个Science报告
3.2.20 Social Network
3.2.20.1 在AAAI以及NIPS上都非常重视
3.2.20.2 Generating Useful Network-based Features for Analyzing Social Networks
3.2.21 Markov Logic Network
3.2.21.1 ICML08的一个热点
3.2.22 Online Learning
3.2.23 Deep Belief Nets新东西，NIPS2007有workshop
3.2.24 Semantic Web
3.2.25 Collective Intelligence
3.2.26 弱可学习理论
3.2.27 LASSO
3.2.28 特征选择
3.2.28.1 特征选择的目的是提高计算效率，转为发现自然模型的真实变量。和重采样结合暗示一种有趣的路线：不必精心选择子模型，使用变量选择挑选需要的子模型。
3.2.28.2 Feature Selection for Activity Recognition in Multi-Robot Domains
3.2.29 数据表示
3.2.29.1 Importance of Semantic Representation: Dataless Classification
3.2.30 Deep Learning
3.2.30.1 ICML08的一个热点
3.2.31 http://videolectures.net
3.2.32 Markov Chain Monte Carlo with People
3.3 顶级会议回顾
3.3.1 会议形式
3.3.1.1 参加过牛会的牛人介绍
3.3.1.2 简介
3.3.1.3 最新趋势
3.3.1.4 有趣的论文
3.3.2 AAAI08
3.3.2.1 杨强
3.3.2.1.1 香港科技大学
3.3.2.1.2 教授
3.3.2.2 集中在传统AI上
3.3.2.3 有趣的话题
3.3.2.3.1 Social Network
3.3.2.3.2 Transfer Learning
3.3.2.3.3 Markov Logic Network
3.3.2.4 Tom Mitchell的脑研究备受关注
3.3.2.5 有专门的NLP Track
3.3.3 COLT08
3.3.3.1 王立威
3.3.3.1.1 北大信息科技学院
3.3.3.1.2 博士
3.3.3.2 Online Learning有点火
3.3.3.3 论文技巧
3.3.3.3.1 新模型
3.3.3.3.2 各种模型的关系
3.3.3.3.3 解决了一些Open Problem
3.3.4 CVPR08
3.3.4.1 林宙辰
3.3.4.1.1 MSRA
3.3.4.1.2 博士
3.3.4.2 Best Paper的评选很随机也没有意思
3.3.4.3 图像方面的传统研究
3.3.4.4 开始转向机器学习，因为学习问题是图像问题的出路
3.3.5 ICML08
3.3.5.1 James Kwok
3.3.5.1.1 香港科技大学
3.3.5.1.2 教授
3.3.5.2 从统计期刊上找东西用到ML上
3.3.5.3 类似的可以从ML期刊上找东西用到NLP上
3.3.5.4 应验三流的数学家做机器学习，三流的机器学习专家做NLP 三流的NLP专家做推广
3.3.5.5 DeepLearning是新的事物
3.3.6 NIPS2007
3.3.6.1 Irwin King
3.3.6.1.1 香港中文大学
3.3.6.1.2 教授
3.3.6.2 每年12月初召开，由于VISA问题改在加拿大召开
3.3.6.3 审稿双盲，可以Argue，通常没用，还可能降低分数
3.3.6.4 每天早上7：30-8：30早餐，上午Oral，晚上Poster到12点，很累，Poster很精彩
3.3.6.5 Social Network研究很多
3.3.6.6 Human Computation开始流行
3.3.6.7 Deep Belief Net
3.3.6.7.1 新事物
3.3.6.8 启发
3.3.6.8.1 看大会的workshop很重要，可能两三年后会成为单独的会议
3.3.6.8.2 NIPS07有workshop deep belief net，很多大牛参会
3.3.7 WWW08
3.3.7.1 李航
3.3.7.1.1 MSRA
3.3.7.1.2 主任研究员
3.3.7.2 www喜欢新的idea，基础研究学术强不适合
3.3.7.3 论文先写Good Story，数学公式多些较好
3.3.7.4 三个Track
3.3.7.4.1 Semantic Web
3.3.7.4.2 Search Track
3.3.7.4.3 Data Mining Track
3.3.7.5 论文录用率
3.3.7.5.1 12%
3.3.7.5.2 至少444才能
3.3.7.5.3 论文不好写，一定要有趣
3.3.8 SIGIR08
3.3.8.1 李航
3.3.8.2 喜欢New Scientific Finding
3.3.8.2.1 偏学术
3.3.8.2.2 现实中用不上
3.3.8.2.3 注重实验
3.3.8.2.4 越来越理论化
3.3.8.3 一定要使用Trec数据
3.3.8.4 可以从会议的Best Paper看会议的风格
3.3.8.5 Collective Intelligence有用
3.3.8.6 Document Analysis
3.3.9 UAI08
3.3.9.1 张长水
3.3.9.1.1 清华大学自动化系
3.3.9.1.2 教授
3.3.9.2 小会
3.3.9.3 与COLT并行举行
4 总体感受
4.1 行万里路，读万卷书
4.2 交流成为习惯