2007年5月20日

你正在发散么?Focus!: 冲动之“基于二元句对主干检索的聊天机器人”

这个句子是一个贴在我显示器下面的提示语。目的是为了不断提醒自己不要发散。人总是有缺点的,我的缺点就是太发散,经常会被一些东西分散注意力。这不,今天晚上险些又被拉入了自己曾经的一个梦想--聊天机器人。

自己最早接触聊天机器人是2004年在微软俱乐部担任VB技术小组组长的时候,和组员许楠一起申请了一个聊天机器人的项目。当时的技术非常的简单,就是对每个输入的句子在库中找最接近的句子后随的话来输出,找不到就随意的输出一个转移话题或者模棱两可的句子。

随后2005年在微软亚洲研究院实习的前四个月在和际洲一起研究Alice等聊天机器人的机制,并且完成了一个简单的聊天机器人,自己还手工撰写了好几百条聊天知识。

聊天机器人现在算是自己的一个梦想,每每看到这方面的消息都会非常的集中注意力。晚上看到了一段“两个聊天机器人的对话记录”,又开始迸发做一个聊天机器人的想法。原先自己涉及过的聊天机器人以及Alice的原理,都是在寻找最接近的回复。这种可以看成二元句对模型。如果能够扩展成三元句组模型,相信能够会使聊天机器人的性能得到提高。

具体想法是:将聊天(或者对话)语料库中的每个句子进行适当的主干提取操作,在进行实际聊天过程中,每次对最近的两个句子提取主干,然后在语料库中进行检索,找出最接近的二元对,从而抽取紧随的句子作为回复。

这个方案简单易行。其中涉及到三个关键问题:1、语料的采集;2、句子主干如何设定;3、如何高效检索二元句对。我的粗浅想法是:1、语料可以收集大家的聊天语料库(但是存在难度,没有人愿意公开);2、句子主干可以采用句法分析的技术来删除一些不相关的节点,可以采用依存句法分析器或者结构句法分析器实现;3、对二元句对建立索引,然后采用Lucene等工具实现快速检索。

呵呵,一种冲动。但是看到显示器下的话“你正在发散么?Focus!”我刚才停住了调研分析。简短记下这个冲动的想法吧。等完成自己现在的主要任务后再继续前进吧。留做备份。

其实自己经常出现类似的冲动想法,这种情况以后自己一定要经常性的记录下来,以备将来回顾,同时也是为了使自己更加关注!

3 条评论:

Bill Lang 说...

Comment's author: astro
05/21/2007 08:10:07 PM
伟大的图灵测试……

Bill Lang 说...

Comment's author: astro
05/21/2007 08:11:57 PM
伟大的图灵测试……

Bill Lang 说...

Comment's author: Bill_Lang
05/27/2007 09:20:22 PM
Aha! Welcome! It is interesting.