2004年5月21日

针对指代消解的名词短语识别

上午将昨日的方案和金山师兄一起进行了可行性分析。师兄最后认同我的方案。于是从早上开始我一直在完成我的这个程序。刚才(约莫十点左右),我的程序终于实现了昨晚定下来的三个步骤。当然其间也遇到了一些问题,这里记录一些它们的解决方案。

完成第一项任务时的问题和解决方案:

在观察北大语料时,发觉 "]"可能有两种,一种是ns,nz,nt等的标注信息,一种是全角的标点符号。这样区分好后就可以很方便的进行处理了。昨天我一直以为两种符号是一样的。今天已统计频度才发现这个特点。


完成第二个任务时,需要处理文件末尾的边界问题。这种末尾边界不能在读入文件结束时处理,需要额外的处理内存中的信息。

完成第三个任务时,也需要处理文件边界的问题,需要仔细设计程序流程,然后实现之。

此刻我的程序正在将北大57的语料中的全部针对指代消解的名词短语进行识别。很是兴奋亚。明日就可以完成我的下一阶段的名词短语特征向量的构建了。


let me begin!!

没有评论: