Bill_Lang: can't如何tokenize?

2008年4月8日

今天处理一点句子时，发现一个有点麻烦的问题。

don't会被tokenize成[do][n't]

can't会被tokenize成[ca][n't]

don't的处理感觉是没有任何问题的，但是can't明显错了。那改成[can]['t]呢，感觉还是有点不妥。

遇到won't该怎么tokenize呢，[won]['t]还是[wo][n't]？感觉都不妥。

仔细思考，如果要强行分开n't结构的话，感觉这个问题应该目前任何tokenizer都不能解决的。

能够想到的两个办法如下：

1. 直接保留，不进行分割，即保留为[don't][can't]和[won't]

2.先还原再处理，最终如果需要在原文中标记的话再加上后处理，及结果为

[do][not]

[can][not]

[will][not]

最后决定两种方案里面选一种，需要绝对统一起来进行处理。想到does not do something和do not do something的结构在采用第二种方案时更合理些。我决定采用第二种方案来解决这个问题。至于n't以外的其他词汇层面的缩写都采用这种方法来处理。