Bill_Lang
相见是缘,博客上也是。专注于自然语言处理、机器翻译、文本挖掘、机器学习。喜好烹饪、编程、交友、太极、台球、读书、佛学。欢迎交流~!
2011-2-27
折腾语料的全角半角
折腾语料:整理语料时需要统一编码,开始是折腾utf8和gb的统一,后来折腾全角半角。又折腾出来一个经验:如果语聊中全角半角混杂的话,需要谨慎的统一,现在试验找到的final solution是先全部转半角,再全部转全角。由于转全角时保留了英文字幕为半角,原先的方案是直接将语料全部转全角,这两天发现那样原先语料库中的全角英文字母就会一直存在。
恩,还得谨慎啊。
0 评论:
发表评论
较新的帖子
较早的帖子
主页
订阅:
帖子评论 (Atom)
0 评论:
发表评论