和自然语言处理打交道,必不可少的一环就是汉字编码问题。这不,今天又被折腾了一次。俺们的Mr. Hu说了,今年的目标之一是不折腾。所以得想个好招儿才行。
问 题是这样的,我在实验室已毕业的技术大牛Victor的指导下,准备采用Web Server的方式来整合我所带领的共指消解小组的各种特征抽取工作。各项工作起初都进展顺利,最后卡在了汉字编码上。由于建立的Web Server只接收UTF-8格式的URL,恰好俺对Java处理中文编码问题不是很熟悉,找了几种方案都感觉不是万全之计。最后采用了一种极其暴力的解 决方案。那就是将Eclipse的默认编码环境全部指定为UTF-8。
至此,我面前的一座大山被彻底摧垮,这种方式的空间里再现青山绿水的hexie :)
3 条评论:
不算暴力,所有代码用UTF-8存储,本身就是i18n开发的一个方便原则
哈哈,俺算数歪打着咯~!
谢谢指点啊。以后还得多多学习i18n方案啊
来看看
发表评论