2005年11月25日

归IR倒数第六天--编程与编码

传说中的昨晚哈尔滨地震最终还是被证明就是谣言。这个年代普通人对谣言没有抵抗力的,但是有非常良好的间接传播能力。祝福我的老师和朋友们平安度过这段“难忘”的日子。

今天的工作主要集中的在修正已经完成的工作中的几个bug。第一个最大的bug是我完成的英法词典里面有很多的乱码,特别是在那些本该有帽子的地方都显示不正常。这个事情以前牛成老师提到过,当时我以为那些就是法语中正确的码断。今天在整理完成工作的时候我才发现原先处理的一个语料中没有将它转换为UTF8编码,所以才出现了这个问题。花了几个小时终于将这个问题彻底解决,现在的词典没有任何的乱码,想要怎么转就怎么转。

牛成老师在下午的时候给我很好的介绍了编程过程中需要注意的字符串编码的问题。以前我编程的时候不太注意这个问题,因为我一直都是用标准C++编程的,以前除了在参加ACE的时候有过将UTF8转换为Ascii的一点点编码转换外,我的程序都是在Ascii和ANCI上完成的。最近的时间里面都在处理法语,这个东东需要非常注意编码格式,其中自然也就涉及到了很多的编码转换的问题。可以说从9月13号以来我工作的一个很大部分都是在和编码转化打交道。时至今日,到上午前我还一直是处在控制输入输出文件格式上,没有在程序中很好的使用编码转换的代码。牛成老师教导我说程序中书写的每个string,不管是标准的还是宽字节,一定要非常清楚的知道当前这个字符串的编码格式,否则程序运行的结果肯定会是不稳定的。这一点一般人在编程的时候都不认真的考虑,感觉程序一次运行通过就算完事了,后果常常是出现第二次运行的时候出现问题。

牛成老师的指点让我感觉非常的受益!因为这个过程中再次验证了那个作研究每个细节都不能放过的观点,一定要做到Professional的程度,对待遇到的任何一个相关问题都要非常规认真的分析和解决,这样才能作出做好的研究。牛成老师就是这样以为Researcher。我非常的敬佩他!

没有评论: