IT 观察窥其一隅: 四种语言的unicode处理简述

本文讲述了在JAVA, Perl, Python, Ruby语言中，unicode的处理

1. Java：内部字符串用Unicode保存，基本上不用关注这个问题。正则表达式、字符计数和字串截取都工作正常。

2. Perl: 存在两种字符模式，一个是传统的面向字节的，另一个是面向unicode字符的。在后面一种情况下，Perl在内部用UTF-8编码存储字符串。对于 UTF-8字符串，可以使用传统的字符串操作函数，比如length，substr，也可以使用正则表达式，结果确保正确。Perl使用哪种字符模式，主要取决于流的设置，这个设置是通过binmode函数来进行的。对于在程序文本中出现的字符串，当然是以文件本身的编码方式存储的。经常发生的情况是，程序本身用ANSI编码编写（比如CP936），但是处理汉字的时候需要转换成UTF-8，这时候可以用Encode模块里的decode函数讲字符串转成 UTF-8。反过来，encode函数可以把UTF-8编码的Perl字符串转换成CP936，这样就能够在控制台上打印出来。

3. Python: 为了支持Unicode，整个做了一个Unicode内建对象，把string对象的全部方法重新实现了一遍。Python对Unicode的支持比较简单。比如 s = unicode('给他5个dollar!", 'gbk')，就能得到一个unicode对象。上面调用中的'gbk'参数是说传过去的字符串是用GBK编码的。对于得到的这个unicode对象，调用string同名方法，所有的结果都是正确的。

4. Ruby：Ruby对于Unicode的支持最差，或者说根本没有支持。Ruby始终只是把String看成是字节序列。使用Ruby处理中文，要用 iconv库转来转去。Ruby的正则表达式对unicode不友好。新加入Rails的一个库据称可以解决Ruby unicode支持的问题，不过代价是三十倍的性能下降。

IT 观察窥其一隅

5/28/2008

四种语言的unicode处理简述

0 评论:

发表评论

关于我

Labels

Blog Archive

IT 观察 窥其一隅