ASP教程 ASP.NET教程 PHP教程 JSP教程 CGI/Perl教程 其他WEB语言 数据库编程编程杂谈
返回首页
当前位置: 主页 > 网络编程 > 编程杂谈 >

处理unicode使用的四种语言简述

时间:2009-04-16 21:57来源:爱设计教学网 作者:网络 点击:
1. Java 内部字符串用Unicode保存,基本上不用关注这个问题。正则表达式、字符计数和字串截取都工作正常。 2. Perl 存在两种字符模式,一个是传统的面向字节的,另一个是面向unicode字符的。在后面一种情况下,Perl在内部用UTF-8编码存储字符串。对于UTF-8字

1. Java

内部字符串用Unicode保存,基本上不用关注这个问题。正则表达式、字符计数和字串截取都工作正常。

2. Perl

存在两种字符模式,一个是传统的面向字节的,另一个是面向unicode字符的。在后面一种情况下,Perl在内部用UTF-8编码存储字符串。对于UTF-8字符串,可以使用传统的字符串操作函数,比如length,substr,也可以使用正则表达式,结果确保正确。Perl使用哪种字符模式,主要取决于流的设置,这个设置是通过binmode函数来进行的。对于在程序文本中出现的字符串,当然是以文件本身的编码方式存储的。经常发生的情况是,程序本身用ANSI编码编写(比如CP936),但是处理汉字的时候需要转换成UTF-8,这时候可以用Encode模块里的decode函数讲字符串转成UTF-8。反过来,encode函数可以把UTF-8编码的Perl字符串转换成CP936,这样就能够在控制台上打印出来。

3. Python

为了支持Unicode,整个做了一个Unicode内建对象,把string对象的全部方法重新实现了一遍。Python对Unicode的支持比较简单。比如 s = unicode('给他5个dollar!", 'gbk'),就能得到一个unicode对象。上面调用中的'gbk'参数是说传过去的字符串是用GBK编码的。对于得到的这个unicode对象,调用string同名方法,所有的结果都是正确的。

4. Ruby

Ruby对于Unicode的支持最差,或者说根本没有支持。Ruby始终只是把String看成是字节序列。使用Ruby处理中文,要用iconv库转来转去。Ruby的正则表达式对unicode不友好。新加入Rails的一个库据称可以解决Ruby unicode支持的问题,不过代价是三十倍的性能下降。

爱设计教学网(www.2sheji.com)——为您所需,替您所想!
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
最新评论 查看所有评论
发表评论 查看所有评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 密码: 验证码:
推荐内容