Ruby采集编码问题


汽车之家的网页

<meta charset="gb2312">


但在使用ruby进行处理时,使用gb2312在转码的时候会出现很多问题。而应该使用GB18030格式来转码。如:

str1 = "..."
str1.force_encoding("GB18030")


关于复杂汉字问题
GB2312 < GBK < GB18030


用GB18030,就够你用了。


再不够用,就去用UTF-8,保证都可以。



中文字符编码标准

2000年,国家出了标准GB18030-2000,简称GB18030,技术上兼容GBK而非GB13000,取代了 GBK1.0,成了正式的国家标准。该标准收录了 27484 个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。现在的PC平台必须支持 GB18030 ,对嵌入式产品暂不作要求。所以手机、MP3 一般只支持 GB2312。GB18030 在 Windows 中的代码页是 CP54936。

阅读量: 513
发布于:
修改于: