Ruby采集编码问题
汽车之家的网页
<meta charset="gb2312">
但在使用ruby进行处理时,使用gb2312在转码的时候会出现很多问题。而应该使用GB18030格式来转码。如:
str1 = "..." str1.force_encoding("GB18030")
关于复杂汉字问题
GB2312 < GBK < GB18030
用GB18030,就够你用了。
再不够用,就去用UTF-8,保证都可以。
中文字符编码标准
2000年,国家出了标准GB18030-2000,简称GB18030,技术上兼容GBK而非GB13000,取代了 GBK1.0,成了正式的国家标准。该标准收录了 27484 个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。现在的PC平台必须支持 GB18030 ,对嵌入式产品暂不作要求。所以手机、MP3 一般只支持 GB2312。GB18030 在 Windows 中的代码页是 CP54936。
阅读量: 513
发布于:
修改于:
发布于:
修改于: