最近在做一个反馈功能,把数据反馈到对方公司网站,我公司是GBK编码,对方公司是UTF-8编码。因此,我需要将GBK编码数据转换成UTF-8编码数据,这样对方网站才不会乱码。最简单的方法是将HttpClient的ContentCharset设置为utf-8;如果ContentCharset是gbk并且又不想设置为utf-8,那么就需要将数据转换成UTF-8编码再发到对方网站。
问题出现:GBK转UTF-8时,奇数个中文会乱码,偶数个中文不会乱码。
三个中文
Java代码
public static void encodeError() throws UnsupportedEncodingException {
String gbk = "我来了";
String utf8 = new String(gbk.getBytes("UTF-8"));
//模拟UTF-8编码的网站显示
System.out.println(new String(utf8.getBytes(),"UTF-8"));
}
/*
我来??
*/
前面三个中文,后面一个中文,都是奇数
Java代码
public static void encodeError2() throws UnsupportedEncodingException {
String gbk = "今年是2011年";
String utf8 = new String(gbk.getBytes("UTF-8"));
//模拟UTF-8编码的网站显示
System.out.println(new String(utf8.getBytes(),"UTF-8"));
}
/*
今年??011??
*/
原因:为什么只有奇数个中文才乱码,偶数个却不乱码?下面来分析原因
Java代码
public static void analyze() throws UnsupportedEncodingException {
String gbk = "我来了";
String utf8 = new String(gbk.getBytes("UTF-8"));
for (byte b : gbk.getBytes("UTF-8")) {
System.out.print(b + " ");
}
System.out.println();
for (byte b : utf8.getBytes()) {
System.out.print(b + " ");
}
}
/*
-26 -120 -111 -26 -99 -91 -28 -70 -122
-26 -120 -111 -26 -99 -91 -28 -70 63
*/
注意最后一个字节不同,上面一行才是正确的UTF-8编码。那么为什么下面一行最后一个字节是63,而不是-122呢?这就是导致乱码的原因所在。
GBK编码是一个中文2个字节,而UTF-8编码是一个中文3个字节,当我们调用getBytes("UTF-8")方法时,会通过计算来增加字节,使得从GBK的2个字节变成UTF-8对应的3个字节。因此,上例3个中文输出了9个字节。
这里讲一下怎么通过计算增加字节,不深究的读者可以跳过此段。为了醒目,直接用代码讲解
Java代码
public static void gbk2Utf() throws UnsupportedEncodingException {
String gbk = "我来了";
char[] c = gbk.toCharArray();
byte[] fullByte = new byte[3*c.length];
for (int i=0; i<c.length; i++) {
String binary = Integer.toBinaryString(c[i]);
StringBuffer sb = new StringBuffer();
int len = 16 - binary.length();
//前面补零
for(int j=0; j<len; j++){
sb.append("0");
}
sb.append(binary);
//增加位,达到到24位3个字节
sb.insert(0, "1110");
sb.insert(8, "10");
sb.insert(16, "10");
fullByte[i*3] = Integer.valueOf(sb.substring(0,
, 2).byteValue();//二进制字符串创建整型
fullByte[i*3+1] = Integer.valueOf(sb.substring(8, 16), 2).byteValue();
fullByte[i*3+2] = Integer.valueOf(sb.substring(16, 24), 2).byteValue();
}
//模拟UTF-8编码的网站显示
System.out.println(new String(fullByte,"UTF-8"));
}
现在我们来找出最后一个字节是63,而不是-122的原因。
Java代码
public static void analyze2() throws UnsupportedEncodingException {
String gbk = "我来了";
byte[] utfBytes = gbk.getBytes("UTF-8");//得到9个字节
String utf8 = new String(utfBytes);//问题就出在这
System.out.print(utf8);
}
/*
鎴戞潵浜?
*/
因为文件是GBK编码,new String(utfBytes)默认就是new String(utfBytes,"GBK")。它会2个字节2个字节地转换成字符,当字节是奇数时最后1个字节转字符就会计算错误,然后直接赋予最后这个字符为?,对应ASCII代码就是63。
解决问题
保证字节正确才是硬道理。当调用getBytes("UTF-8")转换成字节数组后,创建ISO-8859-1编码的字符串,ISO-8859-1编码是一个字节对应一个字符,因此不会使最后一个字节错误。
Java代码
public static void correctEncode() throws UnsupportedEncodingException {
String gbk = "我来了";
String iso = new String(gbk.getBytes("UTF-8"),"ISO-8859-1");
for (byte b : iso.getBytes("ISO-8859-1")) {
System.out.print(b + " ");
}
System.out.println();
//模拟UTF-8编码的网站显示
System.out.println(new String(iso.getBytes("ISO-8859-1"),"UTF-8"));
}
/*
-26 -120 -111 -26 -99 -91 -28 -70 -122
我来了
*/
分享到:
相关推荐
GBK、UTF-8批量文件3秒快速转码工具(支持GBK,UTF-8免费转换),UTF-8/GBK编码在线转换工具,压缩包可以有多目录与文件,如目录中有图片不会转码,但是会随转码好的文件一起打包下载。 使用帮助 . 上传压缩包(仅支持zip...
C#写的 GBK GB2312 UTF-8转换 功能简单,仅供学习
idea、Eclipse等项目导入.java文件中文乱码完美解决方案:文件夹下所有GBK编码的.java一键转为utf-8,操作方式:将GBK2UTF8.jar文件考到需要转码项目目录,在当前位置运行控制台,输入命令java -jar GBK2UTF8.jar,...
可以实现编码转换,使用编码utf-8转换成gbk
eclispe GBK转UTF-8乱码解决 插件,统一解决
基于MFC CString的GBK与UTF-8编码转换,在网上找到一些代码都有问题,但都存在一些错误。现在改好了,与大家分享一下。 (MFC 非UNICODE)
请使用这款软件,直接将代码转换为UTF-8 注意: 1、xml不需要转换,因为xml默认是utf-8,在你新建的时候已经是正确的格式了 2、图片更不需要转换 3、bin目录,gen目录的直接忽略 4.只需要src目录的代码转换,请确保...
c 源码, gbk和utf8 互相转换(不含库) 通过查表实现转换 实际转换为 gbk -- unicode --utf8
Linux 下批量 gbk 转 utf-8 编码脚本
批量 convertz.rar GBK 转 UTF-8 gb2312 转 UTF-8 Iso-8959-1 转 UTF-8
GBK转UTF-8工具,支持java工程批量转换
批量文件转码工具(支持 GBK,UTF-8 转换)。 批量文件转码工具,支持GBK,UTF-8转换,window下面使用,亲测可以使用!!!!!!!!!! 批量 文件转码 工具 GBK UTF-8
老项目采用GBK编码格式,而新项目采用的UTF-8编码格式,如果直接把Java源代码复制到Eclipse中所有的中文信息会出现乱码。所以写了个小的方法类,将java文件的编码格式从GBK转UTF-8
转码工具 解决项目中乱码问题 完成gbk到utf-8的双向转换
由于程序缓存问题,导致数据库原存utf-8格式的数据,现在存进了GBK格式的数据导致乱码。需要将数据恢复,所以需要转码,现在将乱码数据导出存入Excel文件,通过java代码转换成utf-8格式的数据后打印update更新SQL...
文件包含:gbk2utf-8.bat、utf-82gbk.bat、iconv.exe及使用说明.txt四个文件 使用说明:1把要转换的所有.h和.c文件拷入该目录下,双击相应的bat文件即可。 2转换结果会保存在utf-8Res或gbkRes目录下。 3如果转换除...
gbk网页模板转utf-8的绿色小工具。gbk网页模板转utf-8的绿色小工具。
可以将你输入的路径下的,java进行转码,转为utf-8,使用方法:输入要转码的路径,输入保存在哪里的路径 ,即可
python 实现gbk 编码文件转utf-8编码格式
gbk 转 utf-8 的python示例代码。 有时候下的电子书,到Linux上看有时候是乱码。写了个python脚本转一下。