以讀取編碼是GBK的文件為案例,文件內容只有中文和中文符號
2、原因
FileInputStream讀中文亂碼是因為一個中文對應兩個字節存儲(負數),也就是說,讀取對應中文的字節數應該是偶數; 而英文對應一個字節存儲。FileInputStream每次讀取一個數組長度的字節時,讀取的中文字節數可能是奇數,也就是只讀到中文的一半字節,出現亂碼。
3、解決方法
-
一次讀取所有字節,此方法不靠譜,因為不確定總字節數。
-
在輸出時進行判斷,遍歷數組判斷負數的個數,如果是奇數,說明讀取到中文的一半字節,對數組進行擴容再輸出;否則正常輸出
4、代碼案例
package 第二題;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.UnsupportedEncodingException;
import java.util.Arrays;
public class MainTest {
public static void main(String[] args) throws UnsupportedEncodingException {
// 創建File對象
File file = new File("D:\\filetest\\file4.txt");
FileInputStream fileInputStream = null;
try {
// 新建一個FileInputStream對象
fileInputStream = new FileInputStream(file);
// 新建一個字節數組
byte[] buf = new byte[2];
// read(buf):此方法的返回值就是當前讀取的字節個數,將數據讀取到buf數組
// 將readLen變量也就是read方法的返回值,當此變量等於-1,則讀到文件末尾
int readLen = -1;
//讀取文件數據
while ((readLen = fileInputStream.read(buf)) != -1) {
int pos=0;//記錄負數的個數
for(byte v:buf)
{
if(v<0)
{
pos++;
}
}
//負數個數為偶數,讀取完整,沒有讀取到半個中文
if(pos%2==0)
{
// 將字節數組轉換成字符串
String content = new String(buf, 0, readLen);