FileInputStream讀中文亂碼問題


FileInputStream讀中文亂碼問題

1、前提

以讀取編碼是GBK的文件為案例,文件內容只有中文和中文符號

2、原因

FileInputStream讀中文亂碼是因為一個中文對應兩個字節存儲(負數),也就是說,讀取對應中文的字節數應該是偶數; 而英文對應一個字節存儲。FileInputStream每次讀取一個數組長度的字節時,讀取的中文字節數可能是奇數,也就是只讀到中文的一半字節,出現亂碼。

3、解決方法

  • 一次讀取所有字節,此方法不靠譜,因為不確定總字節數。

  • 在輸出時進行判斷,遍歷數組判斷負數的個數,如果是奇數,說明讀取到中文的一半字節,對數組進行擴容再輸出;否則正常輸出

4、代碼案例

package 第二題;

import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.UnsupportedEncodingException;
import java.util.Arrays;

public class MainTest {

public static void main(String[] args) throws UnsupportedEncodingException {
// 創建File對象
File file = new File("D:\\filetest\\file4.txt");
FileInputStream fileInputStream = null;
try {
// 新建一個FileInputStream對象
fileInputStream = new FileInputStream(file);
// 新建一個字節數組
byte[] buf = new byte[2];
// read(buf):此方法的返回值就是當前讀取的字節個數,將數據讀取到buf數組
// 將readLen變量也就是read方法的返回值,當此變量等於-1,則讀到文件末尾
int readLen = -1;
            //讀取文件數據
while ((readLen = fileInputStream.read(buf)) != -1) {
int pos=0;//記錄負數的個數
for(byte v:buf)
{
if(v<0)
{
pos++;
}
}
//負數個數為偶數,讀取完整,沒有讀取到半個中文
if(pos%2==0)
{
// 將字節數組轉換成字符串
String content = new String(buf, 0, readLen);
System.out.print(content);
}else {//負數個數為奇數,讀取不完整,會亂碼
 //再讀取下一位字節
                   int nextByteValue=fileInputStream.read();
                   int nextLen=readLen+1;
                   //字節數組擴容一位
                   buf= Arrays.copyOf(buf,nextLen);
                   buf[readLen]= (byte) nextByteValue;
                   String content=new String(buf,0,nextLen);
                   System.out.print(content);
//奇數,字節補全
//針對數組擴容一個字節單元
/* buf=Arrays.copyOf(buf, readLen+1);
int nextByteValue=fileInputStream.read();
           buf[readLen]= (byte) nextByteValue;
      String content = new String(buf, 0, readLen);
System.out.print(content);*/
}
}
} catch (FileNotFoundException e) {
// 輸出堆棧信息
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} finally {
try {
// 文件輸入流關閉(釋放資源)
fileInputStream.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
}

5、補充內容

ANSI編碼代表本地編碼,中文默認是GBK。 https://www.cnblogs.com/yaya-yaya/p/5768616.html編碼參考資料

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM