理解 Java 中字節流與字符流的區別


什么是流

Java中的流是對字節序列的抽象,我們可以想象有一個水管,只不過現在流動在水管中的不再是水,而是字節序列。和水流一樣,Java中的流也具有一個“流動的方向”,通常可以從中讀入一個字節序列的對象被稱為輸入流;能夠向其寫入一個字節序列的對象被稱為輸出流。

字節流

Java中的字節流處理的最基本單位為單個字節,它通常用來處理二進制數據。Java中最基本的兩個字節流類是InputStream和OutputStream,它們分別代表了最基本的輸入字節流和輸出字節流。InputStream類與OutputStream類均為抽象類,我們在實際使用中通常使用Java類庫中提供的它們的一系列子類。下面我們以InputStream類為例,來介紹下Java中的字節流。 InputStream類中定義了一個基本的用於從字節流中讀取字節的方法read,這個方法的定義如下:

public abstract int read() throws IOException;

 這是一個抽象方法,也就是說任何派生自InputStream的輸入字節流類都需要實現這一方法,這一方法的功能是從字節流中讀取一個字節,若到了末尾則返回-1,否則返回讀入的字節。關於這個方法我們需要注意的是,它會一直阻塞知道返回一個讀取到的字節或是-1。另外,字節流在默認情況下是不支持緩存的,這意味着每調用一次read方法都會請求操作系統來讀取一個字節,這往往會伴隨着一次磁盤IO,因此效率會比較低。有的小伙伴可能認為InputStream類中read的以字節數組為參數的重載方法,能夠一次讀入多個字節而不用頻繁的進行磁盤IO。那么究竟是不是這樣呢?我們來看一下這個方法的源碼:

public int read(byte b[]) throws IOException {
  return read(b, 0, b.length);
}

它調用了另一個版本的read重載方法,那我們就接着往下追:

public int read(byte b[], int off, int len) throws IOException {
  if (b == null) {
    throw new NullPointerException(); 
  } else if (off < 0 || len < 0 || len > b.length - off) { 
    throw new IndexOutOfBoundsException(); 
  } else if (len == 0) { 
    return 0; 
  } 
  int c = read(); 
  if (c == -1) { 
    return -1; 
  } 
  b[off] = (byte) c; 
  int i = 1; 
  try { 
    for (; i < len ; i++) { 
      c = read(); 
      if (c == -1) { 
        break; 
      } 
      b[off + i] = (byte)c; 
    } 
  } catch (IOException ee) { } 
  return i; 
}

從以上的代碼我們可以看到,實際上read(byte[])方法內部也是通過循環調用read()方法來實現“一次”讀入一個字節數組的,因此本質來說這個方法也未使用內存緩沖區。要使用內存緩沖區以提高讀取的效率,我們應該使用BufferedInputStream。

字符流

Java中的字符流處理的最基本的單元是Unicode碼元(大小2字節),它通常用來處理文本數據。所謂Unicode碼元,也就是一個Unicode代碼單元,范圍是0x0000~0xFFFF。在以上范圍內的每個數字都與一個字符相對應,Java中的String類型默認就把字符以Unicode規則編碼而后存儲在內存中。然而與存儲在內存中不同,存儲在磁盤上的數據通常有着各種各樣的編碼方式。使用不同的編碼方式,相同的字符會有不同的二進制表示。實際上字符流是這樣工作的:

  • 輸出字符流:把要寫入文件的字符序列(實際上是Unicode碼元序列)轉為指定編碼方式下的字節序列,然后再寫入到文件中;
  • 輸入字符流:把要讀取的字節序列按指定編碼方式解碼為相應字符序列(實際上是Unicode碼元序列)從而可以存在內存中。

我們通過一個demo來加深對這一過程的理解,示例代碼如下:

public class FileWriterDemo { 
  public static void main(String[] args) { 
    FileWriter fileWriter = null; 
    try { 
      try { 
        fileWriter = new FileWriter("demo.txt");
        fileWriter.write("demo"); 
      } finally { 
        fileWriter.close(); 
      } 
    } catch (IOException e) { 
       e.printStackTrace(); 
    } 
  }
}

 

以上代碼中,我們使用FileWriter向demo.txt中寫入了“demo”這四個字符,我們用十六進制編輯器WinHex查看下demo.txt的內容:

從上圖可以看出,我們寫入的“demo”被編碼為了“64 65 6D 6F”,但是我們並沒有在上面的代碼中顯式指定編碼方式,實際上,在我們沒有指定時使用的是操作系統的默認字符編碼方式來對我們要寫入的字符進行編碼。
由於字符流在輸出前實際上是要完成Unicode碼元序列到相應編碼方式的字節序列的轉換,所以它會使用內存緩沖區來存放轉換后得到的字節序列,等待都轉換完畢再一同寫入磁盤文件中。

字符流與字節流的區別

經過以上的描述,我們可以知道字節流與字符流之間主要的區別體現在以下幾個方面:

  • 字節流操作(讀寫)的基本單元為字節;字符流操作的基本單元為Unicode碼元。
  • 字節流默認不使用緩沖區;字符流使用緩沖區。
  • 字節流通常用於處理二進制數據,實際上它可以處理任意類型的數據,但它不支持直接寫入或讀取Unicode碼元;字符流通常處理文本數據,它支持寫入及讀取Unicode碼元。
  • 只是讀寫文件,和文件內容無關的,一般選擇字節流。

字節流使用場景

字節流適合所有類型文件的數據傳輸,因為計算機字節(Byte)是電腦中表示信息含義的最小單位,因為在通常情況下一個ACSII碼就是一個字節的空間來存放。

字符流使用場景

字符流只能夠處理純文本數據(文本文件),其他類型數據不行,但是字符流處理文本要比字節流處理文本要方便。

字符流按字符讀數據:一次讀兩個字節,返回了這兩個字節所對應的字符的int型數值(編碼)。寫入文件時把這兩個字節的內容解碼成這個字符在Unicode碼下對應的二進制數據寫入。即把原始文件中的二進制數據以字符形式讀出,再將字符以二進制形式寫入,所以得到的文件以字符方式存儲。而圖片的數據是按字節存儲的,所以打開圖片時解碼出錯了!字節流按字節讀數據:而字節不需要編碼、解碼,只有字節與字符之間轉換時才需要編碼、解碼!所以可以正常讀取圖片數據。

原文鏈接:www.jianshu.com


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM