解決java讀取大文件內存溢出問題


1. 傳統方式:在內存中讀取文件內容

 讀取文件行的標准方式是在內存中讀取,Guava 和Apache Commons IO都提供了如下所示快速讀取文件行的方法:
   Files.readLines(new File(path), Charsets.UTF_8);
   FileUtils.readLines(new File(path));
   實際上是使用BufferedReader或者其子類LineNumberReader來讀取的。
  傳統方式的問題: 是文件的所有行都被存放在內存中,當文件足夠大時很快就會導致程序拋出OutOfMemoryError 異常。

  問題思考:我們通常不需要把文件的所有行一次性地放入內存中,相反,我們只需要遍歷文件的每一行,然后做相應的處理,處理完之后把它扔掉。所以我們可 以通過行迭代方式來讀取,而不是把所有行都放在內存中。

2. 大文件讀取處理方式

  不重復讀取與不耗盡內存的情況下處理大文件:

   (1)文件流方式:使用java.util.Scanner類掃描文件的內容,一行一行連續地讀取

FileInputStream inputStream = null; 
Scanner sc = null; 
try { 
    inputStream = new FileInputStream(path); 
    sc = new Scanner(inputStream, UTF-8); 
    while (sc.hasNextLine()) {
        String line = sc.nextLine(); 
        // System.out.println(line); 
     } 
}catch(IOException e){
       logger.error(e);
}finally {
     if (inputStream != null) { 
        inputStream.close(); 
     } 
     if (sc != null) {
             sc.close();
         }
}            
View Code

  該方案將會遍歷文件中的所有行,允許對每一行進行處理,而不保持對它的引用。總之沒有把它們存放在內存中

   (2)Apache Commons IO流:使用Commons IO庫實現,利用該庫提供的自定義LineIterator

LineIterator it = FileUtils.lineIterator(theFile, UTF-8); 
try {
    while (it.hasNext()) {
    String line = it.nextLine(); 
    // do something with line 
     } 
} finally {
   LineIterator.closeQuietly(it);
}
View Code

      該方案由於整個文件不是全部存放在內存中,這也就導致相當保守的內存消耗。

 

      


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM