在寫之前先聲明,本文是基於之前在博客園網站上檢索到的一份JAVA多線程讀寫文件的示例,我在寫自己的程序時是在那位作者寫的基礎上做了改良,但已不記得原文的地址。如果有知情者,煩請帖出地址,我在此文上加入引用或轉載。
本程序是基於這么一種考慮,某系統后台有個將近2G大小的日志文件,你用任何編輯器去打開它,都將會很困難。針對這樣的大文件解析處理,解決方案是使用多個線程,分割讀取指定的大文件。獲取我們所需要的信息。不多說,上代碼了,有注釋可以幫助理解。
- package com.thread.multipl.mysolution;
- import java.io.IOException;
- import java.io.RandomAccessFile;
- import java.util.concurrent.CountDownLatch;
- /**
- * 這個線程用來讀取文件,當獲取到指定關鍵字時,在指定的對象加1
- * @author 劉峰管理2
- *
- */
- public class ReadThread extends Thread{
- //定義字節數組(取水的竹筒)的長度
- private final int BUFF_LEN = 256;
- //定義讀取的起始點
- private long start;
- //定義讀取的結束點
- private long end;
- //將讀取到的字節輸出到raf中 randomAccessFile可以理解為文件流,即文件中提取指定的一部分的包裝對象
- private RandomAccessFile raf;
- //線程中需要指定的關鍵字
- private String keywords;
- //此線程讀到關鍵字的次數
- private int curCount = 0;
- /**
- * jdk1.5開始加入的類,是個多線程輔助類
- * 用於多線程開始前統一執行操作或者多線程執行完成后調用主線程執行相應操作的類
- */
- private CountDownLatch doneSignal;
- public ReadThread(long start, long end, RandomAccessFile raf,String keywords,CountDownLatch doneSignal){
- this.start = start;
- this.end = end;
- this.raf = raf;
- this.keywords = keywords;
- this.doneSignal = doneSignal;
- }
- public void run(){
- try {
- raf.seek(start);
- //本線程負責讀取文件的大小
- long contentLen = end - start;
- //定義最多需要讀取幾次就可以完成本線程的讀取
- long times = contentLen / BUFF_LEN+1;
- System.out.println(this.toString() + " 需要讀的次數:"+times);
- byte[] buff = new byte[BUFF_LEN];
- int hasRead = 0;
- String result = null;
- for (int i = 0; i < times; i++) {
- //之前SEEK指定了起始位置,這里讀入指定字節組長度的內容,read方法返回的是下一個開始讀的position
- hasRead = raf.read(buff);
- //如果讀取的字節數小於0,則退出循環! (到了字節數組的末尾)
- if (hasRead < 0) {
- break;
- }
- result = new String(buff,"gb2312");
- /// System.out.println(result);
- int count = this.getCountByKeywords(result, keywords);
- if(count > 0){
- this.curCount += count;
- }
- }
- KeyWordsCount kc = KeyWordsCount.getCountObject();
- kc.addCount(this.curCount);
- doneSignal.countDown();//current thread finished! noted by latch object!
- } catch (IOException e) {
- // TODO Auto-generated catch block
- e.printStackTrace();
- }
- }
- public long getStart() {
- return start;
- }
- public void setStart(long start) {
- this.start = start;
- }
- public long getEnd() {
- return end;
- }
- public void setEnd(long end) {
- this.end = end;
- }
- public RandomAccessFile getRaf() {
- return raf;
- }
- public void setRaf(RandomAccessFile raf) {
- this.raf = raf;
- }
- public int getCountByKeywords(String statement,String key){
- return statement.split(key).length-1;
- }
- public int getCurCount() {
- return curCount;
- }
- public void setCurCount(int curCount) {
- this.curCount = curCount;
- }
- public CountDownLatch getDoneSignal() {
- return doneSignal;
- }
- public void setDoneSignal(CountDownLatch doneSignal) {
- this.doneSignal = doneSignal;
- }
- }
- package com.thread.multipl.mysolution;
- import java.io.File;
- import java.io.RandomAccessFile;
- import java.util.concurrent.CountDownLatch;
- public class MultiReadTest {
- /**
- * 多線程讀取文件測試
- * @param args
- */
- public static void main(String[] args) {
- // TODO Auto-generated method stub
- final int DOWN_THREAD_NUM = 10;//起10個線程去讀取指定文件
- final String OUT_FILE_NAME = "d:\\倚天屠龍記.txt";
- final String keywords = "無忌";
- //jdk1.5線程輔助類,讓主線程等待所有子線程執行完畢后使用的類,
- //另外一個解決方案:自己寫定時器,個人建議用這個類
- CountDownLatch doneSignal = new CountDownLatch(DOWN_THREAD_NUM);
- RandomAccessFile[] outArr = new RandomAccessFile[DOWN_THREAD_NUM];
- try{
- long length = new File(OUT_FILE_NAME).length();
- System.out.println("文件總長度:"+length+"字節");
- //每線程應該讀取的字節數
- long numPerThred = length / DOWN_THREAD_NUM;
- System.out.println("每個線程讀取的字節數:"+numPerThred+"字節");
- //整個文件整除后剩下的余數
- long left = length % DOWN_THREAD_NUM;
- for (int i = 0; i < DOWN_THREAD_NUM; i++) {
- //為每個線程打開一個輸入流、一個RandomAccessFile對象,
- //讓每個線程分別負責讀取文件的不同部分
- outArr[i] = new RandomAccessFile(OUT_FILE_NAME, "rw");
- if (i != 0) {
- //
- // isArr[i] = new FileInputStream("d:/勇敢的心.rmvb");
- //以指定輸出文件創建多個RandomAccessFile對象
- }
- if (i == DOWN_THREAD_NUM - 1) {
- // //最后一個線程讀取指定numPerThred+left個字節
- // System.out.println("第"+i+"個線程讀取從"+i * numPerThred+"到"+((i + 1) * numPerThred+ left)+"的位置");
- new ReadThread(i * numPerThred, (i + 1) * numPerThred
- + left, outArr[i],keywords,doneSignal).start();
- } else {
- //每個線程負責讀取一定的numPerThred個字節
- // System.out.println("第"+i+"個線程讀取從"+i * numPerThred+"到"+((i + 1) * numPerThred)+"的位置");
- new ReadThread(i * numPerThred, (i + 1) * numPerThred,
- outArr[i],keywords,doneSignal).start();
- }
- }
- }catch(Exception e){
- e.printStackTrace();
- }
- // finally{
- //
- // }
- //確認所有線程任務完成,開始執行主線程的操作
- try {
- doneSignal.await();
- } catch (InterruptedException e) {
- // TODO Auto-generated catch block
- e.printStackTrace();
- }
- //這里需要做個判斷,所有做read工作線程全部執行完。
- KeyWordsCount k = KeyWordsCount.getCountObject();
- // Map<String,Integer> resultMap = k.getMap();
- System.out.println("指定關鍵字出現的次數:"+k.getCount());
- }
- }
- package com.thread.multipl.mysolution;
- /**
- * 統計關鍵字的對象
- * @author 劉峰管理2
- *
- */
- public class KeyWordsCount {
- private static KeyWordsCount kc;
- private int count = 0;
- private KeyWordsCount(){
- }
- public static synchronized KeyWordsCount getCountObject(){
- if(kc == null){
- kc = new KeyWordsCount();
- }
- return kc;
- }
- public synchronized void addCount(int count){
- System.out.println("增加次數:"+count);
- this.count += count;
- }
- public int getCount() {
- return count;
- }
- public void setCount(int count) {
- this.count = count;
- }
- }
運行結果如下:
引用
文件總長度:2012606字節
每個線程讀取的字節數:201260字節
Thread[Thread-0,5,main] 需要讀的次數:787
Thread[Thread-1,5,main] 需要讀的次數:787
Thread[Thread-2,5,main] 需要讀的次數:787
Thread[Thread-3,5,main] 需要讀的次數:787
Thread[Thread-4,5,main] 需要讀的次數:787
Thread[Thread-5,5,main] 需要讀的次數:787
Thread[Thread-6,5,main] 需要讀的次數:787
Thread[Thread-7,5,main] 需要讀的次數:787
Thread[Thread-8,5,main] 需要讀的次數:787
Thread[Thread-9,5,main] 需要讀的次數:787
增加次數:0
增加次數:146
增加次數:432
增加次數:539
增加次數:587
增加次數:717
增加次數:631
增加次數:467
增加次數:665
增加次數:538
指定關鍵字出現的次數:4722
每個線程讀取的字節數:201260字節
Thread[Thread-0,5,main] 需要讀的次數:787
Thread[Thread-1,5,main] 需要讀的次數:787
Thread[Thread-2,5,main] 需要讀的次數:787
Thread[Thread-3,5,main] 需要讀的次數:787
Thread[Thread-4,5,main] 需要讀的次數:787
Thread[Thread-5,5,main] 需要讀的次數:787
Thread[Thread-6,5,main] 需要讀的次數:787
Thread[Thread-7,5,main] 需要讀的次數:787
Thread[Thread-8,5,main] 需要讀的次數:787
Thread[Thread-9,5,main] 需要讀的次數:787
增加次數:0
增加次數:146
增加次數:432
增加次數:539
增加次數:587
增加次數:717
增加次數:631
增加次數:467
增加次數:665
增加次數:538
指定關鍵字出現的次數:4722
我用10個線程去解析金庸大師寫的《倚天屠龍記》,“無忌”這個詞在這部小說中一共出現了4722次。實在找不到再大一些的文件了。倚天屠龍記.txt的大小4M出頭。
關於CountDownLatch類的作用說明:
在API文檔中,已經說明是一個輔助類。用於控制主線程與子線程之間切換的一個工具類。用法網上去搜下。ITEYE里也有人討論過。我在這里使用它解決這樣的問題:在確保10個線程都完成文件的解析工作后,系統調用主線程做剩下該做的事情,即:輸出“出現的次數”。不確保這點的話,會導致執行完第4個線程,后面的線程還沒開始,系統已經做最后一步輸出統計結果,這樣就達不到我們要的效果。這里解決方案有另一個簡單的,自己寫個計數器,從10記到1,10個線程嘛。這個看個人喜好吧。
原文:http://babystudyjava.iteye.com/blog/1732814