Java編程的邏輯 (64) - 常見文件類型處理: 屬性文件/CSV/EXCEL/HTML/壓縮文件

本文轉載自查看原文 2017-02-09 07:05 2088 程序思維/ EXCEL/ 文件/ 壓縮/ CSV/ HTML

本系列文章經補充和完善，已修訂整理成書《Java編程的邏輯》，由機械工業出版社華章分社出版，於2018年1月上市熱銷，讀者好評如潮！各大網店和書店有售，歡迎購買，京東自營鏈接：http://item.jd.com/12299018.html

對於處理文件，我們介紹了流的方式，57節介紹了字節流，58節介紹了字符流，同時，也介紹了比較底層的操作文件的方式，60節介紹了隨機讀寫文件，61節介紹了內存映射文件，我們也介紹了對象的序列化/反序列化機制，62節介紹了Java標准的序列化，63節介紹了如何用Jackson處理其他序列化格式如XML/JSON和MessagePack。

在日常編程中，我們還經常會需要處理一些具體類型的文件，如CSV, Excel, HTML，直接使用前面幾節介紹的方式來處理一般是很不方便的，往往有一些第三方的類庫，基於之前介紹的技術，提供了更為方便易用的接口。

本節，我們就來簡要介紹如何利用Java SDK和一些第三方類庫，來處理如下五種類型的文件：

屬性文件：屬性文件是常見的配置文件，用於在不改變代碼的情況下改變程序的行為。
CSV：CSV是Comma-Separated Values的縮寫，表示逗號分割值，是一種非常常見的文件類型，大部分日志文件都是CSV，CSV也經常用於交換表格類型的數據，待會我們會看到，CSV看上去很簡單但處理的復雜性經常被低估。
Excel：Excel大家都知道，在編程中，經常需要將表格類型的數據導出為Excel格式，以方便用戶查看，也經常需要接受Excel類型的文件作為輸入以批量導入數據。
HTML：所有網頁都是HTML格式，我們經常需要分析HTML網頁，以從中提取感興趣的信息。
壓縮文件：壓縮文件有多種格式，也有很多壓縮工具，大部分情況下，我們可以借助工具而不需要自己寫程序處理壓縮文件，但某些情況，需要自己編程壓縮文件或解壓縮文件。

屬性文件

屬性文件一般很簡單，一行表示一個屬性，屬性就是鍵值對，鍵和值用等號(=)或冒號(:)分隔，一般用於配置程序的一些參數。比如，在需要連接數據庫的程序中，經常使用配置文件配置數據庫信息，比如，有這么個文件config.properties，內容大概如下所示：

db.host = 192.168.10.100
db.port : 3306
db.username = zhangsan
db.password = mima1234

處理這種文件使用字符流也是比較容易的，但Java中有一個專門的類java.util.Properties，它的使用也很簡單，有如下主要方法：

public synchronized void load(InputStream inStream)
public String getProperty(String key)
public String getProperty(String key, String defaultValue)

load用於從流中加載屬性，getProperty用於獲取屬性值，可以提供一個默認值，如果沒有找到配置的值，則返回默認值。對於上面的配置文件，可以使用類似下面的代碼進行讀取：

Properties prop = new Properties();
prop.load(new FileInputStream("config.properties"));
String host = prop.getProperty("db.host");
int port = Integer.valueOf(prop.getProperty("db.port", "3306"));

使用類Properties處理屬性文件的好處是：

可以自動處理空格，我們看到分隔符=前后的空格會被自動忽略
可以自動忽略空行
可以添加注釋，以字符#或!開頭的行會被視為注釋，進行忽略

不過，使用Properties也有限制，它不能直接處理中文，在配置文件中，所有非ASCII字符需要使用Unicode編碼，比如，不能在配置文件中直接這么寫：

name=老馬

"老馬"需要替換為Unicode編碼，如下所示：

name=\u8001\u9A6C

在Java IDE如Eclipse中，如果使用屬性文件編輯器，它會自動替換中文為Unicode編碼，如果使用其他編輯器，可以先寫成中文，然后使用JDK提供的命令native2ascii轉換為Unicode編碼，用法如下例所示：

native2ascii -encoding UTF-8 native.properties ascii.properties

native.properties是輸入，其中包含中文，ascii.properties是輸出，中文替換為了Unicode編碼，-encoding指定輸入文件的編碼，這里指定為了UTF-8。

CSV文件

CSV是Comma-Separated Values的縮寫，表示逗號分割值，一般而言，一行表示一條記錄，一條記錄包含多個字段，字段之間用逗號分隔。不過，一般而言，分隔符不一定是逗號，可能是其他字符如tab符'\t'、冒號':',分號';'等。程序中的各種日志文件通常是CSV文件，在導入導出表格類型的數據時，CSV也是經常用的一種格式。

CSV格式看上去很簡單，比如，我們在58節保存學生列表時，使用的就是CSV格式，如下所示：

張三,18,80.9
李四,17,67.5

使用之前介紹的字符流，看上去就可以很容易處理CSV文件，按行讀取，對每一行，使用String.split進行分割即可。但其實CSV有一些復雜的地方，最重要的是：

字段內容中包含分割符怎么辦？
字段內容中包含換行符怎么辦？

對於這些問題，CSV有一個參考標准，RFC-4180，https://tools.ietf.org/html/rfc4180，但實踐中不同程序往往有其他處理方式，所幸的是，處理方式大體類似，大概有兩種處理方式：

使用引用符號比如"，在字段內容兩邊加上"，如果內容中包含"本身，則使用兩個"
使用轉義字符，常用的是\，如果內容中包含\，則使用兩個\

比如，如果字段內容有兩行，內容為：

hello, world \ abc
"老馬"

使用第一種方式，內容會變為：

"hello, world \ abc
""老馬"""

使用第二種方式，內容會變為：

hello\, world \\ abc\n"老馬"

CSV還有其他一些細節，不同程序的處理方式也不一樣，比如：

怎么表示null值？
空行和字段之間的空格怎么處理？
怎么表示注釋？

由於以上這些復雜問題，使用簡單的字符流就難以處理了。有一個第三方類庫，Apache Commons CSV，對處理CSV提供了良好的支持，它的官網地址是：http://commons.apache.org/proper/commons-csv/index.html

本節使用其1.4版本，簡要介紹其用法。如果使用Maven管理項目，可引入以下文件中的依賴：https://github.com/swiftma/program-logic/blob/master/csv_lib/dependencies.xml。如果非Maven，可從下面地址下載依賴庫：https://github.com/swiftma/program-logic/tree/master/csv_lib

Apache Commons CSV中有一個重要的類CSVFormat，它表示CSV格式，它有很多方法以定義具體的CSV格式，如：

//定義分隔符
public CSVFormat withDelimiter(final char delimiter)

//定義引號符
public CSVFormat withQuote(final char quoteChar)

//定義轉義符
public CSVFormat withEscape(final char escape)

//定義值為null的對象對應的字符串值
public CSVFormat withNullString(final String nullString)

//定義記錄之間的分隔符
public CSVFormat withRecordSeparator(final char recordSeparator)

//定義是否忽略字段之間的空白
public CSVFormat withIgnoreSurroundingSpaces(final boolean ignoreSurroundingSpaces)

比如，如果CSV格式定義為：使用分號;作為分隔符，"作為引號符，使用N/A表示null對象，忽略字段之間的空白，CSVFormat可以這樣創建：

CSVFormat format = CSVFormat.newFormat(';')
        .withQuote('"').withNullString("N/A")
        .withIgnoreSurroundingSpaces(true);

除了自定義CSVFormat，CSVFormat類中也定義了一些預定義的格式，如：CSVFormat.DEFAULT, CSVFormat.RFC4180。

CSVFormat有一個方法，可以分析字符流：

public CSVParser parse(final Reader in) throws IOException

返回值類型為CSVParser，它有如下方法獲取記錄信息：

public Iterator<CSVRecord> iterator()
public List<CSVRecord> getRecords() throws IOException
public long getRecordNumber()

CSVRecord表示一條記錄，它有如下方法獲取每個字段的信息：

//根據字段列索引獲取值，索引從0開始
public String get(final int i)

//根據列名獲取值
public String get(final String name)

//字段個數
public int size()

//字段的迭代器
public Iterator<String> iterator()

分析CSV文件的基本代碼如下所示：

CSVFormat format = CSVFormat.newFormat(';')
        .withQuote('"').withNullString("N/A")
        .withIgnoreSurroundingSpaces(true);
Reader reader = new FileReader("student.csv");
try{
    for(CSVRecord record : format.parse(reader)){
        int fieldNum = record.size();
        for(int i=0; i<fieldNum; i++){
            System.out.print(record.get(i)+" ");
        }
        System.out.println();
    }
}finally{
    reader.close();
}

除了分析CSV文件，Apache Commons CSV也可以寫CSV文件，有一個CSVPrinter，它有很多打印方法，比如：

//輸出一條記錄，參數可變，每個參數是一個字段值
public void printRecord(final Object... values) throws IOException

//輸出一條記錄
public void printRecord(final Iterable<?> values) throws IOException

看個代碼示例：

CSVPrinter out = new CSVPrinter(new FileWriter("student.csv"),
        CSVFormat.DEFAULT);
out.printRecord("老馬", 18, "看電影,看書,聽音樂");
out.printRecord("小馬", 16, "樂高;賽車;");
out.close();

輸出文件student.csv中的內容為：

"老馬",18,"看電影,看書,聽音樂"
"小馬",16,樂高;賽車;

Excel

Excel主要有兩種格式，后綴名分別為.xls和.xlsx，.xlsx是Office 2007以后的默認擴展名。Java中處理Excel文件及其他微軟文檔廣泛使用POI類庫，其官網是http://poi.apache.org/。

本節使用其3.15版本，簡要介紹其用法。如果使用Maven管理項目，可引入以下文件中的依賴：https://github.com/swiftma/program-logic/blob/master/excel_lib/dependencies.xml。如果非Maven，可從下面地址下載依賴庫：https://github.com/swiftma/program-logic/tree/master/excel_lib

使用POI處理Excel文件，有如下主要類:

Workbook: 表示一個Excel文件對象，它是一個接口，有兩個主要類HSSFWorkbook和XSSFWorkbook，前者對應.xls格式，后者對應.xlsx格式。
Sheet: 表示一個工作表
Row: 表示一行
Cell: 表示一個單元格

比如，保存學生列表到student.xls，代碼可以為：

public static void saveAsExcel(List<Student> list) throws IOException {
    Workbook wb = new HSSFWorkbook();
    Sheet sheet = wb.createSheet();
    for (int i = 0; i < list.size(); i++) {
        Student student = list.get(i);
        Row row = sheet.createRow(i);
        row.createCell(0).setCellValue(student.getName());
        row.createCell(1).setCellValue(student.getAge());
        row.createCell(2).setCellValue(student.getScore());
    }
    OutputStream out = new FileOutputStream("student.xls");
    wb.write(out);
    out.close();
    wb.close();
}

如果要保存為.xlsx格式，只需要替換第一行為：

Workbook wb = new XSSFWorkbook();

使用POI也可以方便的解析Excel文件，使用WorkbookFactory的create方法即可，如下所示：

public static List<Student> readAsExcel() throws Exception  {
    Workbook wb = WorkbookFactory.create(new File("student.xls"));
    List<Student> list = new ArrayList<Student>();
    for(Sheet sheet : wb){
        for(Row row : sheet){
            String name = row.getCell(0).getStringCellValue();
            int age = (int)row.getCell(1).getNumericCellValue();
            double score = row.getCell(2).getNumericCellValue();
            list.add(new Student(name, age, score));
        }
    }    
    wb.close();
    return list;
}

以上我們只是介紹了基本用法，如果需要更多信息，如配置單元格的格式、顏色、字體，可參看http://poi.apache.org/spreadsheet/quick-guide.html。

HTML

HTML是網頁的格式，如果不熟悉，可以參看http://www.w3school.com.cn/html/html_intro.asp。在日常工作中，可能需要分析HTML頁面，抽取其中感興趣的信息。有很多HTML分析器，我們簡要介紹一種，jsoup，其官網地址為https://jsoup.org/。

本節使用其1.10.2版本。如果使用Maven管理項目，可引入以下文件中的依賴：https://github.com/swiftma/program-logic/blob/master/html_lib/dependencies.xml。如果非Maven，可從下面地址下載依賴庫：https://github.com/swiftma/program-logic/tree/master/html_lib。

我們通過一個簡單例子來看jsoup的使用，我們要分析的網頁地址是：http://www.cnblogs.com/swiftma/p/5631311.html

瀏覽器中看起來的樣子是這樣的(部分截圖)：

將網頁保存下來，其HTML代碼看上去是這樣的(部分截圖)：

假定我們要抽取網頁主題內容中每篇文章的標題和鏈接，怎么實現呢？jsoup支持使用CSS選擇器語法查找元素，如果不了解CSS選擇器，可參看http://www.w3school.com.cn/cssref/css_selectors.asp。

定位文章列表的CSS選擇器可以是

#cnblogs_post_body p a

我們來看代碼(假定文件為articles.html)：

Document doc = Jsoup.parse(new File("articles.html"), "UTF-8");
Elements elements = doc.select("#cnblogs_post_body p a");
for(Element e : elements){
    String title = e.text();
    String href = e.attr("href");
    System.out.println(title+", "+href);
}

輸出為(部分)：

計算機程序的思維邏輯 (1) - 數據和變量, http://www.cnblogs.com/swiftma/p/5396551.html
計算機程序的思維邏輯 (2) - 賦值, http://www.cnblogs.com/swiftma/p/5399315.html

jsoup也可以直接連接URL進行分析，比如，上面代碼的第一行可以替換為：

String url = "http://www.cnblogs.com/swiftma/p/5631311.html";
Document doc = Jsoup.connect(url).get();

關於jsoup的更多用法，請參看其官網。

壓縮文件

壓縮文件有多種格式，Java SDK支持兩種：gzip和zip，gzip只能壓縮一個文件，而zip文件中可以包含多個文件。下面我們介紹Java SDK中的基本用法，如果需要更多格式，可以考慮Apache Commons Compress：http://commons.apache.org/proper/commons-compress/

先來看gzip，有兩個主要的類：

java.util.zip.GZIPOutputStream
java.util.zip.GZIPInputStream

它們分別是OutputStream和InputStream的子類，都是裝飾類，GZIPOutputStream加到已有的流上，就可以實現壓縮，而GZIPInputStream加到已有的流上，就可以實現解壓縮。比如，壓縮一個文件的代碼可以為：

public static void gzip(String fileName) throws IOException {
    InputStream in = null;
    String gzipFileName = fileName + ".gz";
    OutputStream out = null;
    try {
        in = new BufferedInputStream(new FileInputStream(fileName));
        out = new GZIPOutputStream(new BufferedOutputStream(
                new FileOutputStream(gzipFileName)));
        copy(in, out);
    } finally {
        if (out != null) {
            out.close();
        }
        if (in != null) {
            in.close();
        }
    }
}

調用的copy方法是我們在57節介紹的。解壓縮文件的代碼可以為：

public static void gunzip(String gzipFileName, String unzipFileName)
        throws IOException {
    InputStream in = null;
    OutputStream out = null;
    try {
        in = new GZIPInputStream(new BufferedInputStream(
                new FileInputStream(gzipFileName)));
        out = new BufferedOutputStream(new FileOutputStream(
                unzipFileName));
        copy(in, out);
    } finally {
        if (out != null) {
            out.close();
        }
        if (in != null) {
            in.close();
        }
    }
}

zip文件支持一個壓縮文件中包含多個文件，Java SDK主要的類是：

java.util.zip.ZipOutputStream
java.util.zip.ZipInputStream

它們也分別是OutputStream和InputStream的子類，也都是裝飾類，但不能像GZIPOutputStream/GZIPInputStream那樣簡單使用。

ZipOutputStream可以寫入多個文件，它有一個重要方法：

public void putNextEntry(ZipEntry e) throws IOException

在寫入每一個文件前，必須要先調用該方法，表示准備寫入一個壓縮條目ZipEntry，每個壓縮條目有個名稱，這個名稱是壓縮文件的相對路徑，如果名稱以字符'/'結尾，表示目錄，它的構造方法是：

public ZipEntry(String name)

我們看一段代碼，壓縮一個文件或一個目錄：

public static void zip(File inFile, File zipFile) throws IOException {
    ZipOutputStream out = new ZipOutputStream(new BufferedOutputStream(
            new FileOutputStream(zipFile)));
    try {
        if (!inFile.exists()) {
            throw new FileNotFoundException(inFile.getAbsolutePath());
        }
        inFile = inFile.getCanonicalFile();
        String rootPath = inFile.getParent();
        if (!rootPath.endsWith(File.separator)) {
            rootPath += File.separator;
        }
        addFileToZipOut(inFile, out, rootPath);
    } finally {
        out.close();
    }
}

參數inFile表示輸入，可以是普通文件或目錄，zipFile表示輸出，rootPath表示父目錄，用於計算每個文件的相對路徑，主要調用了addFileToZipOut將文件加入到ZipOutputStream中，代碼為：

private static void addFileToZipOut(File file, ZipOutputStream out,
        String rootPath) throws IOException {
    String relativePath = file.getCanonicalPath().substring(
            rootPath.length());
    if (file.isFile()) {
        out.putNextEntry(new ZipEntry(relativePath));
        InputStream in = new BufferedInputStream(new FileInputStream(file));
        try {
            copy(in, out);
        } finally {
            in.close();
        }
    } else {
        out.putNextEntry(new ZipEntry(relativePath + File.separator));
        for (File f : file.listFiles()) {
            addFileToZipOut(f, out, rootPath);
        }
    }
}

它同樣調用了copy方法將文件內容寫入ZipOutputStream，對於目錄，進行遞歸調用。

ZipInputStream用於解壓zip文件，它有一個對應的方法，獲取壓縮條目：

public ZipEntry getNextEntry() throws IOException

如果返回值為null，表示沒有條目了。使用ZipInputStream解壓文件，可以使用類似如下代碼：

public static void unzip(File zipFile, String destDir) throws IOException {
    ZipInputStream zin = new ZipInputStream(new BufferedInputStream(
            new FileInputStream(zipFile)));
    if (!destDir.endsWith(File.separator)) {
        destDir += File.separator;
    }
    try {
        ZipEntry entry = zin.getNextEntry();
        while (entry != null) {
            extractZipEntry(entry, zin, destDir);
            entry = zin.getNextEntry();
        }
    } finally {
        zin.close();
    }
}

調用extractZipEntry處理每個壓縮條目，代碼為：

private static void extractZipEntry(ZipEntry entry, ZipInputStream zin,
        String destDir) throws IOException {
    if (!entry.isDirectory()) {
        File parent = new File(destDir + entry.getName()).getParentFile();
        if (!parent.exists()) {
            parent.mkdirs();
        }
        OutputStream entryOut = new BufferedOutputStream(
                new FileOutputStream(destDir + entry.getName()));
        try {
            copy(zin, entryOut);
        } finally {
            entryOut.close();
        }
    } else {
        new File(destDir + entry.getName()).mkdirs();
    }
}

小結

本節簡要介紹了五種常見文件類型的處理：屬性文件、CSV、EXCEL、HTML和壓縮文件，介紹了基本用法和更多信息的參考鏈接。

至此，關於文件的所有部分，我們就介紹完了。

從下一節開始，讓我們一起探索並發和線程的世界！

(與其他章節一樣，本節所有代碼位於 https://github.com/swiftma/program-logic)

----------------

未完待續，查看最新文章，敬請關注微信公眾號“老馬說編程”(掃描下方二維碼)，從入門到高級，深入淺出，老馬和你一起探索Java編程及計算機技術的本質。用心原創，保留所有版權。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 java生成壓縮文件 Java加密並壓縮文件 java ZIP壓縮文件 linux中常見壓縮文件格式【Python】壓縮文件處理 zipfile & tarfile js壓縮文件讀取處理【Python】壓縮文件處理 zipfile & tarfile js壓縮文件讀取處理 zipfile（壓縮文件） Java讀取壓縮文件信息