Apache POI Word
1、什么是Apache POI?
Apache POI是一個流行的API,使用Java程序創建,修改和顯示MS-Office文件。 它是由Apache Software Foundation開發和發布的一個開源庫,用於使用Java程序設計或修改MS-Office文件。 它包含用於將用戶輸入數據或文件解碼為MS-Office文檔的類和方法。
2、Apache POI的組件
Apache POI包含用於MS-Office的所有OLE2復合文檔的類和方法。 此API的組件列表如下:
POIFS:此組件是所有其他POI元素的基本因素。 它用於顯式讀取不同的文件。
HSSF:用於讀取和寫入.xls格式的MS-Excel文件。
XSSF(XML SpreadSheet格式):用於MS-Excel的.xlsx文件格式。
HPSF:用於提取MS-Office文件的屬性集。
HWPF:用於讀取和寫入MS-Word的.doc擴展文件。
XWPF(XML字處理器格式):用於讀取和寫入MS-Word的擴展文件 .docx 。
HSLF:用於閱讀,創建和編輯PowerPoint演示文稿。
HDGF(Horrible DiaGram格式):它包含MS-Visio二進制文件的類和方法。
HPBF(Horrible PuBlisher格式):用於讀取和寫入MS-Publisher文件。
本文章將指導您完成使用Java處理MS-Word文件的過程。因此,僅限於HWPF和XWPF組件。
3、安裝Apache POI庫
從 http://poi.apache.org/download 下載最新版本的Apache POI。並將其內容解壓縮到一個文件夾,從中可以將所需的庫鏈接到Java程序。導入jar如下:
4、Apache POI Word - 文件
以下簡單程序用於創建空白MS-Word文檔:
5、Apache POI Word - 段落
下面程序用於創建一個段落以及將其添加到文檔中。段落是Word文件中頁面的一部分。
首先創建一個文檔,然后我們可以創建一個段落。使用Paragraph實例,您可以創建行,然后向文檔中輸入一些文本。例子如下:
在c盤根目錄下創建word文檔:
createparagraph.docx 文件如下所示
6、Apache POI Word - 表格
下面程序用於創建表格 並且設置表格的寬度,使用XWPFTable 類創建表數據。 將每個行添加到表格中,並將單元格添加到行
7、Apache POI Word - 圖片
下面程序用與在文檔中創建數據表,並向文檔中導入圖片。
8、Apache POI Word - 文本提取
對於.docx文件,我們使用類org.apache.poi.xwpf.extractor.XPFFWordExtractor從Word文件中提取和返回簡單數據,從Word文件中提取標題,腳注,表數據等。
下面顯示如何從Word文件提取簡單文本:
總結:關於使用HWPF和XWPF組件來處理word就介紹到這里了,更多的資料可以參考完整的API文檔:https://poi.apache.org/apidocs/index.html?org/apache/poi/openxml4j/opc/internal/package-summary.html