原文:java讀取word文檔,提取標題和內容

使用的工具為poi,需要導入的依賴如下 我采用的分離方式是根據字體大小判斷。尋找字體大小和下一段大小不同的段落,再一次判斷第二段和后邊的是否相同,相同則繼續,不同則輸出標題和內容。 因為有的文檔中存在多個標題,所以我在開始加了判斷,如果連續三個段落的字體大小遞減則該段落跳過。 而且文章存在目錄,經過測試發現目錄的String中都包含了 HYPERLINK 所以如果段落中包含該字符串則跳過。 代碼如 ...

2019-03-20 22:41 0 10384 推薦指數:

查看詳情

java語言通過POI實現word文檔的按標題提取

最近有一個項目需要將一個word文檔中的數據提取到數據庫中。就去網上查了好多資料,最靠譜的就是用poi實現word文檔提取。 喝水不忘挖井人,我查了好多資料就這個最靠譜,我的這篇博客主要是借鑒https://blog.csdn.net/qq_16601953/article/details ...

Thu Mar 21 06:31:00 CST 2019 0 4378
java讀取word文檔的文字內容

該程序用於讀取word文檔的文字內容,如果是藝術字,圖片不能讀取 先在idea創建maven項目 在pom.xml添加以下依賴 代碼: 運行程序在終端打印出來word文檔內容 ...

Mon Sep 21 02:06:00 CST 2020 0 5058
java讀取word文檔里的內容

package com.cn.peitest.excel.word; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import ...

Tue Sep 29 21:17:00 CST 2020 0 3123
JAVA讀取word(doc)(docx)標題內容----POI

java 實現poi方式讀取word文件內容 1、下載poi的jar包     下載地址:https://www.apache.org/dyn/closer.lua/poi/release/bin/poi-bin-3.17-20170915.tar.gz 下載解壓后用到的jar包 ...

Tue Nov 09 17:36:00 CST 2021 0 6907
Word文檔轉html並提取標題

最近做了一個功能,需要將word文檔轉化成html的格式,並提取標題生成導航。考慮到功能的復雜程度,將需要降低為對“標題1”這種格式進行提取。 docx為后綴的文檔word2007)支持XML的文件格式,本質上是一個zip壓縮包,解壓出來就可以看到所有信息,可能正因為如果,使用 ...

Tue Sep 25 20:39:00 CST 2018 0 1749
Java 讀取Word標題(目錄)

概述 Word中的標題可通過“樣式”中的選項來快速設置(如圖1), 圖1 在添加目錄時,可將“有效樣式”設置為“目錄級別”顯示(如圖2),一定程度上來說,標題大綱也可以作為目錄來參考。 圖2 本文,將通過后端Java程序代碼介紹如何來獲取Word中的標題內容。 注:如果在 ...

Tue Apr 13 23:56:00 CST 2021 0 792
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM