原文:java读取word文档,提取标题和内容

使用的工具为poi,需要导入的依赖如下 我采用的分离方式是根据字体大小判断。寻找字体大小和下一段大小不同的段落,再一次判断第二段和后边的是否相同,相同则继续,不同则输出标题和内容。 因为有的文档中存在多个标题,所以我在开始加了判断,如果连续三个段落的字体大小递减则该段落跳过。 而且文章存在目录,经过测试发现目录的String中都包含了 HYPERLINK 所以如果段落中包含该字符串则跳过。 代码如 ...

2019-03-20 22:41 0 10384 推荐指数:

查看详情

java语言通过POI实现word文档的按标题提取

最近有一个项目需要将一个word文档中的数据提取到数据库中。就去网上查了好多资料,最靠谱的就是用poi实现word文档提取。 喝水不忘挖井人,我查了好多资料就这个最靠谱,我的这篇博客主要是借鉴https://blog.csdn.net/qq_16601953/article/details ...

Thu Mar 21 06:31:00 CST 2019 0 4378
java读取word文档的文字内容

该程序用于读取word文档的文字内容,如果是艺术字,图片不能读取 先在idea创建maven项目 在pom.xml添加以下依赖 代码: 运行程序在终端打印出来word文档内容 ...

Mon Sep 21 02:06:00 CST 2020 0 5058
java读取word文档里的内容

package com.cn.peitest.excel.word; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import ...

Tue Sep 29 21:17:00 CST 2020 0 3123
JAVA读取word(doc)(docx)标题内容----POI

java 实现poi方式读取word文件内容 1、下载poi的jar包     下载地址:https://www.apache.org/dyn/closer.lua/poi/release/bin/poi-bin-3.17-20170915.tar.gz 下载解压后用到的jar包 ...

Tue Nov 09 17:36:00 CST 2021 0 6907
Word文档转html并提取标题

最近做了一个功能,需要将word文档转化成html的格式,并提取标题生成导航。考虑到功能的复杂程度,将需要降低为对“标题1”这种格式进行提取。 docx为后缀的文档word2007)支持XML的文件格式,本质上是一个zip压缩包,解压出来就可以看到所有信息,可能正因为如果,使用 ...

Tue Sep 25 20:39:00 CST 2018 0 1749
Java 读取Word标题(目录)

概述 Word中的标题可通过“样式”中的选项来快速设置(如图1), 图1 在添加目录时,可将“有效样式”设置为“目录级别”显示(如图2),一定程度上来说,标题大纲也可以作为目录来参考。 图2 本文,将通过后端Java程序代码介绍如何来获取Word中的标题内容。 注:如果在 ...

Tue Apr 13 23:56:00 CST 2021 0 792
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM