原文:使用pdf.js开发一个图书在线阅读界面,可以点击书签显示对应的页面,可以全文检索

客户现场问题:图书pdf文件单个超过 G的文件很多,在线加载pdf文件特别慢,半天都加载不出来,所以需要在线阅读功能进行重构 解决办法: 一 后台处理 首先使用itext pdf对pdf文件进行书签抽取,对抽取出的书签保存到书签表,书签表里会有书签名称 页码 层级关系等字段,然后对书签使用ES创建索引 对pdf文件进行按页拆分,拆分成多个pdf文件,拆分使用cpdf binaries master ...

2020-10-28 16:38 1 641 推荐指数:

查看详情

使用Elasticsearch7 java api实现pdf全文检索

前提:pdf的内容是文字形式而不是图片形式! 一.方法 Elasticsearch实现pdf全文检索,原理是将pdf转换为Base64,然后提取pdf的文字内容然后将其存储起来. Elasticsearch已有相关Api提供,也给出了例子.链接 ...

Tue Sep 10 19:28:00 CST 2019 10 3368
使用PDF.JS在线查看PDF

过程简单粗暴。 第一步:下载源码https://github.com/mozilla/pdf.js 第二步:将源码拷贝进项目中,可以新建一个PDFShow文件夹存放代码 第三步:修改viewer.js var DEFAULT_URL ...

Thu Jun 25 07:01:00 CST 2015 6 64692
全文检索~solr的使用

全文检索这个系列在几前年写过lucene的文章,而现在看来它确实已经老了,它的儿子孙子都出来了,已经成为现在检索行列的主流,像solr,elasticsearch等,今天我们主要来看一个solr在aspnetcore里的使用,也就是增删改查之类的,比较容易! nuget包:solrnet 注入 ...

Wed Dec 20 23:19:00 CST 2017 0 1476
Sphinx全文检索之PHP使用教程

一、Sphinx简介 1. Sphinx是什么? 中文名:全文索引引擎。只支持英文和俄文。但是只要有相应的语言包也可支持任何语言。国内有一团队在Sphinx基础上封装了一个带中文包的软件:coreseek。 2. 为什么要用Sphinx? 在mysql数据库中,对于如下sql语句 ...

Sat Apr 22 20:04:00 CST 2017 1 2947
[原创]Java开发在线编辑Word同时实现全文检索

一、背景介绍 Word文档与日常办公密不可分,在实际应用中,当某一文档服务器中有很多Word文档,假如有成千上万个文档时,用户查找打开包含某些指定关键字的文档就变得很困难,一般情况下能想到的解决方案是使用服务器端的Apache poi技术将所有文档的文本获取后存储到数据库,然后打开文档时 ...

Sat Apr 28 18:28:00 CST 2018 0 1636
在线查看PDF文件,pdf.js使用方法

PDF.js可以实现在html下直接浏览pdf文档,是一款开源的pdf文档读取解析插件,非常强大,能将PDF文件渲染成Canvas。PDF.js主要包含两个库文件,一个pdf.js一个pdf.worker.js一个负责API解析,一个负责核心解析。 首先引入pdf.js文件< ...

Sun Mar 04 20:17:00 CST 2018 1 52547
PostgreSQL全文检索zhparser使用

本文引用自: http://blog.chinaunix.net/uid-20726500-id-4820580.html 防止文章丢失才进行复制 PostgreSQL支持全文检索,其内置的缺省的分词解析器采用空格分词。因为中文的词语之间没有空格分割,所以这种方法并不适用于中文。要支持 ...

Tue Jun 21 23:11:00 CST 2016 0 1898
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM