使用C#阅读pdf内容，并对其进行提取

本文转载自查看原文 2020-02-18 15:36 2482

有很多语言都可以对pdf内容进行提取，我提取pdf文件的目的主要是为了对pdf内容进行分析。

查找了不少这方面的资料，很多都是语焉不详。

我使用VS的nugut进行查找，以pdf为关键词，找到了很多的类库可以处理该问题。综合一切判断，选择iText为基础进行分析。

确定了Itext之后，查阅相关文档，得到其获取内容的代码如下：

//创建阅读器，Item是文件路径
                PdfReader pdfReader = new PdfReader(item);
                //获取文档内容
                PdfDocument pdfDoc = new PdfDocument(pdfReader);
                string strContent = string.Empty;
                //对每一页内容进行提取
                for (int page = 1; page <= pdfDoc.GetNumberOfPages(); page++)
                {
                    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                    string pageContent = PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page), strategy);
                    //将每一页内容放入字符串中
                    strContent+=pageContent.Replace("\n","");
                }

                //关闭读取工具
                pdfDoc.Close();
                pdfReader.Close();

就这么愉快地把需求实现啦。非常感谢itext作者的辛勤付出。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 使用itextpdf提取pdf内容 c#读取word内容，c#提取word内容使用C#开发pdf阅读器初探（基于WPF，没有使用开源库）提取Word里的文本内容 C# C#提取TXT文档指定内容 php抓取图片进行内容提取解析，文字性pdf进行内容文字提取解析 C#读取PDF文档文字内容 C#根据PDF模板生成内容 C#读取PDF文件的文本内容 pdfminert提取PDF中文内容