使用C#閱讀pdf內容，並對其進行提取

本文轉載自查看原文 2020-02-18 15:36 2482

有很多語言都可以對pdf內容進行提取，我提取pdf文件的目的主要是為了對pdf內容進行分析。

查找了不少這方面的資料，很多都是語焉不詳。

我使用VS的nugut進行查找，以pdf為關鍵詞，找到了很多的類庫可以處理該問題。綜合一切判斷，選擇iText為基礎進行分析。

確定了Itext之后，查閱相關文檔，得到其獲取內容的代碼如下：

//創建閱讀器，Item是文件路徑
                PdfReader pdfReader = new PdfReader(item);
                //獲取文檔內容
                PdfDocument pdfDoc = new PdfDocument(pdfReader);
                string strContent = string.Empty;
                //對每一頁內容進行提取
                for (int page = 1; page <= pdfDoc.GetNumberOfPages(); page++)
                {
                    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                    string pageContent = PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page), strategy);
                    //將每一頁內容放入字符串中
                    strContent+=pageContent.Replace("\n","");
                }

                //關閉讀取工具
                pdfDoc.Close();
                pdfReader.Close();

就這么愉快地把需求實現啦。非常感謝itext作者的辛勤付出。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 使用itextpdf提取pdf內容 c#讀取word內容，c#提取word內容使用C#開發pdf閱讀器初探（基於WPF，沒有使用開源庫）提取Word里的文本內容 C# C#提取TXT文檔指定內容 php抓取圖片進行內容提取解析，文字性pdf進行內容文字提取解析 C#讀取PDF文檔文字內容 C#根據PDF模板生成內容 C#讀取PDF文件的文本內容 pdfminert提取PDF中文內容