C# 使用 iTextSharp 将 PDF 转换成 TXT 文本


 1             var pdfReader = new PdfReader("xxx.pdf");
 2             
 3             StreamWriter output = new StreamWriter(new FileStream("处理结果.txt", FileMode.Create));
 4 
 5             int pageCount = pdfReader.NumberOfPages;
 6             for (int pg = 1; pg <= pageCount; pg++)
 7             {
 8                 ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
 9                 var value = PdfTextExtractor.GetTextFromPage(pdfReader, pg, strategy);
10                 value = value.Replace(" ", "");
11                 Console.WriteLine(value);
12                 output.Write(value);
13             }
14 
15             output.Flush();
16             output.Close();
17             Console.Write("处理完毕");
18             Console.ReadLine();

 

该方法读出的汉字不会乱码。


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM