当前位置:首页 > Windows程序 > 正文

C#读取PDF文档内容

2021-03-24 Windows程序

一、下载PDFBox

      访问网址 (这个绝对是个好网站)


二、引用动态链接库

    解压缩下载的PDFBox,找到其中的Bin目录,,需要在项目中添加引用的dll文件有:
    IKVM.GNU.Classpath.dll
    PDFBox-0.7.3.dll
    FontBox-0.1.0-dev.dll
    IKVM.Runtime.dll


将以上4个文件引用到项目中,在文件中需要引入以下2个命名空间:
    using org.pdfbox.pdmodel;
    using org.pdfbox.util;

三、API的使用方法

using System.IO; using System.Text; using org.pdfbox.pdmodel; using org.pdfbox.util; namespace PDFReader { class Program { public static void pdf2txt(FileInfo pdffile, FileInfo txtfile) { PDDocument doc = PDDocument.load(pdffile.FullName); PDFTextStripper pdfStripper = new PDFTextStripper(); string text = pdfStripper.getText(doc); StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312")); swPdfChange.Write(text); swPdfChange.Close(); } static void Main(string[] args) { pdf2txt(new FileInfo(@"C:/Users/Susan/Desktop/完整稿__匆匆那年_九夜茴.pdf"), new FileInfo(@"C:/Users/Susan/Desktop/完整稿__匆匆那年_九夜茴.txt")); } } }

温馨提示: 本文由Jm博客推荐,转载请保留链接: https://www.jmwww.net/file/66773.html