ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

使用pdfbox删除pdf指定文字内容

2021-10-05 15:03:01  阅读:483  来源: 互联网

标签:删除 pdfDocument COSString tokens new pdf byte out pdfbox


1.思路:
  • 使用pdfbox加载出页面所有的token
  • COSString类型存储的是文字信息
  • 由于获取的中文是乱码,无法直接匹配,
  • 找到要去除的文字对应的乱码,获取其字节数组信息,然后据此进行匹配清除
2.添加依赖pdfbox
<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.24</version>
</dependency>

3.代码

public static void handlePdfBook(String pdfPath) {
    try (PDDocument pdfDocument = PDDocument.load(new File(pdfPath))) {
        //加载PDF文件
        //处理PDF中的每一页
        for (PDPage page : pdfDocument.getPages()) {
            //解析PDF,找出其中有"xxxx"文字的token也就是COSString元素,找到后把值改掉即可
            PDFStreamParser parser = new PDFStreamParser(page);
            parser.parse();
            List<Object> tokens = parser.getTokens();
            for (Object o : tokens) {
                if (o instanceof COSString) {
                    COSString cs = (COSString) o;
                    byte[] byte1 = cs.toString().getBytes();
                    byte[] byte2 = getTargetByte();
                    // 比较byte[]是否一致,若相同则将当前token设置为空
                    if (Arrays.equals(byte1, byte2)) {
                        cs.setValue(new byte[0]);
                    }
                }
            }
            //将修改后的token要存进page中去,即修改page中原来的tokens
            PDStream updatedStream = new PDStream(pdfDocument);
            OutputStream out = updatedStream.createOutputStream(COSName.FLATE_DECODE);
            ContentStreamWriter tokenWriter = new ContentStreamWriter(out);
            tokenWriter.writeTokens(tokens);
            out.close();
            page.setContents(updatedStream);
        }
        //将修改后的PDF保存
        pdfDocument.save(pdfPath.replace(".pdf", "-修改.dpf"));
    } catch (Exception e) {
        System.out.println(e.getMessage());
    }
}

public static byte[] getTargetByte() {
    // 找一页容易获取待清除文字的页面
    File src = new File("F:\\PDF\\SQL\\页面1.pdf");
    try (PDDocument pdfDocument = PDDocument.load(src)) {
        PDFStreamParser parser = new PDFStreamParser(pdfDocument.getPage(0));
        parser.parse();
        List<Object> tokens = parser.getTokens();
        for (Object o : tokens) {
            if (o instanceof COSString) {
                COSString cs = (COSString) o;
                // 获取待清除内容的byte[]
                return cs.toString().getBytes();
            }
        }
    } catch (Exception e) {
        System.out.println(src.getParentFile().getName());
        System.out.println(e.getMessage());
    }
    return null;
}

 

标签:删除,pdfDocument,COSString,tokens,new,pdf,byte,out,pdfbox
来源: https://www.cnblogs.com/oumae/p/15368623.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有