百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分类 > 正文

java word表格转pdf为什么会有一排到下一页

feilongw 2025-03-25 19:54 17 浏览

Java 提取PDF文档中的表格信息

在前文中我曾介绍过如何利用Java代码在PDF文档中创建表格。那对于一个已经包含有表格的PDF文档,想要提取其中表格信息进行编辑分析是否可行呢?答案是可以。用到的工具同样是Spire.PDF for Java控件,需用到它的最新版。

以下是PDF示例文档:

导入Jar包:E-iceblue中文官网下载Spire.PDF for Java产品包,解压后在lib文件夹下找到Spire.Pdf.jar,然后将其手动导入IDEA;如果用Maven仓库安装方式,在pom.xml里键入以下代码即可。


        
            com.e-iceblue
            e-iceblue
            https://repo.e-iceblue.com/nexus/content/groups/public/
        


    
         e-iceblue 
        spire.pdf
        
    

代码示例

Spire.PDF for Java提供了
PdfTableExtractor.extractTable(int pageIndex)
方法来检测和提取PDF文档中的表格信息。以下是具体实现步骤:

  • 创建PdfDocument实例
  • 使用PdfDocument.loadFromFile()方法加载PDF示例文档
  • 创建StringBuilderPdfTableExtractor实例
  • 遍历文档所有页面,然后使用PdfTableExtractor.extractTable(int pageIndex)方法提取表格到PdfTable 数组
  • 遍历表格的所有行和列,然后使用PdfTable.getText(int rowIndex, int columnIndex)方法提取数据,最终通过StringBuilder.append()方法将数据保存到StringBuilder实例
  • 使用Writer.write()方法将提取的表格数据写入.txt文档
import com.spire.pdf.PdfDocument;
import com.spire.pdf.utilities.PdfTable;
import com.spire.pdf.utilities.PdfTableExtractor;
import java.io.FileWriter;
import java.io.IOException;

public class ExtractTable {
    public static void main(String[] args) throws IOException {
        //创建PdfDocument实例
        PdfDocument pdf = new PdfDocument();
        //加载PDF示例文档
        pdf.loadFromFile("C:\\Users\\Test1\\Desktop\\sample.pdf");

        //创建StringBuilder和PdfTableExtractor实例
        StringBuilder builder = new StringBuilder();
        PdfTableExtractor extractor = new PdfTableExtractor(pdf);

        //遍历PDF文档的所有页
        for (int pageIndex = 0; pageIndex < pdf.getpages.getcount pageindex pdftable tablelists='extractor.extractTable(pageIndex);' if tablelists tablelists.length> 0) {
                for (PdfTable table : tableLists) {
                    //获取表格的所有行
                    for (int i = 0; i < table.getRowCount(); i++) {
                        //获取表格所有列
                        for (int j = 0; j < table.getColumnCount(); j++) {
                            //提取表格中的所有数据至StringBuilder
                            String text = table.getText(i, j);
                            builder.append(text + " | ");
                        }
                        builder.append("\r\n");
                    }
                }
            }
        }

        //保存数据至.txt文档
        FileWriter fw = new FileWriter("output/ExtractTable.txt");
        fw.write(builder.toString());
        fw.flush();
        fw.close();
    }
}

表格信息提取效果如下:

相关推荐

13款用于Web的流行HTML5视频播放器

开源项目评测之Html5视频播放器推荐Web项目开发中视频播放是一个非常常见的需求,需要播放器能够支持pc端和移动端的使用,并且支持常见的视频格式。我们从github上精选了5款优秀的Html5播放...

[ 渗透入门篇 ] 渗透行业必备术语大集合(全 -- 五万字总结)

反渗透系统常用术语(1)淡水:又称渗透水、产品水,是反渗透系统的净化水。(2)供水:又称给水,是进入反渗透膜系统的供给水源。(3)浓水:又称盐水,是反渗透系统的浓缩废液。(4)半透膜:允许溶液中溶剂透...

java-verbose是什么意思 java -verbose

灵魂拷问:为什么short、byte会被提升为int?boolean到底多大?为什么short、byte会被提升为int?在学习Java语法的时候,知道short、byte、byte类型在做运...

Android Hanlder 揭密之路- 深入理解异步消息传递机制Looper、Handler、Message三者关系

Handler知识点梳理:Handler、Looper以及Message三者之间的关系前言Handler、Looper以及Message之间的关系,概括性来说,Looper负责的是创建一个Me...

csdn freemarker jquery 预览word

高质量人才助推高质量发展——西安市高新区“精益创业带动就业示范行动”系列活动西安市高新区“精益创业带动就业示范行动”系列活动已于8月日在高新区软件新城正式启动。本周五(8月日)上午点分,系列活动之“直...

android 修改菜单menu背景

教你把手机的状态栏和通知栏改造成安卓L风格说道颜值,就得吐槽一下安卓及一下的版本了。原生真的是丑,丑到没朋友。到了安卓,谷歌终于大刀阔斧的对安卓的颜值进行了大动刀。【下拉通知栏】那么,安卓有没有办法搞...

DCDC架构中 dcdc类型(dcdc的主要作用)

DC-DC工作原理,看完你就懂了上篇文章说了LDO的原理,那本篇就来说一下DCDC的工作原理吧。开关电源:是一种高频化电能转换装置,其主要利用电力电子开关器件(如晶体管、MOS管、可控晶闸管等),通过...

getPath(),getAbsolutePath(),getCanonicalPath() 区别

java获取文件路径1.前言Java开发中我们经常要获取文件的路径,比如读取配置文件等等。今天我们就关于文件的路径和如何读取文件简单地探讨一下。2.文件的路径文件的路径通常有相对路径与绝对...

android 多任务键app后台重新唤起生命周期 安卓任务管理器快捷键

好用的备忘录待办提醒APP任务管理工具怎么选?在这个信息高速流通的时代,选择一款合适的任务管理应用变得尤为关键。一个好的任务管理工具不仅能帮助我们更好地规划时间、提升效率,还能在快节奏的生活中保持条...

android数据包下载地址 数据包apk

《地牢猎手5》安卓怎么下载APK数据包下载万众期待的地牢猎手5终于推出啦,此次Gameloft在安卓平台首发推出,不过目前谷歌商店还未提供正式下载数据包,不过不用担心,蚕豆网小编为大家带来了地牢猎手...

51c大模型~合集24(c5.0模型)

北大校友打造的个智能体「我的世界」,背后原理揭晓了!来源:量子位北大校友打造的个智能体「我的世界」,背后原理揭晓了!团队全新公开页技术报告,详尽解密AI智能体如何产生专业化分工、社交互动、甚至传播虚拟...

ao3archive of own our如何使用

肖战ao3事件始末揭秘ao3是啥意思肖战粉丝举报AO3为什么惹众怒3月4日凌晨2时分,肖战工作室再次发表声明:肖战海外社交账号已无法正常登陆,任何更改均非本人及工作人员操作,后续动作均与肖战本人无关...

ansible变量运算 ansible查看变量的命令

Python中的Ansible库在Python中集成Ansible功能,主要通过以下两种方式实现,结合官方库和核心API可满足不同场景的自动化需求:一、AnsibleRunner库Ansible官方...

25个简单shell例子(shell实例讲解)

shell编程其实真的很简单(一)如今,不会Linux的程序员都不意思说自己是程序员,而不会shell编程就不能说自己会Linux。说起来似乎shell编程很屌啊,然而不用担心,其实shell编程真的...

ByConity ELT 测试体验

字节跳动开源云原生数仓引擎ByConity技术详解与应用导读本文介绍字节跳动开源的云原生数仓引擎,ByConity。主要包含四个主题:1.ByConity产生背景2.ByConity设计...