当前位置:首页 > 数码 > 一步一步指南-零老本用Python代替Adobe从PDF提取数据 (一步步指导)

一步一步指南-零老本用Python代替Adobe从PDF提取数据 (一步步指导)

admin5个月前 (04-16)数码27

一、简介

PDF文件是官网报告、发票和数据表的通用言语,但是从PDF文件中提取表格数据或者是一项应战。虽然AdobeAcrobat等工具提供了处置打算,但它们并不总是易于失掉或可智能化运转,而/target=_blankclass=infotextkey>Python则是编程言语中的瑞士军刀。本文将讨论如何应用Python轻松成功PDF数据提取,而无需经常使用低廉的软件。

二、了解应战

PDF文件是为展现而设计的,而不是为提取数据。它们通常蕴含复杂的规划,在视觉上很吸引人,但在计算上却无法访问。因此,提取表格等结构化消息十分艰巨。

三、经常使用PyMuPDF提取文本

PyMuPDF是一款轻量级的库,长于读取PDF文件并提取文本。只有几行代码,就可以读取PDF并从恣意页面提取文本。本文从飞驰个人2022年第四季度年度报告中提取股东权力变化综合报表(ConsolidatedStatementofChangesinEquity),代码如下。

importfitzimportpandasaspdimportre#---PDF处置---#定义PDF文件的门路并关上文档pdf_path='..../Merc2022Q4Rep.pdf'pdf_document=fitz.open(pdf_path)#选用要阅读的特定页面page=pdf_document[200]#失掉页面的尺寸page_rect=page.rectpage_width,page_height=page_rect.width,page_rect.height#定义感兴味区域的矩形(不包括脚注)non_footnote_area_height=page_height*0.90clip_rect=fitz.Rect(0,0,page_width,non_footnote_area_height)#从定义的区域提取文本page_text=page.get_text("text",clip=clip_rect)lines_page=page_text.strip().split('n')

四、规整数据

提取的文本通常带有不须要的字符或格局。这就是预处置施展作用的中央。Python的字符串处感性能经常使用户能够荡涤和预备数据以转换为表格格局。

#---数据荡涤---#定义要搜查的字符串并查找其索引search_string='Balanceat1January2021(restated)'try:index=lines_page.index(search_string)>#---创立DataFrame---#依据列数将荡涤后的数据宰割成块num_columns=6/>

六、结语

经过应用Python弱小的库,可以智能化繁琐的PDF数据提取义务。这种方法不只老本低,而且提供了Python开发者所喜欢的灵敏性和弱小性能。


图片提取框架和文字怎么操作?

图片提取文字需要用特定的软件,现在很多手机APP都可以做到的,我用的QQ浏览器,直接拍照秒提取文字,简单又方便还不限制手机品牌:

具体步骤:

打开QQ浏览器,点击扫描王入口 找到提取文字页面,对准文字拍摄 选择需要提取的文字 导出结果就可以了

怎样利用python将pdf转换成jpg格式

可以用第三方库wand实现(我的环境:win10、python3)

需要安装wand 、imagemagick和ghostscript

wand的安装很简单:直接cmd 运行pip install wand

然后安装imagemagick ,从这里下载网页链接,注意是32位还是64位,这个需要和python的位数一致。

安装过程注意勾选Install development headers and libraries for C and C++ 。安装后设置MAGICK_HOME环境变量,值为imagemagick的安装路径,并将安装路径加入path。

一步步指导

详情可参照此页面网页链接。

最后安装ghostscript,这里下载网页链接,选择AGPL release,注意32位还是64位。

安装过程很简单,一路点击next,如果不想安装在c盘,可以改变安装路径,这个没有影响。

最后上代码(很简单):

免责声明:本文转载或采集自网络,版权归原作者所有。本网站刊发此文旨在传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题,请联系本网,我们将在第一时间删除。同时,本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证,请读者仅作参考,并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失,本网站不承担任何责任。

标签: Python

“一步一步指南-零老本用Python代替Adobe从PDF提取数据 (一步步指导)” 的相关文章

处置日常义务的终极工具!-Python-文件读写实战 (处置行为是什么意思)

处置日常义务的终极工具!-Python-文件读写实战 (处置行为是什么意思)

/target=_blankclass=infotextkey>Python文件的读写操作时,有很多须要思考的细节,这包含文件关上形式、读取和写入数据的方法、意外处置等。 在本文中,...

惰性求值和lambda表达式的强大组合-Python高级技巧 (惰性求值和逻辑短路)

惰性求值和lambda表达式的强大组合-Python高级技巧 (惰性求值和逻辑短路)

Lambda 表达式 在 Python 中,Lambda 表达式是一个匿名函数,它可以在需要函数对象的地方使用。Lambda 表达式的语法如下: lambda arguments: exp...

掌握网络世界的无限可能-Python分布式爬虫助力搜索引擎打造 (掌握网络世界的好处)

掌握网络世界的无限可能-Python分布式爬虫助力搜索引擎打造 (掌握网络世界的好处)

主从模式 主从模式是一种简单的分布式爬虫架构,其中一台主机作为控制节点,负责管理所有运行爬虫的从机。 主节点负责向从机分配任务,并接收新生成的任务。从机只需要从主节点接收任务,并把新生...

使用Python进行数据分析的步骤 (使用pycharm)

使用Python进行数据分析的步骤 (使用pycharm)

简介 Python 是一种动态的、面向对象的脚本语言,以其简单性和易读性而闻名。它广泛用于数据分析,因为它具有强大的库,兼容开源大数据平台 Hadoop,并且拥有众多优势,使其成为流行的编...

网络-摸索Python中的必备模块-解锁数据处置-迷信计算等畛域的弱小工具-自动化 (网络mod)

网络-摸索Python中的必备模块-解锁数据处置-迷信计算等畛域的弱小工具-自动化 (网络mod)

/target=_blankclass=infotextkey>Python罕用的模块十分多,关键分为内置模块和第三方模块两大类,且不同模块运行场景不同又可以分为文本类、数据结构类、数学运算...

Selenium成功智能化测试及Chrome驱动经常使用!-Python (selenium是什么意思)

Selenium成功智能化测试及Chrome驱动经常使用!-Python (selenium是什么意思)

本文将引见如何经常使用/target=_blankclass=infotextkey>PythonSelenium库成功智能化测试,并具体记载了Chrome驱动的经常使用方法。 经过本...

内置数据库-的长处和运行-SQLite-轻量级-Python (内置数据库)

内置数据库-的长处和运行-SQLite-轻量级-Python (内置数据库)

/target=_blankclass=infotextkey>Python是一种盛行的编程言语,可以用于开发各种运行程序,从图形用户界面到网站和游戏。Python的一个特点是,它内置了一个...