文章详情页

python实现PDF中表格转化为Excel的方法

【字号：大中小】日期：2022-07-21 08:53:57浏览：18作者：猪猪

这几天想统计一下《中国人文社会科学期刊 AMI 综合评价报告（2018 年）：A 刊评价报告》中的期刊，但是只找到了该报告的PDF版，对于表格的编辑不太方便，于是想到用Python将表格转成Excel格式。

看过别人写的博客，发现Python解析PDF有以下四种方式：

-pdfminer:擅长文字的解析，把表格解析成普通的文本，没有格式；-pdf2html:把pdf解析成html，但html的标签并没有规律，解析一个表格还可以，多个表格的话不太好提取；-tabula:对于简单的表格，即单元格中没有换行的，表头表尾形式不复杂的，使用比较方便。但是单脑需要Java环境；-pdfplumber:是一个可以处理pdf格式信息的库。可以查找关于每个文本字符、矩阵、和行的详细信息，也可以对表格进行提取并进行可视化调试。

本文采用pdfplumber库读取PDF中的表格，运行环境：Python3.5.2，Anaconda4.2.0。首先简单介绍一下pdfplumber库：

-pdfplumber.pdf中包含了.metadata和.pages两个属性：.metadata是一个包含pdf信息的字典。.pages是一个包含页面信息的列表。

-pdfplumber.page的类中包含的主要的属性：

.page_number 页码。.width 页面宽度。.height 页面高度。.objects/.chars/.lines/.rects 这些属性中每一个都是一个列表，每个列表都包含一个字典，每个字典用于说明页面中的对象信息，包括直线，字符，方格等位置信息。

-一些常用的方法：

.extract_text() 用来提页面中的文本，将页面的所有字符对象整理为的那个字符串。.extract_words() 返回的是所有的单词及其相关信息。.extract_tables() 提取页面的表格。.to_image() 用于可视化调试时，返回PageImage类的一个实例。

import pdfplumberimport pandas as pdpath = ’test.pdf’pdf = pdfplumber.open(path)i=1#writer=pd.ExcelWriter(’output.xlsx’)df=pd.DataFrame(columns=[’序号’,’刊名’,’主办单位’,’等级’])sheetname=[’考古文博’,’历史学’,’马克思主义理论’,’民族学与文化学’,’文学-外国文学’,’文学-中国文学’,’艺术学’,’语言学’,’哲学’,’宗教学’,’法学’ ,’管理学’,’环境科学’,’教育学’,’经济学-财政科学’,’经济学-工业经济’,’经济学-金融’,’经济学-经济管理’,’经济学-经济综合’,’经济学-贸易经济’ ,’经济学-农业经济’,’经济学-世界经济’,’人文地理学’,’社会学’,’体育学’,’统计学’,’图书馆情报与档案学’,’心理学’,’新闻学与传播学’ ,’政治学-国际政治’,’政治学-中国政治’,’综合-高校综合性学报’,’综合-综合性人文社科期刊’] ##由于存在一个表格跨页的情况，先将所有表格存放在一个DataFrame中，再根据序号拆分。for page in pdf.pages[17:59]: print (page) # 获取当前页面的全部文本信息，包括表格中的文字 # print(page.extract_text()) for table in page.extract_tables(): #print(table) df=df.append(pd.DataFrame(table[1:],columns=table[0]),ignore_index=True)print (df)writer=pd.ExcelWriter(’output3.xlsx’)new_df=pd.DataFrame()j=1index=[]#记录序号==1的行索引，用于后面的表格拆分for i in range(len(df)): if df.ix[i,0]==’1’: index.append(i) print ('################')index.append(len(df))#print (index)#按行索引将内容切片并逐个添加到表中for t in range(len(index)-1): new_df=df.ix[index[t]:index[t+1]-1,:] #print (new_df) new_df.to_excel(writer,sheet_name=sheetname[t],encoding=’gb2312’,index=None)writer.save()pdf.close()print(’finished’)

最终保存为Excel。

python实现PDF中表格转化为Excel的方法

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持好吧啦网。

python

上一条：python模块如何查看下一条：结束运行python的方法

相关文章：

1. CSS3实例分享之多重背景的实现(Multiple backgrounds)2. 小技巧处理div内容溢出3. 告别AJAX实现无刷新提交表单4. asp.net core项目授权流程详解5. css3溢出隐藏的方法6. ASP使用MySQL数据库的方法7. Jsp中request的3个基础实践8. Xml简介_动力节点Java学院整理9. JSP+Servlet实现文件上传到服务器功能10. Ajax对xml信息的接收和处理操作实例分析

排行榜

					
					Ajax对xml信息的接收和处理操作实例分析
Ajax返回值类型与用法实例分析
Python绘制雷达图时遇到的坑的解决
idea设置自动导入依赖的方法步骤
idea自定义快捷键的方法步骤
css3溢出隐藏的方法
小技巧处理div内容溢出
ASP使用MySQL数据库的方法
详解idea中web.xml默认版本问题解决
IDEA中Mybatis的MGB使用逆向工程配置的详细教程
CSS3实例分享之多重背景的实现(Multiple backgrounds)
				

热门标签