当前位置: 首页 > 编程日记 > 正文

Python 实现 PD 文字识别、提取并写入 CSV 文件脚本分享

e59ce4aca296d30f19ee54d0e47d6584.gif

作者 | 一只河马h

来源 | 简说Python

  • 一、前言

  • 二、需求描述

  • 三、开始动手动脑

    • 3.1 安装相关第三方包

    • 3.2 导入需要用到的第三方库

    • 3.3 读取pdf文件,并识别内容

    • 3.4 对识别的数据进行处理,写入csv文件

  • 总结

717e1f5e96036b7a98b19f098f1b48d3.png

前言

扫描件一直受大众青睐,任何纸质资料在扫描之后进行存档,想使用时手机就能打开,省心省力。但是扫描件的优点也恰恰造成了它的一个缺点,因为是通过电子设备扫描,所以出来的是图像,如果想要处理文件上的内容,直接操作是无法实现的。

那要是想要引用其中的内容怎么办呢?别担心,Python帮你解决问题。

3d4a7811184867015bed9bd61b06cca9.png需求描述

现有一份pdf扫描件,我们想把其中的文字提取出来并且分三列写入csv文档,内容及效果如下:

1e2d45c7803907efd601253b3d5bd79e.png

pdfexample

958ae54a46dc4796cd150e95e5373690.png

csvexample

15ad8419ccb4890464e603e8099c4ace.png

开始动手动脑

pdf扫描件是文档扫描成电脑图片格式后转化成的,提取其中的文字就相当于识别图片内的文字。所以,我们的工作就是将pdf转成图片,再用ocr工具提取图片中的文字。

3.1 安装相关第三方包

pip3 install pdf2image pytesseract

3.2 导入需要用到的第三方库

import os   #处理文件
from pdf2image import convert_from_path  # pdf转图片
import pytesseract  # 识别图片文字
import csv  # 处理csv文件

3.3 读取pdf文件,并识别内容

tess_ocr(pdf_path, lang, first_page, last_page)

将pdf文件拆分成图片,并提取文字写入文本文件

  • pdf_path:pdf文件的存储路径

  • image:代表PDF文档每页的PIL图像列表

  • first_page :允许设置由pdftoppm处理的第一个页面;

  • last_page:允许设置最后一页由pdftoppm处理

  • fmt:允许指定输出格式。目前支持的格式是jpg、png和ppm;

  • output_folder:图片保存路径

def tess_ocr(pdf_path, lang,first_page,last_page):# 创建一个和pdf同名的文件夹images = convert_from_path(pdf_path, fmt='png',first_page=first_page,last_page=last_page,output_folder=imagefolder,userpw='site')  # 转成图片text = ''for img in images:   text += pytesseract.image_to_string(img, lang=lang) # 识别图片文字  with open(r'example\data.txt' 'a', encoding='utf-8') as f: #写入txt文件f.write(text)
运行结果

生成一个同名的文件夹存放拆分的图片,接着提取图片文字写入data.txt

59a2dff7170e40c8c72312eabac5a293.png

image-20211215212147760

运行问题

问题抛出1:

pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?

解决措施:下载 poppler。

>1 方法一:设置环境变量  poppler/bin;

>2 方法二:

参数指定绝对路径:

images = convert_from_path(pdf_path=pdf_file_path, poppler_path=r'poppler中bin文件所在地址')

问题抛出2:

pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH. See README file for more information.

解决措施:额外下载安装tesseract-ocr并配置环境变量。

3.4 对识别的数据进行处理,写入csv文件

modification(infile, outfile)

清洗生成的文本文档

  • infile:需要进行处理的文件地址

  • outfile:处理后生成的新文件的地址

def modification(infile, outfile):infp = open(infile, "r",encoding='utf-8')outfp = open(outfile, "w",encoding='utf-8')lines = infp.readlines() #返回列表,包含所有的行。#依次读取每行for li in lines:  if li.split():             #str.split(str="", num=string.count(str)),过滤文件中的空行  # 根据识别情况对数据进行清洗 li = li.replace('[', ' ').replace(']', '')  outfp.writelines(li)    infp.close()outfp.close()
运行结果

生成一个新的txt文件,新文件删除了data.txt中的空行,将原文件中错误识别的内容替换成正确的。

writercsv(intxt,outcsv)

将文本文件按空格分列写入csv表格

  • intxt:文本文件地址

  • outcsv:新生成的csv文件

def writercsv(intxt,outcsv):# 使用newlines=''可保证存储的数据不空行。csvFile = open(outcsv, 'a',newline='', encoding='utf-8')  writer = csv.writer(csvFile)csvRow = []f = open(intxt,'r',encoding='utf-8')for line in f:csvRow = line.split() #以空格为分隔符if len(csvRow)>1 and len(csvRow)<=3:  #约束条件,视情况而定writer.writerow(csvRow)f.close()csvFile.close()
运行结果

生成一个三列csv文件,第一列是英文名,第二列是中文名,第三列是所在国家

8cf834d7061085995681337e586cfdcc.png

image-20211215204846623

a0f793f4f42251841a90ee8453fd343b.png

image-20211215204941725

5e811490e36fa4e1b2192655dc3ac54b.png

总结

通过本次学习实现了从扫描件中提取文字、把内容按要求写进不同格式的文档的需求。

最初以为提取pdf的库也适用于扫描件,尝试了Pdfplumber库和PyPDF2库。

实践发现Pdfplumber只能识别扫描件pdf中的水印,不适用于扫描件的pdf,而PyPDF2库运行报错:NotImplementedError: only algorithm code 1 and 2 are supported。

原因是这个被加密的pdf可能是从高版本的acrobot中来的,所以对应的加密算法代号为‘4’,然而,现有的pypdf2模块并只支持加密算法代号为‘1’或者‘2’的pdf加密文件。

6e7305c9fa818cbf6851ae37b2992af8.gif

资讯

Meta开发AI语音助手,助力元宇宙

技术

Pandas重复数据处理大全

技术

5个短小精悍的Python趣味脚本

资讯

M2芯片终于要来了?全线换新

82689b7e4cfa8e12732901ed77ad43cb.png

分享

bc5fcf95f2c58bc699362c9608d6da9f.png

点收藏

516ce4206d807eae11bba429ec27285e.png

点点赞

8d2d0473757ded306e31424308f53f64.png

点在看

相关文章:

根据listObject中的某个字段排序

compareTo必须是两个对象之间的比较(比如Long,Integer...),以下例子是升序排序 private void businessSort(List<WxDailyBusinessInfo> wxDailyBusinessInfo) { //排序前for (int i 0; i < wxDailyBusinessInfo.size(); i) {System.out.println(new Gson(…

CC国内厂商现状

&#xff08;1&#xff09;阿里云的产品 CC攻击 攻击者攻击服务器的认证页面、登录页面、游戏论坛等。还是用饭馆的例子&#xff0c;CC攻击相当于&#xff0c;坏人霸占收银台结账、霸占服务员点菜&#xff0c;导致正常的客人无法享受到服务。 游戏盾如何防御CC攻击&#xff1f;…

网络模型 - 随机网络,无标度网络,分层网络

转自&#xff1a; http://www.flickr.com/photos/caseorganic/4510691991/in/set-72157624621620243小图大图Network Models - Random network, Scale-free network, Hierarchical network随机网络The Erds–Rnyi (ER) model of a random network14 (see figure, part A) start…

一文介绍机器学习中的三种特征选择方法

作者 | luanhz来源 | 小数志导读机器学习中的一个经典理论是&#xff1a;数据和特征决定了机器学习的上限&#xff0c;而模型和算法只是逼近这个上限。也正因如此&#xff0c;特征工程在机器学习流程中占有着重要地位。广义的特征工程一般可分为三个环节&#xff1a;特征提取、…

[转化率预估-1]引言

原文&#xff1a;hhttp://www.flickering.cn/ads/2014/06/%E8%BD%AC%E5%8C%96%E7%8E%87%E9%A2%84%E4%BC%B0%E2%80%94%E2%80%94%E5%BC%95%E8%A8%80/ 最近几年&#xff0c;“计算广告学”的概念风生水起&#xff0c;让我们这些从事在线广告匹配技术的程序猿着实荣耀了一把。这在参…

reportNG定制化之失败截图及日志

先从github上拉下 reportNg的源代码 reportng 拉下源码后我们使用IDEA进行导入 1、reportng.properties 增加部分类表项 这里我们直接在末尾添加 logLog Info screenshotScreen Shot durationDuration2、results.html.vm 修改结果的html&#xff0c;我们目前只修改fail的情况下…

基于 OpenCV 的手掌检测和手指计数

作者 | 努比 来源 | 小白学视觉 利用余弦定理使用OpenCV-Python实现手指计数与手掌检测。 手检测和手指计数 接下来让我们一起探索以下这个功能是如何实现的。 OpenCV OpenCV&#xff08;开源计算机视觉库&#xff09;是一个开源计算机视觉和机器学习软件库。OpenCV的构建旨在为…

side menu待研究

2019独角兽企业重金招聘Python工程师标准>>> http://fontawesome.bootstrapcheatsheets.com/ http://www.queness.com/post/14666/recreate-google-nexus-menu http://www.jqueryscript.net/demo/Sliding-Side-Menu-Panel-with-jQuery-Bootstrap-BootSideMenu/ &a…

Gitlab Issue Tracker and Wiki(一)

本节内容&#xff1a;创建第一个问题创建第一个合并请求接受合并请求工作里程碑在提交中引用问题创建维基百科页使用Gollum管理维基百科一. 创建问题1. 登陆Gitlab服务器2. 切换到想要创建问题的项目3. 点击Issues.4. 点击【New issue】5. 根据情况进行填写。二. 创建合并请求1…

runtime实践之Method Swizzling

利用 Objective-C 的 Runtime 特性&#xff0c;我们可以给语言做扩展&#xff0c;帮助解决项目开发中的一些设计和技术问题。这一篇&#xff0c;我们来探索一些利用 Objective-C Runtime 的黑色技巧。这些技巧中最具争议的或许就是 Method Swizzling 。 介绍一个技巧&#xff0…

网络协议关系拓扑图 很全面 很好

NETWORK ASSOCIATES GUIDE TO COMMUNICATIONS PROTOCOLS 网络协议关系拓扑图 很全面 很好 值得收藏&#xff01;

一行代码搞定 Python 逐行内存消耗分析

作者 | 费弗里来源 | Python大数据分析我们即将学习的是&#xff1a;一行代码分析Python代码行级别内存消耗。很多情况下&#xff0c;我们需要对已经写好的Python程序的内存消耗进行优化&#xff0c;但是一段代码在运行过程中的内存消耗是动态变化的&#xff0c;这种时候就可以…

崛起于Springboot2.X之Mybatis-全注解方式操作Mysql(4)

为什么80%的码农都做不了架构师&#xff1f;>>> 1、使用注解方式对mysql增删改查,它很方便&#xff0c;不像一些逆向工程工具一样生成的都是乱七八糟&#xff0c;虽然很全的方法&#xff0c;完全手写sql 基于上一篇博客&#xff0c;我们只需要新建一个目录dao层&am…

hdu 1247

Problem DescriptionA hat’s word is a word in the dictionary that is the concatenation of exactly two other words in the dictionary.You are to find all the hat’s words in a dictionary.InputStandard input consists of a number of lowercase words, one per li…

php执行URL解析

方法一&#xff1a; $url"http://www.baidu.com";file_get_contents($url);方法二&#xff1a; // CURL 方法$url"http://www.baidu.com";$ch curl_init( );curl_setopt( $ch,CURLOPT_URL,$url );curl_setopt( $ch,CURLOPT_HEADER,0 );curl_setopt( $ch,…

Python 来分析,堪比“唐探系列”!B站9.5分好评如潮!

作者 | 菜鸟哥来源 | 菜鸟学PythonHello 小伙伴们&#xff0c;最近一部非常不错的悬疑侦探喜剧 电影&#xff0c;登上B站热榜&#xff01;菜鸟哥看完之后&#xff0c;大呼过瘾&#xff0c;简直就是一本非常棒的"剧本杀"&#xff01;演员都是实力派&#xff0c;演技超…

10进制转换为二十六进制字符串A-Z

def convert10to26(num): ...: 10进制转为26进制字母 A-Z, 输入参数10进制数num, 返回26位的字母A-Z 参数type&#xff1a; num: int return: str ...: ...: digit_list [] # 列表当栈使用&#xff0c;存储每次求余的结果 ...: while num !0: ...: digit_list.append(num%26)…

从hello world 说程序运行机制

http://www.cnblogs.com/yanlingyin/archive/2012/03/05/2379199.html 开篇 学习任何一门编程语言&#xff0c;都会从hello world 开始。对于一门从未接触过的语言&#xff0c;在短时间内我们都能用这种语言写出它的hello world。然而&#xff0c;对于hello world 这个简单程序…

爱耳日腾讯天籁行动再升级 助力100位青年听障人才打破“屏障”

公益是解决社会问题的重要切入口&#xff0c;科技是提升效率的强有力工具。当产业技术走入公益场景&#xff0c;科技也在发挥更大的社会价值。 《中国听力健康报告&#xff08;2021&#xff09;》显示&#xff0c;过度的噪音曝露&#xff0c;正让全球11亿年轻人面临听力受损的风…

IOS推送详解

为什么80%的码农都做不了架构师&#xff1f;>>> IOS推送详解 一.关于推送通知 推送通知&#xff0c;也被叫做远程通知&#xff0c;是在iOS 3.0以后被引入的功能。是当程序没有启动或不在前台运行时&#xff0c;告诉用户有新消息的一种途径&#xff0c;是从外部服务…

redis(4)

redis-cli -p 6380redis-cli -p 6379 info server | grep run_idpsync &#xff1f; -1

PHP也玩并发,巧用curl 并发减少后端访问时间

说明&#xff1a;本人源自3篇博文 http://blog.csdn.net/zuiaituantuan/article/details/7048782首先&#xff0c;先了解下 php中的curl多线程函数&#xff1a;# curl_multi_add_handle# curl_multi_close# curl_multi_exec# curl_multi_getcontent# curl_multi_info_read# cur…

ADSL自动更换IP地址源代码

有些网站限制IP地址&#xff0c;什么一个IP地址只能一次之类的。特别是投票网址&#xff0c;为了防止刷票&#xff0c;限制1个IP只允许投票一次&#xff01; 此程序采用Vs2010C#开发&#xff0c;提供全部源代码&#xff01;方便程序猿朋友二次开发&#xff01; 可以后台运行&am…

安全隐患:神经网络可以隐藏恶意软件

编译 | 禾木木 出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09; 凭借数百万和数十亿的数值参数&#xff0c;深度学习模型可以做到很多的事情&#xff0c;例如&#xff0c;检测照片中的对象、识别语音、生成文本以及隐藏恶意软件。加州大学圣地亚哥分校和伊利诺伊大学…

实现一个完美符合Promise/A+规范的Promise

原文在我的博客中&#xff1a;原文地址 如果文章对您有帮助&#xff0c;您的star是对我最好的鼓励&#xff5e; 简要介绍&#xff1a;Promise允许我们通过链式调用的方式来解决“回调地狱”的问题&#xff0c;特别是在异步过程中&#xff0c;通过Promise可以保证代码的整洁性和…

用递归法计算斐波那契数列的第n项

斐波纳契数列&#xff08;Fibonacci Sequence&#xff09;又称黄金分割数列&#xff0c;指的是这样一个数列&#xff1a;1、1、2、3、5、8、13、21、……在数学上&#xff0c;斐波纳契数列以如下被以递归的方法定义&#xff1a;F00&#xff0c;F11&#xff0c;FnF(n-1)F(n-2)&a…

ArrayList的内存泄露

2019独角兽企业重金招聘Python工程师标准>>> 大家先运行下下面这段代码&#xff0c;看看结果 public class MemoryLeak {public static void main(String[] args) throws InterruptedException {new Thread(new Runnable() {Overridepublic void run() {for (int i …

给 Python 初学者推荐的 IDE 哦!

作者 | 黄伟呢来源 | 数据分析与统计学之美总有一些Python初学者&#xff0c;会问到&#xff1a;学习Python&#xff0c;应该用什么Python IDE&#xff1f;了解到他们使用Python做什么之后&#xff0c;我总结了这篇文章。IDE是集成开发环境的缩写&#xff0c;通俗地说&#xff…

django 2.0路由配置变化

urlpatterns变量​​的语法 urlpatterns应该是path()和/或re_path()实例的Python列表。 首先&#xff0c;Django会使用根路由解析模块(root URLconf)来解析路由。 通常&#xff0c;这是ROOT_URLCONF设置的值&#xff0c;但是如果传入的HttpRequest对象具有urlconf属性&#xff…

用ext_skel,实现一个PHP扩展,添加到PHP并调用

http://www.shinrun.com/PHP 一、开始之前 1. 系统环境&#xff1a;FreeBSD 8.22. AP环境&#xff1a;即已经装好的Apache2.2.17、PHP5.3.8环境3. PHP源码&#xff1a;下载稳定版本源码到当前用户的目录&#xff0c;如&#xff0c;下载PHP 5.3.8到/usr/home/abc下。4. 其它要求…