利用 OpenCV+ConvNets 检测几何图形
作者 | 小白
来源 | 小白学视觉
导读
人工智能领域中增长最快的子领域之一是自然语言处理(NLP),它处理计算机与人类(自然)语言之间的交互,特别是如何编程计算机以处理和理解大量自然语言数据。
自然语言处理通常涉及语音识别、自然语言理解和自然语言生成等。其中,命名实体识别(NER)等信息提取问题正迅速成为NLP的基础应用之一。在这篇文章中,我们将分享一个解决执行NER时出现的最棘手问题之一的解决方案。
深度学习的最新发展导致了可用于实体提取和其他NLP相关任务的复杂技术的迅速发展。通常,企业级OCR软件(ABBY、ADLIB等)用于将大量非结构化和基于图像的文档转换为完全可搜索的PDF和PDF/A,人们可以使用最先进的算法(BERT、ELMo等)创建高度上下文化的语言模型来推断提取的信息并实现NLP目标。
但实际上,并非所有文档都仅由基于语言的数据组成。文档可以具有许多其他非语言元素,例如单选按钮、签名块或某些其他几何形状,这些元素可能包含有用的信息,但无法通过OCR或上述任何算法轻松处理。因此,需要设计一个专门的解决方案来识别和处理这些元素。
操作步骤
步骤1:将文档(PDF等)转换为图像文件。编写一个基于OpenCV API的启发式代码来提取所有可能的图像片段,此代码应针对覆盖率而不是准确性进行优化。
步骤2:相应地标记步骤1中提取的图像。创建一个基于CNN的深度学习网络,并根据标记的图像对其进行培训,这一步将保证准确性。
步骤3:创建一个Sklearn pipeline,集成上述两个步骤,以便在接收文档时,提取所有潜在图像,然后使用经过训练的CNN模型预测所需形状的图像。
设计细节
需要注意的是,OpenCV代码尽可能多的识别所需形状的图像段。本质上,我们需要有一个宽的检测范围,不必担心误报,它们将由后续的ConvNet模型处理。之所以选择CNN进行图像分类,是因为它易于建模和快速建模,但只要性能和精度在可接受的范围内,就可以使用任何其他选择的算法。Pipelining 在构造ML代码中起着关键作用,它有助于简化工作流程和强制执行步骤的顺序。
实践操作
第1步:OpenCV
此代码具有双重用途:
1)创建训练/测试数据
2)在集成到管道中时提取图像段
提取代码目前可以检测2种类型(单选按钮和复选框),但通过在ShapeFinder类下添加新方法,可以轻松支持其他对象,下面是用于识别正方形/矩形(也称为复选框)的代码片段。
#detect checkbox/square
def extract_quads(self,image_arr,name_arr):if len(image_arr) > 0:for index,original_image in enumerate(image_arr):#to store extracted imagesextracted_quad = []image = original_image.copy() #grayscale only if its not alreadyif len(image.shape) > 2:gray = cv2.cvtColor(image.copy(), cv2.COLOR_BGR2GRAY) else:gray = image.copy()#image preprocessing for quadrilateralsimg_dilate = self.do_quad_imageprocessing(gray,self.blocksize,self.thresh_const,self.kernelsize) if len(img_dilate) > 0:try:#detect contourscnts = cv2.findContours(img_dilate.copy(), cv2.RETR_LIST, cv2.CHAIN_APPROX_SIMPLE)cnts = imutils.grab_contours(cnts)#loop through detected contoursfor c in cnts:peri = cv2.arcLength(c, True)approx = cv2.approxPolyDP(c, (self.epsilon)* peri, True)#bounding rec cordinates(x, y, w, h) = cv2.boundingRect(approx)#get the aspect ratioaspectratio = float(w/h)area = cv2.contourArea(c) if area < self.rec_max_area and area > self.rec_min_area and (aspectratio >= self.aspect_ratio[0] and aspectratio <= self.aspect_ratio[1]):#check if there are 4 corners in the polygonif len(approx) == 4: cv2.drawContours(original_image,[c], 0, (0,255,0), 2)roi = original_image[y:y+h, x:x+w]extracted_quad.append(roi)except Exception as e:print('The following exception occured during quad shape detection: ',e)self.extracted_img_data.append([original_image,extracted_quad,name_arr[index]])else: print('No image is found during the extraction process')
使用pdf2image将pdf转换为图像:
def Img2Pdf(dirname):images = []#get the pdf filefor x in os.listdir(dirname):if (dirname.split('.')[1]) == 'pdf':pdf_filename = ximages_from_path = convert_from_path(os.path.join(dirname),dpi=300, poppler_path = r'C:\Program Files (x86)\poppler-0.68.0_x86\poppler-0.68.0\bin')
for image in images_from_path:images.append(np.array(image))return images
第二步:卷积神经网络
由于提取的图像片段将具有相对较小的尺寸,简单的3层CNN将为我们提供帮助,但我们仍然需要加入一些正则化和Adam来优化输出。
网络应针对每种类型的图像样本分别进行训练,以获得更好的精度。如果添加了新的图像形状,可以创建一个新的网络,但现在我们对复选框和单选按钮都使用了相同的网络。它目前只是一个二进制分类,但进一步的分类也可以这样做:
勾选复选框
空复选框
其他
#keras things
from keras.utils import to_categorical
from keras import layers
from keras import models
from keras.regularizers import l2Y_test_orig = to_categorical(Y_test_orig, num_classes=2)
Y_train_orig = to_categorical(Y_train_orig, num_classes=2)# 3 layer ConvNet
model = models.Sequential()
model.add(layers.Conv2D(32, (3, 3), activation='relu',input_shape=(32,32,1)))
model.add(layers.MaxPooling2D((2, 2)))model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))model.add(layers.Conv2D(128, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))#dense layer
model.add(layers.Flatten())#add the regulizer
model.add(layers.Dense(128, activation='linear', activity_regularizer=l2(0.0003)))
model.add(layers.Dense(128, activation='relu'))
model.add(layers.Dense(2, activation='sigmoid')) model.summary()from keras.optimizers import Adam
opt = Adam(lr=0.001)
model.compile(optimizer=opt, loss=keras.losses.categorical_crossentropy, metrics=['accuracy'])ntrain = len(X_train_orig)
nval = len(X_test_orig)
X_train_orig = X_train_orig.reshape((len(X_train_orig),32,32,1))
X_test_orig = X_test_orig.reshape((len(X_test_orig),32,32,1))train_datagen = ImageDataGenerator(rescale = 1./255,rotation_range = 40, width_shift_range = .2,height_shift_range = .2, shear_range = .2, zoom_range = .2, horizontal_flip = True)val_datagen = ImageDataGenerator(rescale = 1./255)train_generator = train_datagen.flow(X_train_orig,Y_train_orig,batch_size=32)
val_generator = val_datagen.flow(X_test_orig,Y_test_orig,batch_size = 32)#X_train_orig, X_test_orig, Y_train_orig,Y_test_orig
history = model.fit_generator(train_generator,steps_per_epoch = ntrain/32, epochs = 64, validation_data = val_generator, validation_steps = nval/32 )
第3步中,我们将把所有内容整合在一个Sklearn pipeline中,并通过predict函数将其公开。我们没有介绍的一个重要功能是将复选框或单选按钮与文档中相应的文本相关联。在实际应用中,仅仅检测没有关联的元素是毫无用处的。
GITHUB代码链接:
https://github.com/nebuchadnezzar26/Shape-Detector
相关文章:

《Linux实践及应用》
2019独角兽企业重金招聘Python工程师标准>>> 《Linux实践及应用》 本书以RedHat 9.0为蓝本,系统地介绍Linux的基础知识、Linux系统的安装与配置、常用命令,以及如何进行Linux系统管理和基本的网络服务设置(包括如何设置DNS服务器、…

找不到包含 OwinStartupAttribute 的程序集
2019独角兽企业重金招聘Python工程师标准>>> 尝试加载应用时出现了以下错误。 找不到包含 OwinStartupAttribute 的程序集。找不到包含 Startup 或 [AssemblyName].Startup 类的程序集。 若要禁用 OWIN 启动发现,请在 web.config 中为 appSetting owin:A…

Imagination 推新款GPU IP,首次实现桌面级光线追踪效果
游戏界被炒得最热的概念可能就是光线追踪技术了,不仅仅是PC端的游戏。光线追踪所展示出来的画面效果也确实惊艳,可以让我们感叹到图像技术达到的一个新高度。 但是实际上,光线追踪并不是一个新技术。10年前,光追就是游戏玩家茶余…

percent之集合
2019独角兽企业重金招聘Python工程师标准>>> 这个留到明天再来写吧,今天把hub剩下的坑填掉. 转载于:https://my.oschina.net/u/2011113/blog/416458

Mr. Process的一生-Linux内核的社会视角 (2)启动
原文地址: http://www.manio.org/cn/startup-of-linux-view-of-society.html 其实这才应该是这一系列文章的第一节,因为这篇文章讲的是盘古开天地的事。话说Mr. Process是一个现代人,但是,只要是人,总该有个祖先。人们…

深入研究ConcurrentHashMap 源码从7到8的变迁
ConcurrentHashMap是线程安全且高效的HashMap 1 为什么要使用ConcurrentHashMap 线程不安全的HashMap HashMap是Java中最常用的一个Map类,性能好、速度快,但不能保证线程安全,它可用null作为key/value HashMap的线程不安全主要体现在resize时…

IANA定义的常见服务的端口号列表
最新明细:http://www.iana.org/assignments/port-numbers 几个重要常见端口: 21 FTP 22 SSH 80 HTTP 443 HTTPS 1433 MSSQLserver 3306 MySQL 11211 memcached

oracel 服务详细介绍
中的方法成功安装Oracle 11g后,共有7个服务, 这七个服务的含义分别为: 1. Oracle ORCL VSS Writer Service: Oracle卷映射拷贝写入服务,VSS(Volume Shadow Copy Service)能够让存储基础设备&…

使用 Python 开发一个恐龙跑跑小游戏,玩起来
作者 | 周萝卜 来源 | 萝卜大杂烩 相信很多人都玩过 chrome 浏览器上提供的恐龙跑跑游戏,在我们断网或者直接在浏览器输入地址“chrome://dino/”都可以进入游戏 今天我们就是用 Python 来制作一个类似的小游戏 素材准备 首先我们准备下游戏所需的素材,比…

了解和入门注解的应用
2019独角兽企业重金招聘Python工程师标准>>> 一、概述 jdk的java.lang包中提供的最基本的annotation 1、SuppressWarnings("deprecation") package staticimport.annotation;SuppressWarnings("deprecation") public class AnnotationTest {pub…

Linux下开发优秀链接
不得不说CSDN博客这次改版变化很大,但是友情链接功能太脆弱了。 只有自己写个帖子,不断更新吧。Linux基础 Linux内核mirrors163LVS中文站点 孙海龙 howtoforge.com 地中海东岸的蒲公英 服务器运维与网站架构 Nginx中文维基 ACME Bory.Chan Tim[后端技术]…

Q 版老黄带着硬核技术再登场,有点可爱,很有东西
编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 看到下面这个老黄是不是觉得很Q~ 11月9日,GTC 大会再次来了,英伟达创始人兼CEO黄仁勋再次从自己虚拟厨房走出来。 本次 GTC 大会都有哪些亮点呢? Q 版黄仁勋 英伟达展…

linux第七章《档案与目录管理》重点回顾
转载于:https://www.cnblogs.com/wubingshenyin/p/4514969.html

Effective java 43返回零长度的数组或者集合而不是null
转载于:https://www.cnblogs.com/limingxian537423/p/8391285.html

《Unix网络编程卷1-套接字联网API》第一个例子编译 不通过问题解决
《Unix网络编程卷1-套接字联网API》是本好书。 但是第一个例子不是很好编译。 需要如下步骤: 本人机器CentOS 5.4 1.下载源码 unpv13e解压到任意目录 然后按其readme文件操作./configure # try to figure out all implementation differencescd lib # bu…

angularJs的学习笔记-01(创建项目)
1,进入angular-phonecat目录 执行下面命令 git checkout -f step-0 然后访问 http://localhost:8000/app/ 页面出现 “Nothing here yet!” 现在就可以自己创建HTML,编写angular了 app/index.html <!doctype html> <html lang"en"…

一文搞定深度学习建模预测全流程(Python)
作者 | 泳鱼来源 | 算法进阶本文详细地梳理及实现了深度学习模型构建及预测的全流程,代码示例基于python及神经网络库keras,通过设计一个深度神经网络模型做波士顿房价预测。主要依赖的Python库有:keras、scikit-learn、pandas、tensorflow&a…

第163天:js面向对象-对象创建方式总结
面向对象-对象创建方式总结 1、 创建对象的方式,json方式 推荐使用的场合: 作为函数的参数,临时只用一次的场景。比如设置函数原型对象。 1 var obj {};2 //对象有自己的 属性 和 行为3 // 属性比如: 年龄、姓名、性别4 // 行…

一个从四秒到10毫秒,花了1年的算法问题?
原文:一个从四秒到10毫秒,花了1年的算法问题?五一后的第一周,由于搬家腰扭伤了,没注意导致压迫神经,躺在床上休息了好几天。所以没事就挂 QQ,一个网友突然问了我一个算法问题。所以有了这篇文章。感触很深&…

xinetd 说明
xinetd 是什么在linux中一些不长期使用的服务(不重要的服务?)没有被作为单独的守护进程在开机时启用,linux把这些服务监听端口全部由一个独立的进程xinetd集中监听,当收到相应的客户端请求之后,xinetd进程就…

英特尔携手中科院计算所建立中国首个 oneAPI 卓越中心
11月12日,在第三届中国超级算力大会(ChinaSC 2021)上,英特尔与中国科学院计算技术研究所共同建立中国首个 oneAPI 卓越中心,来扩大 oneAPI 对中国本土国产硬件的支持及使用oneAPI来开发全栈式开源软件。 在上个月刚结…

前端学习资源分享
2019独角兽企业重金招聘Python工程师标准>>> 推荐大神文章(文字教程) 1 综合类 前端知识体系前端知识结构Web前端开发大系概览Web前端开发大系概览-中文版智能社 - 精通JavaScript开发JavaScript中的this陷阱的最全收集--没有之一JS函数式编程指南腾讯移动Web前端知…

Nginx源码分析链接
nginx-0.8.38源码探秘:http://blog.csdn.net/ccdd14/article/details/5872312nginx源码分析: http://blog.sina.com.cn/s/blog_677be95b0100iiv7.html

基于聚类的图像分割(Python)
作者 | 小白来源 | 小白学视觉了解图像分割当我们在做一个图像分类任务时,首先我们会想从图像中捕获感兴趣的区域,然后再将其输入到模型中。让我们尝试一种称为基于聚类的图像分割技术,它会帮助我们在一定程度上提高模型性能,让我…

4月第4周全球域名商TOP15:万网第四 增势减弱
IDC评述网(idcps.com)05月21日报道:据WebHosting.info公布的最新数据显示,在4月第4周,全球十五强域名商中,域名总量成功实现净增长的有7家。其中,中法各1家,即中国万网与OVH.NET&…

PXE全自动安装操作系统--centos7.3学习笔记
PXE服务器:192.168.110.110 环境准备 安装软件 # yum -y install dhcp tftp-server tftp vsftpd lftp DHCP配置 # cd /var/dhcp # cp /usr/share/doc/dhcp-4.2.5/dhcpd.conf.example /etc/dhcp/dhcpd.conf # vim /etc/dhcp/dhcpd.conf subnet 192.168.110.0 netmask…

无事“自动驾驶”,有事“辅助驾驶”?
近日来,智能汽车事故频发,且事故原因多与所谓的“自动驾驶”功能有关,这不由得引起了人们对“自动驾驶”发展前景的担忧。实际上,大众理解的“自动驾驶”与官方的定义可能有所出入。全球公认的标准一般是由SAE International&…

九、数据库群集部署、配置 (二)
九、 数据库群集部署、配置(二)配置DTC 角色高可用在群集管理器对话框,选择"配置角色",如图2. 选择"下一步",如图3. 在选择角色对话框,选择"分布式事务协调器(DTC&a…

Linux下怎么诊断网站性能异常
网站如果突然慢了,怎么样诊断? 先用Top命令查看进程 #top选择Haporxy代理的进程 #strace -p 25054进程在干什么看的一清二楚。

[Java面试五]Spring总结以及在面试中的一些问题.
2019独角兽企业重金招聘Python工程师标准>>> 1.谈谈你对spring IOC和DI的理解,它们有什么区别? IoC Inverse of Control 反转控制的概念,就是将原本在程序中手动创建UserService对象的控制权,交由Spring框架管理&#…