印度小哥“神剑”:PDF提取表格so easy!
作者 | 若名
出品 | AI科技大本营
如果经常跟数据表格打交道,那你应该体验过那种令人烦躁到抓狂的心情。但现在,学会下面将要介绍的一款工具的使用方法,相信我,它会让你在工作中简直不能更舒爽。
Excalibur,从古希腊语翻译过来就是“神剑”,它现在也是一种用于从 PDF 中提取表格数据的 Web 界面,使用 Python 3 编写,由 Camelot(Python 库) 提供支持,可以让任何人轻松地从 PDF 文件中提取表格数据。需要注意的是,Excalibur 仅适用于基于文本的 PDF 文件,扫描文件不在此列。
Camelot 和 Excalibur 的作者和维护者是来自新德里 Bharati Vidyapeeth 工程学院的 Vinayak Mehta,目前他正全职做这些项目。
Excalibur 的四大特性
可移植文件格式
PDF 文件定义了将字符放置在相对于页面左下角的 x,y 坐标的指令。通过将某些字符放在比其他字符更近的地方来模拟单词。空格是通过将单词放在相对较远的地方来模拟的。最后,通过放置在电子表格中显示的字词来模拟表格,格式没有表格结构的内部表示。
自动检测 PDF 中的表格数据
可移植文件格式不是为表格数据设计的。可悲的是,许多开放数据共享时都是 PDF 文件,但对其中的表格进行分析却是一件非常痛苦的事。简单的复制粘贴行不通,Excalibur 通过自动检测 PDF 中的表格并让你通过 Web 界面将它们保存为 CSV 和 Excel 文件,这使 PDF 表格提取变得非常简单。
可动态调整表格提取规则
虽然有很多广泛用于 PDF 表格提取的开源和闭源工具,但他们输出的表格良莠不齐。Excalibur 由 Camelot 提供支持,为用户提供附加设置以调整表格提取并获得最佳效果。相较而言,它的性能要好于其他开源工具和库。
数据完全可控且安全
你可以完全控制数据,因为所有文件存储和处理都在你自己的本地或远程计算机上进行。Excalibur 还可以配置 MySQL 和 Celery 系统,以并行和分布式方式执行表格提取任务。默认情况下,任务按顺序执行。
快速上手指南
下载和安装
https://github.com/camelot-dev/excalibur/releases
https://excalibur-py.readthedocs.io/en/master/user/install.html#install
设置开发环境
你可以使用 pip 轻松安装开发依赖项:
$ pip install excalibur-py [dev]
测试(很快)
安装后,你可以使用以下命令运行测试:
python setup.py test
使用“神剑”
安装后,可以使用以下命令初始化元数据的数据库:
$ excalibur initdb
然后使用以下命令启动 Web 服务器:
$ excalibur webserver
现在,你可以转到 http:// localhost:5000 并开始从 PDF 文件中提取表格数据。
上传 PDF
你可以使用 Web 界面上传 PDF 文件,还可以与之前的上传进行整合。
自动检测表格
Excalibur 可以自动检测 PDF 中的表格。
绘制表格区域或者放置分隔符
如果表格深埋在文本内部并且自动检测失败,则可以通过绘制表格区域和列分隔符进行操作。
加载已保存的规则设置
你也可以保存 PDF 文件中表格提取的规则设置,并将其应用于新的 PDF 文件以提取具有类似结构的表格。
查看和下载数据
最后,你可以查看提取的表格并将其下载为 CSV 或 Excel 文件。Excalibur 还支持 JSON 和 HTML 格式。
最后给出源代码链接,你可以通过以下方式查看最新源代码:
$ git clone https://www.github.com/camelot-dev/excalibur
(*本文为AI科技大本营原创文章,转载请联系作者)
公开课预告
◆
推荐系统
◆
在当今人工智能浪潮之下,个性化推荐技术更是风靡业界,在金融、传媒、短视频、电商、教育等诸多领域大放异彩,影响人们生活的方方面面。不仅方便了人们获取各种各样的信息,还给企业带来了收益的大幅提升。本次分享带你揭开个性化推荐的神秘面纱,从推荐算法到大型系统架构进行全面剖析。
推荐阅读
何恺明等最新突破:视频识别快慢结合,取得人体动作AVA数据集最佳水平
20k~65k, 2018年最后一波热门技术岗位, 立刻投简历, 跳槽才是加薪的捷径
ofo 遭千万人退押金
更新微信 7.0,你后悔了吗?
程序员求助:被领导强行要求写Bug该怎么办?网友的回答让我笑翻
用Python分析了1982场英雄联盟数据,开局前预测游戏对局胜负!
凭什么老程序员被裁,应届生却能月薪 1.3 万?
相关文章:

Linux系统中的Page cache和Buffer cache
Free命令显示内存 首先,我们来了解下内存的使用情况: Mem:表示物理内存统计 total:表示物理内存总量(total used free) used:表示总计分配给缓存(包含buffers 与cache )使用的数量,…

Java垃圾回收调优
在Java中,通常通讯类型的服务器对GC(Garbage Collection)比较敏感。通常通讯服务器每秒需要处理大量进出的数据包,需要解析,分解成不同的业务逻辑对象并做相关的业务处理,这样会导致大量的临时对象被创建和回收。同时服务器如果需…

高性能的MySQL(6)查询慢与重构查询
只有好的库表结构、合理的索引还不够,我们还需要合理的设计查询,齐头并进,一个不少才能充分发挥MySQL的优势。 一、查询为什么会慢? 每一个查询由一系列的子任务组成,每个子任务都会消耗一定的时间。这个我们在之前的单…

wamp找不到服务器,WampServer服务器多站点配置后打不开phpMyAdmin的解决办法
WampServer服务器多站点配置后打不开phpMyAdmin的解决办法 (Forbidden You dont have permission to access / on this server.解决方法)1、首先找到wampserver安装目录下面的httpd.conf配置文件 文件路径:电脑磁盘:\wamp\bin\apache\Apache2.2.21\conf\httpd.conf打…

TSM简介(一)- 原理与特点
IBM的TSM软件是市场上主流的企业备份解决方案。它可以通过网络或者SAN集中备份企业中几乎所有系统平台的数据到磁带机或者磁带库。它可以对大多数数据,如ORACLE, SQL SERVER, DB2, LOTUS DOMINO进行在线备份,也是唯一可以对AS/400数据进行网络备份的解决…

AI人工智能的未来?AI科技与AI教程?答案都在这里!
欢迎大家关注CSDN旗下专业的AI平台【AI科技大本营】,AI科技大本营公众号为广大读者提供中国AI技术分析、学习AI技术、AI技术应用和AI科技资讯等服务。 AI科技大本营是中国专业IT社区CSDN旗下的AI垂直媒体,致力于关注并报道全球人工智能领域技术及产业方面…

Linux命令:文本处理工具awk详解
awk命令简介: awk是一个强大的文本分析工具,通常,awk是以文件的每一行,为处理单位的。awk每接收文件的一行,然后执行相应的命令,来处理文本。 1.命令格式: awk pattern {action}{filenames} 其中 pattern 表…

ForefrontTMG关于单一的网络适配器限制
来自于ISA2008的帮助文件.Microsoft Forefront Threat Management Gateway 可以安装在具有单一网络适配器的计算机上。 通常,当 Forefront TMG 位于公司内部网络或位于外围网络而网络边缘有另一防火墙时使用此配置,防止公司资源受到来自 Internet 的***。…

ajax的auto是true,一个AJAX自动完成功能的js封装源码[支持中文]
ScreenshotsPaginationInternationalizationRich formatText selection源码下载有个问题,等高手解决,就是怎么搞都不能支持中文,不知道要改哪个地方!期待比如 new CAPXOUS.AutoComplete("wiki", function() {return "autocomplete3.asp?typing" …

非计算机专业如何转行AI,找到算法offer?
作者 | Nick-Atom 责编 | 琥珀 【AI科技大本营导读】目前,各行业都在尝试着用机器学习/深度学习来解决自身行业的需求。在这个过程中,最为稀缺的也是高质量人工智能人才。 这一年我们见证了不断有非计算机专业学生转行人工智能的现象,每个想…

Swing布局管理器介绍
当选择使用JPanel和顶层容器的content pane时,需要考虑布局管理。JPanel缺省是初始化一个FlowLayout,而content pane缺省是初始化一个BorderLayout。下面将分别介绍几种最常用的布局管理器:FlowLayout、BorderLayout、BoxLayout、CardLayout、…

圣诞节!教你用Python画棵圣诞树
作者 | 糖甜甜甜,985高校经管研二,擅长用 Python、R、tableau 等工具结合统计学和机器学习模型做数据分析。来源 | 经管人学数据分析(ID:DAT-2017)如何用Python画一个圣诞树呢?最简单:1height 523stars 1…

给动态生成的按钮添加ajax,Ajax/Javascript动态创建按钮的问题
你没有指定一个事件处理程序,您调用它。函数createButtons马上被调用,并且它返回的任何东西都被赋值给window.onload。window.onload createButtons();必须window.onload createButtons;你必须是你正在使用domready中和的onload另一个问题。两个不同的…

Android进阶笔记:Messenger源码详解
Messenger可以理解为一个是用于发送消息的一个类用法也很多,这里主要分析一下再跨进程的情况下Messenger的实现流程与源码分析。相信结合前面两篇关于aidl解析文章能够更好的对aidl有一个认识。(Android进阶笔记:AIDL内部实现详解 ࿰…

程序员春运抢票的正确姿势!
作者 | 屠敏出品 | CSDN资讯「有钱没钱,回家过年。」转瞬间,2018 年余额已严重不足,而 2019 年还正在赶来的路上:根据国家法定假日规定,距离 2019 年春节( 2019 年 2 月 5 日)的到来还有 45 天&…

centos 6.8 编译安装git 2.11.0
系统环境:CentOS release 6.8 (Final) 默认Git :1.7.1 需求git :2.11 卸载centos自带的git:yum remove git -y 下载git-2.11.0.tar.gz 上传至服务器,下载链接:http://distfiles.macports.org/git/ 解压安装…

小黑盒不显示服务器,steam上买的游戏小黑盒不显示 | 手游网游页游攻略大全
发布时间:2018-04-18贪吃蛇遇上打方块是一款最近非常热门的休闲小游戏,游戏将贪吃蛇和打方块合而为一吸引了很多玩家!但是好多小伙们都不知道该怎么玩,下面小编来教你一个快速入门的小技巧吧!~ 小技巧: 1.通过吃游戏带数字的黄色圆点,增加自己的长 ...标签ÿ…

基于架构的上网行为管理产品界面对比
当前上网行为管理产品风靡市场,对用户的网络管理的能力有很大的提高,给用户带来便利的同时也给用户带来很多困惑。目前市场上的上网行为管理产品在功能点上基本相同,于是一些设备的厂商开始关注设备的其它附加功能,比如网络管理人…

AI in 美团:吃喝玩乐背后的黑科技
作者 | 杨丽出品 | AI科技大本营(rgznai100)很多人都会发现日常生活已经越来越离不开美团了,这个互联网平台涵盖了吃、住、行、游、购、娱……能帮我们做很多事情,非常接地气。黄色的美团外卖骑手,橙色的摩拜单车&…

手机贷服务器维护升级,手机贷服务器升级
手机贷服务器升级 内容精选换一换本章节介绍如何创建告警规则。用户可自定义监控目标与通知策略,及时了解云手机服务器、云手机、磁盘以及GPU卡的状况,从而起到预警作用。登录管理控制台。在管理控制台左上角,选择待创建告警规则的区域。在服…

Windows Server 2008 R2 Beta VHD镜像文件发布
微软刚刚发布了一个VHD格式的Windows Server 2008 R2 Beta镜像文件,它可以用于Hyper-V环境下作评估. 您需要事先安装Windows Server 2008 (64bit edition) 或 Windows Server 2008 R2 Beta,需要更多信息请参阅Hyper-V主页.下载:Windows Server 2008 R2 Beta .uation Virtual Ha…
linux下的usb抓包方法【转】
转自:http://blog.chinaunix.net/uid-11848011-id-4508834.html 1、配置内核使能usb monitor: make menuconfig Device Drivers --> USB Support --> USB M…

中小学AI教育靠谱吗?50%教师教学经验不足1年
作者 | 琥珀出品 | AI科技大本营(rgznai100)近日,一份《中小学阶段人工智能普及教育现状调研报告》的发布让我们不禁汗颜当下中国中小学人工智能教育普及程度、教师教育水平所存在的问题。链接:http://www.cacsi.org.cn/Uploads/a…
你,保持童心;我,帮你保持童颜
在周星驰的《美人鱼》里有这样一句: 童话是存在的,只不过不是幻想的,而是自己去搭建的儿童节到了 感觉自己又小了一岁 越来越年轻了呢! 望遍朋友圈, 都是一群该当妈的在过六一 大龄儿童这么凑热闹是不是不太好呢&#…

java程序通过命令行运行之Path和ClassPath的注意点
习惯用IDE的朋友可能早就不用cmd,想当初我们刚学java的时候还记得对着黑屏幕敲的,哈哈。让我们再来重温旧梦。 我们在现在有这样一个文件HelloWorld.java,它的路径是这样的E:\javaTest\HelloWorld.java public class HelloWorld { public…

美通信与动力公司向WIN-T军事通信计划提供支持
美通信与动力公司向WIN-T军事通信计划提供支持[据美国军事与航宇电子网2009年2月17日报道]日前,通信与动力工业公司(CPI)从通用动力卫星通信技术公司获得一项价值大约为1300万美元的后续合同,向美国陆军士兵信息网络战术ÿ…

看动画轻松理解“递归”与“动态规划”
作者 | 程序员小吴来源 | 五分钟学算法在学习「数据结构和算法」的过程中,因为人习惯了平铺直叙的思维方式,所以「递归」与「动态规划」这种带循环概念(绕来绕去)的往往是相对比较难以理解的两个抽象知识点。程序员小吴打算使用动…
毕业季:理想很丰满,现实也可以很丰满!
六月,原本不是一个适合离开的季节,不是烈日,就是暴雨,让人不得不走走停停,频频回望。然而,哪个季节又适合离开呢?六月,确实得离开了。大学几年的时光终将逝去,而之后各位…

php扩展模块安装-lamp
php扩展模块安装 PECL 的全称是 The PHP Extension Community Library ,是一个开放的并通过 PEAR(PHP Extension and Application Repository,PHP 扩展和应用仓库)打包格式来打包安装的 PHP扩展库仓库。通过 PEAR 的 Package Manager 的安装管理方式&…

一文搞懂K近邻算法(KNN),附带多个实现案例
简介:本文作者为 CSDN 博客作者董安勇,江苏泰州人,现就读于昆明理工大学电子与通信工程专业硕士,目前主要学习机器学习,深度学习以及大数据,主要使用python、Java编程语言。平时喜欢看书,打篮球…