当前位置：首页 > 编程日记 > 正文

文件解析库doctotext源码分析

编程日记 2024-08-13 02:10:00

doctotext中没有make install选项，make后生成可执行文件

在buile目录下面有.so动态库和头文件，需要的可以从这里面拷贝

build/doctotext就是可执行程序。

doctotext内置了两种检测文件类型方法：

1、以后缀为依据检测文件类型

2、以内容为依据检测文件类型

下面是doctotext支持的文件类型：

DOC, XLS, XLSB, PPT, RTF, ODF (ODT, ODS, ODP),
OOXML (DOCX, XLSX, PPTX), iWork (PAGES, NUMBERS, KEYNOTE),
ODFXML (FODP, FODS, FODT), PDF, EML and HTML documents to plain text.
Extracts metadata and annotations.

对于解析像office2007这类的文件，doctotext只是识别出来格式是OOXML类型，并没有细分是word还是execl。

如果用户没有指定文件类型，在解析文件的时候先先进行后缀检测判断文件类型，根据检测结果调用相应格式的文件解析器。

当解析过程中发现格式错误的时候，终止解析。使用内容检测判断文件类型，然后再根据检测结果调用相应格式的文件解析器。

如果是未识别的文件格式则终止进程。

main()函数位于src/doctotext.cpp中

从main()函数开始分析。

doctotext_init_tracing()函数，用于调试跟踪。产生信息文件doctotext.trace

定义变量extract_metadata，初始为不显示文件属性信息

bool extract_metadata = false;

名字空间：

namespace doctotext
{enum TableStyle { TABLE_STYLE_TABLE_LOOK, TABLE_STYLE_ONE_ROW, TABLE_STYLE_ONE_COL, };enum UrlStyle { URL_STYLE_TEXT_ONLY, URL_STYLE_EXTENDED, URL_STYLE_UNDERSCORED, };class ListStyle  {};struct FormattingStyle {TableStyle table_style;UrlStyle url_style;ListStyle list_style;}; enum XmlParseMode {PARSE_XML, FIX_XML, STRIP_XML};             
}

类：

class PlainTextExtractor 
{//文件类型的枚举enum ParserType{......}//实现结构体struct Implementation; //实现结构体私有变量Implementation *impl;
}

implementation中实现的函数列表

//判断不同的文件类型是否正确

isRTF [PlainTextExtractor::Implementation]
isODFOOXML [PlainTextExtractor::Implementation]
isXLS [PlainTextExtractor::Implementation]
isDOC [PlainTextExtractor::Implementation]
isPPT [PlainTextExtractor::Implementation]
isHTML [PlainTextExtractor::Implementation]
isIWork [PlainTextExtractor::Implementation]
isXLSB [PlainTextExtractor::Implementation]
isPDF [PlainTextExtractor::Implementation]
isEML [PlainTextExtractor::Implementation]
isODFXML [PlainTextExtractor::Implementation]

//不同文件类型的解析器

parseRTF [PlainTextExtractor::Implementation]
parseODFOOXML [PlainTextExtractor::Implementation]
parseXLS [PlainTextExtractor::Implementation]
parseDOC [PlainTextExtractor::Implementation]
parsePPT [PlainTextExtractor::Implementation]
parseHTML [PlainTextExtractor::Implementation]
parseIWork [PlainTextExtractor::Implementation]
parseXLSB [PlainTextExtractor::Implementation]
parsePDF [PlainTextExtractor::Implementation]
parseTXT [PlainTextExtractor::Implementation]
parseEML [PlainTextExtractor::Implementation]
parseODFXML [PlainTextExtractor::Implementation]
parseRTFMetadata [PlainTextExtractor::Implementation]
parseODFOOXMLMetadata [PlainTextExtractor::Implementation]
parseXLSMetadata [PlainTextExtractor::Implementation]
parseDOCMetadata [PlainTextExtractor::Implementation]
parsePPTMetadata [PlainTextExtractor::Implementation]
parseHTMLMetadata [PlainTextExtractor::Implementation]
parseIWorkMetadata [PlainTextExtractor::Implementation]
parseXLSBMetadata [PlainTextExtractor::Implementation]
parsePDFMetadata [PlainTextExtractor::Implementation]
parseEMLMetadata [PlainTextExtractor::Implementation]
parseODFXMLMetadata [PlainTextExtractor::Implementation]

PlainTextExtractor类中实现的函数列表

PlainTextExtractor [PlainTextExtractor]
~PlainTextExtractor [PlainTextExtractor]
setVerboseLogging [PlainTextExtractor]
setLogStream [PlainTextExtractor]
setFormattingStyle [PlainTextExtractor]
setXmlParseMode [PlainTextExtractor]
setManageXmlParser [PlainTextExtractor]
parserTypeByFileExtension [PlainTextExtractor]
parserTypeByFileExtension [PlainTextExtractor]
parserTypeByFileContent [PlainTextExtractor]
parserTypeByFileContent [PlainTextExtractor]
parserTypeByFileContent [PlainTextExtractor]
processFile [PlainTextExtractor]
processFile [PlainTextExtractor]
processFile [PlainTextExtractor]
processFile [PlainTextExtractor]

根据输入参数选项指定文件类型

指定parser_type的值

创建变量

PlainTextExtractor extractor(parser_type);

详细日志默认关闭

verbose = false

设置详细日志开启： extractor.setVerboseLogging(true);

设置XM解析模式：extractor.setXmlParseMode(mode);

设置格式类型：extractor.setFormattingStyle(options);

解析文件显示详细文件属性：

extractor.extractMetadata(argv[argc - 1], meta)；

解析文件显示文件内容：

extractor.processFile(argv[argc - 1], text);

根据文件类型调用不同的文件解析器

processFile(parser_type, fallback, buffer, size, plain_text)

根据文件扩展名称判断文件类型

parserTypeByFileExtension(file_name);

根据内容判断文件类型：

parserTypeByFileContent(buffer, size, parser_type)；

程序流程图：

官方从2014年开始就不更新了，具体什么原因不知，github 上自己维护的 doctotext

https://github.com/etangyushan/doctotext

转载于:https://www.cnblogs.com/etangyushan/p/4259814.html

https://www.dkcj.cn/info/14017.html

tmux系统剪切板_实践中的tmux：与系统剪贴板集成

tmux系统剪切板by Alexey Samoshkin通过阿列克谢萨莫什金(Alexey Samoshkin) 在实践中使用tmux：与系统剪贴板集成 (tmux in practice: integration with the system clipboard) 如何在tmux复制缓冲区和系统剪贴板之间建立桥梁，以及如何在OSX或Linux系统…

编程日记2024/08/13 02:00:00

【Java面试题】54 去掉一个Vector集合中重复的元素

在Java中去掉一个 Vector 集合中重复的元素 1)通过Vector.contains（）方法判断是否包含该元素，如果没有包含就添加到新的集合当中，适用于数据较小的情况下。 import java.util.Vector; public class DeleteVector {public static v…

编程日记2024/08/13 01:50:00

tornado+nginx上传视频文件

[http://arloz.me/tornado/2014/06/27/uploadvideotornado.html] [NGINX REFRER: Nginx upload module] 由于tornado通过表达上传的数据最大限制在100M，所以如果需要上传视屏文件的情况在需要通过其他方式实现， 此处采用nginx的nginx-upload-module和jQu…

编程日记2024/08/13 01:40:00

微信小程序swiper组件宽高自适应方法

微信小程序开发交流qq群 173683895 承接微信小程序开发。扫码加微信。正文： 我把 swiper 的 width 设定成了屏幕的95%宽度, 如果想宽度也自适应的话请改成 width:{{width*2}}rpx <swiper classadvertising2 indicator-dots"true" styleheight:{{…

编程日记2024/08/13 01:30:00

Looking for a new job is a daunting task. There are so many things to consider when trying to find the perfect role - location, company, job responsibilities, pay and compensation, training and much more.找一份新工作是艰巨的任务。试图找到理想的职位时&…

编程日记2024/08/13 01:20:00

Redis集群官方推荐方案 Redis-Cluster

Redis-Cluster redis使用中遇到的瓶颈我们日常在对于redis的使用中，经常会遇到一些问题 1、高可用问题，如何保证redis的持续高可用性。 2、容量问题，单实例redis内存无法无限扩充，达到32G后就进入了64位世界，性能下降…

编程日记2024/08/13 01:10:00

[微信小程序]单选框以及多选框实例代码附讲解

微信小程序开发交流qq群 173683895 承接微信小程序开发。扫码加微信。正文： 效果图 <radio-group class"radio-group" bindchange"radioChange"><label class"radio" wx:for"{{k7}}" wx:key"index&q…

编程日记2024/08/13 01:00:00

IDL_GUI

菜单栏设计 PRO IDLGui;构建界面;显示;添加事件tlbWIDGET_BASE(xsize400,ysize400,/column,mbarmbar);实现基类fileWIDGET_BUTTON(mbar, $ ；新建button，value文件)openwidget_button(file,value打开,/menu)jpgwidget_button(open,valuejpg)existwidget_…

编程日记2024/08/13 00:50:00

git隐藏修改_您可能不知道的有关Git隐藏的有用技巧

git隐藏修改I have launched a newsletter Git Better to help learn new tricks and advanced topics of Git. If you are interested in getting your game better in Git, you should definitely check that out.我已经发布了Git Better通讯，以帮助学习Git的新技…

编程日记2024/08/13 00:40:00

css 层叠式样式表（2）

一，样式表分类 （1）内联样式。 --优先级最高，代码重复使用最差。 （当特殊的样式需要应用到单独某个元素时，可以使用。直接在相关的标签中使用样式属性。样式属性可以包含任何 CSS 属性。） &…

编程日记2024/08/13 00:30:00

Hadoop学习笔记之三数据流向

http://hadoop.apache.org/docs/r1.2.1/api/index.html 最基本的： 1. 文本文件的解析 2. 序列文件的解析 toString会将Byte数组中的内存数据按照字节间隔以字符的形式显示出来。文本文件多事利用已有的字符处理类， 序列文件多事创建byte数组&#xff0…

编程日记2024/08/13 00:20:00

[微信小程序]星级评分和展示(详细注释附效果图)

微信小程序开发交流qq群 173683895 承接微信小程序开发。扫码加微信。正文： 星级评分分成两种情况: 一:展示后台给的评分数据二:用户点击第几颗星星就显示为几星评分;  <view> <view>一:显示后台给的评分</…

编程日记2024/08/13 00:10:00

uber_这就是我本可以免费骑Uber的方式

uberby AppSecure通过AppSecure 这就是我本可以免费骑Uber的方式 (Here’s how I could’ve ridden for free with Uber) 摘要 (Summary) This post is about a critical bug on Uber which could have been used by hackers to get unlimited free Uber rides anywhere in th…

编程日记2024/08/13 00:00:00

磁盘I/O 监控 iostat

iostat -cdxm 2 5 dm-4 如果没有这个命令，需要安装sysstat 包。 Usage: iostat [ options ] [ <interval> [ <count> ] ]Options are:[ -c ] [ -d ] [ -N ] [ -n ] [ -h ] [ -k | -m ] [ -t ] [ -V ] [ -x ] [ -z ][ <device> [...] | ALL ] [ -p…

编程日记2024/08/12 23:50:00

[微信小程序]物流信息样式加动画效果(源代码附效果图)

微信小程序开发交流qq群 173683895 承接微信小程序开发。扫码加微信。正文： 效果图片:(信息仅为示例)  <view classpage_row top><image classgoods src../../images/dsh.png></image><view cl…

编程日记2024/08/12 23:40:00

在 Ubuntu 14.04 Chrome中安装Flash Player(转)

在 Ubuntu 14.04 中安装 Pepper Flash Player For Chromium 一个 Pepper Flash Player For Chromium 的安装器已经被 Ubuntu14.04 的官方源收录。Flash Player For Linux 自11.2 起已经停止更新，目前 Linux 平台下面的 Flash Player 只能依靠 Google Chrom 的 PPAPI…

编程日记2024/08/12 23:30:00

数据结构显示树的所有结点_您需要了解的有关树数据结构的所有信息

数据结构显示树的所有结点When you first learn to code, it’s common to learn arrays as the “main data structure.”第一次学习编码时，通常将数组学习为“主要数据结构”。 Eventually, you will learn about hash tables too. If you are pursuing a Comput…

编程日记2024/08/12 23:20:00

Unity应用架构设计(9)——构建统一的 Repository

谈到『Repository』仓储模式，第一映像就是封装了对数据的访问和持久化。Repository 模式的理念核心是定义了一个规范，即接口『Interface』，在这个规范里面定义了访问以及持久化数据的行为。开发者只要对接口进行特定的实现就可以满足对不同…

编程日记2024/08/12 23:10:00

PHP连接数据库并创建一个表

微信小程序开发交流qq群 173683895 承接微信小程序开发。扫码加微信。 <html> <body><form action"test.class.php" method"post"> title: <input type"text" name"title"><br> centent: <input t…

编程日记2024/08/12 23:00:00

MyBatis 入门

什么是 MyBatis ？ MyBatis 是支持定制化 SQL、存储过程以及高级映射的优秀的持久层框架。MyBatis 避免了几乎所有的 JDBC 代码和手工设置参数以及抽取结果集。MyBatis 使用简单的 XML 或注解来配置和映射基本体，将接口和 Java 的 POJOs(Plain Old Java O…

编程日记2024/08/12 22:50:00

cms基于nodejs_我如何使基于CMS的网站脱机工作

cms基于nodejsInterested in learning JavaScript? Get my ebook at jshandbook.com有兴趣学习JavaScript吗？ 在jshandbook.com上获取我的电子书 This case study explains how I added the capability of working offline to the writesoftware.org website (whic…

编程日记2024/08/12 22:40:00

how-to-cartoon-ify-an-image-programmatically

http://stackoverflow.com/questions/1357403/how-to-cartoon-ify-an-image-programmatically 转载于:https://www.cnblogs.com/guochen/p/6655333.html

编程日记2024/08/12 22:30:00

Android Studio 快捷键

2015.02.05补充代码重构快捷键 Alt回车导入包自动修正CtrlN 查找类CtrlShiftN 查找文件CtrlAltL 格式化代码CtrlAltO 优化导入的类和包AltInsert 生成代码(如get,set方法,构造函数等)CtrlE或者AltShiftC 最近更改的代码CtrlR 替换文本CtrlF 查找文本CtrlShiftSpace 自动补全…

编程日记2024/08/12 22:20:00

【微信小程序】异步请求，权重，自适应宽度并折行，颜色渐变，绝对定位

微信小程序开发交流qq群 173683895 承接微信小程序开发。扫码加微信。正文： 写这篇博文主要是为了能够给到大家做类似功能一些启迪，下面效果图中就是代码实现的效果，其中用到的技巧点还是比较多的， <!--pages/demo_list/d…

编程日记2024/08/12 22:10:00

服务器部署基础知识_我在生产部署期间学到的知识

服务器部署基础知识by Shruti Tanwar通过Shruti Tanwar 我在生产部署期间学到的知识 (What I learned during production deployment) Production deployment. The final stage of every project. When all the hard work you’ve put in over the course of time goes live t…

编程日记2024/08/12 22:00:00

STM32 KEIL中负数绝对值处理

使用数码管显示负温度时需要把负数转换为绝对值 #include<math.h> 使用abs 或者自己写函数 #define ABS(x) ((x)>0?(x):-(x)))转载于:https://www.cnblogs.com/yekongdexingxing/p/6657371.html

编程日记2024/08/12 21:50:00

js数组按照下标对象的属性排序

微信小程序开发交流qq群 173683895 承接微信小程序开发。扫码加微信。根据数组中某个参数的值的大小进行升序 <script type"text/javascript">function compare(val) {return function (a, b) {var value1 a[val];var value2 b[val];return value1…

编程日记2024/08/12 21:40:00

window 下相关命令

1. 启动window服务(各种应用启动设置的地方)命令方式： 1). window 按钮(输入CMD的地方)处输入：services.msc ，然后执行。 // 输入命令正确，上面的待选框中会出现要执行的命令。msc 可以理解为Microsoft client 2). 计算机 -- …

编程日记2024/08/12 21:30:00

javascript语法糖_语法糖和JavaScript糖尿病

javascript语法糖by Ryan Yurkanin瑞安尤卡宁(Ryan Yurkanin) 语法糖和JavaScript糖尿病 (Syntactic Sugar and JavaScript Diabetes) Syntactic sugar is shorthand for communicating a larger thought in a programming language.语法糖是用编程语言传达更大思想的简写。 …

编程日记2024/08/12 21:20:00

《DSP using MATLAB》示例Example7.23

代码： wp 0.2*pi; ws 0.3*pi; Rp 0.25; As 50; [delta1, delta2] db2delta(Rp, As);[N, f, m, weights] firpmord([wp, ws]/pi, [1, 0], [delta1, delta2]);N f m weightsh firpm(N, f, m, weights); [db, mag, pha, grd, w] freqz_m(h, [1]);delta_w 2*pi…

编程日记2024/08/12 21:10:00