当前位置: 首页 > 编程日记 > 正文

linux 读取大量图片 内存,10 张图帮你搞定 TensorFlow 数据读取机制

导读

在学习tensorflow的过程中,有很多小伙伴反映读取数据这一块很难理解。确实这一块官方的教程比较简略,网上也找不到什么合适的学习材料。今天这篇文章就以图片的形式,用最简单的语言,为大家详细解释一下tensorflow的数据读取机制,文章的最后还会给出实战代码以供参考。

一、tensorflow读取机制图解

首先需要思考的一个问题是,什么是数据读取?以图像数据为例,读取数据的过程可以用下图来表示:

1465788ae81d43ad1fc80027082fe73a.png

假设我们的硬盘中有一个图片数据集0001.jpg,0002.jpg,0003.jpg……我们只需要把它们读取到内存中,然后提供给GPU或是CPU进行计算就可以了。这听起来很容易,但事实远没有那么简单。事实上,我们必须要把数据先读入后才能进行计算,假设读入用时0.1s,计算用时0.9s,那么就意味着每过1s,GPU都会有0.1s无事可做,这就大大降低了运算的效率。

如何解决这个问题?方法就是将读入数据和计算分别放在两个线程中,将数据读入内存的一个队列,如下图所示:

49d02a4dbc2c39bde6185e2377377f5a.png

读取线程源源不断地将文件系统中的图片读入到一个内存的队列中,而负责计算的是另一个线程,计算需要数据时,直接从内存队列中取就可以了。这样就可以解决GPU因为IO而空闲的问题!

而在tensorflow中,为了方便管理,在内存队列前又添加了一层所谓的“文件名队列”。

为什么要添加这一层文件名队列?我们首先得了解机器学习中的一个概念:epoch。对于一个数据集来讲,运行一个epoch就是将这个数据集中的图片全部计算一遍。如一个数据集中有三张图片A.jpg、B.jpg、C.jpg,那么跑一个epoch就是指对A、B、C三张图片都计算了一遍。两个epoch就是指先对A、B、C各计算一遍,然后再全部计算一遍,也就是说每张图片都计算了两遍。

tensorflow使用文件名队列+内存队列双队列的形式读入文件,可以很好地管理epoch。下面我们用图片的形式来说明这个机制的运行方式。如下图,还是以数据集A.jpg, B.jpg, C.jpg为例,假定我们要跑一个epoch,那么我们就在文件名队列中把A、B、C各放入一次,并在之后标注队列结束。

7f6ec7d4eab538c6098d06ebddfb8c5c.png

程序运行后,内存队列首先读入A(此时A从文件名队列中出队):

d3b20614c48575a2885db93c4416982f.png

再依次读入B和C:

2d7a2aa43071c4bcd7552c4162bb189a.png

9941355b3a0e677864faadafeb732d82.png

此时,如果再尝试读入,系统由于检测到了“结束”,就会自动抛出一个异常(OutOfRange)。外部捕捉到这个异常后就可以结束程序了。这就是tensorflow中读取数据的基本机制。如果我们要跑2个epoch而不是1个epoch,那只要在文件名队列中将A、B、C依次放入两次再标记结束就可以了。

二、tensorflow读取数据机制的对应函数

如何在tensorflow中创建上述的两个队列呢?

对于文件名队列,我们使用tf.train.string_input_producer函数。这个函数需要传入一个文件名list,系统会自动将它转为一个文件名队列。

此外tf.train.string_input_producer还有两个重要的参数,一个是num_epochs,它就是我们上文中提到的epoch数。另外一个就是shuffle,shuffle是指在一个epoch内文件的顺序是否被打乱。若设置shuffle=False,如下图,每个epoch内,数据还是按照A、B、C的顺序进入文件名队列,这个顺序不会改变:

a825e44c521ec19d823c5c7ae3c6ce51.png

如果设置shuffle=True,那么在一个epoch内,数据的前后顺序就会被打乱,如下图所示:

ebc00f69666ea8918694a5ff7cf37265.png

在tensorflow中,内存队列不需要我们自己建立,我们只需要使用reader对象从文件名队列中读取数据就可以了,具体实现可以参考下面的实战代码。

除了tf.train.string_input_producer外,我们还要额外介绍一个函数:tf.train.start_queue_runners。初学者会经常在代码中看到这个函数,但往往很难理解它的用处,在这里,有了上面的铺垫后,我们就可以解释这个函数的作用了。

在我们使用tf.train.string_input_producer创建文件名队列后,整个系统其实还是处于“停滞状态”的,也就是说,我们文件名并没有真正被加入到队列中(如下图所示)。此时如果我们开始计算,因为内存队列中什么也没有,计算单元就会一直等待,导致整个系统被阻塞。

3aa8d040f0d52d762c1c312498ef6018.png

而使用tf.train.start_queue_runners之后,才会启动填充队列的线程,这时系统就不再“停滞”。此后计算单元就可以拿到数据并进行计算,整个程序也就跑起来了,这就是函数tf.train.start_queue_runners的用处。

caa2bfe164c0f51dc4e7cbc6281a63e7.png

三、实战代码

我们用一个具体的例子感受tensorflow中的数据读取。如图,假设我们在当前文件夹中已经有A.jpg、B.jpg、C.jpg三张图片,我们希望读取这三张图片5个epoch并且把读取的结果重新存到read文件夹中。

0cb267e9c070e3c78c054c388035c5dd.png

对应的代码如下:

# 导入tensorflow

import tensorflow as tf

# 新建一个Session

with tf.Session() as sess:

# 我们要读三幅图片A.jpg, B.jpg, C.jpg

filename = ['A.jpg', 'B.jpg', 'C.jpg']

# string_input_producer会产生一个文件名队列

filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)

# reader从文件名队列中读数据。对应的方法是reader.read

reader = tf.WholeFileReader()

key, value = reader.read(filename_queue)

# tf.train.string_input_producer定义了一个epoch变量,要对它进行初始化

tf.local_variables_initializer().run()

# 使用start_queue_runners之后,才会开始填充队列

threads = tf.train.start_queue_runners(sess=sess)

i = 0

while True:

i += 1

# 获取图片数据并保存

image_data = sess.run(value)

with open('read/test_%d.jpg' % i, 'wb') as f:

f.write(image_data)

我们这里使用filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)建立了一个会跑5个epoch的文件名队列。并使用reader读取,reader每次读取一张图片并保存。

运行代码后,我们得到就可以看到read文件夹中的图片,正好是按顺序的5个epoch:

32c9f2c6a21be16f561cf23a7858ba29.png

如果我们设置filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)中的shuffle=True,那么在每个epoch内图像就会被打乱,如图所示:

1c387e9eb4231498ba710101886c6df8.png

我们这里只是用三张图片举例,实际应用中一个数据集肯定不止3张图片,不过涉及到的原理都是共通的。

四、总结

这篇文章主要用图解的方式详细介绍了tensorflow读取数据的机制,最后还给出了对应的实战代码,希望能够给大家学习tensorflow带来一些实质性的帮助。如果各位小伙伴还有什么疑问,欢迎评论或私信告诉我,谢谢~

相关文章:

安卓真机测试安装时报错

在将程序发布到手机上时提示该错误: INSTALL_FAILED_INSUFFICIENT_STORAGE 手机内存满了...删除程序... 就可以安装了转载于:https://www.cnblogs.com/H-K-Home/p/5279819.html

C#学习笔记——捕获当前屏幕

编程思路(API 编程): 先调用 GetForegroundWindow 获取当前活动程序窗口句柄,然后调用 GetWindowDC 获取窗口的设备句柄(或 GetDC 函数),调用 BitBlt 位图传输函数将位图拷贝到兼容的设备场景中…

Exception loading sessions from persistent storage

严重: Exception loading sessions from persistent storage java.io.EOFException 删除Tomcat里面的work/Catalina/localhost下的内容即可解决 Tomcat在启动时出现如下异常问题: 严重: IOException while loading persisted sessions: java.io.EOFException严重: E…

linux独立应用程序开发,Linux应用程序开发(一)

Linux应用程序开发(一)---移植thttpdSqlite3PHP5到arm linux(4)移植环境(红色粗字体字为修改后内容,蓝色粗体字为特别注意内容)1,主机环境:VMare下CentOS 5.5 ,1G内存。2,集成开发环境:Elipse IDE3&#xf…

面向过程(结构化)分析方法与面向对象分析方法的区别

面向过程是从问题的总体目标开始,抽象底层的细节,先专心构造高层的结构,然后再一层一层地分解合细化。 面向对象则是运用对象、类、继承、封装、聚合、消息传递、多态性等概念来构造系统的方法。 面向过程着重于解决问题的从粗略到详尽的方法…

eclipse.ini内存设置

-vmargs -Xms128M -Xmx512M -XX:PermSize64M -XX:MaxPermSize128M 这里有几个问题:1. 各个参数的含义什么?2. 为什么有的机器我将-Xmx和-XX:MaxPermSize都设置为512M之后Eclipse可以启动,而有些机器无法启动?3. 为何将上面的参数写…

如何运用下载来的模板

(1)在相应的网址下载模块文件 例如:https://github.com/yagitoshiro/ImageAsResized (2)把下载的模块包解压放到C:\Users\Administrator\AppData\Roaming\Titanium\modules\android 目录结构如下所示: 而这…

红旗linux桌面版反应慢,红旗Linux6.0桌面版使用感受

1.红旗Linux6.0桌面版中文支持比较好,毕竟是国人出的发行版;输入法很不错;自动挂载win分区(好像Ubuntu、OpenSUSE、Fedora等这些流行发行版的新版都支持了),自动安装网络,用路由的话可以直接上网了。2.处处向windows靠…

device.cpp

Java代码 #include "device.h" #include <math.h> //Class Timer member function implementation int Timer::createTimer() { _start 0; _clocks 0; #ifdef _WIN32 QueryPerformanceFrequency((LARGE_INTEGER* )&_freq); #else _freq (long long)1.0E…

简明python教程 --C++程序员的视角(九):函数式编程、特殊类方法、测试及其他...

函数式编程 Lambda exec&#xff0c;eval和assert语句&#xff0c;repr函数 lambda语句 用来创建简短的单行匿名函数 print_assign lambda name, value: name str(value)等同于def print_assign(name, value): return name str(value) lambda需要一个参数&#xf…

防止重复提交订单-(转)

防止重复提交 Button1.Attributes.Add("onclick", "this.value正在提交中&#xff0c;请等待……;this.disabledtrue;" this.GetPostBackEventReference(Button1)); 于是根据这个写了个只能提交一次的控件&#xff1a; publicclassButtonSubmitOn…

linux pps 包 网卡,linux下安装PPS

到官方下载FEDORA版RPM包。[talenliangshan Downloads]$ sudo yum localinstall PPStream.rpm已加载插件&#xff1a;axelget, fastestmirror, presto, priorities, refresh-packagekit, remove-with-leaves设置本地安装进程诊断 PPStream.rpm: PPStream-1.0.2-11.i386PPStream…

C#设置本地网络(DNS、网关、子网掩码、IP)

如今网络在我们的生活工作中所起的作用越来越大&#xff0c;可以说离开了网络我们就无法正常的工作和生活。作为程序员我们写的程序大多数也会跟网络相关&#xff0c;而想要使用网络首先要将机器的网络配置设置好。而手动设置的方法显然很不可取&#xff0c;所以我们要让程序帮…

Dynamics CRM2016 Web API之创建记录

前篇介绍了通过primary key来查询记录&#xff0c;那query的知识点里面还有很多需要学习的&#xff0c;这个有待后面挖掘&#xff0c;本篇来简单介绍下用web api的创建记录。 直接上代码&#xff0c;这里的entity的属性我列了几个比较典型的&#xff0c;和原来相比有区别的是选…

bootstrap轮播如何支持移动端滑动手势

1.下载滑动手势 js 插件&#xff1a;hammer.js //cdn.bootcss.com/hammer.js/2.0.8/hammer.min.js 2.写一个javascript命令调用hammer.js中的swipe功能 <script>$(function(){//添加移动端滑动var myElement document.getElementById(myCarousel)//id为轮播的idvar hmnew…

linux程序计数器,如何在C中打印程序计数器的确切值

小编典典您应该能够使用ARM编译器工具链中的__current_pc()内在函数来确定PC(ARM编译器支持许多与GCC相同的扩展)。*这是ARM特有的&#xff1a;int main () {printf("%#x\n", __current_pc());printf("%#x\n", __current_pc());printf("%#x\n", …

『转载』Debussy快速上手(Verdi相似)

『转载』Debussy快速上手&#xff08;Verdi相似&#xff09; Debussy 是NOVAS Software, Inc(思源科技)发展的HDL Debug & Analysis tool&#xff0c;这套软体主要不是用来跑模拟或看波形&#xff0c;它最强大的功能是&#xff1a;能够在HDL source code、schematic diagra…

大家好,新年快乐。

刚申请了个博客&#xff0c;祝大家新年快乐。 &#xff0d;&#xff0d;&#xff0d;&#xff0d;&#xff0d;&#xff0d;&#xff0d;&#xff0d;&#xff0d;&#xff0d;&#xff0d;&#xff0d;&#xff0d; So many children are playing zhu zhu pets at home.This t…

maven项目找不到pom.xml配置的dependency jar中的类问题解决方法

成功创建一个web项目后&#xff0c;假如我们在web.xml文件中&#xff0c;配置了spring的listener&#xff0c;在pom.xml中也已经作了依赖配置。部署 完项目后&#xff0c;启动项目&#xff0c;发现找不到spring配置的listner 类&#xff1a;org.springframework.web.context.Co…

红旗linux yum,更换红旗Linux: Asianux的yum源为网易源

测试环境&#xff1a;Linux系统版本Asianux4_x64&#xff1a;Linux localhost.localdomain 2.6.32-279.2.1.el6.x86_64 #1 SMP Tue Aug 14 11:42:24 CST 2012 x86_64 x86_64 x86_64 GNU/Linux本质上Asianux4_x64就是基于Redhat6企业版的。出现问题&#xff1a;安装完系统之后&a…

Java Socket编程 - 基于TCP方式的二进制文件传输【转】http://blog.csdn.net/jia20003/article/details/8248221...

此人博客挺好的&#xff0c;推荐一个&#xff01; 一个基于Java Socket协议之上文件传输的完整示例&#xff0c;基于TCP通信完成。 除了基于TCP的二进制文件传输&#xff0c;还演示了JAVA Swing的一些编程技巧&#xff0c;Demo程序 实现主要功能有以下几点&#xff1a; 1. …

SuSE下VNCVIEWER没有出现界面,只有shell窗口的问题

首先正确配置&#xff0c;打开vncserver &#xff1a;1&#xff0c;实际上有三个服务&#xff0c;vnc1&#xff0c;vnc2&#xff0c;vnc3&#xff0c;对应着三个服务&#xff0c;先打开。 可以直接在shell下输入 #vncserver :1.也可以使用界面打开Network Service (xinetd),将服…

docker容器互联

link方式 http://blog.csdn.net/halcyonbaby/article/details/42112325 通过link方式创建容器&#xff0c;然后我们可以使用被link容器的别名进行访问。从而解除应用对IP的依赖。不幸的是,link方式只能解决单机容器间的互联。多机情况下&#xff0c;容器的互联需要其他的方式。…

glib 2.0 arm linux,glib源码安装使用方法

glib库是GTK和GNOME工程的基础底层核心程序库&#xff0c;是一个综合用途的实用的轻量级的C程序库&#xff0c;它提供C语言的常用的数据结构的定义、相关的处理函数&#xff0c;有趣而实用的宏&#xff0c;可移植的封装和一些运行时机能&#xff0c;如事件循环、线程、动态调用…

iOS 用自签名证书实现 HTTPS 请求的原理实例讲解

在16年的WWDC中&#xff0c;Apple已表示将从2017年1月1日起&#xff0c;所有新提交的App必须强制性应用HTTPS协议来进行网络请求。默认情况下非HTTPS的网络访问是禁止的并且不能再通过简单粗暴的向Info.plist中添加NSAllowsArbitraryLoads设置绕过ATS(App Transport Security)的…

WordPress Editorial Calendar插件权限安全绕过漏洞

漏洞名称&#xff1a;WordPress Editorial Calendar插件权限安全绕过漏洞CNNVD编号&#xff1a;CNNVD-201302-369发布时间&#xff1a;2013-02-22更新时间&#xff1a;2013-02-22危害等级&#xff1a; 漏洞类型&#xff1a;权限许可和访问控制威胁类型&#xff1a;远程CVE编号…

文件操作(ifstream、ofstream、fstream)

原文链接&#xff1a;http://blog.csdn.net/soar_ersa/article/details/3908943 转载于:https://www.cnblogs.com/MrYuan/p/5288264.html

linux error log 换行,日志提示

日志提示线上问题&#xff0c;需要看日志。控制台可以打印Mybatis操作的SQL语句。开发流程&#xff1a;第一步&#xff1a;加入依赖image.png第二步&#xff1a;在项目的resources中加入log4j属性文件image.png第三步&#xff1a;演示image.png扩展了解一、日志概念的介绍Log4j…

本页面添加至收藏夹

经常在网站页面上需要把本页面添加至收藏夹 <script type"text/javascript">function addMe() {var url document.location.href;var wTitle document.title;if (document.all) {window.external.addFavorite(url, wTitle);} else if (window.sidebar) {wind…

javascript——Array类型

今天这节教程不仅仅是阐述ECMAScript3的部分功能&#xff0c;同时也会阐述有关EXMASctip5的很多新的功能。 一、创建 因为它是一个引用类型&#xff0c;自然就需要在使用前先构造它。 我将分成两种方式来讲述 I、构造函数 1.空的Array实例 var colors new Array(); 2.初始化存…