当前位置: 首页 > 编程日记 > 正文

磁盘IO的总结

转自:http://simpleframework.net/blog/v/8486.html

1. 完全随机写还是跳跃,5倍的性能差距!

全随机写无疑是最慢的写入方式,在logic dump测试中很惊讶的发现,将200M的内存数据随 机的写入到100G的磁盘数据里面,竟然要2个小时之多。原因就是虽然只有200M的数据,但实际上却是200万次随机写,根据测试,在2850机器上, 这样完全的随机写,r/s 大约在150~350之间,在180机器上,r/s难以达到250,这样计算,难怪需要2~3个小时之久。

如何改进这种单线程随机写慢的问题呢。一种方法就是尽量将完全随机写变成有序的跳跃随机写。实现方式,可以是简单的在内存中缓存一段时间,然后排序,使得在 写盘的时候,不是完全随机的,而是使得磁盘磁头的移动只向一个方向。根据测试,再一次让我震惊,简单的先在内存中排序,竟然直接使得写盘时间缩短到1645秒,磁盘的r/s也因此提升到1000以上。写盘的速度,一下子提高了5倍。

一个需要注意的地方,这种跳跃写对性能的提升,来至与磁头的单方向移动,它非常容易受其他因素的影响。测试中,上面提到的测试是只写block文件, 但如果在每个tid的处理中再增加一个写index的小文件。虽然如果只写index小文件,所用时间几乎可以忽略,但如果夹杂在写block文件中间的 话,对整体的写性能可能影响巨大,因为他可能使得磁盘的磁头需要这两个地方来回跑。根据测试,如果只写index文件,只需要300s就可以写完所有 200万个tid,单如果将写索引和写block放在一起,总时间就远大于分别写这两部分的时间的和。针对这种情况,一种解决方案就是就不要将小数据量的数据实时的刷盘,使用应用层的cache来缓存小数据量的index,这样就可以消除对写block文件的影响。

从原理上解释上面的表象,一般来说,硬盘读取数据的过程是这样的,首先是将磁头移动到磁盘上数据所在的区域,然后才能进行读取工作。磁头移动的过程又可以 分解为两个步骤,其一是移动磁头到指定的磁道,也就是寻道,这是一个在磁盘盘片径向上移动的步骤,花费的时间被称为“寻道时间”;其二就是旋转盘片到相应 扇区,花费的时间被称为“潜伏时间”(也被称为延迟)。那么也就是说在硬盘上读取数据之前,做准备工作上需要花的时间主要就是“寻道时间”和“潜伏时间” 的总和。真正的数据读取时间,是由读取数据大小和磁盘密度、磁盘转速决定的固定值,在应用层没有办法改变,但应用层缺可以通过改变对磁盘的访问模式来减少“寻道时间”和“潜伏时间”, 我们上面提到的在应用层使用cache然后排序的方式,无疑就是缩短了磁盘的寻址时间。由于磁头是物理设备,也很容易理解,为什么中间插入对其他小文件的读写会导致速度变慢很多。

建议:尽量避免完全的随机写,在 不能使用多线处理的时候,尽量使用应用层cache,确保写盘时尽量有顺序性。对于小数据量的其他文件,可以一直保存在应用层cache里面,避免对其他大数据量的数据写入产生影响。

2. 多线程随机读、处理速度、响应时间

多线程随机读的处理速度可以达到单线程随机读的10倍以上,但同上也带来了响应时间的增大。测试结论如下:(每个线程尽量读)

结论标明增加线程数,可以有效的提升程序整体的io处理速度。但同时,也使得每个io请求的响应时间上升很多。

从底层的实现上解释这个现象:应用层的io请求在内核态会加入到io请求队列里面。内核在处理io请求的时候,并不是简单的先到先处理,而是根据磁盘的特 性,使用某种电梯算法,在处理完一个io请求后,会优先处理最临近的io请求。这样可以有效的减少磁盘的寻道时间,从而提升了系统整体的io处理速度。但对于每一个io请求来看,由于可能需要在队列里面等待,所以响应时间会有所提升。

响应时间上升,应该主要是由于我们测试的时候采用每个线程都尽量读的方式。在实际的应用中,我们的程序都没有达到这种压力。所以,在io成为瓶颈的程序里面,应该尽量使用多线程并行处理不同的请求。对于线程数的选择,还需要通过性能测试来衡量。

3. 是否使用direct io

首先看测试结论:

可见在小数据量下非dio方式更快,但随着数据量增大,dio方式更快,分界线在50G左右。(注,测试基于: 线程数:50,每次读操作读出:4K, 机器:del 180, 内存:机器总内存8G,使用其他程序占用3G,剩余5G左右, 其他情况可能有不同的分界线。)

4. 系统缓存

4.1. 系统缓存相关的几个内核参数:
1. /proc/sys/vm/dirty_background_ratio
该文件表示脏数据到达系统整体内存的百分比,此时触发pdflush进程把脏数据写回磁盘。
缺省设置:10

2. /proc/sys/vm/dirty_expire_centisecs
该文件表示如果脏数据在内存中驻留时间超过该值,pdflush进程在下一次将把这些数据写回磁盘。
缺省设置:3000(1/100秒)

3. /proc/sys/vm/dirty_ratio
该文件表示如果进程产生的脏数据到达系统整体内存的百分比,此时进程自行把脏数据写回磁盘。
缺省设置:40

4. /proc/sys/vm/dirty_writeback_centisecs
该文件表示pdflush进程周期性间隔多久把脏数据写回磁盘。
缺省设置:500(1/100秒)

4.2. 系统一般在下面三种情况下回写dirty页:

1. 定时方式: 定时回写是基于这样的原则:/proc/sys/vm/dirty_writeback_centisecs的值表示多长时间会启动回写线程,由这个定时 器启动的回写线程只回写在内存中为dirty时间超过(/proc/sys/vm/didirty_expire_centisecs / 100)秒的页(这个值默认是3000,也就是30秒),一般情况下dirty_writeback_centisecs的值是500,也就是5秒,所以 默认情况下系统会5秒钟启动一次回写线程,把dirty时间超过30秒的页回写,要注意的是,这种方式启动的回写线程只回写超时的dirty页,不会回写 没超时的dirty页,可以通过修改/proc中的这两个值,细节查看内核函数wb_kupdate。

2. 内存不足的时候: 这时并不将所有的dirty页写到磁盘,而是每次写大概1024个页面,直到空闲页面满足需求为止

3. 写操作时发现脏页超过一定比例: 当脏页占系统内存的比例超过/proc/sys/vm/dirty_background_ratio 的时候,write系统调用会唤醒pdflush回写dirty page,直到脏页比例低于/proc/sys/vm/dirty_background_ratio,但write系统调用不会被阻塞,立即返回.当脏 页占系统内存的比例超/proc/sys/vm/dirty_ratio的时候, write系统调用会被被阻塞,主动回写dirty page,直到脏页比例低于/proc/sys/vm/dirty_ratio

4.3. pb项目中的感触:
1,如果写入量巨大,不能期待系统缓存的自动回刷机制,最好采用应用层调用fsync或者sync。如果写入量大,甚至超过了系统缓存自动刷回的速 度,就有可能导致系统的脏页率超过/proc/sys/vm/dirty_ratio, 这个时候,系统就会阻塞后续的写操作,这个阻塞有可能有5分钟之久,是我们应用无法承受的。因此,一种建议的方式是在应用层,在合适的时机调用 fsync。

2,对于关键性能,最好不要依赖于系统cache的作用,如果对性能的要求比较高,最好在应用层自己实现cache,因为系统cache受外界影响太大,说不定什么时候,系统cache就被冲走了。

3,在logic设计中,发现一种需求使用系统cache实现非常合适,对于logic中的高楼贴,在应用层cache实现非常复杂,而其数量又非常 少,这部分请求,可以依赖于系统cache发挥作用,但需要和应用层cache相配合,应用层cache可以cache住绝大部分的非高楼贴的请求,做到 这一点后,整个程序对系统的io就主要在高楼贴这部分了。这种情况下,系统cache可以做到很好的效果。

5. 磁盘预读

关于预读,从网上摘录如下两段:
预读算法概要
1. 顺序性检测
为了保证预读命中率,Linux只对顺序读(sequential read)进行预读。内核通过验证如下两个条件来判定一个read()是否顺序读:

  • 这是文件被打开后的第一次读,并且读的是文件首部;
  • 当前的读请求与前一(记录的)读请求在文件内的位置是连续的。

如果不满足上述顺序性条件,就判定为随机读。任何一个随机读都将终止当前的顺序序列,从而终止预读行为(而不是缩减预读大小)。注意这里的空间顺序性说的 是文件内的偏移量,而不是指物理磁盘扇区的连续性。在这里Linux作了一种简化,它行之有效的基本前提是文件在磁盘上是基本连续存储的,没有严重的碎片 化。

2. 流水线预读
当程序在处理一批数据时,我们希望内核能在后台把下一批数据事先准备好,以便CPU和硬盘能流水线作业。Linux用两个预读窗口来跟踪当前顺序流的预读 状态:current窗口和ahead窗口。其中的ahead窗口便是为流水线准备的:当应用程序工作在current窗口时,内核可能正在ahead窗 口进行异步预读;一旦程序进入当前的ahead窗口,内核就会立即往前推进两个窗口,并在新的ahead窗口中启动预读I/O。

3. 预读的大小
当确定了要进行顺序预读(sequential readahead)时,就需要决定合适的预读大小。预读粒度太小的话,达不到应有的性能提升效果;预读太多,又有可能载入太多程序不需要的页面,造成资源浪费。为此,Linux采用了一个快速的窗口扩张过程:
首次预读: readahead_size = read_size * 2; // or *4
预读窗口的初始值是读大小的二到四倍。这意味着在您的程序中使用较大的读粒度(比如32KB)可以稍稍提升I/O效率。

后续预读: readahead_size *= 2;
后续的预读窗口将逐次倍增,直到达到系统设定的最大预读大小,其缺省值是128KB。这个缺省值已经沿用至少五年了,在当前更快的硬盘和大容量内存面前,显得太过保守。
# blockdev –setra 2048 /dev/sda
当然预读大小不是越大越好,在很多情况下,也需要同时考虑I/O延迟问题。

6. 其他细节:

6.1. pread 和pwrite
在多线程io操作中,对io的操作尽量使用pread和pwrite,否则,如果使用seek+write/read的方式的话,就需要在操作时加锁。这种加锁会直接造成多线程对同一个文件的操作在应用层就串行了。从而,多线程带来的好处就被消除了。

使用pread方式,多线程也比单线程要快很多,可见pread系统调用并没有因为同一个文件描述符而相互阻塞。pread和pwrite系统调用在底层 实现中是如何做到相同的文件描述符而彼此之间不影响的?多线程比单线程的IOPS增高的主要因素在于调度算法。多线程做pread时相互未严重竞争是次要 因素。

内核在执行pread的系统调用时并没有使用inode的信号量,避免了一个线程读文件时阻塞了其他线程;但是pwrite的系统调用会使用inode的 信号量,多个线程会在inode信号量处产生竞争。pwrite仅将数据写入cache就返回,时间非常短,所以竞争不会很强烈。

6.2. 文件描述符需要多套吗?
在使用pread/pwrite的前提下,如果各个读写线程使用各自的一套文件描述符,是否还能进一步提升io性能?
每个文件描述符对应内核中一个叫file的对象,而每个文件对应一个叫inode的对象。假设某个进程两次打开同一个文件,得到了两个文件描述符,那么在 内核中对应的是两个file对象,但只有一个inode对象。文件的读写操作最终由inode对象完成。所以,如果读写线程打开同一个文件的话,即使采用 各自独占的文件描述符,但最终都会作用到同一个inode对象上。因此不会提升IO性能。


转载于:https://www.cnblogs.com/bugchecker/archive/2011/08/29/3041625.html

相关文章:

UI设计培训之设计中的点线面-面

想要学好UI设计,从事UI设计工作,那么理论基础知识一定要会,今天小编为大家整理的就是关于UI设计中的点线面-面,在平面构成三要素中面是相对占空间最大的元素,在设计中也包含和表现更加强烈的情感色彩,有明显…

projecteuler_problem10

problem10 地址&#xff1a;https://projecteuler.net/problem10。 源码&#xff1a;gitcode.aliyun.com:qianlizhixing12/ProjectEuler.git。问题&#xff1a;找到2000000内质数和。 #include <stdio.h> #include <math.h> #include "debug.h" #include…

LeetCode实战:排序链表

背景 为什么你要加入一个技术团队&#xff1f;如何加入 LSGO 软件技术团队&#xff1f;我是如何组织“算法刻意练习活动”的&#xff1f;为什么要求团队的学生们写技术Blog 题目英文 Sort a linked list in O(n log n) time using constant space complexity. Example 1: I…

技术图文:双指针在链表问题中的应用

背景 最近这段时间团队在进行算法刻意练习活动&#xff0c;我带着同学们刷 leetcode 的“腾讯精选练习&#xff08;50&#xff09;题”&#xff0c;参见&#xff1a;我是如何组织“算法刻意练习活动”的&#xff1f; 在做题的过程中&#xff0c;同学们讨论比较多的是链表中遇…

[BuildRelease]build number / id

build number&#xff0c; 也称为build id&#xff0c; 在build release的流程中唯一标示一个build&#xff0c;也是正式的产品的product version 和file version后两位&#xff08;Major.minor.xxx.xxx&#xff09;的来源&#xff0c;可以使用合适的方法将build number转化到p…

Windows Azure Storage (25) Azure Append Blob

《Windows Azure Platform 系列文章目录》 在笔者之前的文章中&#xff0c;我们介绍了Azure Blob 有两种&#xff1a;Block Blob和Page Blob。 在这里笔者介绍Blob的第三种&#xff1a;Append Blob。 概念&#xff1a; 1.Append Blob概念类似于Block Blob&#xff0c;因为都是由…

学python培训到底能干嘛

Python是在人工智能领域发挥着很重要的作用的&#xff0c;现在依旧有很多人对Python这项技术不是很了解&#xff0c;学Python培训到底能干嘛?下面小编来为大家做下详细的介绍。 python其实并不难学&#xff0c;对于初学者和完成普通任务&#xff0c;Python语言是非常简单易用的…

使用VB.NET加快代码开发速度

以前在学校时&#xff0c;编写代码都是使用C#&#xff0c;习惯了C#的代码习惯&#xff0c;等工作后由于工作需要逐渐的开始采用了VB.NET开发项目&#xff0c;渐渐地喜欢上了VB.NET&#xff0c;现在我就罗列一些VB.NET加速代码开发的方法。 一、智能感知 做.NET开发的许多人都知…

技术图文:举例详解Python中 split() 函数的使用方法

背景 这篇文章主要介绍Python中的split()函数的使用方法&#xff0c;split()函数通常用于将字符串切片并转换为列表&#xff0c;需要的朋友可以参考一下。 技术分析 Python中有split()和os.path.split()两个函数&#xff0c;具体作用如下&#xff1a; split()&#xff1a;拆…

Burning

转载于:https://www.cnblogs.com/kuiyuan/archive/2011/09/02/2163621.html

UI设计工作好找吗?有哪些面试技巧?

最近有很多学习UI设计的学员&#xff0c;想要了解UI设计学成之后是否好找工作?对于后期的面试有哪些技巧?下面小编整理的这些希望可以帮助到大家&#xff0c;来看看下面的详细介绍。 UI设计工作好找吗?有哪些面试技巧? 作品&#xff1a;很多初级小白的问题所在就是缺少大量…

刻意练习:Python基础 -- Task10. 类与对象

背景 我们准备利用17天时间&#xff0c;将 “Python基础的刻意练习” 分为如下任务&#xff1a; Task01&#xff1a;变量、运算符与数据类型&#xff08;1day&#xff09;Task02&#xff1a;条件与循环&#xff08;1day&#xff09;Task03&#xff1a;列表与元组&#xff08;…

CentOS 7更新时出现Multilib version problems

这两天在更新CentOS7系统时&#xff0c;出现了Multilib version problems错误&#xff0c;执行命令&#xff1a; # yum update 出现了的错误信息&#xff1a; .... ---> Package libcap-ng.i686 0:0.7.5-4.el7 will be installed ---> Package libstdc.i686 0:4.8.5-16.e…

HTTP 错误 404.13 - Not Found 请求筛选模块被配置为拒绝超过请求内容长度的请求。...

把以下内容加在web.config的<system.webServer>节点 <security><requestFiltering ><requestLimits maxAllowedContentLength"1024000000" ></requestLimits></requestFiltering></security> 上述中maxAllowedContentLeng…

APP自动化测试过程概述

对于Android App的自动化测试框架的使用&#xff0c;其实在很多书上面都会有说明&#xff0c;我们可以先来看一个常用的自动化测试实例&#xff0c;先不说框架&#xff0c;主要是测试用户操作的模拟、执行结果的判断&#xff0c;以便获得对测试自动化的理解与认识。 案例需求如…

MFC最小化到系统托盘

在VC中&#xff0c;想实现将MFC最小化到系统托盘&#xff0c;需要调用NOTIFYICONDATA类&#xff0c;并注册相应的消息&#xff0c;以下详细讲解如何实现&#xff1a; 第一步&#xff0c;声明一个NOTIFYICONDATA类&#xff0c;也就是NOTIFYICONDATA NotifyIcon;该句可以放在Dlg类…

资料分享:推荐一本《简单粗暴TensorFlow 2.0》开源电子书!

背景 本开源电子书是一篇精简的 TensorFlow 2.0 入门指导&#xff0c;基于 TensorFlow 的 Eager Execution&#xff08;动态图&#xff09;模式&#xff0c;力图让具备一定机器学习及 Python 基础的开发者们快速上手 TensorFlow 2.0。 本开源电子书的所有代码基于 TensorFlow…

JS设计模式-观察者模式

观察者&#xff08;又称发布订阅&#xff09;模式定义了对象间的一种一对多的依赖关系&#xff0c;以便一个对象的状态发生变化时&#xff0c;所有依赖于它的对象都得到通知并自动刷新。原文链接 应用场景 当用户在网页执行一些操作&#xff08;如点击&#xff09;后就需要执行…

如何理解JS的单线程?

JS本质是单线程的。也就是说&#xff0c;它并不能像JAVA语言那样&#xff0c;两个线程并发执行。 但我们平时看到的JS&#xff0c;分明是可以同时运作很多任务的&#xff0c;这又是怎么回事呢? 首先&#xff0c;JS的代码&#xff0c;大致分为两类&#xff0c;同步代码和异步代…

Fedora 14下安装使用rarlinux

安装Fedora 14后&#xff0c;其默认情况下不能解压RAR文档&#xff0c;因为系统自带的解压软件不支持RAR格式文档&#xff0c;但由于经常要用到RAR文档&#xff0c;因此就必须安装一个RAR软件。Linux版的RAR下载链接&#xff1a; http://www.rarlab.com/download.htm 以rarlinu…

技术图文:如何利用 Python 做一个简单的定时器类?

背景 今天在B站上看有关 Python 最火的一个教学视频&#xff0c;零基础入门学习 Python&#xff0c;这也是我们 Python基础刻意练习活动 的推荐视频教程。 在学习魔法方法的时候&#xff0c;有一节视频是制作一个简单的定时器&#xff0c;基本要求如下&#xff1a; 定制一个计…

20、C#里面方法的创建和显示

在C#里面&#xff0c;和Java也是一样的&#xff0c;都是可以创建方法的。这里所说的方法&#xff0c;就是其它编程语言里面的函数、子程序、过程等。创建的方法有两种&#xff1a;一种是没有返回值的方法。一种是有返回值的方法。无论是哪种方法&#xff0c;其实都是很简单的。…

优秀的Java程序员应具备哪些编程技术?

想要成为一名合格的java程序猿&#xff0c;需要学习的知识是有很多的&#xff0c;但是基础知识一定要非常牢固&#xff0c;基础不牢固的程序员&#xff0c;随时都会被新的知识和技术所淘汰&#xff0c;下盘不稳风一吹就倒&#xff0c;那么具体作为一个优秀的Java程序员应具备哪…

asp.net 后台事件掉用前台js

在下面的例子中&#xff0c;我们在一个 .aspx 文件中声明了一个 TextBox 控件和一个 Label 控件。当您更改了 TextBox 中的值&#xff0c;并且在 TextBox 外单击时&#xff0c;change 子例程就会被执行。change 子例程会向 Label 控件写一条文本&#xff1a; <script runat&…

Android -- 利用Broadcast开启Service

Broadcast和Service都是Android四大组建之一的。 这里的广播是动态的&#xff0c;自己注册的一个广播。 这种最典型的用法就是利用开机广播&#xff0c;然后再起自己的服务&#xff0c;也就是在Android手机中做到开启启动。 Service与Broadcast …

资料分享:推荐一本《李宏毅机器学习》开源电子书!

背景 今天在 github 上看到了 datawhale 发布的 李宏毅机器学习笔记。 https://datawhalechina.github.io/leeml-notes 其目录如下&#xff1a; P1 机器学习介绍P2 为什么要学习机器学习P3 回归P4 回归-演示P5 误差从哪来&#xff1f;P6 梯度下降P7 梯度下降&#xff08;用…

Python 中常见的配置文件写法

相信学习Python或者正在进行Python工作的小伙伴都会有一个疑问&#xff0c;为什么要写配置文件呢?在开发过程中&#xff0c;我们常常会用到一些固定参数或者是常量。对于这些较为固定且常用到的部分&#xff0c;往往会将其写到一个固定文件中&#xff0c;避免在不同的模块代码…

技术图文:Python描述符 (descriptor) 详解

背景 今天在B站上学习“零基础入门学习Python”这门课程的第46讲“魔法方法&#xff1a;描述符”&#xff0c;这也是我们组织的 Python基础刻意练习活动 的学习任务&#xff0c;其中有这样的一个题目。 练习要求&#xff1a; 先定义一个温度类&#xff0c;然后定义两个描述符…

[转]自定义hadoop map/reduce输入文件切割InputFormat

本文转载自&#xff1a;http://hi.baidu.com/lzpsky/blog/item/99d58738b08a68e7b311c70d.html   hadoop会对原始输入文件进行文件切割&#xff0c;然后把每个split传入mapper程序中进行处理&#xff0c;FileInputFormat是所有以文件作 为数据源的InputFormat实现的基类&…

使用深度学习检测DGA(域名生成算法)——LSTM的输入数据本质上还是词袋模型...

from:http://www.freebuf.com/articles/network/139697.html DGA&#xff08;域名生成算法&#xff09;是一种利用随机字符来生成C&C域名&#xff0c;从而逃避域名黑名单检测的技术手段。例如&#xff0c;一个由Cryptolocker创建的DGA生成域xeogrhxquuubt.com&#xff0c;如…