当前位置: 首页 > 编程日记 > 正文

使用多线程还是用IO复用select/epoll? epoll 或者 kqueue 的原理是什么?

原作者:蓝形参

原文:http://www.zhihu.com/question/20114168/answer/14024115

使用多线程还是用IO复用select/epoll?

  • 多线程模型适用于处理短连接,且连接的打开关闭非常频繁的情形,但不适合处理长连接。多线程模型默认情况下,(在Linux)每个线程会开8M的栈空间,再TCP长连接的情况下,2000/分钟的请求,几乎可以假定有上万甚至十几万的并发连接,假定有10000个连接,开这么多个线程需要10000*8M=80G的内存空间!即使调整每个线程的栈空间,也很难满足更多的需求。甚至攻击者可以利用这一点发动DDoS,只要一个连接连上服务器什么也不做,就能吃掉服务器几M的内存,这不同于多进程模型,线程间内存无法共享,因为所有线程处在同一个地址空间中。内存是多线程模型的软肋。
  • 在UNIX平台下多进程模型擅长处理并发长连接,但却不适用于连接频繁产生和关闭的情形。Windows平台忽略此项。 同样的连接需要的内存数量并不比多线程模型少,但是得益于操作系统虚拟内存的Copy on  Write机制,fork产生的进程和父进程共享了很大一部分物理内存。但是多进程模型在执行效率上太低,接受一个连接需要几百个时钟周期,产生一个进程 可能消耗几万个CPU时钟周期,两者的开销不成比例。而且由于每个进程的地址空间是独立的,如果需要进行进程间通信的话,只能使用IPC进行进程间通 信,而不能直接对内存进行访问。在CPU能力不足的情况下同样容易遭受DDos,攻击者只需要连上服务器,然后立刻关闭连接,服务端则需要打开一个进程再关闭。
  • 同时需要保持很多的长连接,而且连接的开关很频繁,最高效的模型是非阻塞、异步IO模型。而且不要用select/poll,这两个API的有着O(N)的时间复杂度。在Linux用epoll,BSD用kqueue,Windows用IOCP,或者用libevent封装的统一接口(对于不同平台libevent实现时采用各个平台特有的API),这些平台特有的API时间复杂度为O(1)。      然而在非阻塞,异步I/O模型下的编程是非常痛苦的。由于I/O操作不再阻塞,报文的解析需要小心翼翼,并且需要亲自管理维护每个链接的状态。并且为了充分利用CPU,还应结合线程池,避免在轮询线程中处理业务逻辑。
          但这种模型的效率是极高的。以知名的http服务器nginx为例,可以轻松应付上千万的空连接+少量活动链接,每个连接连接仅需要几K的内核缓冲区,想要应付更多的空连接,只需简单的增加内存(数据来源为淘宝一位工程师的一次技术讲座,并未实测)。这使得DDoS攻击者的成本大大增加,这种模型攻击者只能将服务器的带宽全部占用,才能达到目的,而两方的投入是不成比例的。

epoll 或者 kqueue 的原理是什么?

首先我们来定义流的概念,一个流可以是文件,socket,pipe等等可以进行I/O操作的内核对象。
不管是文件,还是套接字,还是管道,我们都可以把他们看作流。
之后我们来讨论I/O的操作,通过read,我们可以从流中读入数据;通过write,我们可以往流写入数据。现在假定一个情形,我们需要从流中读数据,但是流中还没有数据,(典型的例子为,客户端要从socket读如数据,但是服务器还没有把数据传回来),这时候该怎么办?

  • 阻塞。阻塞是个什么概念呢?比如某个时候你在等快递,但是你不知道快递什么时候过来,而且你没有别的事可以干(或者说接下来的事要等快递来了才能做);那么你可以去睡觉了,因为你知道快递把货送来时一定会给你打个电话(假定一定能叫醒你)。
  • 非阻塞轮询。接着上面等快递的例子,如果用忙轮询的方法,那么你需要知道快递员的手机号,然后每分钟给他挂个电话:“你到了没?”

很明显一般人不会用第二种做法,不仅显很无脑,浪费话费不说,还占用了快递员大量的时间。
大部分程序也不会用第二种做法,因为第一种方法经济而简单,经济是指消耗很少的CPU时间,如果线程睡眠了,就掉出了系统的调度队列,暂时不会去瓜分CPU宝贵的时间片了。

为了了解阻塞是如何进行的,我们来讨论缓冲区,以及内核缓冲区,最终把I/O事件解释清楚。缓冲区的引入是为了减少频繁I/O操作而引起频繁的系统调用(你知道它很慢的),当你操作一个流时,更多的是以缓冲区为单位进行操作,这是相对于用户空间而言。对于内核来说,也需要缓冲区。
假设有一个管道,进程A为管道的写入方,B为管道的读出方。

  1. 假设一开始内核缓冲区是空的,B作为读出方,被阻塞着。然后首先A往管道写入,这时候内核缓冲区由空的状态变到非空状态,内核就会产生一个事件告诉B该醒来了,这个事件姑且称之为“缓冲区非空”。
  2. 但是“缓冲区非空”事件通知B后,B却还没有读出数据;且内核许诺了不能把写入管道中的数据丢掉这个时候,A写入的数据会滞留在内核缓冲区中,如果内核也缓冲区满了,B仍未开始读数据,最终内核缓冲区会被填满,这个时候会产生一个I/O事件,告诉进程A,你该等等(阻塞)了,我们把这个事件定义为“缓冲区满”。
  3. 假设后来B终于开始读数据了,于是内核的缓冲区空了出来,这时候内核会告诉A,内核缓冲区有空位了,你可以从长眠中醒来了,继续写数据了,我们把这个事件叫做“缓冲区非满”
  4. 也许事件Y1已经通知了A,但是A也没有数据写入了,而B继续读出数据,知道内核缓冲区空了。这个时候内核就告诉B,你需要阻塞了!,我们把这个时间定为“缓冲区空”。

这四个情形涵盖了四个I/O事件,缓冲区满,缓冲区空,缓冲区非空,缓冲区非满(注都是说的内核缓冲区,且这四个术语都是我生造的,仅为解释其原理而造)。这四个I/O事件是进行阻塞同步的根本。(如果不能理解“同步”是什么概念,请学习操作系统的锁,信号量,条件变量等任务同步方面的相关知识)。

然后我们来说说阻塞I/O的缺点。但是阻塞I/O模式下,一个线程只能处理一个流的I/O事件。如果想要同时处理多个流,要么多进程(fork),要么多线程(pthread_create),很不幸这两种方法效率都不高。
于是再来考虑非阻塞忙轮询的I/O方式,我们发现我们可以同时处理多个流了(把一个流从阻塞模式切换到非阻塞模式再此不予讨论):
while true {
  for i in stream[]; {
            if i has data
                  read until unavailable
}
}
我们只要不停的把所有流从头到尾问一遍,又从头开始。这样就可以处理多个流了,但这样的做法显然不好,因为如果所有的流都没有数据,那么只会白白浪费CPU。这里要补充一点,阻塞模式下,内核对于I/O事件的处理是阻塞或者唤醒,而非阻塞模式下则把I/O事件交给其他对象(后文介绍的select以及epoll)处理甚至直接忽略。

为了避免CPU空转,可以引进了一个代理(一开始有一位叫做select的代理,后来又有一位叫做poll的代理,不过两者的本质是一样的)。这个代理比较厉害,可以同时观察许多流的I/O事件,在空闲的时候,会把当前线程阻塞掉,当有一个或多个流有I/O事件时,就从阻塞态中醒来,于是我们的程序就会轮询一遍所有的流(于是我们可以把“忙”字去掉了)。代码长这样:
while true {
  select(streams[])
  for i in streams[] {
            if i has data
                  read until unavailable
}
}
于是,如果没有I/O事件产生,我们的程序就会阻塞在select处。但是依然有个问题,我们从select那里仅仅知道了,有I/O事件发生了,但却并不知道是那几个流(可能有一个,多个,甚至全部),我们只能无差别轮询所有流,找出能读出数据,或者写入数据的流,对他们进行操作。
但是使用select,我们有O(n)的无差别轮询复杂度,同时处理的流越多,每一次无差别轮询时间就越长。再次
说了这么多,终于能好好解释epoll了
epoll可以理解为event poll,不同于忙轮询和无差别轮询,epoll之会把哪个流发生了怎样的I/O事件通知我们。此时我们对这些流的操作都是有意义的。(复杂度降低到了O(1))
在讨论epoll的实现细节之前,先把epoll的相关操作列出:

  • epoll_create 创建一个epoll对象,一般epollfd = epoll_create()
  • epoll_ctl (epoll_add/epoll_del的合体),往epoll对象中增加/删除某一个流的某一个事件
    比如
    epoll_ctl(epollfd, EPOLL_CTL_ADD, socket, EPOLLIN);//注册缓冲区非空事件,即有数据流入
    epoll_ctl(epollfd, EPOLL_CTL_DEL, socket, EPOLLOUT);//注册缓冲区非满事件,即流可以被写入
  • epoll_wait(epollfd,...)等待直到注册的事件发生

(注:当对一个非阻塞流的读写发生缓冲区满或缓冲区空,write/read会返回-1,并设置errno=EAGAIN。而epoll只关心缓冲区非满和缓冲区非空事件)。
一个epoll模式的代码大概的样子是:
while true {
    active_stream[] = epoll_wait(epollfd)
    for i in active_stream[] {
        read or write till unavailable
}
}
限于篇幅,我只说这么多,以揭示原理性的东西,至于epoll的使用细节,请参考man和google,实现细节,请参阅linux kernel source。

相关文章:

使用大batch优化深度学习:训练BERT仅需76分钟 | ICLR 2020

作者 | Yang You, Jing Li等译者 | 刘畅在海量数据集上训练大型深度神经网络,是非常具有挑战性的。最近,有许多研究均使用大batch随机优化方法来解决此问题。在该研究领域中,目前最杰出的算法是LARS,它通过采用分层自适应学习率&a…

华为AR28-11路由器配置

公司使用华为AR28-11路由器,宽带接入。现使用2M光纤接入,地址:124.117.254.* 255.255.255.252.公司电脑使用192.168.1.0 255.255.255.0 网段地址参考配置#version 5.20, Release 1205P02, Basic#sysname H3C#domain default enable system#vl…

PHPExcel使用-使用PHPExcel导出文件-导出MySQL数据

现在数据库里面有一组数据&#xff0c;我们将它按照不同的难度进行分sheet. 首先我们需要写一个mysql的配置文件- db.config.php(utf-8编码) : <?php $dbconfig array( host > 127.0.0.1, username > root, password > , database > xxx, charset &…

C语言清空输入缓冲区的N种方法对比

C语言中有几个基本输入函数&#xff1a; //获取字符系列 int fgetc(FILE *stream); int getc(FILE *stream); int getchar(void); //获取行系列 char *fgets(char * restrict s, int n, FILE * restrict stream); char *gets(char *s);//可能导致溢出&#xff0c;用fgets代替之…

低耗时、高精度,微软提基于半监督学习的神经网络结构搜索算法

作者 | 罗人千、谭旭、王蕊、秦涛、陈恩红、刘铁岩 来源 | 微软研究院AI头条&#xff08;ID:MSRAsia&#xff09;编者按&#xff1a;近年来&#xff0c;神经网络结构搜索&#xff08;Neural Architecture Search, NAS&#xff09;取得了较大的突破&#xff0c;但仍然面临搜索耗…

《虚拟化与云计算》读书感(三)数据中心的概述

看了《虚拟化与云计算》的第一章第一节‘数据中心的概述’。在我读这一节开始&#xff0c;我看到这个题目的时候总是联想到类似谷歌数据中心一类的东西&#xff0c;多个硬盘或者服务器的堆叠。然后整来几个集装箱把这些堆叠的服务器塞进去&#xff0c;然后供用户使用。然而自从…

golang笔记——struct

1、定义一个结构体 type User struct {userid intusername stringpassword string } 2、初始化一个结构体 有两种情况&#xff0c;一是得到结构体的对象&#xff0c;一是得到结构的对象指针&#xff0c;分别有三种方式&#xff1a; //第1种方式&#xff0c;先声明对象&#x…

posix_memalign

翻译的<Linux system programming> 第八章 二 ;《Linux System Programming》中文版 对齐 数据的对齐(alignment)是指数据的地址和由硬件条件决定的内存块大小之间的关系。一个变量的地址是它大小的倍数的时候&#xff0c;这就叫做自然对齐(naturally aligned)。例如&…

ubuntu 10.04 安装eclipse及其中文语言包

1.安装eclipsesudo apt-get install eclipse2.暗自中文语言包点 击下载中文语言包&#xff08;http://www.eclipse.org/downloads/download.php?file /technology/babel/babel_language_packs/BabelLanguagePack-eclipse- zh_3.5.0.v20091121043401.zip&urlhttp://d2u376u…

世界顶级赛事百万座位如何做到票务限时匹配?

作者 | 阿里文娱技术专家 展恒出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;背景麦座&#xff0c;是大麦旗下的票务系统。去年&#xff0c;我们承接了 2019 年国际篮联篮球世界杯&#xff08;2019FBWC&#xff09;&#xff0c; 核心目标是完成三种套票的运营及售卖…

[转](不理想)Ubuntu下更改主显示器

参考链接&#xff1a;http://www.cnblogs.com/feng_013/archive/2012/03/05/2380111.html 查看显示器信息&#xff1a; fdmfdm-OptiPlex-780:~$ xrandr 设置主显示器 fdmfdm-OptiPlex-780:~$ xrandr --output HDMI1 --auto --primary 设置副显示器在主显示器右边 fdmfdm-OptiPl…

Nginx源码分析--数据对齐posix_memalign和memalign函数

posix_memalign函数() /* * 背景&#xff1a; * 1&#xff09;POSIX 1003.1d * 2&#xff09;POSIX 标明了通过malloc( ), calloc( ), 和 realloc( ) 返回的地址对于 * 任何的C类型来说都是对齐的 * 功能&#xff1a;由posix_memalign分配的内存空间&…

不要一辈子靠技术生存

今天看了一篇文章,感受挺深的,人的一生不能一辈子靠技术生存,尽管你的技术能力很强.(文章转载出处忘记,有哪位朋友知道的提醒一下)一、 在中国你千万不要因为学习技术就可以换来稳定的生活和高的薪水待遇&#xff0c;你千万更不要认为哪些从事 市场开发&#xff0c;跑腿的人&am…

中国顶尖的技术社区们在一个群里,会聊什么…

* 文中表情包图片来自网络

矩阵中路径数目问题

在如下8*6的矩阵中&#xff0c;请计算从A移动到B一共有____种走法。要求每次只能向上或向右移动一格&#xff0c;并且不能经过P。 8*6的矩阵&#xff0c;从左下角A到右上角B&#xff0c;一共需要走12步&#xff0c;其中5步向上&#xff0c;7步向右&#xff0c;因此总的走法一共…

RANet : 分辨率自适应网络效果和性能的best trade-off | CVPR 2020

作者 | VincentLee来源 | 晓飞的算法工程笔记简介深度CNN带来了性能提升的同时也带来了过高的计算量&#xff0c;许多研究放在了如何进行网络加速上面&#xff0c;其中比较直接的是根据样本难易程度进行自动调整的自适应网络。基于对自适应网络的研究&#xff0c;论文提出了自适…

strcpy,memcpy和memmove区别

strcpy和memcpy都是标准C库函数&#xff0c;它们有下面的特点。 strcpy提供了字符串的复制。即strcpy只用于字符串复制&#xff0c;并且它不仅复制字符串内容之外&#xff0c;还会复制字符串的结束符。 已知strcpy函数的原型是&#xff1a;char* strcpy(char* dest, const cha…

WinForm 读写配置文件

读配置文件 方法(1) //ConfigurationManager.RefreshSection("appSettings");stringsettingValue ConfigurationManager.AppSettings.Get("setting1");读配置文件 方法(2) Configuration config ConfigurationManager.OpenExeConfiguration(ConfigurationU…

PHP 读取数据库内容并以二维数组按指定列输出实例

最新PHP 读取数据库内容并以二维数组按指定列输出实例以下是三零网为大家整理的最新PHP 读取数据库内容并以二维数组按指定列输出实例的文章&#xff0c;希望大家能够喜欢!<?php$host "localhost"; //主机名$user "root"; //mysql用户名$passwor…

指针的本质2-void和void*及其应用在nginx中的应用

指针本质论指针有两个属性:指向变量/对象的地址和长度。 但是指针只存储地址,长度则取决于指针的类型&#xff0c;编译器根据指针的类型从指针指向的地址向后寻址&#xff0c; 指针类型不同则寻址范围也不同&#xff0c;比如: int*从指定地址向后寻找4字节作为变量的存储单元&…

首次揭秘!大麦如何应对超大规模高性能选座抢票?

作者| 阿里文娱技术专家恒磊、高级开发工程师新钱出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;背景介绍随着现场娱乐行业的不断发展&#xff0c;各类演出层出不穷&#xff0c;越来越多的演出开启选座购票满足用 户的自主选座需求。大麦的选座不仅面向中小场馆类的…

华为交换机密码恢复

华为交换机密码恢复说明&#xff1a;以下方法将删除原有config文件&#xff0c;使设备恢复到出厂配置。在设备重启时按CtrlB进入BOOT MENU之后&#xff0c;Press Ctrl-B to enter Boot Menu... 5Password : 缺省为空&#xff0c;回车即可1. Download application file to flash…

nginx源码分析--内存对齐处理

1.nginx内存对齐主要是做2件事情&#xff1a; 1) 内存池的内存地址对齐&#xff1b; 2) 长度按照2的幂取整.因为前面结构体已经是对齐了&#xff0c;如果后面的内存池每一小块不是2的幂&#xff0c;那么后面的就不能对齐 2.通用内存对齐理论 内存对齐&#xff1a;数据项只能…

七喜携手AMD,摆脱英特尔“潜规则”

七喜携手AMD&#xff0c;摆脱英特尔“潜规则”<?xml:namespace prefix o ns "urn:schemas-microsoft-com:office:office" />最近&#xff0c;在PC市场随着七喜董事副总裁毛骏飙揭发英特尔制定的潜规则&#xff0c;“游戏规则都是英特尔制定的&#xff0c;全…

半小时训练亿级规模知识图谱,亚马逊AI开源知识图谱嵌入表示框架DGL-KE

出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09; 知识图谱 &#xff08;Knowledge Graph&#xff09;作为一个重要的技术&#xff0c;在近几年里被广泛运用在了信息检索&#xff0c;自然语言处理&#xff0c;以及推荐系统等各种领域。学习知识图谱的嵌入表示 &#x…

数组的各类排序

1 package sort;2 3 /**4 * 数组的各种排序操作5 * Created by liuwei on 16/3/6.6 */7 public class MSort {8 9 /**10 * 直接插入排序11 * 外层一个循环,从第2个元素开始(下标为1),遍历后面的所有元素12 * 内层一个循环,从当前位置position i 开始,每次…

Virtualbox安装使用注意

1.VirtualBox升级到4.3以后不能打开 提示创建 COM 对象失败 应用程序将被中断 解决方案&#xff1a;右键VirtualBox的桌面快捷方式&#xff0c;选择属性&#xff0c;选到兼容性选项卡&#xff0c;勾选“以兼容模式运行这个程序”&#xff0c;下拉框选择Windows Server 2008 …

机器学习项目模板:ML项目的6个基本步骤

来源 | DeepHub IMBA每个机器学习项目都有自己独特的形式。对于每个项目&#xff0c;都可以遵循一组预定义的步骤。尽管没有严格的流程&#xff0c;但是可以提出一个通用模板。准备问题不仅是机器学习&#xff0c;任何项目的第一步都是简单地定义当前的问题。您首先需要了解背景…

ib_logfile 在数据库中有何作用?

ib_logfile 在数据库中有何作用&#xff1f; ib_logfile0/ib_logfile1 文件在数据库中起什么作用&#xff1f; 如果被删除&#xff0c;对数据库有何影响&#xff1f; ----->>>>>>>>>>> 回复 #1 mugua_xinli 的帖子 用于存放InnoDB引擎的事…

Podfile 常见语法

source URL &#xff1a; 指定镜像仓库的源 platform : ios, 6.0 &#xff1a; 指定所支持系统和最低版本 inhibit_all_warnings! &#xff1a;屏蔽所有warning workspace 项目空间名&#xff1a; 指定项目空间名 xcodeproj 工程文件名&#xff1a;指定xcodeproj工程文件名 …