德国SNS交友/视频网站Poppen.de的技术架构分享
Poppen.de是一个德国的 交友/ 聊天/ 视频 的SNS网站, 部分内容NSFW,网站采用了很多我们熟悉的技术,像Nginx ,MySQL,CouchDB,Erlang,Memcached的,RabbitMQ(消息服务器),采用了Graphite作为网站的系统监控,Red5作为视频服务,Tsung作为压力测试工具,选择的技术种类较多,还采用PHP和Erlang 2种程序语言作为不同功能的开发。
关于 Poppen.de 的资料统计数据
* 2 000 000 用户数
* 20.000并发用户数
* 300.000条私人讯息/每天
* 250.000登录/每天
功能概要
* 用户在线搜索其他用户;
* 站内对方写私人消息;
* 用户上传图片和视频;
* 用户与用户之间的在线视频聊天。
Poppen.de整个网站的技术团队有 11个人开发人员,2个界面设计师和两个系统管理员。
H.E的口水1:
Poppen.de 是德国的交友网站,与Facebook这样巨头网站相比算是一个小型网站了,但是通过Poppen.de网站这次对外的技术信息分享,可以看出网站有个不错的技术架构,让我们可以从中得到很多值得学习与借鉴的内容。
H.E的口水2:
NSFW这个英文缩写常常出现在Blog中,表示某个站点含有露点或者极度暴力的内容,如果你在上班的时候打开这个网站你的同事经过你身边的时候估计会让你很尴尬,呵呵。所以在我朝廷的大局域网内是无法打开这个站点,如果一定要满足自己的好奇心,你可以动动脑筋看看有什么办法。
下面是最新的截图,如图所示:
系统架构描述:
* Web 层服务器
采用Nginx作为Web App 服务器,2台机器在前端作为www的请求,在高峰的时候每分钟能够处理150.000个用户的请求,并且结合Memcached一起使用,用来缓存一些用户的资料信息。
另外3台Ngixn 服务器作为图片服务器的请求 例如:img.bilder.poppen.de (image servers),每分钟处理用户80.000请求,用户通过这3台服务器进行图片的读、写操作,只使用每台服务器的本地缓存,并不通过Memcached服务器,并且将用户上传的图片信息存放在中央式的文件系统中,估计这样目的是为了减轻主要储存设备的负荷。网站已经这样使用了4年,一共5台Ngixn服务器,每台配置普通32位CPU、3GB RAM 内存。
* 语言环境
使用 PHP的5.3 版本 为程序语言运行环境,整个网站使用28台机器作为PHP Ap 服务器,每台机器配置6G内存。每个机器运行运行100个worker processes, 将运行环境的可选PHP缓存(Alternative PHP Cache, APC)打开, 据说网站透露这样可以提高性能,能够减少 30%的CPU和内存使用率,使用了Symfony1.2版本作为PHP的Web开发框架,可以提高网站开发效率,可快速创建复杂的WEB程序。
* 缓存(Memcached)
网站使用memcached的节点据说有50个总大小超过45 GB,Memcached用来用户会话、个人信息、功能执行中需要的缓存、数据中需要执行like的查询结果的存储,网站对于将来可能会渐渐的采用 MongoDB Hash 的解决方法来进行代替现在大量的使用Memcached的现象,Javabloger个人也认为以为大量的使用Memcached缓存服务器不是明智之举,因为Memcached的原则就不是给你放什么重要信息和可以长期存放的地方,你见过有人拿超市的存包格当私人的保险柜吗?但一味的使用数据库存储也不是可取的方法,大量数据库连接/关闭 执行SQL的开销带来的负载是很多机器设备不能接受的,所以使用像 MongoDB 之类的东西 还是比较折中的选择,我们相信将来会有更多的网站会向MongoDB靠拢的。
* 消息服务器
整个网站采用的算是一种分布式的异步架构体系,中间采用RabbitMQ作为异步通讯服务器,通过上层28台PHP Ap Server做成的LVS集群对下层2台集群的 RabbitMQ 消息系统进行调用,这里消息系统主要用来发送运行日志,电子邮件通知,系统消息,用户图片上传,每天大约需要处理 500.000条消息,这样的架构体系可以对系统的运行性能有所改善,在Javabloger看一般有3个原因:
第一是加强了系统的可扩展性,
第二是提高系统资源的使用率,
第三是降低系统运行中瞬间的瓶颈。
比如在系统繁忙的时间里,每分钟有1000个用户进行登录,这意味着我们将有1000个并发的用户请求需要对缓存/数据库表的更新,但是现在有了消息队列的架构,我们可以运行他们每个顺序相反。如果我们需要更多的处理速度,我们可以添加更多的消费者到消息队列,还可以加入更多的机器到MQ消息群集中,不需要修改以前任何的配置或部署任何新的代码。网站表示系统将来会向异步式架构发展,将更多的业务放入RabbitMQ 系统队列中进行处理。
H.E的口水1:
在2010年4月份中旬,VMware旗下的SpringSource 将RabbitMQ给收购了,不过这次收购应该是一件好事,因为SpringSource计划对RabbitMQ开发者社区提供全方位的支持,另外,SpringSource还针对此次收购发布了一个FAQ。详见:http://www.springsource.com/rabbit-technologies-acquisition-faq
H.E.的口水2:
来自2位国内/外网友的经验分享 (Ref1) (Ref2) (Ref3)
1.RabbitMQ支持AMQP协议,而ZeroMQ的极为简单。
2.RabbitMQ较慢,几十个并发以内,延时为几十毫秒,但当客户端达到1000个并发的时候,速度就无法容忍了(参考);ZeroMQ上则据称可以达到13毫米延时和高达每秒4.1兆次传递(参考, 国内需要翻墙才能访问)。
3.如果队列较多的话,RabbitMQ很容易把内存耗尽,而ZeroMQ则把队列内容保存在发送端。
4.JMS仅仅是Java领域内的API规范,只能说AMQP比JMS更先进,它有自己的wire-level protocol 可编程的协议,并且RabbitMQ服务器充分利用了Erlang的分布式、高可靠性、并发等特性,而并不能一概而论的说JMS没有RabbitMQ服务器好与坏。
* 分布式文档数据库(CouchDB)
系统中运行CouchDB的服务器只有一台,主要是用来存日志的,因为在过去我们需要查看某台机器的日志需要登录某台机器进行tail -f 的查看,如果机器一多肯定混乱,采用CouchDB 中一些查询方法 query/group 就会让工作简化很多,而且采用分布式文档数据库存放系统日志似乎真的很合理,而且管理,使用也不算很复杂。Javabloger前端时间一个人看管了15台机器,需要查看日志的时候还真的有点不方便,所以日后会在项目中尝试一下将日志系统进行集中化处理的方案。
* 数据库服务器
采用MySQL数据库作为网站主要的数据信息存储,有4台MySQL服务器使用基于集群方式NDB表引擎用来存放用户资料和用户相关数据,这组集群每台机器配置32GB内存 、4个CPU,但是他们打算在将来采用 Sharing的方式根据用户的id来进行水平划分,这样当然有好处,可是这样做了以后需要面对事物和跨库查询的问题,网站还有另外3台MySQL服务器使用的是 master-slave-slave 架构存放用户在论坛里面的信息,目前数据库表引擎采用的是MyISAM,这样读写会很快,但是会遇到全表锁的问题,所以将来打算使用 XtraDB 引擎进行存储,网站对于查询SQL和建立数据库表结构也进行了多次考虑,为了避免like和join带来的开销,因此创建数据库汇总表,以纾缓用户查询带来压力。
* 系统监控(Graphite)
Graphite是这个网站一个重要的部分,用来进行收集服务器所有的及时状态,用户请求信息,Memcached命中率,RabbitMQ消息服务器的状态,Unix操作系统的负载状态,Graphite服务器大约每分钟需要有4800次更新操作,Graphite采用简单的文本协议和绘图功能可以方便地使用在任何操作系统上。Graphite 是一个Python写的web应用,采用django框架,如果你想尝试一下的话,具体的安装步骤参见:http://graphite.wikidot.com/installation
安装好以后的效果如图所示:
对于具体的PHP程序性能运行的监控是采用Facebook开源出来的一个php性能测试工具,XHProf是一个分层PHP性能分析工具。它报告函数级别的请求次数和各种指标,包括阻塞时间,CPU时间和内存使用情况。一个函数的开销,可细分成调用者和被调用者的开销。原始数据收集部分是用纯C实现的,是一个名叫xhprof的 Zend扩展 。XHProf有一个简单的HTML的用户界面( PHP写成的)。基于浏览器的性能分析用户界面能更容易查看,或是与同行们分享成果。也能绘制调用关系图。如果他们通过 Graphite发现那台Unix负荷高了,将会进一步的使用 XHProf 分析器进行测试。并且有一个单独的服务器发送 XHProf测试的概况,并从那里进行分析,找到性能问题的所在。
* 视频服务器 (Red5)
网站还为用户提供视频服务,一种是用户上传的一段视频,还可以彼此进行分享与评价,此外,网站还有一个在线的视频聊天,在2009年中期每月视频说产生的网络流量达到17TB。网站将会寻找更换Red5 视频服务的方案,可能会选择Oneteam媒体服务器。
* 压力测试 (Tsung)
Tsung是采用Erlang编写一个分布式测试工具。在Tsung控制机器上写tsung.xml,在这个文件中指定所有的client机器地址、每台机器的权重、模拟的用户数量 配置完成就可以进行测试了,网站用它做HTTP的 benchmarks 测试,测试 MySQL存储引擎的处理能力,例如是否需要使用新的MySQL引擎 XtraDB,并且还需要知道XtraDB的处理能力是多大,都是通过Tsung得出的结果,因为Tsung可以输出不同的格式的报告和图表信息,如图所示:
查看大图请点击这里,如果你有兴趣的话,可以查看Tsung详细的用户手册:http://tsung.erlang-projects.org/user_manual.html
通过Poppen.de这次的对外技术分享,整个网站在我脑海中的架构如图所示,这只是我的猜想,与实际的架构有出入,请多多见谅:
查看大图请点击这里
总结:
1.越来越多的网站由于业务的壮大,在寻求通过消息传递的,异步式架构的方案,在poppen.de中使用的RabbitMQ是Erlang编写的消息服务器,支持Java、C/C++、.Net 、PHP 等语言。
2.MySQL 的第三方引擎 XtraDB 受到越来越多人的认知,MyISAM依然有用武之地,只是老大难锁表问题一直没有很好的解决办法。
3.Graphite是一款不错的系统监控软件,对与一个网站来说监控其运行状态,观测硬盘、CPU的使用率,Memcached的命中率,客户的访问动向、来源,是一件比较重要的事情, 采用Python语言写的,个人感觉Python如果能得到更好的商业支持,将来的前景会比Java好。
4.CouchDB是Apache组织又一款经典产品,作为非关键性的数据进行存储是一个绝佳的方案,例如:系统中的日志。
5.Memcached 和 数据库之间会逐渐的多出一个产物,比如 MongoDB ,不会像现在这样缓存和数据库2者之间有这么大的跨度。
6.凡是接触过 Erlang 的人,都会对其产生喜好,可见Erlang的势头。
7.MySQL 的 官方集群方案仍然不会被人看好,但是 MySQL 的 MMM 和 MSS 依然是经典。
8.Ngixn的性能强大和配置简单让他成为web服务器的新宠儿, 对一些图片的访问/读写还可以使用Ngixn的本地缓存 。
–end–
相关文章:

对数函数定义域和值域_呆哥数学每日一题 —— 复合函数值域
如果想要获取往期每日一题电子版,可以加我微信:daigemath366,备注:知乎 每日一题呆哥解析:这是一个函数和复合函数的综合问题首先我们先把原函数的值域求出来先直接求导:导数不容易判断单调性,我…

一些常用工具地址,随时更新中~
2019独角兽企业重金招聘Python工程师标准>>> 一些常用工具地址的备份: 一款比较全的先到化界面编辑器Neditor:https://gitee.com/notadd/neditor 前端ui组件库,类似element ui。iView:https://www.iviewui.com &#…

UNIX环境编程
linux函数分析查询工具1.优先推荐linux 中man命令2.一个不错的中文Linux手册:http://cpp.ezbty.org/manpage3.在线查英文Man手册:http://www.kernel.org/doc/man-pages/http://man7.org/linux/man-pages/dir_all_alphabetic.htmlhttp://linux.about.com/…

WCF优化的几个常规思路
前几天用WCF做项目时发现了一个效率问题,由于系统对效率要求较高,困扰了很长时间终于将问题解决了,写下来为以后的兄弟们参考,第一次写博客有不准确的地方还望同行们多喷多指点,先行谢过啦... 问题场景是这样的&#x…

使复选框选中_勾选复选框单元格变色,自动计数,在Excel中是如何实现的?
Excel中,我们经常会使用复选框来打勾打叉,这是复选框最基本的功能,相信很多小伙伴都会,但今天我跟大家分享的是复选框的其他操作技巧,勾选复选框变色,统计人数。下图中,我们要利用复选框是否打钩…
[短文速读] 重载有暗坑,JVM是如何执行方法的
前言 这将是一个系列文章。原因是自己写了很多文章,也看了很多文章。从最开始的仅仅充当学习笔记,到现在认认真真去写文章去分享。中间发现了很多事情,其中最大发现是:收藏不看!总是想着先收藏以后有时间再看ÿ…

一笔画问题【数据结构-图论】
回家路上听到2个人在说:田字怎么一笔写成,并且笔划不重复。 田 我回家想了许久,觉得无论如何走正常的途径肯定是不行的,投机取巧脑筋急转弯的我不讨论。 那么是否可以找到数学定理? 其实就是欧拉七桥问题:1…

解析并符号 读取dll_Spring IOC容器之XmlBeanFactory启动流程分析和源码解析
一. 前言Spring容器主要分为两类BeanFactory和ApplicationContext,后者是基于前者的功能扩展,也就是一个基础容器和一个高级容器的区别。本篇就以BeanFactory基础容器接口的默认实现类XmlBeanFactory启动流程分析来入门Spring源码的学习。二. 概念要点1. 概念定义Be…

安装多个gcc
删除gcc #yum remove gcc 安装最新的 #yum install gcc 查找gcc源 可先通过“yum list compat-gcc*”查看版本,然后再利用“yum install compat-gccXXX”安装 #yum list compat-gcc* #sudo yum install compat-gcc-34.i686 查看gcc版本 #gcc -v #gcc34 -v参考&…

JAVA - HashMap和HashTable
1. HashMap 1) hashmap的数据结构 Hashmap本质就是一个数组,只是当key值重复时,使用链表的方式来存储重复的key值(拉链法),注意:链表中存放的仍然是key值。如下图示: 当我们往hashmap中put元素…

empress和queen区别_queen与empress
(1)「queen」和「empress」不仅可以用来指称「king」和「emperor」的妻子,也能指代握有正式权力的女性君主。(2) 英国的君主(queen或king)之所以曾经有过empress或emperor的头衔,是因为英国曾统治过印度次大陆, 他们曾是印度的empress或emperor。如今&am…

在UIWindow上加类似于“回到顶部”的按钮
在公司上个版本的开发中遇到了一个UI布局的小问题: 某个页面需要增加一个分享按钮,但是该页面是二级页面,导航栏右边也已经放置了2个button。 起初和老大谈论这个问题的时候想到的方法是导航栏右边加三个button得了~但是一回想,这…

修改mysql 默认字符集 , 默认引擎
cd /var/lib/mysql/gamell vim db.optdefault-character-setutf8default-collationutf8_general_ciwq service mysqld restart或者service mysqld reload默认字符集修改完毕vim /etc/my.cnf[mysqld]datadir/var/lib/mysqlsocket/var/lib/mysql/mysql.sockusermysqldefault-stor…

bzoj2724: [Violet 6]蒲公英(分块)
传送门 md调了一个晚上最后发现竟然是空间开小了……明明算出来够的…… 讲真其实我以前不太瞧得起分块,觉得这种基于暴力的数据结构一点美感都没有。然而今天做了这道分块的题才发现分块的暴力之美(如果我空间没有开小就更美了) 我们先将整个…

Linux0.01内核根目录Makefile注释
# # Makefile for linux. # If you dont have -mstring-insns in your gcc (and nobody but me has :-) # remove them from the CFLAGS defines. ## #8086汇编编译器和连接器. -0生成8086目标程序;-a生成与gas和gld部分兼容的代码 # AS86 as -0 -a CC86 cc -0 LD86 ld -0# #G…

快速滚动_方老师教滚动快速作文
五年级第一单元作文集阴沉天空中有一小束照着你的阳光。亲爱的孩子,让时间在知识的枝条上、智慧的绿叶上、成熟的果实上留下它勤奋的印痕!罗婉汀作文集自律且努力,别让生活太安逸。亲爱的孩子,耕耘者最信得过自己的汗水࿰…

liunx复制备份命令,copy命令,liunx命令
2019独角兽企业重金招聘Python工程师标准>>> 拷贝到的文件夹 /usr/local/文件夹/需要拷贝的路径文件夹 /usr/local/tomcat/webapps/文件夹/复制命令cp -r /usr/local/文件夹/ /usr/local/tomcat/webapps/文件夹/ 转载于:https://my.oschina.net/u/2336787/blog/635…

20.Valid Parentheses (python)
这道题主要用栈来实现的。什么是栈呢,参照书上的后缀表达式的例子谈谈自己的理解,栈最明显的特征是先进后出。所以可以有效的结合题目中 ()对匹配问题,可以把从列表中获取的符号先存到栈中。 首先建个空列表用于映射栈…

The HipHop Virtual Machine
目前Facebook已将该HipHop虚拟机开源,源代码发布在GitHub上。关于该工具的技术原理在Facebook的开发者页面上有一篇详细的文章介绍,查看这里。如果看不到的可以看下面的转载:Were always looking for ways to make our computing infrastruct…

node建立博客系统遇到的问题,1,乱码。2,multer的使用错误。3使用session问题...
2019独角兽企业重金招聘Python工程师标准>>> 1,乱码 文件存储为utf-8格式后还是报错。 原来这个设置只对新建文件编码有效,旧文件不处理的,我还以为旧文件也给转换了。 2,上传文件的multer模块使用错误。 throw new Ty…

python时间函数入门_calendar在python3时间中有哪些常用函数?怎么用?
想要在python中写代码游刃有余,没有函数的支持是万万不行的。很多小伙伴反映,最近函数的应用知识不够了,所以小编挑选了python3时间中的函数,希望可以帮助大家在处理日历方面更加的迅速。其他更多的函数,大家也可以自行…

9.spark core之共享变量
简介 spark执行操作时,可以使用驱动器程序Driver中定义的变量,但有时这种默认的使用方式却并不理想。 集群中运行的每个任务都会连接驱动器获取变量。如果获取的变量比较大,执行效率会非常低下。每个任务都会得到这些变量的一份新的副本&…

【CSDN2012年度博客之星】需要您的一票,感谢大家的支持
从2004年9月,本人一直将自己工作和学习经验写成博文分享给大家,本人有幸被选为2012年88位候选博客之星,如果各位IT‘er喜欢我的博文,请投我一票,做…

双绞线和同轴电缆
线缆作为连接器件,相当于不同系统之间沟通的“桥梁”,选择线缆类型的好坏,也决定着传输信号的质量,影响着整个系统的稳定性。 (1)特性阻抗 先说一下关于线缆在传输过程中的特性阻抗问题。 特性阻抗是指电缆…

keras训练完以后怎么预测_使用Keras建立Wide Deep神经网络,通过描述预测葡萄酒价格...
你能通过“优雅的单宁香”、“成熟的黑醋栗香气”或“浓郁的酒香”这样的描述,预测葡萄酒的价格吗?事实证明,机器学习模型可以。在这篇文章中,我将解释我是如何利用Keras(tf.keras)建立一个Wide & Deep神经网络,并…
如何发布自己的NPM包(模块)?
1.注册NPM 账号 注册地址:https://www.npmjs.com/。 2.初始化自己要发布的项目 搭建本地环境:安装node.js,包含了npm命令。新建目录,在该目录下,初始化项目:npm init。按照提示填写初始化信息,我…

PHP对于浮点型的数据需要用不同的方法去解决
Php: BCMathbc是Binary Calculator的缩写。bc*函数的参数都是操作数加上一个可选的 [int scale],比如string bcadd(string $left_operand, string $right_operand[, int $scale]),如果scale没有提供,就用bcscale的缺省值。这里大数直接用一个…

mysql提示符详解_MySQL字符集使用详解
查看字符集相关变量mysql> show variables like character%;————————–——————————-| Variable_name | Value |————————–——————————-| character_set_client | latin1 || character_set_connection | latin1 || character_set_database…

Apache漏洞修复
今天受同事的委托,修复一台服务器的Apache漏洞,主要集中在以下几点: 1.Apache httpd remote denial of service(中危) 修复建议:将Apache HTTP Sever升级到2.2.20或更高版本。 解决方法:升级HTT…

Java遍历Map对象的四种方式
关于java中遍历map具体哪四种方式,请看下文详解吧。 方式一 这是最常见的并且在大多数情况下也是最可取的遍历方式。在键值都需要时使用。 1 2 3 4 Map<Integer, Integer> map new HashMap<Integer, Integer>(); for (Map.Entry<Integer, Intege…