当前位置: 首页 > 编程日记 > 正文

满足极高读写性能需求的Key-Value数据库

满足极高读写性能需求的Key-Value数据库

高性能Key-Value数据库的主要特点就是具有极高的并发读写性能,Redis,Tokyo Cabinet, Flare,这3个Key-Value DB都是用C编写的,他们的性能都相当出色,但出了出色的性能,他们还有自己独特的功能:

1、Redis
Redis是一个很新的项目,刚刚发布了1.0版本。Redis本质上是一个Key-Value类型的内存数据库,很像memcached,整个数据库统 统加载在内存当中进行操作,定期通过异步操作把数据库数据flush到硬盘上进行保存。因为是纯内存操作,Redis的性能非常出色,每秒可以处理超过 10万次读写操作,是我知道的性能最快的Key-Value DB。

Redis的出色之处不仅仅是性能,Redis最大的魅力是支持保存List链表和Set集合的数据结构,而且还支持对List进行各种操作,例如 从List两端push和pop数据,取List区间,排序等等,对Set支持各种集合的并集交集操作,此外单个value的最大限制是1GB,不像 memcached只能保存1MB的数据,因此Redis可以用来实现很多有用的功能,比方说用他的List来做FIFO双向链表,实现一个轻量级的高性 能消息队列服务,用他的Set可以做高性能的tag系统等等。另外Redis也可以对存入的Key-Value设置expire时间,因此也可以被当作一 个功能加强版的memcached来用。

Redis的主要缺点是数据库容量受到物理内存的限制,不能用作海量数据的高性能读写,并且它没有原生的可扩展机制,不具有scale(可扩展)能 力,要依赖客户端来实现分布式读写,因此Redis适合的场景主要局限在较小数据量的高性能操作和运算上。目前使用Redis的网站有 github,Engine Yard。

2、Tokyo Cabinet和Tokoy Tyrant
TC和TT的开发者是日本人Mikio Hirabayashi,主要被用在日本最大的SNS网站mixi.jp上,TC发展的时间最早,现在已经是一个非常成熟的项目,也是Kye-Value 数据库领域最大的热点,现在被广泛的应用在很多很多网站上。TC是一个高性能的存储引擎,而TT提供了多线程高并发服务器,性能也非常出色,每秒可以处理 4-5万次读写操作。

TC除了支持Key-Value存储之外,还支持保存Hashtable数据类型,因此很像一个简单的数据库表,并且还支持基于column的条件 查询,分页查询和排序功能,基本上相当于支持单表的基础查询功能了,所以可以简单的替代关系数据库的很多操作,这也是TC受到大家欢迎的主要原因之一,有 一个Ruby的项目miyazakiresistance将TT的hashtable的操作封装成和ActiveRecord一样的操作,用起来非常爽。

TC/TT在mixi的实际应用当中,存储了2000万条以上的数据,同时支撑了上万个并发连接,是一个久经考验的项目。TC在保证了极高的并发读 写性能的同时,具有可靠的数据持久化机制,同时还支持类似关系数据库表结构的hashtable以及简单的条件,分页和排序操作,是一个很棒的NoSQL 数据库。

TC的主要缺点是在数据量达到上亿级别以后,并发写数据性能会大幅度下降,NoSQL: If Only It Was That Easy提到,他们发现在TC里面插入1.6亿条2-20KB数据的时候,写入性能开始急剧下降。看来是当数据量上亿条的时候,TC性能开始大幅度下降, 从TC作者自己提供的mixi数据来看,至少上千万条数据量的时候还没有遇到这么明显的写入性能瓶颈。

这个是Tim Yang做的一个Memcached,Redis和Tokyo Tyrant的简单的性能评测,仅供参考

3、Flare
TC是日本第一大SNS网站mixi开发的,而Flare是日本第二大SNS网站green.jp开发的,有意思吧。Flare简单的说就是给TC添加了 scale功能。他替换掉了TT部分,自己另外给TC写了网络服务器,Flare的主要特点就是支持scale能力,他在网络服务端之前添加了一个 node server,来管理后端的多个服务器节点,因此可以动态添加数据库服务节点,删除服务器节点,也支持failover。如果你的使用场景必须要让TC可 以scale,那么可以考虑flare。

flare唯一的缺点就是他只支持memcached协议,因此当你使用flare的时候,就不能使用TC的table数据结构了,只能使用TC的 key-value数据结构存储。

二、满足海量存储需求和访问的面向文档的数据库:MongoDB,CouchDB

面向文档的非关系数据库主要解决的问题不是高性能的并发读写,而是保证海量数据存储的同时,具有良好的查询性能。MongoDB是用C++开发的, 而CouchDB则是Erlang开发的:

1、MongoDB
MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。他支持的数据结构非常松散,是类似 json的bjson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几 乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。

Mongo主要解决的是海量数据的访问效率问题,根据官方的文档,当数据量达到50GB以上的时候,Mongo的数据库访问速度是MySQL的10 倍以上。Mongo的并发读写效率不是特别出色,根据官方提供的性能测试表明,大约每秒可以处理0.5万-1.5次读写请求。对于Mongo的并发读写性 能,我也打算有空的时候好好测试一下。

因为Mongo主要是支持海量数据存储的,所以Mongo还自带了一个出色的分布式文件系统GridFS,可以支持海量的数据存储,但我也看到有些 评论认为GridFS性能不佳,这一点还是有待亲自做点测试来验证了。

最后由于Mongo可以支持复杂的数据结构,而且带有强大的数据查询功能,因此非常受到欢迎,很多项目都考虑用MongoDB来替代MySQL来实 现不是特别复杂的Web应用,比方说why we migrated from MySQL to MongoDB就是一个真实的从MySQL迁移到MongoDB的案例,由于数据量实在太大,所以迁移到了Mongo上面,数据查询的速度得到了非常显著 的提升。

MongoDB也有一个ruby的项目MongoMapper,是模仿Merb的DataMapper编写的MongoDB的接口,使用起来非常简 单,几乎和DataMapper一模一样,功能非常强大易用。

2、CouchDB
CouchDB现在是一个非常有名气的项目,似乎不用多介绍了。但是却对CouchDB没有什么兴趣,主要是因为CouchDB仅仅提供了基于HTTP REST的接口,因此CouchDB单纯从并发读写性能来说,是非常糟糕的,这让我立刻抛弃了对CouchDB的兴趣。

三、满足高可扩展性和可用性的面向分布式计算的数据库:Cassandra,Voldemort

面向scale能力的数据库其实主要解决的问题领域和上述两类数据库还不太一样,它首先必须是一个分布式的数据库系统,由分布在不同节点上面的数据 库共同构成一个数据库服务系统,并且根据这种分布式架构来提供online的,具有弹性的可扩展能力,例如可以不停机的添加更多数据节点,删除数据节点等 等。因此像Cassandra常常被看成是一个开源版本的Google BigTable的替代品。Cassandra和Voldemort都是用Java开发的:

1、Cassandra
Cassandra项目是Facebook在2008年开源出来的,随后Facebook自己使用Cassandra的另外一个不开源的分支,而开源出来 的Cassandra主要被Amazon的Dynamite团队来维护,并且Cassandra被认为是Dynamite2.0版本。目前除了 Facebook之外,twitter和digg.com都在使用Cassandra。

Cassandra的主要特点就是它不是一个数据库,而是由一堆数据库节点共同构成的一个分布式网络服务,对Cassandra的一个写操作,会被 复制到其他节点上去,对Cassandra的读操作,也会被路由到某个节点上面去读取。对于一个Cassandra群集来说,扩展性能是比较简单的事情, 只管在群集里面添加节点就可以了。看到有文章说Facebook的Cassandra群集有超过100台服务器构成的数据库群集。

Cassandra也支持比较丰富的数据结构和功能强大的查询语言,和MongoDB比较类似,查询功能比MongoDB稍弱一些,twitter 的平台架构部门领导Evan Weaver写了一篇文章介绍Cassandra:http://blog.evanweaver.com/articles/2009/07/06 /up-and-running-with-cassandra/,有非常详细的介绍。

Cassandra以单个节点来衡量,其节点的并发读写性能不是特别好,有文章说评测下来Cassandra每秒大约不到1万次读写请求,也看到一 些对这个问题进行质疑的评论,但是评价Cassandra单个节点的性能是没有意义的,真实的分布式数据库访问系统必然是n多个节点构成的系统,其并发性 能取决于整个系统的节点数量,路由效率,而不仅仅是单节点的并发负载能力。

2、Voldemort
Voldemort是个和Cassandra类似的面向解决scale问题的分布式数据库系统,Cassandra来自于Facebook这个SNS网 站,而Voldemort则来自于Linkedin这个SNS网站。说起来SNS网站为我们贡献了n多的NoSQL数据库,例如 Cassandar,Voldemort,Tokyo Cabinet,Flare等等。Voldemort的资料不是很多,因此没有特别仔细去钻研,Voldemort官方给出Voldemort的并发读写 性能也很不错,每秒超过了1.5万次读写。

从Facebook开发Cassandra,Linkedin开发Voldemort,我们也可以大致看出国外大型SNS网站对于分布式数据库,特 别是对数据库的scale能力方面的需求是多么殷切。前面提到,web应用的架构当中,web层和app层相对来说都很容易横向扩展,唯有数据库是单点 的,极难scale,现在Facebook和Linkedin在非关系型数据库的分布式方面探索了一条很好的方向,这也是为什么现在Cassandra这 么热门的主要原因。

相关文章:

QQ群功能设计与心理学

2019独角兽企业重金招聘Python工程师标准>>> 刚刚在一个Java技术交流群,发了个 "博客投票"的广告。 群主两眼一黑,瞬间就把我给干掉了。 看到QQ给出的系统消息,发现QQ群的一个功能做得很不错。 大家注意到,右…

龙蜥降世,神龙升级,阿里云投入 20 亿发力操作系统

作者 | 贾凯强、伍杏玲 出品 | AI科技大本营(ID:rgznai100)10 月 20 日,阿里巴巴云栖大会继续在杭州进行,与开幕第一天的主论坛不同,第二天活动的主论坛更加聚焦与技术领域和技术实践。20 日上午,阿里…

35.2. Subversion 版本控制

subversion 初始化trunk branches releases tags svn co svn://127.0.0.1/document cd project mkdir trunk mkdir tags mkdir branches mkdir releases svn ci -m "Initialized empty subversion repository in your_project"创建docbook文档,安排章节…

使用卷积神经网络预防疲劳驾驶事故

作者|小白来源|小白学视觉疲劳驾驶:一个严重的问题美国国家公路交通安全管理局估计,每年有 91,000 起车祸涉及疲劳驾驶的司机,造成约50,000 人受伤和近 800 人死亡。此外,每 24 名成年司机中就有 1 人报告在过去 30 天内在驾驶时睡…

详解Apache下.htaccess文件常用配置

.htaccess文件是Apache服务器中最常用的一个配置文件,它负责相关目录下的网页配置。通过htaccess文件,可以帮我们实现:网页301重定向、自定义404错误页面、改变文件扩展名、允许/阻止特定的用户或者目录的访问、禁止目录列表、配置索引入口等…

hadoop HDFS常用文件操作命令

命令基本格式: hadoop fs -cmd < args >1.ls hadoop fs -ls /列出hdfs文件系统根目录下的目录和文件 hadoop fs -ls -R /列出hdfs文件系统所有的目录和文件 2.put hadoop fs -put < local file > < hdfs file >hdfs file的父目录一定要存在&#xff0c;否则…

php缓存技术总结

全页面静态化缓存也就是将页面全部生成html静态页面&#xff0c;用户访问时直接访问的静态页面&#xff0c;而不会去走php服务器解析的流程。此种方式&#xff0c;在CMS系统中比较常见&#xff0c;比如dedecms&#xff1b;一种比较常用的实现方式是用输出缓存&#xff1a;Ob_st…

两个使用 Pandas 读取异常数据结构 Excel 的方法,拿走不谢!

作者 | 周萝卜来源 | 萝卜大杂烩通常情况下&#xff0c;我们使用 Pandas 来读取 Excel 数据&#xff0c;可以很方便的把数据转化为 DataFrame 类型。但是现实情况往往很骨干&#xff0c;当我们遇到结构不是特别良好的 Excel 的时候&#xff0c;常规的 Pandas 读取操作就不怎么好…

ArcEngine中的缩放地图

在ArcEngine地图操作中&#xff0c;缩放地图的功能经常用到&#xff0c;这里做一个小结。 缩放地图一般可分为以下几种情况&#xff1a; 1.缩放地图&#xff1a;与放大地图相对&#xff0c;一般是手动绘制区域或固定比例缩放&#xff0c;可调用命令或Expand函数来&#xff1b; …

【小记】批处理FOR循环中的参数/D

2019独角兽企业重金招聘Python工程师标准>>> 官方说明 FOR /D %variable IN (set) DO command [command-parameters] 如果集中包含通配符&#xff0c;则指定与目录名匹配&#xff0c;而不与文件名匹配。 栗子 REM Eg1.bat REM 与此批处理同级的目录名称全部打印出来…

php 的opcode缓存apc以及其安装

先说说php程序的执行流程吧&#xff0c;说明了这个&#xff0c;才好开始我们的优化之旅。 客户端&#xff08;譬如浏览器&#xff09; —》请求Get hello.php —-》cgi服务器接&#xff08;譬如apache&#xff09;收到请求&#xff0c;根据配置寻找php的处理程序&#xff08;…

1024 程序员节专题论坛来袭,权威解读 MindSpore、CANN 5.0 特性和 HCIA MDC 开发者认证...

“授人以鱼不如授人以渔”&#xff0c;一句古话中蕴含的发展真理&#xff0c;我们将其套用到如今炽手可热的 AI 领域之上会发现无比适用。2018 年&#xff0c;华为提出了普惠 AI 的概念&#xff0c;降低 AI 开发门槛&#xff0c;让 AI 开发者获取能力&#xff0c;让技术走近每一…

leetcode之Reorder List

Given a singly linked list L: L0→L1→…→Ln-1→Ln,reorder it to: L0→Ln→L1→Ln-1→L2→Ln-2→… You must do this in-place without altering the nodes values. For example,Given {1,2,3,4}, reorder it to {1,4,2,3}. 这道题分三步&#xff1a; 1&#xff1a;首先将…

shiro多realm验证之——shiro实现不同身份使用不同Realm进行验证(转)

转自: http://blog.csdn.net/xiangwanpeng/article/details/54802509 (使用特定的realm实现特定的验证) 假设现在有这样一种需求&#xff1a;存在两张表user和admin&#xff0c;分别记录普通用户和管理员的信息。并且现在要实现普通用户和管理员的分开登…

前端开发中的性能那点事

前端开发中的性能那点事&#xff08;一&#xff09;巧用xdebug 前言&#xff1a; 在我们平时的php开发中&#xff0c;一个大的项目经过长时间的积累以后你会发现性能越来越慢&#xff0c;而性能到底消耗在了什么地方&#xff0c;常常是一个令人头疼的问题&#xff0c;function…

运动目标检测ViBe算法

一、运动目标检测简介 视频中的运动目标检测这一块现在的方法实在是太多了。运动目标检测的算法依照目标与摄像机之间的关系可以分为静态背景下运动检测和动态背景下运动检测。先简单从视频中的背景类型来讨论。 静态背景下的目标检测&#xff0c;就是从序列图像中…

急缺开源人才怎么办?来看看大厂和高校怎么解决

开源&#xff0c;是数字中国建设的热点领域之一&#xff0c;也是数字经济时代的基础。在我国加速实现数字化转型的背景下&#xff0c;开源已经从个人行为、企业行为发展到了国家新基建的战略层面。它打破传统的组织架构与商业教条&#xff0c;彻底颠覆了工业经济时代的运转逻辑…

经验分享 | Burpsuite抓取非HTTP流量

使用Burp对安卓应用进行渗透测试的过程中&#xff0c;有时候会遇到某些流量无法拦截的情况&#xff0c;这些流量可能不是HTTP协议的&#xff0c;或者是“比较特殊”的HTTP协议(以下统称非HTTP流量)。遇到这种情况&#xff0c;大多数人会选择切换到Wireshark等抓包工具来分析。下…

Xdebug 配置

第一部分&#xff1a; 安装预编译模块安装预编译模块是很容易的。只需要将它们放到一个目录中&#xff0c;并将下面的内容添加到php.ini中&#xff1a;&#xff08;不要忘记更改路径和文件名为你自己的值&#xff0c;并确信你使用的是完整路&#xff09;zend_extension_ts &qu…

yield学习续:yield return迭代块在Unity3D中的应用——协程

必读好文推荐&#xff1a; Unity协程&#xff08;Coroutine&#xff09;原理深入剖析 Unity协程&#xff08;Coroutine&#xff09;原理深入剖析再续 上面的文章说得太透彻&#xff0c;所以这里就记一下自己的学习笔记了。 首先要说明的是&#xff0c;协程并不是线程&#xff0…

从神经元谈到深度神经网络

作者 | 泳鱼来源 | 算法进阶本文将从神经元到逻辑回归模型结构&#xff0c;并将其扩展到深度深度网络模型。一、谈谈智慧对于人类智慧奥秘的探索&#xff0c;不同时代、学科背景的人对于智慧的理解及其实现方法有着不同的思想主张。有的主张用显式逻辑体系搭建人工智能系统&…

【阿里聚安全·安全周刊】Intel芯片级安全漏洞事件|macOS存在漏洞

关键词&#xff1a;Intel漏洞丨mac OS漏洞丨三星漏洞丨安卓安全丨CPU漏洞丨phpMyAdmin漏洞丨iOS设备|安卓恶意软件检测|Burpsuite 本周资讯top3 【Intel漏洞】芯片级安全漏洞后续&#xff1a;谷歌表示不止Intel&#xff0c;每个1995年后的处理器都可能受影响 1月3日&#xff0c…

BigPipe:高性能的“流水线技术”网页

原文地址&#xff1a;http://www.facebook.com/note.php?note_id389414033919 译文地址&#xff1a;http://isd.tencent.com/?p2419 作者&#xff1a;蒋长浩 Facebook的网站速度做为最关键的公司任务之一。在2009年&#xff0c;我们成功地实现了Facebook网站速度提升两倍 。…

超硬核全套Java视频教程(学习路线+免费视频+配套资料)

文内福利&#xff0c;扫码免费领取Hello&#xff0c;各位锋迷们&#xff0c;我是小千。很多学习Java的小伙伴都在找的全套免费java视频教程&#xff0c;这里全都有&#xff0c;资料齐全&#xff0c;拿来吧你&#xff01;零基础学Java的学习路线图是怎样的&#xff1f;&#xff…

手机触屏滑动图片切换插件swiper.js

今天给大家分享一款手机触屏滑动图片切换插件swiper.js是一款swiper手机触屏滑动图片幻灯片&#xff0c;适合各种尺寸。效果图如下&#xff1a; 在线预览 源码下载 实现的代码。 html代码&#xff1a; <div style"max-width: 640px; margin: 0 auto;"><di…

Nginx防盗链,Nginx访问控制, Nginx解析php相关配置, Nginx代理

2019独角兽企业重金招聘Python工程师标准>>> Nginx防盗链 Nginx防盗链配置需要与不记录日志和过期时间结合在一起&#xff0c;因为都用到了location。 打开配置文件&#xff0c;注释掉一部分内容&#xff08;红框上方&#xff09;&#xff0c;添加内容&#xff08;红…

web高性能开发系列随笔

在BlogJava里写了一些关于高性能WEB开发的随笔&#xff0c;因为都是跟前端技术相关(html,http,js,css等)&#xff0c;所以也贴到博客园来&#xff0c;吸收下人气。 1、 HTTP服务器. 2、性能测试工具推荐 3、 图片篇. 4、 如何加载JS&#xff0c;JS应该放在什么位置. 5、…

《Effective C++》第8章 定制new和delete-读书笔记

章节回顾&#xff1a; 《Effective C》第1章 让自己习惯C-读书笔记 《Effective C》第2章 构造/析构/赋值运算&#xff08;1&#xff09;-读书笔记 《Effective C》第2章 构造/析构/赋值运算&#xff08;2&#xff09;-读书笔记 《Effective C》第3章 资源管理&#xff08;1&am…

观点:AI 与自动化是矛盾的

作者&#xff1a;cerebralab.com译者&#xff1a;张雨佳原文标题&#xff1a;AI and automation are at odds想象一下&#xff0c;我们生活在一个完美、和谐的地方&#xff0c;所有人在某一天同意让电脑代替人类驾驶汽车&#xff0c;而不是像现在逐步推进自动驾驶。那么&#x…

kaggle之数据分析从业者用户画像分析

数据为kaggle社区发布的数据分析从业者问卷调查分析报告&#xff0c;其中涵盖了关于该行业不同维度的问题及调查结果。本文的目的为提取有用的数据&#xff0c;进行描述性展示。帮助新从业的人员更全方位地了解这个行业。 参考学习视频:http://www.tianshansoft.com/ 数据集&am…