Rocksdb 利用recycle_log_file_num 重用wal-log文件
recycle_log_file_num
复用wal文件信息, 优化wal文件的空间分配,减少pagecache中文件元信息的更新开销。
为同事提供了一组rocksdb写优化参数之后有一个疑惑的现象被问到,发现之前的一些代码细节有遗忘情况,同时也发现了这个参数的一些小优化,这里做个总结。
在参数:
opts.recycle_log_file_num = 10;
opts.max_write_buffer_number = 16;
opts.write_buffer_size = 128 << 20;
大压力写下 出现了多个.log文件同时存在的现象,想要看看为什么会有这个现象。
在描述这个现象产生的原因之前我们先看看Rocksdb的wal创建以及清理过程,其中recycle_log_file_num
是如何reuse log的
Rocksdb的WAL创建
如果不设置disable_memtable=true
,不设置enable_pipelined_write=1
,不disableWAL=1
的话,基本的写入调用栈如下:
JoinBatchGroup的逻辑这里暂不提及,从大体的写入过程中各个文件的创建过程如下:
DBImpl::PreprocessWriteDBImpl::SwitchWALDBImpl::SwitchMemtableDBImpl::CreateWAL // 创建wal文件
在CreateWal文件的时候,Rocksdb会为这个wal创建一个PosixEnv
下的文件句柄,以及文件名,并创建一个文件writer,用来后续的数据写入。
如下代码:
// 其中recycle_log_number 为当前想要复用的wal log文件名
// new_log 为需要在该函数中创建的writer,最后传出来
// log_file_num 是创建的新的文件名,如果可回收的文件为0,则直接用新的就可以了。
IOStatus DBImpl::CreateWAL(uint64_t log_file_num, uint64_t recycle_log_number,size_t preallocate_block_size,log::Writer** new_log) {......// 根据文件num,创建新的文件名std::string log_fname =LogFileName(immutable_db_options_.wal_dir, log_file_num);// 如果有可回收的numer,则reuseif (recycle_log_number) {ROCKS_LOG_INFO(immutable_db_options_.info_log,"reusing log %" PRIu64 " from recycle list\n",recycle_log_number);std::string old_log_fname =LogFileName(immutable_db_options_.wal_dir, recycle_log_number);TEST_SYNC_POINT("DBImpl::CreateWAL:BeforeReuseWritableFile1");TEST_SYNC_POINT("DBImpl::CreateWAL:BeforeReuseWritableFile2");io_s = fs_->ReuseWritableFile(log_fname, old_log_fname, opt_file_options,&lfile, /*dbg=*/nullptr);} else {io_s = NewWritableFile(fs_.get(), log_fname, &lfile, opt_file_options);}if (io_s.ok()) {......// 创建一个file writerstd::unique_ptr<WritableFileWriter> file_writer(new WritableFileWriter(std::move(lfile), log_fname, opt_file_options,immutable_db_options_.clock, io_tracer_, nullptr /* stats */, listeners,nullptr, tmp_set.Contains(FileType::kWalFile)));*new_log = new log::Writer(std::move(file_writer), log_file_num,immutable_db_options_.recycle_log_file_num > 0,immutable_db_options_.manual_wal_flush);}return io_s;
}
其中ReuseWritableFile
函数和NewWritableFile
函数内部分别打开的是一个存在和不存在的文件,如果我们能够reuse log文件名,则在ReuseWritableFile
函数中通过open系统调用打开已存在文件的时候不需要创建新的dentry和inode,且不需要将这一些元数据更新到各自dcache/inode-cache中的相应hash表中,所以重用文件名这里的优化就体现在内核对文件的一些操作逻辑上。
关于open系统调用的内核逻辑,可以参考从unlink系统调用来看操作系统文件系统原理。
CreateWAL
这个函数仅仅是用到了recycle_log_number,什么时候给recycle_log_number 赋值呢,可以由下向上递推。
recycle_log_number 如何复用log
向上递推 ,可以看到CreateWAL
函数是在SwitchMemtable
中被调用,recycle_log_number
数值是从一个log_recycle_files_
的deque中取出来的。
Status DBImpl::SwitchMemtable(ColumnFamilyData* cfd, WriteContext* context) {......// 从log_recycle_files_ 的头端取出一个元素作为当前可回收的log numberuint64_t recycle_log_number = 0;if (creating_new_log && immutable_db_options_.recycle_log_file_num &&!log_recycle_files_.empty()) {recycle_log_number = log_recycle_files_.front();}......if (creating_new_log) {// TODO: Write buffer size passed in should be max of all CF's instead// of mutable_cf_options.write_buffer_size.io_s = CreateWAL(new_log_number, recycle_log_number, preallocate_block_size,&new_log);if (s.ok()) {s = io_s;}}
而log_recycle_files_
这个deque则是在从活跃log deque alive_log_files_
中取的。
在FindOnsoleteFiles
函数中需要清理一些过期文件(log, sst, blob等),针对一些过期的log进行回收,并添加到log_recycle_files_ 双端队列中。
其中recycle_log_file_num 表示能够回收的log个数
if (!alive_log_files_.empty() && !logs_.empty()) {uint64_t min_log_number = job_context->log_number;size_t num_alive_log_files = alive_log_files_.size();// find newly obsoleted log files// 从活跃log中取出没有接受写入数据的log,将这一部分log进行重用// min_log_number表示当前这个log 还在被持续更新。while (alive_log_files_.begin()->number < min_log_number) {auto& earliest = *alive_log_files_.begin();if (immutable_db_options_.recycle_log_file_num >log_recycle_files_.size()) {ROCKS_LOG_INFO(immutable_db_options_.info_log,"adding log %" PRIu64 " to recycle list\n",earliest.number);log_recycle_files_.push_back(earliest.number);} else {job_context->log_delete_files.push_back(earliest.number);
关于alive_log_files_
这个变量的元素更新是在 打开db 和 SwitchMemtable 过程中进行更新的,这两个部分会创建wal
在FindOnsoleteFiles函数中,构造好的job_context
传出即可。
清理WAL的调用栈如下(如果当前log被reuse,那就不会被清理了)
DBImpl::MaybeScheduleFlushOrCompaction // 调度compaction/flushDBImpl::BGWorkFlush // 从线程池调度flushDBImpl::BackgroundCallFlush DBImpl::FindObsoleteFiles // 构造好我们的job_context,其中包括需要清理的sst/blob/logDBImpl::PurgeObsoleteFiles // 执行清理
在清理函数中PurgeObsoleteFiles
会决定是否需要keep log
bool keep = true;switch (type) {case kWalFile:keep = ((number >= state.log_number) ||(number == state.prev_log_number) ||(log_recycle_files_set.find(number) !=log_recycle_files_set.end()));break;
如果发现log在log_recycle_files_set 我们之前回收的log列表中,则需要keep,也就不会执行后续的log文件删除了。
总结
到此,我们就知道参数opts.recycle_log_file_num
的完整作用了,回到开头提到的现象,在开头的配置下大并发写rocksdb 会发现部分log文件可能存在的时间较长,且同时存在多个log 数目。
对于第一个问题 log存在的时间较长,即是由recycle_log_file_num
参数控制,它会不断得复用一些过期(不接受写入)的log,并且这一些log不会被回收。这个参数能够提升log文件的复用,减少对文件元数据的操作,加速SwitchMemtable
的过程。
对于第二个问题 log存在多个,则是由于max_write_buffer_number
参数的问题,它允许同时存在多个memtable,如果写入量较大,则imm 排队flush,则这个过程中的imm 对应的log文件是不会清理的,而recycle_log_file_num
则会回收一些log_num,且让这一些log不会被清理,所以会同时出先多个log_num。
需要注意的是recycle_log_file_num
这个参数回收的log不会被清理。
相关文章:

Java项目:网上商城系统(java+jsp+servlert+mysql+ajax)
源码获取:博客首页 "资源" 里下载! 一、项目简述(需求文档PPT) 功能: 主页显示热销商品;所有商品展示,可进行商品搜索;点 击商品进入商品详情页,显示库存&…

clock函数返回负值~ (转)
使用clock() 函数来进行计时,时不时的返回一个很大的负数,怎么检查也检查不出错误,现在找出错误原因,给大家分享一下。 来源网页:http://kebe-jea.blogbus.com/logs/33603387.html 跑实验的时候,结果时不时…

c实现面向对象编程(3)
http://blog.csdn.net/kennyrose/article/details/7564105转载于:https://www.cnblogs.com/pengkunfan/p/3486612.html

echarts - 条形图grid设置距离绘图区域的距离
在一些数据量过大的情况下,在一个固定的区域绘图往往需要对图表绘制区域的大小进行动态改变。这时候设置条形图距离绘图区域上下左右的距离可使用如下方式:表示条形图的柱子距离绘图区左边30%,距离右边40%,而距离顶部和底部分别为…

TitanDB 中使用Compaction Filter ,产生了预期之外几十倍的读I/O
Compaction过程中 产生大量读I/O 的背景 项目中因大value 需求,引入了PingCap 参考Wisckey 思想实现的key-value分离存储 titan, 使用过程中因为有用到Rocksdb本身的 CompactionFilter功能,所以就直接用TitanDB的option 传入了compaction fi…

Java项目:前台+后台精品图书管理系统(java+SSM+jsp+mysql+maven)
源码获取:博客首页 "资源" 里下载! 一、项目简述 功能包括: 登录注册,办理借阅。借阅记录,预约借阅,借出未还, 借阅逾期,学生管理,图书管理,书库分类查询搜索…

消除 activity 启动时白屏、黑屏问题
默认情况下 activity 启动的时候先把屏幕刷成白色,再绘制界面,绘制界面或多或少有点延迟,这段时间中你看到的就是白屏,显然影响用户体验,怎么消除呢? 在 Activity theme 设置style 即可 1 <style na…

理解并实施:HSRP(CCNA200-120新增考点)
理解并实施:HSRP思科热备路由器协议HSRP(HotStandby Router Protocol)是企业级网络路由器的故障冗余服务。如图9.116所示,192.168.2.0/24的子网需要与目标192.168.5.2的计算机通信。192.168.2.0/24的子网有两台出口路由器,一台是R…

使用机智云APP控制战舰V3 (转)
源:使用机智云APP控制战舰V3 转载于:https://www.cnblogs.com/LittleTiger/p/10725586.html

从JoinBatchGroup 代码细节 来看Rocksdb的相比于leveldb的写入优势
文章目录1. Rocksdb写入模型2. LevelDB写入的优化点3. Rocksdb 的优化1. Busy Loop2. Short Wait -- SOMETIMES busy Loop3. Long-wait4. 测试验证4. 总结1. Rocksdb写入模型 本节讨论一下Rocksdb在写入链路上的一个优化点,这个优化细节可以说将Rocksdb这个存储引擎…

Java项目:嘟嘟网上商城系统(java+jdbc+jsp+mysql+ajax)
源码获取:博客首页 "资源" 里下载! 一、项目简述 功能: 商品的分类展示,用户的注册登录,购物车,订单结算, 购物车加减,后台商品管理,分类管理,订单…

SOAPUI请求及mockservice 使用
1、新建soap Project,输入wsdl的地址,运行request 2.邮件Project,建立mockservice,建立多个response,选在mock operation,选择response dispa…

空间直角坐标系与球面坐标互转
空间直角坐标系与球面坐标互转 1 using System;2 using System.Collections.Generic;3 using System.Linq;4 using System.Text;5 6 namespace AppSurveryTools.SphericalAndCartesian7 {8 class CartesianCoord9 { 10 public double x; 11 public dou…

Ajax 的优势和不足
Ajax 的优势 1. 不需要插件支持 Ajax 不需要任何浏览器插件,就可以被绝大多数主流浏览器所支持,用户只需要允许 JavaScript 在浏览器上执行即可。 2. 优秀的用户体验 这是 Ajax 技术的最大优点,能在不刷新整个页面的前提下更新数据࿰…

BitCask 持久化hash存储引擎 原理介绍
文章目录前言引擎背景引擎原理1. 磁盘数据结构2. 内存数据结构3. 读流程4. 数据合并总结前言 最近工作中部分项目中,对存储引擎的需求希望高性能的写、点查,并不需要Range。这里看到大家总会提到BitCask这个存储引擎方案,并不是很了解&#…

C# Socket系列三 socket通信的封包和拆包
通过系列二 我们已经实现了socket的简单通信 接下来我们测试一下,在时间应用的场景下,我们会快速且大量的传输数据的情况! 1 class Program2 {3 static void Main(string[] args)4 {5 TCPListener tcp n…

Java项目:CRM客户管理系统(java+SSM+jsp+mysql+maven)
源码获取:博客首页 "资源" 里下载! 一、项目简述 功能包括: 用户管理,系统管理,客户管理,客户服务,客户关怀, 销售机会,统计管理等等。 二、项目运行 环境配置&#x…

Android 获取标题栏的高度
2019独角兽企业重金招聘Python工程师标准>>> 通过获取内容区域的 rect 的 top 值就是状态栏和标题栏的高度,也就可以得到标题栏的高度了, [java] view plaincopy int contentTop getWindow().findViewById(Window.ID_ANDROID_CONTENT).getTo…

力扣—— 三维形体投影面积
在 N * N 的网格中,我们放置了一些与 x,y,z 三轴对齐的 1 * 1 * 1 立方体。 每个值 v grid[i][j] 表示 v 个正方体叠放在单元格 (i, j) 上。 现在,我们查看这些立方体在 xy、yz 和 zx 平面上的投影。 投影就像影子,将…

一图带你入门Linux 存储I/O栈
发现了一个内核大佬 的 Linux 存储I/O栈,很清晰!!! 原地址如下: http://ilinuxkernel.com/?p1559 【侵删】

Java项目:在线美食网站系统(java+SSM+jsp+mysql+maven)
源码获取:博客首页 "资源" 里下载! 一、项目简述 功能:用户的注册登录,美食浏览,美食文化,收藏百 科,趣味问答,食谱等等功能等等。 二、项目运行 环境配置:…

性能测试中传——lr理论基础(四)
转载于:https://blog.51cto.com/fuwenchao/1346435

滑动定位的三种方法,以及热启动(五)
from init_driver.Init_driver import init_driverdriver init_driver()# 坐标-->坐标,定位滑动 driver.swipe(309, 1353, 537, 511, duration3000)# 元素-->元素,定位滑动 start_ele driver.find_element_by_xpath("//*[contains(text, 通…

TitanDB GC详细实现原理 及其 引入的问题
文章目录1. 为什么要有GC2. GC的触发条件3. GC的核心逻辑1. blob file形态2. GC Prepare3. GC pick file4. GC run4. GC 引入的问题5. Titan的测试代码通过本篇,能够从TitanDB的源代码中看到 key/value 分离之后引入的一些复杂性,这个复杂性很难避免。 …

Java项目:医院住院管理系统(java+SSM+jsp+mysql+maven)
源码获取:博客首页 "资源" 里下载! 一、项目简述 功能包括: 住院病人管理,住院病房管理,医生管理,药品管理,仪 器管理等等。 二、项目运行 环境配置: Jdk1.8 Tomcat8.…

1m网速是什么意思,1m带宽是什么意思
1M网速下载速度应是多少?我怎么才50多KB?? 建议: 一般来说是90到100算正常。最高能达到120 带究竟该有多快 揭开ADSL真正速度之谜 常常使用ADSL的用户,你知道ADSL的真正速度吗?带着这个疑问我们将问题一步一步展开。…

泛型实体类List绑定到repeater
泛型实体类List<>绑定到repeater 后台代码: private void bindnewslist(){long num 100L;List<Model.news> news _news.GetList(out num);this.newslist.DataSource news;this.newslist.DataBind();} 说明:Model.news是实体类,…

Qt4.8.5移植
这两天搞了Qt移植 因为不小心 耽误了挺多时间 但是也比较好的掌握了 现在记录一下 准备工具: tslib-1.16 qt-everywhere-opensource-src-4.8.5.tar 下载路径: tslib-1.16下载: https://github.com/kergoth/tslib/releases/download/1.16/t…

Rocksdb 通过ingestfile 来支持高效的离线数据导入
文章目录前言使用方式实现原理总结前言 很多时候,我们使用数据库时会有离线向数据库导入数据的需求。比如大量用户在本地的一些离线数据,想要将这一些数据导入到已有的数据库中;或者说NewSQL场景中部分机器离线,重新上线之后的数…

Java项目:企业人事管理系统(java+SSM+jsp+mysql+maven)
源码获取:博客首页 "资源" 里下载! 一、项目简述 功能介绍:员工管理,用户管理,部门管理,文档管理, 职位管理等等。 二、项目运行 环境配置: Jdk1.8 Tomcat8.5 mysql Eclispe (I…