当前位置: 首页 > 编程日记 > 正文

动态执行流程分析和性能瓶颈分析的利器——gperftools的Cpu Profiler

在《动态执行流程分析和性能瓶颈分析的利器——valgrind的callgrind》中,我们领略了valgrind对流程和性能瓶颈分析的强大能力。本文将介绍拥有相似能力的gperftools的Cpu Profiler。(转载请指明出于breaksoftware的csdn博客)

我们依然以callgrind一文中的例子为例

#include <thread>
#include <unistd.h>class base {
public:virtual void calc_num() = 0;
public:void add_num () {n++;}
protected:unsigned long long n;
};class inheritA final :public base
{
public:void calc_num() {n = _calc();}
private:unsigned long long _calc() {return 0;}
};class inheritB final :public base
{
public:void calc_num() {n = 0;}
};void thread_routine(base* obj_ptr) {while (true) {obj_ptr->calc_num();obj_ptr->add_num();}
}int main() {base* t1_data = new inheritA;std::thread t1(thread_routine, t1_data);t1.detach();base* t2_data = new inheritB;std::thread t2(thread_routine, t2_data);t2.detach();sleep(10);return 0;
}

这段代码启动了两个线程,分别执行inheritA和inheritB的calc_num和add_num方法。其中calc_num被inheritA和inheritB分别实现,add_num则是其基类base实现的。

我们使用如下指令编译

g++ cpu_profiler.cpp -g -ltcmalloc_and_profiler -lpthread -std=c++11 -o cpu_profiler

这次我们主要链接了profiler和tcmalloc,官方文档上说只要链接profiler就行,但是经过我测试,必须要同时链接这两个库才可以使用下面的方式去分析

CPUPROFILE=cpu_perf.prof ./cpu_profiler

这样在当前目录下产生了cpu_perf.prof文件。对于这个文件,我们还需要使用pprof去分析

pprof --text ./cpu_profiler cpu_perf.prof

上面指令指出使用text形式输出

Using local file ./cpu_profiler.
Using local file cpu_perf.prof.
Total: 1919 samples726  37.8%  37.8%     1919 100.0% thread_routine725  37.8%  75.6%      725  37.8% base::add_num220  11.5%  87.1%      307  16.0% inheritA::calc_num161   8.4%  95.5%      161   8.4% inheritB::calc_num87   4.5% 100.0%       87   4.5% inheritA::_calc0   0.0% 100.0%     1919 100.0% __GI___clone0   0.0% 100.0%     1919 100.0% start_thread0   0.0% 100.0%     1919 100.0% std::__invoke0   0.0% 100.0%     1919 100.0% std::__invoke_impl0   0.0% 100.0%     1919 100.0% std::error_code::default_error_condition0   0.0% 100.0%     1919 100.0% std::thread::_Invoker::_M_invoke0   0.0% 100.0%     1919 100.0% std::thread::_Invoker::operator0   0.0% 100.0%     1919 100.0% std::thread::_State_impl::_M_run

需要注意的是,这段不是调用堆栈,而是各个操作自身耗时的排序。

为了更直观的表达流程,我们可以使用callgrind方式输出分析结果

pprof --callgrind ./cpu_profiler cpu_perf.prof > cpu_perf.out

然后使用kcachegrind可视化去查看

kcachegrind cpu_perf.out

可以发现gperftools并没有像valgrind区分线程,而将所有线程的调用过程在一个大过程中体现出来。比如thread_routine的下游分别是inheritA的calc_num和inheritB的calc_num,而在一个线程中,是不可能同时调用到这两个过程。

图中数据的解决和valgrind产生的结果是类似的。self列代表自身耗时,我们看到thread_routine和base::add_num这两个函数自身占用的CPU是最高的,这往往是我们程序优化关注的重点。

我们看一个实际的例子

#include <unistd.h>
#include <stdlib.h>
#include <thread>  
#include <iostream>void thread_routine(unsigned long long n) {while (true) {const int array_size = 4 * 1024 * 1024;char buf[array_size] = {0};sprintf(buf, "%lu\n", n++);printf(buf);}   
}int main() {std::thread t(thread_routine, 0); t.detach();sleep(10);    return 0;  
}

这段代码打印出不停自增的数字,如果数字越大,我们可以认为性能越高。最终上面的程序打印到42310。

使用Cpu Profiler分析它结果如下图

图中显示memset函数自身耗时最长,基本占用了整个程序的CPU资源。我们查看代码,发现其8~9行申请了4M的空间,并且将其设置为空。如何优化呢?我们可以将其空间变小,使得memset操作空间减少以提高性能。我们将空间改成32字节。其执行结果到1640773,是之前方案(42310)38倍。

这个时候,我们再看下其执行流程

可以发现,其主要耗时在“往设备上写”这个操作上了。

最后提一句,如果不能修改待分析程序的链接库,则可以使用下面指令来分析

LD_PRELOAD="/usr/local/lib/libprofiler.so" CPUPROFILE=cpu_perf.prof ./cpu_profiler 

相关文章:

C语言内存管理内幕(二)----半自动内存管理策略

2019独角兽企业重金招聘Python工程师标准>>> C语言内存管理内幕(二&#xff09;----半自动内存管理策略 转载于:https://my.oschina.net/hengcai001/blog/466

无人机巡逻喊话、疫情排查、送药消毒,抗疫战中机器人化身钢铁战士!

整理 | 夕颜责编 | Carol出品 | CSDN&#xff08;ID:CSDNnews&#xff09;这场抗疫战争似乎格外漫长&#xff0c;但回头细数一下才发现&#xff0c;自疫情爆发以来&#xff0c;也不过半月之久。在接下来的几个半月中&#xff0c;抗疫战仍将继续&#xff0c;各方力量也要绷紧神经…

jQuery EasyUI 表单插件 - Datebox 日期框

为什么80%的码农都做不了架构师&#xff1f;>>> 扩展自 $.fn.combo.defaults。通过 $.fn.datebox.defaults 重写默认的 defaults。 日期框&#xff08;datebox&#xff09;把可编辑的文本框和下拉日历面板结合起来&#xff0c;用户可以从下拉日历面板中选择日期。在…

互斥量、读写锁长占时分析的利器——valgrind的DRD

在进行多线程编程时&#xff0c;我们可能会存在同时操作&#xff08;读、写&#xff09;同一份内存的可能性。为了保证数据的正确性&#xff0c;我们往往会使用互斥量、读写锁等同步方法。&#xff08;转载请指明出于breaksoftware的csdn博客&#xff09; 互斥量的用法如下 pth…

一次性同步修改多台linux服务器的密码

如何一次性修改多台linux服务器的密码&#xff0c;这是个问题&#xff0c;我给大家提供一个脚本&#xff0c;是前一段我刚刚写的&#xff0c;希望能对大家有所帮助一 , 需求:linux环境下运行&#xff0c;需要tcl和expect支持原理说明&#xff1a;利用expect的摸拟交互的功能&…

麻省理工学院的新系统TextFooler, 可以欺骗Google的自然语言处理系统及Google Home的音频...

来源 | news.mit编译 | 武明利责编 | Carol出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;两年前&#xff0c;Google的AI还不太成熟。一段时间以来&#xff0c;有一部分计算机科学研究一直致力于更好地理解机器学习模型如何处理这些“对抗性”攻击&#xff0c;这些攻…

Oracle VS DB2 数据类型

Oracle VS DB2 本文转自&#xff1a;http://www.bitscn.com/oracle/install/200604/16541.html首先&#xff0c;通过下表介绍ORACLE与DB2/400数据类型之间的对应关系&#xff0c;是一对多的关系&#xff0c;具体采用哪种对应关系&#xff0c;应具体问题具体分析。 OracleDB2/40…

死锁问题分析的利器——valgrind的DRD和Helgrind

在《DllMain中不当操作导致死锁问题的分析--死锁介绍》一文中&#xff0c;我们介绍了死锁产生的原因。一般来说&#xff0c;如果我们对线程同步技术掌握不牢&#xff0c;或者同步方案混乱&#xff0c;极容易导致死锁。本文我们将介绍如何使用valgrind排查死锁问题。&#xff08…

疫情可视化,基于知识图谱的AI“战疫”平台如何做?

来源 | DataExa渊亭科技武汉封城半个月&#xff0c;疫情依然严峻。但与17年前的SARS相比&#xff0c;我国在此次疫情防控工作中展现出了更高的医疗救治水平、更快的防疫反应速度、更透明的信息披露机制、更迅速的数据报送机制。在这场没有硝烟的战役中&#xff0c;社会各界团结…

mysql乐观锁总结和实践

2019独角兽企业重金招聘Python工程师标准>>> 上一篇文章《MySQL悲观锁总结和实践》谈到了MySQL悲观锁&#xff0c;但是悲观锁并不是适用于任何场景&#xff0c;它也有它存在的一些不足&#xff0c;因为悲观锁大多数情况下依靠数据库的锁机制实现&#xff0c;以保证操…

数据竞争(data race)问题分析的利器——valgrind的Helgrind

数据竞争&#xff08;data race&#xff09;是指在非线程安全的情况下&#xff0c;多线程对同一个地址空间进行写操作。一般来说&#xff0c;我们都会通过线程同步方法来保证数据的安全&#xff0c;比如采用互斥量或者读写锁。但是由于某些笔误或者设计的缺陷&#xff0c;还是存…

sql charindex函数

CHARINDEX函数返回字符或者字符串在另一个字符串中的起始位置。CHARINDEX函数调用方法如下&#xff1a; CHARINDEX ( expression1 , expression2 [ , start_location ] ) Expression1是要到expression2中寻找的字符中&#xff0c;start_location是CHARINDEX函数开始在expressi…

170亿参数加持,微软发布史上最大Transformer模型

来源 | 微软译者 | 刘畅出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;Turing Natural Language Generation&#xff08;T-NLG&#xff09;是微软提供的一个有170亿参数的语言模型&#xff0c;在许多NLP任务上均优于目前的SOTA技术。我们向学者演示了该模型&#xf…

iOS 开发 OC编程 数组冒泡排序.图书管理

// // main.m // oc -5 数组 // // Created by dllo on 15/10/28. // Copyright (c) 2015年 dllo. All rights reserved. // #import <Foundation/Foundation.h> #import "Student.h" #import "Book.h" int main(int argc, const char * argv[])…

C#中使用Monitor类、Lock和Mutex类来同步多线程的执行(转)

C#中使用Monitor类、Lock和Mutex类来同步多线程的执行 在多线程中&#xff0c;为了使数据保持一致性必须要对数据或是访问数据的函数加锁&#xff0c;在数据库中这是很常见的&#xff0c;但是在程序中由于大部分都是单线程的程序&#xff0c;所以没有加锁的必要&#xff0c;但是…

从0开始搭建编程框架——思考

需求来源于问题。&#xff08;转载请指明出于breaksoftware的csdn博客&#xff09; 之前有个人做前端开发的同学在群里问“C语言能做什么&#xff1f;能写网页么&#xff1f;”&#xff0c;然后大家就开始基于这个问题展开争辩。有的认为是“不能&#xff0c;从来没听说过C语言…

2月15日Python线上峰会免费学!6场精华分享,用代码“抗”疫

截至截止2月12号09时43分&#xff0c;新型冠状病毒在全国已确诊44726例&#xff0c;疑似病例已达21675例。而专家所说的“拐点”始终未至&#xff0c;受疫的影响&#xff0c;各大公司开启远程办公模式&#xff0c;将返回工作场所办公的时间一延再延。在抗疫前线&#xff0c;中国…

C#语言 数组

转载于:https://www.cnblogs.com/a849788087/p/4947939.html

从0开始搭建编程框架——主框架和源码

一个良好的结构是“对修改关闭&#xff0c;对扩展开放”的。&#xff08;转载请指明出于breaksoftware的csdn博客&#xff09; 这个过程就像搭建积木。框架本身需要有足够的向内扩展能力以使自身有进化能力&#xff0c;其次要有足够的外向扩展能力以使其可以方便定制业务。一般…

中文版开源!这或许是最经典的Python编程教材

整理 | AI科技大本营&#xff08;ID:rgznai100&#xff09;想入门Python&#xff0c;但一直没找到合适的参考书籍&#xff1f;《Think Python》是很多Python初学者的不二入门教材&#xff0c;受到广泛好评。该书原作者是美国Olin工程学院的教授Allen B. Downey&#xff0c;目前…

[流水账]毕业?工作?

离正常毕业时间还有1年多, 没想到这么早就开始感受到毕业的气息了. 前几天收到去参加IBM中国研究院校友座谈会的邀请, 因为有事没过去, 今天又接到了校友蒋师兄的电话来了解我的个人情况. 接到电话时蒋师兄先核对了一下信息, 然后要我介绍一下自己, 我做事一向比较谨慎, 对涉及…

Java并发编程-信号量

Semaphore 直译是信号量&#xff0c;它的功能比较好理解&#xff0c;就是通过构造函数设定一个数量的许可&#xff0c;然后通过 acquire 方法获得许可&#xff0c;release 方法释放许可。它还有 tryAcquire 和 acquireUninterruptibly 方法&#xff0c;可以根据自己的需要选择。…

从0开始搭建编程框架——插件

我将插件设计为两种类型。一种是框架自身携带的插件&#xff0c;用于增强其基础能力。一种是用户自定义插件&#xff0c;用于完成业务。本文将分别介绍在peleus框架下&#xff0c;这两种插件该怎么写。&#xff08;转载请指明出于breaksoftware的csdn博客&#xff09; 本文谈下…

蚂蚁金服AAAI收录论文曝光,动态网络剪枝方法、无语预训练的网络剪枝技术有重大突破...

来源 | 蚂蚁金服责编 | Carol出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;一年一度在人工智能方向的顶级会议之一AAAI 2020于2月7日至12日在美国纽约举行&#xff0c;旨在汇集世界各地的人工智能理论和领域应用的最新成果。以下是蚂蚁金服的技术专家对入选论文《基…

安装 Enthought Tool Suite 时遇到的问题

文&#xff1a;fasiondog 来源&#xff1a;http://blog.csdn.net/KongDong/archive/2009/05/26/4217942.aspx 因想研究一下Enthought Tool Suite &#xff0c;尤其是可能需要使用其中的Chaco 和Envisage 软 件包&#xff0c;便安装试用一下。刚开始装机时曾经使用新立得安装过…

SQL知识累积

详细介绍select的文章&#xff0c;展示原始数据、SQL、查询结果&#xff0c;以及在不同数据库下SQL应该如何写。 https://en.wikipedia.org/wiki/Select_(SQL) 目录如下&#xff1a; Contents [hide] 1 Examples 2 Limiting result rows 2.1 ROW_NUMBER() window fu…

C++拾趣——使用多态减少泛型带来的代码膨胀

泛型编程是C语言中一种非常重要的技术&#xff0c;它可以让我们大大减少相似代码编写量。有时候&#xff0c;我和同事提及该技术时&#xff0c;称它是“一种让编译器帮我们写代码的技术”。&#xff08;转载请指明出于breaksoftware的csdn博客&#xff09; C是一门静态语言&…

如何成为一个优秀的程序员

本文给出了十五个评定软件开发人员的标准&#xff0c;可以帮助程序员朋友从一个好的程序员成为一个优秀的程序员&#xff0c;和大家共飨&#xff01; 怎样评定一名软件开发人员&#xff1f;这是一个颇为奇怪的问题。现在已经有了很多的理论和形式来做这件事&#xff0c;人力资源…

2020年,最适合AI的5种编程语言

来源 | medium编译 | 张涛责编 | Carol出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;AI系统的开发必须有计算机代码&#xff0c;而计算机程序的开发有不同类型的编程语言可以选择。本文分析哪些编程语言最适合你的人工智能或机器学习用例开发。文中给出了一个想要在…

kafka生产者、消费者java示例

1. 生产者 import java.util.Properties; import kafka.javaapi.producer.Producer; import kafka.producer.KeyedMessage; import kafka.producer.ProducerConfig; public class MyProducer { public static void main(String[] args) { Properties props new Properti…