一套使用注入和Hook技术托管入口函数的方案
工作中,我们可能会经常使用开源项目解决一些领域中的问题。这种“拿来主义”是一种“专业人干专业事”的思想,非常实用。(转载请指明出于breaksoftware的csdn博客)
一般场景下,我们都是把开源项目代码编译到我们自己的项目中。这样的“融合”,就相当于让两个项目进行了“基因重组”,最终产出一个“基因战士”。在进行“基因重组”中,需要“专业人员”对开源项目中每个“基因序列”有足够的理解,这样才能正确挑选出适合的“序列”;还需要知晓这些“序列”的组合关系,才能将其正确“剪切”且“组装”到我们项目的“基因”中。
这对“专业人员”有着比较高的要求,因为研究透一套开源项目并不容易。
然而对于急需解决问题的人们来说,“拿来主义”应该足够简单且稳定。如果需要花很多时间去熟悉研究一个开源项目,并且不能保证使用的正确性,也不能保证开源项目内部实现的稳定性,就可能比较不值得。可以想象下,假如我们“基因重组”出来的“物种”总是夭折(频繁崩溃),是对项目多么大的打击。
这样的例子并不少,比较常见的是开源项目curl。它帮我们实现很多下载、上传等网络业务。几年前,我曾经花费了不少时间研究过它的使用。可以参见《实现HTTP协议Get、Post和文件上传功能——使用libcurl接口实现》,大家只管直接往后翻阅,就会发现这套“基因”并不是那么容易组装的。
再稍微复杂点,像视频领域的开源项目ffmpeg。之前为了熟悉它的“基因序列”,我也花费了不少时间,才摸清了套路。大家同样可以参见《ffmpeg api的应用——提取视频图片》,就会发现这套系统也有其独特的设计思路。而且比较悲剧的是,我们可能并不能将去各个方面都摸透。比如如何防止超时?如果防止启动过多线程?如果要解决这些关键而又“专业”的问题,可能就需要花费更多的时间。对于“拿来主义”来说,这可能就变味了。
而且,在实践中,我们发现一些开源项目自身的稳定性不是十分可靠(比如ffmpeg)。如果的在线服务是“重组”了这些项目的“基因”,就会面临着很大的稳定性风险。
这么看来,“基因重组”是需要“非常专业”的人员花费大量的时间来“组装”出一个不是十分理想产品的方案。
但是有些时候,我们出于“定制”、“高效”等原因不得不使用“基因重组”,那么就需要花很多金钱和时间去把上述问题都攻破。
可是,在实际场景中,并不是每个项目都“苛刻”到必须使用“基因重组”。
有些开源项目,是以工具的形式发布的,其公布的源码或者开放接口只是副产品。比如curl或者ffmpeg,我们可以使用这些可执行文件完成大部分业务。这就像人体需要糖分,我们可以直接食用饱含糖的香蕉。而不需要去把香蕉的基因和人类的基因“融合”,产生出一个只要晒晒太阳喝喝水就能产生糖的“转基因人”。
说了这么多,可能有人会说,不就是直接启动工具并接管输出么?不错,是这样的。但是我们追求可以更高点。
在最近工作中,我们就遇到这样场景。我提出一种“进程池”模型,即:这些工具是以独立进程运行的;这些进程组成一个动态可管理的池子。
这相对于“线程池”来说,就是新瓶装旧酒,没什么新意。但是从实现的角度来说,还是存在一些可以挖掘的技术点。比如一般工具都是在运行一次后就退出了,那就意味着工具进程频繁的生死。怎么解决这个问题?这就是本文要探讨的一个技术方案。
目前我想到的一个方案就是托管工具的主函数,然后替换成我们的函数。我们的函数负责和父进程通信传递请求(之前是通过命令行的方式)和结果,并且调用原来的主函数。
这个方案一个基础的技术点便是:如何托管工具的主函数?
首先我们需要明确一些基础知识。
- Main函数是主函数么?不一定。Main函数只是一种约定,我们的程序并不一定需要一个叫做main的函数才能运行。这块可以参见编译链接等知识。
- 主函数是进程运行的第一个函数么?不是。在调用主函数之前,系统还要做很多预分配等工作。这块可以参见进程启动的原理等知识。
- 哪些我们可以定制的行为可以在主函数之前执行?这个问题如果换做一道经典的面试题就是“全局变量是在什么时候被构建的”?我想大家已经知道了答案了。
因为只是一个方案的调研,我们先把问题简化。不求这个方案可以满足所有场景,但求大部分场景可以覆盖。于是本文的方案将基于一个假设:工具的主函数就是main。对于例外的场景,只要替换方案中寻找主函数的逻辑即可。
在linux系统中,我们启动另外一个可执行文件是通过fork和exec系列函数实现的。fork完之后,进程的代码空间还和主进程一样。exec系列函数被执行后,进程的代码空间就变成目标文件的了。这段割裂让我们无法常规的使用主进程中的代码去干预子进程。然而干预必须存在,否则怎么替换子进程的主函数?
这就需要使用注入技术了。注入分为提前注入和普通注入,提前注入要求在主函数执行之前注入。很明显我们需要提前注入,因为子进程主函数执行起来后,我们如何找到时机将流程切换到我们的“替换的主函数”中就是个比较困难的问题。关于这块的技术方案,我曾经写过一个windows下的系列。感兴趣的同学可以参见《VC下提前注入进程的一些方法1——远线程不带参数》,《VC下提前注入进程的一些方法2——远线程带参数》,《VC下提前注入进程的一些方法3——修改程序入口点》,《VC提前注入.net软件的方法》。
在linux下,一种常见的方案是使用ptrace。这块方案已经比较成熟,我就不再展开。除了这个之外,还有种比较简单的方案,就是使用LD_PRELOAD。使用过gperftools的同学应该对这个方案有点熟悉,它可以让我们检测没有“基因重组”gperftools的库的程序。但是它有个限制,要求进程动态加载libc.so。
在方案确定可行的情况下,我选用LD_PRELOAD。因为这只是调研,先把整体流程走通再说。最终我们会替换到一些终极方案,比如ptrace。
我们直接看主进程的代码
#include <iostream>
#include <unistd.h>
#include <sys/wait.h>
#include <sys/types.h>int main(int argc, char * argv[]) {std::cout << "parent main start" << std::endl;pid_t child = 0;int status = 0;child = fork();if (child == -1) {std::cerr << "fork error" << std::endl;return -1;}if (child == 0) {//in child processchar* newargv[] = { "./child", "hello", "world", nullptr };char* newenviron[] = { "LD_PRELOAD=./inject.so", nullptr };execve("./child", newargv, newenviron);}else {//in parent processwait(&status);std::cout << "child status=" << WEXITSTATUS(status) << std::endl;;}return 0;
}
主进程逻辑很简单,就是启动同录下一个叫做child的程序,并传递hello world这两个参数。同时使用LD_PRELOAD让子进程提前加载同目录下的inject.so文件。其编译指令是
g++ parent.cpp -ldl -o parent
子进程更简单,只是输出输入的参数,然后退出。
#include <iostream>
#include <dlfcn.h>int main(int argc, char** argv) {std::cout << "client main start" << std::endl;for (int i = 0; i < argc; i++) {std::cout << "argv[" << i << "]\t" << argv[i] << std::endl;}std::cout << "client main end" << std::endl;return 0;
}
但是其编译指令有点特别,需要额外加入-rdynamic。这是为了方便在注入模块中比较简单的获取主函数——main的地址。此时需要指出的是,这只是一个便捷的方案,而不是必要条件。因为如果我们限制了工具的编译方式,将极大限制这套方案的适用性。当然不可否认的是,寻找一个普遍适用的主函数地址并不是一件容易的事。目前我可能想到的替代方案是,通过hook libc库中的__libc_start_main,从其第一个参数中获取主函数地址。
g++ child.cpp -ldl -rdynamic -o child
现在我们看下注入的模块的代码
#include <iostream>
#include <dlfcn.h>
#include <limits.h>
#include <unistd.h>
#include <stdio.h>#include <iostream>
#include <dlfcn.h>
#include <limits.h>
#include <unistd.h>
#include <stdio.h>extern "C" {
#include "funchook.h"
}typedef int (*main_func)(int, char**);
main_func g_main_ori = nullptr;int main_stub(int argc, char** argv) {std::cout << "main_stub start" << std::endl;for (int i = 0; i < argc; i++) {std::cout << "main_stub argv[" << i << "]\t" << argv[i] << std::endl;}while (true) {sleep(1);g_main_ori(argc, argv);}return 0;
}class Inject {
public:Inject() {std::cout << "inject OK" << std::endl;void *handle = dlopen(NULL, RTLD_NOW|RTLD_GLOBAL);if (!handle) {std::cerr << "dlopen error" << std::endl;}else {std::cout << "cur module address:" << handle << std::endl;}void *ptr = dlsym(handle, "main");if (ptr) {std::cout << "inject main ptr:" << ptr << std::endl;}else {std::cerr << "inject get main ptr error" << std::endl;}funchook_t *funchook = funchook_create();g_main_ori = (main_func)ptr;int rv = funchook_prepare(funchook, (void**)&g_main_ori, (void*)main_stub);if (rv) {std::cerr << "funchook_prepare error " << rv << std::endl;}rv = funchook_install(funchook, 0);if (rv) {std::cerr << "funchook_install error " << rv << std::endl;}}
};class InjectHolder {
public:InjectHolder() {};
private:Inject _inject;
};static InjectHolder g_inject_holder;
第76行,我们定义了一个InjectHolder的全局变量。它在被注入进程的main函数之前被初始化。由于其包含Inject类的对象也将被初始化,这将触发其构造函数的执行。在Inject的构造函数中,我们将完成Hook主函数的功能。
第38到52行,我们试图从当前进程空间中获取main函数地址。使用dlsym只是一个简便方案,它需要子进程编译时使用-rdynamic。当然我们可以找到比较终极的寻找方案以去掉该限制。
第54到64行,我们试图使用自定义的main_stub函数替换原来的main函数。
第20到31行,我们定义的main_stub函数输出主进程传递过来的参数后,在一个死循环中调用原来的main函数。让main函数成为我们的一个子函数,并且可以保证进程不退出。
hook方案的选择我折腾了一段时间。首先我选用的是subhook库(https://github.com/Zeex/subhook.git)。很不幸。我发现这个库有着严重的问题,特别是处理64位程序时,基本可以认为是不可用。经过调试和对比内存变化,我发现其本质的缺陷是64位下,部分地址偏移算的有问题。我并不打算去研究这块,所以放弃寻找修复的方案。
最终,我找到funchook(https://github.com/kubo/funchook.git)。经验证,它在64位系统下是可用的。由于它编译产出是一个so文件,而我并不希望我们项目最终发布时需要发布多个so,于是就通过修改其Makefile文件,让其编译出一个静态库。然后inject.so“基因重组”这个libfunchook。
g++ inject.cpp -lfunchook -Wl,-rpath,../funchook/lib -L../funchook/lib -I../funchook/include -ldl -fPIC -rdynamic -shared -o inject.so
最后我们看下执行的效果
子进程main函数被我们托管了,从而子进程不再退出。这样我们就实现了进程池的基础关键技术。
作为对比,我们尝试在child编译时去掉-rdynamic参数,以使hook失败。这样的执行结果是:子进程执行一次主函数后便退出了。
最后说一下,这个托管主函数的方案不是十全十美。因为有些程序通过注册信号回调干了很多事,而这套方案只适用于那些相对正常的程序。
大家可以从https://github.com/f304646673/hookmain.git获取测试的代码。
相关文章:

微软发布虚机管理SCVMM 2008 R2 RC版
来源:IT168服务器频道近日,微软发布了SCVMM(系统中心虚拟机管理器,System Center Virtual Machine Manager)2008 R2的RC版本。据了解,新的SCVMM相比去年的版本增加了六大新功能,目前用户可以从W…
AI芯片行业发展的来龙去脉
作者 | 清华大学微电子学研究所尹首一来源 | 《微纳电子与智能制造》期刊引言人 工 智 能( aritificial intelligence ,AI )是 一 门融合了数学 、计算机科学 、统计学 、脑神经学和社会科学 的前沿综合性技术。它的目标是希望计算机可以像 人一样思考 ,…

8)排序②排序算法之选择排序[1]直接选择排序
1 #include<iostream>2 using namespace std;3 4 //*******直接选择排序*********5 int select_sort(int n,int array[100]){6 int i,j;7 for(i0;i<n;i){8 for(ji;j<n;j){9 if(array[i]>array[j]){ 10 int temparr…

一份招聘需求的分析
今早,长期合作伙伴又给我们一份招聘需求,以下是招聘条件: 工作性质:全职 工作地点:南京 发布日期:2009/6/15 截止日期:2009/6/30 招聘人数:6 工作经验:不限 学 历&…

bug诞生记——隐蔽的指针偏移计算导致的数据错乱
C语言为了兼容C语言,做了很多设计方面的考量。但是有些兼容设计产生了不清晰的认识。本文就将讨论一个因为认知不清晰而导致的bug。(转载请指明出于breaksoftware的csdn博客) class Base { public:Base() default;void set_v_b(int v_b) {_…
福利直投!这个活动承包你2020全年技术干货
CSDN技术公开课有奖评选开始啦~~听过课的小伙伴们,哪位讲师的分享让你获益匪浅?记得给TA投票哦!投票后获取入群方式,参与抽奖,奖品很丰厚哦~~进入付费时代,如今我们看似只要招招手,一切知识随手…

第四章 Controller接口控制器详解(5)——跟着开涛学SpringMVC
2019独角兽企业重金招聘Python工程师标准>>> 原创内容,转载请注明iteye http://jinnianshilongnian.iteye.com/ 4.15、MultiActionController 之前学过的控制器如AbstractCommandController、SimpleFormController等一般对应一个功能处理方法ÿ…
自动机器学习:团队如何在自动学习项目中一起工作?(附链接)
来源 | 数据派THU作者 | Francesca Lazzeri翻译 | 王琦责编 | Carol出品 | AI科技大本营(ID:rgznai100)去年11月,我写了一篇关于使用自动机器学习来进行AI民主化(democratization)的文章(见下面链接&#x…
C++拾趣——STL容器的插入、删除、遍历和查找操作性能对比(ubuntu g++)——插入
操作系统是ubuntu 18.04.1 server amd64,gcc是 7.3.0。编译产出是64位测试程序。(转载请指明出于breaksoftware的csdn博客) 因为加入测量,就会导致误差。我已经尽量将环境影响降低,但是还是难免有误差。大家可以通过文…

SSIS中的记录集目标
这一篇,我们来看看另外一个特殊的目标组件:记录集目标。它与DataReader目标有些类似,也是在内存中的。但与DataReader目标不同的是,它可以被下游任务使用。 它的使用也比较简单,我们一般指定一个变量来接收它的结果&am…

Leetcode: Maximum Depth of Binary Tree
题目:算出二叉树的最大深度 解决方案:(1)BFS (2)DFS (1)BFS 一层一层往下搜索,一直找到最深的点,这里由于节点的val是没有用的,所以可以用来存储当前节点的深度ÿ…
C++拾趣——STL容器的插入、删除、遍历和查找操作性能对比(ubuntu g++)——删除
相关环境和说明在《C拾趣——STL容器的插入、删除、遍历和查找操作性能对比(ubuntu g)——插入》已给出。本文将分析从头部、中间和尾部对各个容器进行删除的性能。(转载请指明出于breaksoftware的csdn博客) 删除 头部删除 元素…
一文告诉你,如何使用Python构建一个“谷歌搜索”系统 | 内附代码
来源 | hackernoon编译 | 武明利责编 | Carol出品 | AI科技大本营(ID:rgznai100)在这篇文章中,我将向您展示如何使用Python构建自己的答案查找系统。基本上,这种自动化可以从图片中找到多项选择题的答案。有一件事我们要清楚&…

WatchStor观察:思科携EMC等合作伙伴 圈地数据中心市场
早在今年3月,思科在加利福尼亚州圣何塞市展会中展示了“统一计算系统”(Unified Computing System)之后,我们就明白,数据中心市场将会发生巨大改变,传统的以IBM、惠普、戴尔和Sun为主导的服务器电脑市场,将受到以思科为…
使用BabeLua3.x在cocos2d-x中编辑和调试Lua
BabeLua是一款基于VS2012/2013的Lua集成开发环境,具有Lua语法高亮,语法检查,自动补全,快速搜索,注入宿主程序内对Lua脚本进行调试,设置断点观察变量值,查看堆栈信息等功能。 如何安装 请参考《系…

ASA与PIX的区别
很多年来,Cisco PIX一直都是Cisco确定的防火墙。但是在2005年5月,Cisco推出了一个新的产品——适应性安全产品(ASA,Adaptive Security Appliance)。不过,PIX还依旧可用。我已听到很多人在多次询问这两个产品…
C++拾趣——STL容器的插入、删除、遍历和查找操作性能对比(ubuntu g++)——遍历和查找
相关环境和说明在《C拾趣——STL容器的插入、删除、遍历和查找操作性能对比(ubuntu g)——插入》已给出。本文将分析各个容器中遍历和查找的性能。(转载请指明出于breaksoftware的csdn博客) 遍历 从前往后 元素个数>15000 t…
买不到口罩怎么办?Python爬虫帮你时刻盯着自动下单!| 原力计划
作者 | 菜园子哇编辑 | 唐小引来源 | CSDN 博客马上上班了,回来的路上,上班地铁上都是非常急需口罩的。目前也非常难买到正品、发货快的口罩,许多药店都售完了。并且,淘宝上一些新店口罩库存写着非常多,但不发货&#…

GlusterFS下如何修复裂脑文件?(续一)
关于网上一些修复GlusterFS裂脑文件的说明1、Fixing a GlusterFS split-brainhttps://inuits.eu/blog/fixing-glusterfs-split-brain在该文章中,删除无效副本时提供的方法如下:srv02$ sudo find /export/brick1/sdb1/ -samefile /export/brick1/sdb1/tes…

MySQL数据库环境使用全过程
在使用MySQL之前,需要建立数据库的环境来创建数据表,首先我们需要安装该数据库环境,即MySQL。1、下载MySQLMySQL的官方网站是http://www.mysql.org/,如图2-9所示:图2-9 MySQL官方网站当前稳定版本为5.1,我…
C++拾趣——STL容器的插入、删除、遍历和查找操作性能对比(Windows VirtualStudio)——插入
操作系统是Windows10 64bit,编译器是 Microsoft Virtual Studio Community 10。编译产出是64位测试程序。(转载请指明出于breaksoftware的csdn博客) 因为加入测量,就会导致误差。我已经尽量将环境影响降低,但是还是难免…
“夸夸机器人”App来了:变身百万粉丝大V,48万人给你的帖子点赞
来源 | mashable译者 | Kolen出品 | AI科技大本营(ID:rgznai100)我在Botnet上的第一条帖子获得了48万个赞。一款全新的社交媒体风格的应用为用户提供了生活在一个奇特网络虚拟世界的机会。在这个世界里,你将拥有数以百万计的粉丝,…

leetcode Reverse Linked List
Reverse a singly linked list 对于这种可以修改值的,把值逆序就可以了。。。。用vector存,然后逆序读。 都忘了指针怎么赋值初始化了。*p&head; 1 /**2 * Definition for singly-linked list.3 * struct ListNode {4 * int val;5 * Lis…
抗击新冠肺炎,如何进行实时动态时序图谱建模与分析?
作者 | 闭雨哲来源 | ThutmoseAI背景介绍新冠肺炎是一种具有最长达24天潜伏期的新型突发性传染疾病,这种特性给疫情防控带来了巨大的挑战,随着感染规模的不断扩增,简单的人为治理已不太奏效,使用“大数据”技术手段来辅助人为治理…
C++拾趣——STL容器的插入、删除、遍历和查找操作性能对比(Windows VirtualStudio)——删除
相关环境和说明在《C拾趣——STL容器的插入、删除、遍历和查找操作性能对比(Windows VirtualStudio)——插入》已给出。本文将分析从头部、中间和尾部对各个容器进行删除的性能。(转载请指明出于breaksoftware的csdn博客) 删除 …

关于服务器启动慢的问题
今天去了家医院的机房,走进去一看,TMD的医院就是有钱,全是光纤和千兆网络环境,全全是思科的三层交换机和路由器,HP的服务器。我们需要安装点东西,登录一台服务器,我一看配置,呵呵&am…

python依赖包exe文件安装问题
2019独角兽企业重金招聘Python工程师标准>>> 在使用python的exe程序安装依赖包的时候,经常会出现类似于下面的错误: python version 2.7 required,which was not found in the registry 可以使用如下代码解决该问题: # # script to register …
C++拾趣——STL容器的插入、删除、遍历和查找操作性能对比(Windows VirtualStudio)——遍历和删除
相关环境和说明在《C拾趣——STL容器的插入、删除、遍历和查找操作性能对比(Windows VirtualStudio)——插入》已给出。本文将分析各个容器中遍历和查找的性能。(转载请指明出于breaksoftware的csdn博客) 遍历 从前往后 travers…
技术战“疫”,贾扬清、李飞飞要给程序员直播讲AI技术!
「时势造英雄,英雄亦造时势。」在这场波及全球且看不见硝烟的疫情下,无数英雄日夜奋战,无论是身处一线的医护工作者、政府职能部门、志愿者,还是坚守在家的人民群众,都在尽自己所能,在行动!与此…

关于端口映射的一个命令
今天安装一个远程会诊的系统,由于是在不同和的地方,需要在路由器上作下映射,由于是要远程连接对方的服务器,所以要在对方的路由器上设置下Interface fastethernet0/0 Ip address 192.168.1.1 255.255.255.0 Duplex auto Speed aut…