ffmpeg api的应用——提取视频图片
这些年来,“短视频”吸引了无数网民的注意。相对于丰富有趣的内容,我们码农可能更关心其底层技术实现。本系列文章将结合ffmpeg,讲解几则视频处理案例。(转载请指明出于breaksoftware的csdn博客)
“短视频”都是以“文件"的形式保存于服务器上。任何一个便于传播的文件都会有一种定义良好的格式,同样视频也有其格式。这系列我们不会去从微观的角度去分析这些格式,因为其应用意义不是很大。我们将从宏观角度去分析,视频文件应该包含哪些信息?
能确定的是,大部分情况下,我们可以使用眼睛看到“图像”,使用耳朵听到“声音”。如果我们关闭其中任意一个器官,就将停止接受对应的信息;而没有关闭的器官还和之前一样接受信息,不受影响。
所以目前至少我们可以把视频分为:图像和声音两个模块。那这两个模块是怎么组合的?是不是一个极短时间内的图像和声音(比如我们此时此刻正看到的图像和听到的声音)融合在一个“区块”中?
从设计的角度说,“耦合”是非常不好的。如果将图像和声音信息融合在一个“区块”中,就是一种很强的“耦合”。一种良好的设计就像我们小时候在电影院看的电影文件(不知道现在电影播放的原理):一个文件用于播放图像,一个文件用于播放声音。这样我们可以配一个普通话版,一个英语版、一个法语版……的音频文件,而不用去修改播放的图像文件。但是我们在PC上看到的视频文件是一个独立文件,那是怎么搞的?
于是在设计就要在“易用”和“可维护”之间做个平衡:宏观层面融合图像和声音文件,微观层面图像和声音信息是分离的。对应到ffmpeg上来说就是:
- 图像文件和声音文件分别是一个流——AVStream结构;
- 图像文件和声音文件微观分离体现在它们都是独立的包——AVPacket;
- 图像文件和声音文件宏观融合是通过“视音频复用器——Muxer”融合的;
以ffmpeg4.0.2版本的API为例
void get_video_pictures(const char* file_path) {std::unique_ptr<AVFormatContext, std::function<void(AVFormatContext*)>> avfmt_ctx_t(avformat_alloc_context(),[](AVFormatContext *s) {if (s) {avformat_close_input(&s);}});AVFormatContext* && avfmt_ctx = avfmt_ctx_t.get();if (avformat_open_input(&avfmt_ctx, file_path, NULL, NULL)) {std::cerr << "avformat_open_input error";return;}
首先我们需要构造一个AVFormatContext对象,它用于承载我们分析文件的上下文。Context(上下文)这个概念在ffmpeg中非常重要,我们可以通过它的一些参数干预ffmpeg底层的行为,还可以通过它获得对应层面的信息。之后我们会遇到各种Context。这类Context的使用有比较固定的套路:
- 使用XXXXX_alloc_context分配空间。AVFormatContext对应的就是avformat_alloc_context。
- 使用XXXXX_openXXX初始化。AVFormatContext对应的就是avformat_open_input。
- 使用XXXXX_free_context释放空间。AVFormatContext对应的就是avformat_free_context。由于avformat_close_input包含了更多的释放操作,且其底层也会调用avformat_free_context,所以此处我们使用了它。
AVFormatContext有个两个和“流”——AVStream相关的信息:nb_streams和streams。后者是一个AVStream数组的首地址,前者是该数组的元素个数。我们可以遍历所有流
for (unsigned int i = 0; i < avfmt_ctx->nb_streams; i++) {AVStream *st = avfmt_ctx->streams[i];
之前我们谈到,图像和声音分别属于不同的流,于是我们可以通过AVStream::codecpar::codec_type辨别流
enum AVMediaType {AVMEDIA_TYPE_UNKNOWN = -1, ///< Usually treated as AVMEDIA_TYPE_DATAAVMEDIA_TYPE_VIDEO,AVMEDIA_TYPE_AUDIO,AVMEDIA_TYPE_DATA, ///< Opaque data information usually continuousAVMEDIA_TYPE_SUBTITLE,AVMEDIA_TYPE_ATTACHMENT, ///< Opaque data information usually sparseAVMEDIA_TYPE_NB
};
在这组枚举类型中,我们还看到AVMEDIA_TYPE_SUBTITLE,它是“字幕流”类型。可以见得,字幕并不是刻印在图像上的。在现实生活中,我们在播放器中可以选择不同的字幕,不同的语言配音(英文/中文),这些都是以流的形式保存在视频文件这个容器中的,而且它们还可以是多份的。比如中文配音是一个流,英文配音是一个流,中文字幕是一个流,英文字幕是一个流。
如本文标题,我们需要从图像流中提取图片,于是切入AVMEDIA_TYPE_VIDEO类型的流进行操作
if (st->codecpar->codec_type == AVMEDIA_TYPE_VIDEO) {std::unique_ptr<AVCodecContext, std::function<void(AVCodecContext*)>> avcodec_ctx(avcodec_alloc_context3(NULL),[](AVCodecContext *avctx) {if (avctx) {avcodec_free_context(&avctx);}});if (0 > avcodec_parameters_to_context(avcodec_ctx.get(), st->codecpar)) {std::cerr << "avcodec_parameters_to_context error.stream " << i;continue;}AVCodec *avcodec = avcodec_find_decoder(avcodec_ctx->codec_id);if (avcodec_open2(avcodec_ctx.get(), avcodec, NULL) < 0) {std::cerr << "Failed to open codec" << std::endl;continue;}save_video_pic(avfmt_ctx, i, avcodec_ctx.get());}}
}
对于每个流,也有其自身的格式。我们需要使用解码器对该流进行解码分析,所以这次会涉及到AVCodecContext结构。和之前的Context使用套路一致:
- 使用avcodec_alloc_context3申请空间;
- 使用avcodec_free_context释放空间;
- 通过avcodec_parameters_to_context以流中解码器信息初始化;
- 通过avcodec_find_decoder找到对应的解码器;
- 使用avcodec_open2和上述找到的解码器,打开这个上下文;
这次我们没有使用avcodec_open2对应的avcodec_close方法,是因为该方法在4.0.2版本中被声明为“即将废弃”
/*** Close a given AVCodecContext and free all the data associated with it* (but not the AVCodecContext itself).** Calling this function on an AVCodecContext that hasn't been opened will free* the codec-specific data allocated in avcodec_alloc_context3() with a non-NULL* codec. Subsequent calls will do nothing.** @note Do not use this function. Use avcodec_free_context() to destroy a* codec context (either open or closed). Opening and closing a codec context* multiple times is not supported anymore -- use multiple codec contexts* instead.*/
int avcodec_close(AVCodecContext *avctx);
类似的,我们没有直接使用AVSteam中的AVCodecContext *codec,也是因为它“即将废弃”
attribute_deprecatedAVCodecContext *codec;
通过avcodec_open2打开一个和解码器相关的上下文后,我们就可以开始解码了。在这之前需要熟悉两个比较微观的结构——AVPacket和AVFrame。AVPacket是编码后(未解码)的数据结构,AVFrame是编码前(未编码)的结构。所以我们从一个视频文件中,通过av_read_frame读出来的是一个尚未解码的数据——AVPacket。
void save_video_pic(AVFormatContext *avfmt_ctx, int stream_index, AVCodecContext *avcodec_ctx) {int err = av_seek_frame(avfmt_ctx, -1, avfmt_ctx->start_time, 0);do {std::unique_ptr<AVPacket, std::function<void(AVPacket*)>> avpacket_src(av_packet_alloc(), [](AVPacket *pkt) {if (pkt) {av_packet_free(&pkt);}});av_init_packet(avpacket_src.get());if (av_read_frame(avfmt_ctx, avpacket_src.get()) < 0) {break;}if (avpacket_src->stream_index != stream_index) {continue;}
注意第16行,它通过判断读出来的AVPacket的stream_index是否为之前分析出来的视频流下标,决定是否继续执行。 这个流程说明不同流的AVPacket在文件中可以是穿插分布的。这种设计存在一定的合理性。因为在同一时刻,图像、声音、字幕等都要展现出来,顺序性读取并解析可以减少频繁的跳转。
因为编解码过程比较类似,我将过程中结果保存组织在一个模板类中
template<typename Component>
class AvComponentStore {
public:virtual void save(Component *d) = 0;
};template<typename Component>
class TransStore :public AvComponentStore<Component>
{
public:TransStore(std::function<Component*(const Component*)> clone, std::function<void(Component**)> free) {_clone = clone;_free = free;}~TransStore() {for (auto it = _store.begin(); it != _store.end(); it++) {if (*it) {_free(&*it);}}}
public:void traverse(std::function<void(Component*)> t) {if (!t) {return;}for (auto it = _store.begin(); it != _store.end(); it++) {if (*it) {t(*it);}}}
public:virtual void save(Component *d) {Component *p = _clone(d);_store.push_back(p);}
private:std::vector<Component*> _store;std::function<Component*(const Component*)> _clone;std::function<void(Component**)> _free;
};using PacketsStore = TransStore<AVPacket>;
using FramesStore = TransStore<AVFrame>;
FrameStore用于保存AVPacket的解码结果。对于中间产生的AVFrame结构,我们使用av_frame_clone深度拷贝。FrameStore对象释放时,将通过av_frame_free释放这些空间和资源。
std::shared_ptr<FramesStore> frames_store = std::make_shared<FramesStore>(av_frame_clone, av_frame_free);decode_packet(avcodec_ctx, avpacket_src.get(), frames_store);frames_store->traverse(traverse_frame);} while (true);
}
解码AVPacket通过avcodec_send_packet和avcodec_receive_frame实现。从语义上说,我们将一个解码前的数据发送给一个解码器上下文,然后从这个解码器上下文中获得解码后的数据。
int decode_packet(AVCodecContext *avctx, AVPacket *pkt, std::shared_ptr<FramesStore> store) {int ret = avcodec_send_packet(avctx, pkt);if (ret < 0 && ret != AVERROR_EOF) {return ret;}std::unique_ptr<AVFrame, std::function<void(AVFrame*)>> frame(av_frame_alloc(),[](AVFrame *frame) {if (frame) {av_frame_free(&frame);}});ret = avcodec_receive_frame(avctx, frame.get());if (ret >= 0) {store->save(frame.get());}else if (ret < 0 && ret != AVERROR(EAGAIN)) {return ret;}return 0;
}
对于每个解码后的数据,我们需要通过图片编码器将其编码成一个图片文件。
和之前生成解码器上下文相似,我们要构造一个编码器上下文。这次我们要使用avcodec_find_encoder去寻找编码器
void traverse_frame(AVFrame* avframe) {AVCodec *avcodec = avcodec_find_encoder(AV_CODEC_ID_MJPEG);
然后使用avcodec_open2去打开一个和该编码器相关的上下文
std::unique_ptr<AVCodecContext, std::function<void(AVCodecContext*)>> avcodec_ctx_output(avcodec_alloc_context3(avcodec),[](AVCodecContext *avctx) {if (avctx) {avcodec_free_context(&avctx);}});avcodec_ctx_output->width = avframe->width;avcodec_ctx_output->height = avframe->height;avcodec_ctx_output->time_base.num = 1;avcodec_ctx_output->time_base.den = 1000;avcodec_ctx_output->pix_fmt = AV_PIX_FMT_YUVJ420P;avcodec_ctx_output->codec_id = avcodec->id;avcodec_ctx_output->codec_type = AVMEDIA_TYPE_VIDEO;if (avcodec_open2(avcodec_ctx_output.get(), avcodec, nullptr) < 0) {std::cerr << "Failed to open codec" << std::endl;return;}
encode_frame方法将把每个AVFrame打包成若干个AVPacket,并保存在PacketsStore对象中
std::shared_ptr<PacketsStore> packets_store = std::make_shared<PacketsStore>(av_packet_clone, av_packet_free);if (encode_frame(avcodec_ctx_output.get(), avframe, packets_store) < 0) {std::cerr << "encode_frame error" << std::endl;return;}
编码的过程使用avcodec_send_frame和avcodec_receive_packet方法。从语义上就是将一个解码前的数据发送到一个编码器上下文,然后从这个上下文中获得编码后的数据。
int encode_frame(AVCodecContext *c, AVFrame *frame, std::shared_ptr<PacketsStore> store) {int ret;int size = 0;std::unique_ptr<AVPacket, std::function<void(AVPacket*)>> pkt(av_packet_alloc(),[](AVPacket *pkt) {if (pkt) {av_packet_free(&pkt);}});av_init_packet(pkt.get());ret = avcodec_send_frame(c, frame);if (ret < 0) {return ret;}do {ret = avcodec_receive_packet(c, pkt.get());if (ret >= 0) {store->save(pkt.get());size += pkt->size;av_packet_unref(pkt.get());}else if (ret < 0 && ret != AVERROR(EAGAIN) && ret != AVERROR_EOF) {return ret;}} while (ret >= 0);return size;
}
在编码完数据后,我们将其保存到一个文件中。
std::string&& file_name = gen_pic_name(avframe);std::unique_ptr<std::FILE, std::function<int(FILE*)>> file(std::fopen(file_name.c_str(), "wb"), std::fclose);packets_store->traverse([&file](AVPacket* packet){fwrite(packet->data, 1, packet->size, file.get());});
}
相关文章:
蚂蚁金服AAAI论文:基于长短期老师的样本蒸馏方法和自动车险定损系统的最新突破...
来源 | 蚂蚁金服出品 | AI科技大本营(ID:rgznai100)一年一度在人工智能方向的顶级会议之一AAAI 2020于2月7日至12日在美国纽约举行,旨在汇集世界各地的人工智能理论和领域应用的最新成果。以下是蚂蚁金服的技术专家对入选论文《基于长短期老师…

C# 实现HTML转换成图片的方法
/// <summary> /// 通过WebBrowser控件来实现从HTML到Bmp图片的生成。 /// </summary> /// <param name"htmPath">HTML路径</param> /// <returns>Bmp图片路径</returns> private static st…
一套使用注入和Hook技术托管入口函数的方案
工作中,我们可能会经常使用开源项目解决一些领域中的问题。这种“拿来主义”是一种“专业人干专业事”的思想,非常实用。(转载请指明出于breaksoftware的csdn博客) 一般场景下,我们都是把开源项目代码编译到我们自己的…

微软发布虚机管理SCVMM 2008 R2 RC版
来源:IT168服务器频道近日,微软发布了SCVMM(系统中心虚拟机管理器,System Center Virtual Machine Manager)2008 R2的RC版本。据了解,新的SCVMM相比去年的版本增加了六大新功能,目前用户可以从W…
AI芯片行业发展的来龙去脉
作者 | 清华大学微电子学研究所尹首一来源 | 《微纳电子与智能制造》期刊引言人 工 智 能( aritificial intelligence ,AI )是 一 门融合了数学 、计算机科学 、统计学 、脑神经学和社会科学 的前沿综合性技术。它的目标是希望计算机可以像 人一样思考 ,…

8)排序②排序算法之选择排序[1]直接选择排序
1 #include<iostream>2 using namespace std;3 4 //*******直接选择排序*********5 int select_sort(int n,int array[100]){6 int i,j;7 for(i0;i<n;i){8 for(ji;j<n;j){9 if(array[i]>array[j]){ 10 int temparr…

一份招聘需求的分析
今早,长期合作伙伴又给我们一份招聘需求,以下是招聘条件: 工作性质:全职 工作地点:南京 发布日期:2009/6/15 截止日期:2009/6/30 招聘人数:6 工作经验:不限 学 历&…

bug诞生记——隐蔽的指针偏移计算导致的数据错乱
C语言为了兼容C语言,做了很多设计方面的考量。但是有些兼容设计产生了不清晰的认识。本文就将讨论一个因为认知不清晰而导致的bug。(转载请指明出于breaksoftware的csdn博客) class Base { public:Base() default;void set_v_b(int v_b) {_…
福利直投!这个活动承包你2020全年技术干货
CSDN技术公开课有奖评选开始啦~~听过课的小伙伴们,哪位讲师的分享让你获益匪浅?记得给TA投票哦!投票后获取入群方式,参与抽奖,奖品很丰厚哦~~进入付费时代,如今我们看似只要招招手,一切知识随手…

第四章 Controller接口控制器详解(5)——跟着开涛学SpringMVC
2019独角兽企业重金招聘Python工程师标准>>> 原创内容,转载请注明iteye http://jinnianshilongnian.iteye.com/ 4.15、MultiActionController 之前学过的控制器如AbstractCommandController、SimpleFormController等一般对应一个功能处理方法ÿ…
自动机器学习:团队如何在自动学习项目中一起工作?(附链接)
来源 | 数据派THU作者 | Francesca Lazzeri翻译 | 王琦责编 | Carol出品 | AI科技大本营(ID:rgznai100)去年11月,我写了一篇关于使用自动机器学习来进行AI民主化(democratization)的文章(见下面链接&#x…
C++拾趣——STL容器的插入、删除、遍历和查找操作性能对比(ubuntu g++)——插入
操作系统是ubuntu 18.04.1 server amd64,gcc是 7.3.0。编译产出是64位测试程序。(转载请指明出于breaksoftware的csdn博客) 因为加入测量,就会导致误差。我已经尽量将环境影响降低,但是还是难免有误差。大家可以通过文…

SSIS中的记录集目标
这一篇,我们来看看另外一个特殊的目标组件:记录集目标。它与DataReader目标有些类似,也是在内存中的。但与DataReader目标不同的是,它可以被下游任务使用。 它的使用也比较简单,我们一般指定一个变量来接收它的结果&am…

Leetcode: Maximum Depth of Binary Tree
题目:算出二叉树的最大深度 解决方案:(1)BFS (2)DFS (1)BFS 一层一层往下搜索,一直找到最深的点,这里由于节点的val是没有用的,所以可以用来存储当前节点的深度ÿ…
C++拾趣——STL容器的插入、删除、遍历和查找操作性能对比(ubuntu g++)——删除
相关环境和说明在《C拾趣——STL容器的插入、删除、遍历和查找操作性能对比(ubuntu g)——插入》已给出。本文将分析从头部、中间和尾部对各个容器进行删除的性能。(转载请指明出于breaksoftware的csdn博客) 删除 头部删除 元素…
一文告诉你,如何使用Python构建一个“谷歌搜索”系统 | 内附代码
来源 | hackernoon编译 | 武明利责编 | Carol出品 | AI科技大本营(ID:rgznai100)在这篇文章中,我将向您展示如何使用Python构建自己的答案查找系统。基本上,这种自动化可以从图片中找到多项选择题的答案。有一件事我们要清楚&…

WatchStor观察:思科携EMC等合作伙伴 圈地数据中心市场
早在今年3月,思科在加利福尼亚州圣何塞市展会中展示了“统一计算系统”(Unified Computing System)之后,我们就明白,数据中心市场将会发生巨大改变,传统的以IBM、惠普、戴尔和Sun为主导的服务器电脑市场,将受到以思科为…
使用BabeLua3.x在cocos2d-x中编辑和调试Lua
BabeLua是一款基于VS2012/2013的Lua集成开发环境,具有Lua语法高亮,语法检查,自动补全,快速搜索,注入宿主程序内对Lua脚本进行调试,设置断点观察变量值,查看堆栈信息等功能。 如何安装 请参考《系…

ASA与PIX的区别
很多年来,Cisco PIX一直都是Cisco确定的防火墙。但是在2005年5月,Cisco推出了一个新的产品——适应性安全产品(ASA,Adaptive Security Appliance)。不过,PIX还依旧可用。我已听到很多人在多次询问这两个产品…
C++拾趣——STL容器的插入、删除、遍历和查找操作性能对比(ubuntu g++)——遍历和查找
相关环境和说明在《C拾趣——STL容器的插入、删除、遍历和查找操作性能对比(ubuntu g)——插入》已给出。本文将分析各个容器中遍历和查找的性能。(转载请指明出于breaksoftware的csdn博客) 遍历 从前往后 元素个数>15000 t…
买不到口罩怎么办?Python爬虫帮你时刻盯着自动下单!| 原力计划
作者 | 菜园子哇编辑 | 唐小引来源 | CSDN 博客马上上班了,回来的路上,上班地铁上都是非常急需口罩的。目前也非常难买到正品、发货快的口罩,许多药店都售完了。并且,淘宝上一些新店口罩库存写着非常多,但不发货&#…

GlusterFS下如何修复裂脑文件?(续一)
关于网上一些修复GlusterFS裂脑文件的说明1、Fixing a GlusterFS split-brainhttps://inuits.eu/blog/fixing-glusterfs-split-brain在该文章中,删除无效副本时提供的方法如下:srv02$ sudo find /export/brick1/sdb1/ -samefile /export/brick1/sdb1/tes…

MySQL数据库环境使用全过程
在使用MySQL之前,需要建立数据库的环境来创建数据表,首先我们需要安装该数据库环境,即MySQL。1、下载MySQLMySQL的官方网站是http://www.mysql.org/,如图2-9所示:图2-9 MySQL官方网站当前稳定版本为5.1,我…
C++拾趣——STL容器的插入、删除、遍历和查找操作性能对比(Windows VirtualStudio)——插入
操作系统是Windows10 64bit,编译器是 Microsoft Virtual Studio Community 10。编译产出是64位测试程序。(转载请指明出于breaksoftware的csdn博客) 因为加入测量,就会导致误差。我已经尽量将环境影响降低,但是还是难免…
“夸夸机器人”App来了:变身百万粉丝大V,48万人给你的帖子点赞
来源 | mashable译者 | Kolen出品 | AI科技大本营(ID:rgznai100)我在Botnet上的第一条帖子获得了48万个赞。一款全新的社交媒体风格的应用为用户提供了生活在一个奇特网络虚拟世界的机会。在这个世界里,你将拥有数以百万计的粉丝,…

leetcode Reverse Linked List
Reverse a singly linked list 对于这种可以修改值的,把值逆序就可以了。。。。用vector存,然后逆序读。 都忘了指针怎么赋值初始化了。*p&head; 1 /**2 * Definition for singly-linked list.3 * struct ListNode {4 * int val;5 * Lis…
抗击新冠肺炎,如何进行实时动态时序图谱建模与分析?
作者 | 闭雨哲来源 | ThutmoseAI背景介绍新冠肺炎是一种具有最长达24天潜伏期的新型突发性传染疾病,这种特性给疫情防控带来了巨大的挑战,随着感染规模的不断扩增,简单的人为治理已不太奏效,使用“大数据”技术手段来辅助人为治理…
C++拾趣——STL容器的插入、删除、遍历和查找操作性能对比(Windows VirtualStudio)——删除
相关环境和说明在《C拾趣——STL容器的插入、删除、遍历和查找操作性能对比(Windows VirtualStudio)——插入》已给出。本文将分析从头部、中间和尾部对各个容器进行删除的性能。(转载请指明出于breaksoftware的csdn博客) 删除 …

关于服务器启动慢的问题
今天去了家医院的机房,走进去一看,TMD的医院就是有钱,全是光纤和千兆网络环境,全全是思科的三层交换机和路由器,HP的服务器。我们需要安装点东西,登录一台服务器,我一看配置,呵呵&am…

python依赖包exe文件安装问题
2019独角兽企业重金招聘Python工程师标准>>> 在使用python的exe程序安装依赖包的时候,经常会出现类似于下面的错误: python version 2.7 required,which was not found in the registry 可以使用如下代码解决该问题: # # script to register …