图像在计算机中通过什么方式表示_万物皆可“计算机视觉”


本文为 AI 研习社编译的技术博客,原标题 :
How to do everything in Computer Vision
作者 | George Seif
翻译 | chesc、Disillusion、Ophria
校对 | 邓普斯•杰弗 审核 | Lam-W 整理 | 菠萝妹
原文链接:https://towardsdatascience.com/how-to-do-everything-in-computer-vision-2b442c469928

想做计算机视觉?深度学习是最近的发展方向。大规模数据集加上深度卷积神经网络(CNNs)的表征能力使得超精确和稳健的模型成为可能。现在只剩下一个挑战:如何设计你的模型。
由于计算机视觉领域广泛而复杂,因此解决方案并不总是很清晰。计算机视觉中的许多标准任务都需要特别考虑:分类,检测,分割,姿态估计,增强和恢复,动作识别。尽管用于每个任务的最先进的网络表现出共同的模式,但他们都需要自己独特的设计风格。
那么我们如何为所有这些不同的任务建立模型呢?
让我来告诉你如何用深度学习在计算机视觉中做所有事情!
分类
所有任务中最为人所知的!图像分类网络以固定尺寸的输入开始。输入图像可以具有任意数量的通道,但对于RGB图像通常为3。在设计网络时,分辨率在技术上可以是任何尺寸,只要它足够大以支持你将在整个网络中执行的下采样数量。例如,如果您在网络中进行4次下采样,那么您的输入尺寸需要至少为 4² = 16 x 16 像素。
当你进入网络更深层时,空间分辨率将会降低,就像我们尽力挤压所有信息并降低到一维向量表示。为了确保网络始终具有继承其提取的所有信息的能力,我们根据深度按比例增加特征图的数量以适应空间分辨率的降低。也就是说,我们在下采样过程中丢失了空间信息,为了适应损失,我们扩展了我们的特征图以增加我们的语义信息。
在你选择了一定数量的下采样后,特征图会被矢量化并送入一系列全连接层。最后一层的输出与数据集中的类一样多。

目标检测
目标检测器有两种形式:单阶段和两阶段。它们两者都以“锚框”开始;这些是默认的边界框。我们的检测器将预测这些方框与边界框真值之间的差异,而不是直接预测方框。
在两阶段检测器中,我们自然有两个网络:一个框提议网络和一个分类网络。框提议网络得到了边界框的坐标,它认为目标在这里的可能性很大;再次提醒,这些坐标都是相对于锚框的。然后,分类网络获取每个边界框并对其中的潜在物体进行分类。
在单阶段检测器中,提议和分类器网络被融合到一个单独的阶段中。网络直接预测边界框坐标和在该框内物体的类别。因为两个阶段融合在一起,所以单阶段检测器往往比两阶段更快。但是由于两个任务的分离,两阶段检测器具有更高的精度。


分割
分割是计算机视觉中更独特的任务之一,因为网络需要学习低级和高级信息。低级信息通过像素精确地分割图像中的每个区域和物体,而高级信息用于直接对这些像素进行分类。这就需要将网络设计成结合低级信息和高级信息的结构,其中低级空间信息来自于前面层且是高分辨率的,高级语义信息来自于较深层且是低分辨率的。
正如我们在下面看到的,我们首先在标准分类网络上运行我们的图像。然后,我们从网络的每个阶段提取特征,从而使用从低到高的级别内的信息。每个级别的信息都是独立处理的,然后依次将它们组合在一起。在组合信息时,我们对特征图进行上采样以最终获得完整的图像分辨率。
要了解更多有关如何用深度学习进行分割的详细信息,请查看此文章。

姿态估计
姿态估计模型需要完成两个任务:(1)检测每个身体部位图像中的关键点(2)找出如何正确连接这些关键点的方式。这分为三个阶段:
1、使用标准分类网络从图像中提取特征
2、鉴于这些特点,训练一个子网络来预测一组2D热力图。每张热力图都与一个特定的关键点相关联,并且包含每个图像像素是否可能存在关键点的置信值。
3、再次给出分类网络的特征,我们训练一个子网络来预测一组2D向量场,其中每个向量场编码关键点之间的关联度。具有高度关联性的关键点就称其为连接的。
以这种方式训练模型与子网络将共同优化检测关键点并将它们连接在一起。

增强和恢复
增强和恢复网络是它们自己的独特之处。因为我们真正关心的是高像素/空间精度,所以我们不会对这些进行任何降采样。降采样真的会杀死这些信息,因为它会减少我们空间精度的许多像素。相反,所有的处理都是在完整的图像分辨率下完成的。
我们首先将要增强/恢复的图像以全解析度传递到我们的网络,而不进行任何修正。网络仅仅由一堆卷积和激活函数组成。这些块通常是最初为图像分类而开发的那些块的灵感,有时是直接副本,例如残余块、密集块、挤压激励块等。由于我们希望直接预测图像像素,不需要任何的概率或分数,所以在最后一层上没有激活功能,甚至没有sigmoid或softmax。。
这就是所有这些类型的网络!在图像的全解析度下进行大量的处理,以获得高空间精度,这些使用已经证明与其他任务相同的卷积。

行为识别
动作识别是少数几个需要视频数据才能正常工作的应用之一。要对一个动作进行分类,我们需要知道随着时间的推移场景发生的变化;这导致我们需要视频。所以我们的网络必须训练以学习空间和时间信息。也就是空间和时间的变化。最适合的网络是3D-CNN。
3D- CNN,顾名思义,就是一个使用3D卷积的卷积网络!它们不同于常规CNN的地方在于其卷积应用于三维空间:宽度、高度和时间。因此,每个输出像素都是基于它周围的像素和相同位置上的前帧和后帧中的像素进行计算预测的!

视频帧可以通过以下几种方式传递:
(1)直接以大批量,如图1所示。由于我们正在传递一组序列帧,因此空间和时间信息都是可用的

(2)我们还可以在一个流(数据的空间信息)中传递单个图像帧,并从视频(数据的时间信息)中传递其相应的光流表示。我们将使用常规的2D CNNs从两者中提取特征,然后将它们组合起来传递给我们的3D CNN,它将组合这两种类型的信息
(3)将我们的帧序列传递给一个3D CNN,将视频的光流表示传递给另一个3D CNN。这两个数据流都有可用的空间和时间信息。这可能是最慢的选项,但同时也可能是最准确的选项,因为我们正在对视频的两个不同表示进行特定的处理,这两个表示都包含所有信息。
所有这些网络都输出视频的动作分类。
想要继续查看该篇文章相关链接和参考文献?
长按链接点击打开:
https://ai.yanxishe.com/page/TextTranslation/1358
AI研习社每日更新精彩内容,观看更多精彩内容:
命名实体识别(NER)综述
杰出数据科学家的关键技能是什么?
初学者怎样使用Keras进行迁移学习
如果你想学数据科学,这 7 类资源千万不能错过
等你来译:
深度学习目标检测算法综述
一文教你如何用PyTorch构建 Faster RCNN
高级DQNs:利用深度强化学习玩吃豆人游戏
用于深度强化学习的结构化控制网络 (ICML 论文讲解)
【AI求职百题斩 - 每日一题】
赶紧来看看今天的题目吧!

相关文章:

2022-2028年中国电池制造行业市场供需规模及投资前景预测报告
【报告类型】产业研究 【报告价格】4500起 【出版时间】即时更新(交付时间约3个工作日) 【发布机构】智研瞻产业研究院 【报告格式】PDF版 本报告介绍了中国电池制造行业市场行业相关概述、中国电池制造行业市场行业运行环境、分析了中国电池制造行…

Ubuntu14.04 64bit 编译安装nginx1.7+php5.4+mysql5.6
我的操作系统是Ubuntu14.04,其它linux系统的操作流程类似。 主要安装的软件是nginx1.7php5.4mysql5.6 1. 创建必要目录 sudo mkdir ~/setup sudo mkdir /opt/software sudo chmod 777 /opt/software 2. 下载必要软件 cd ~/Downloadswget http://am1.php.net/distrib…

QGC注释消息提示框
消息提示框:有时显示时覆盖想要看的界面,可注释!

学习编写Unity计算着色器 Learn to Write Unity Compute Shaders
利用图形处理器的力量 你会学到: 如何编写Unity计算着色器 如何在后处理图像过滤器中使用ComputeShaders 如何使用ComputeShaders进行粒子效果和群集 如何使用StructuredBuffers在计算着色器和实例表面着色器之间共享数据 使用计算机处理器处理流体模拟 使用计算机开发者创建物…

[重磅] 让HTML5达到原生的体验 系列之中的一个 避免切页白屏
非常多人都想、甚至曾使用HTML5开发跨平台App。而且想达到原生App的体验。最后的结果都是无奈的放弃。HTML5貌似美好,但坑太多。想做到原生App的体验差点儿不可为。 也曾有过著名的facebook放弃HTML5改用原生做App的事件。可是坑多不怕,就怕没人填。 本系…

测试中如何管理外包质量_如何从测试自动化中实现价值
如果几年前,质量管理部门都试图通过ROI指标来证明对测试的投资是合理的,那么现在情况发生了变化,是时候重新审视这个问题了。当实施连续测试,并且每天在不同的环境下以不同的角色运行多次测试自动化时,由于测量方法与以…

2022-2028年中国碘矿行业竞争格局分析及市场需求前景报告
【报告类型】产业研究 【报告价格】4500起 【出版时间】即时更新(交付时间约3个工作日) 【发布机构】智研瞻产业研究院 【报告格式】PDF版 本报告介绍了中国碘矿行业市场行业相关概述、中国碘矿行业市场行业运行环境、分析了中国碘矿行业市场行业的…

centos下axel安装与使用
一、获得Axel32位系统:wget -c http://www.centoscn.com/tool/axel-2.4-1.el5.rf.i386.rpm rpm -ivh axel-2.4-1.el5.rf.i386.rpm #安装64位系统:wget -c http://www.centoscn.com/tool/axel-2.4-1.el5.rf.x86_64.rpm rpm -ivh axel-2.4-1.el5.rf.x86_64…

Qt编译PX4源码,参考如下进行配置
参考链接: https://blog.csdn.net/qq_38768959/article/details/106822491如单独打开一个的话可以选择打开仿真编译套件,如需下载则选择下载套件!

Unity三维游戏开发C#编程大师班 Masterclass In C# Programing Unity 3D Game Development FPS
本课程采用现代游戏开发(Unity 2021)的最新内容和最新技术 学习任何东西的最好方法是以一种真正有趣的方式去做,这就是这门课程的来源。如果你想了解你看到的这些不可思议的游戏是如何制作的,没有比这门课更好的起点了。我们确保本课程具备一切你需要的…

Integer.toHexString(b & 0xff)理解以及& 0xff什么意思
首先toHexString传的参数应该是int类型32位,此处传的是byte类型8位,所以前面需要补24个0。然后& 0xff 就是把前面24个0去掉只要后8位。toHexString(b & 0xff)相当于做了一次位的与运算,将前24位字符省略,将后8位保留。是两个十六进制的数,每个f用二进制表示是1111,所以占四位(bit),两个f()占八位(bit),八位(bit)也就是一个字节(byte).这个方法是把字节(转换成了int)以16进制的方式显示。我的理解是这样,如有不对欢迎指正!

DIV+CSS规范命名大全集合
网页制作中规范使用DIVCSS命名规则,可以改善优化功效特别是团队合作时候可以提供合作制作效率,具体DIV CSS命名规则CSS命名大全内容篇。 常用DIVCSS命名大全集合,即CSS命名规则 DIV CSS命名目录命名规则说明重要CSS命名CSS命名参考表命名技巧…

Java中的位运算符号详解(&、|、^、~、<<、>>、>>>)
(&&)在运算时,如果(&&)前面的表达式的结果为false,则(&&)后面的表达式就不会执行运算。(||)在运算时,如果(||)前面的表达式的结果为true,则(||)后面的表达式就不会执行运算。(&)在运算时,不论(&)前面的表达式的结果是否为false,(&)后面的表达式都会执行运算;(|)在运算时,不论(|)前面的表达式的结果是否为true,(|)后面的表达式都会执行运算;在Java中,(&)不仅可以作为位运算符号,同样也可以作为逻辑与符号,要注意:(||)并不是位运算符号,不可以参与位运算!

unity 200.8m yoy_专场分享会|大会最新Unity、中创文旅专场预告来啦!
北京国际游戏创新大会将于9月25日-27日分别在中华世纪坛发布厅、中华世纪坛剧场、京都信苑国际厅、京都信苑欧式厅、京都信苑圣马可厅、京都信苑第三会议室,6大场馆举办129场游戏行业主题分享,之前小编已经给大家介绍过腾讯、微软、完美世界、巨量引擎等…

2022-2028年中国碲化镉薄膜太阳能电池行业发展现状分析及投资前景趋势报告
【报告类型】产业研究 【报告价格】4500起 【出版时间】即时更新(交付时间约3个工作日) 【发布机构】智研瞻产业研究院 【报告格式】PDF版 本报告介绍了中国碲化镉薄膜太阳能电池行业市场行业相关概述、中国碲化镉薄膜太阳能电池行业市场行业运行环…

从高耦合到低耦合到底有多远?
一切都是拥抱变化,反过来说,如果没有变化或者需求很稳定,那么一切就是过度设计。所以,一切都要看情况,回到了马克思主义的辩证学。呵呵。无论书还是博客, 耦合这个词已被无数人说烂,任何一位程序…

写论文查论文查参考文献
知网翻译助手:网页知网翻译助手 百度学术:百度学术—导出参考文献 IEEE:IEEE 添加上标:如下图 添加后,如下图: 添加完成! WPS软件里面的公式编辑器添加空格为CtrlAltSpace即可! …

C# Unity编程终极指南
使用现代Unity开发技术创建一个有趣的2D平台,掌握Unity引擎和C#编程 你会学到: 学习C#的基础知识。从变量、“如果”语句到创建面向对象的结构。没有编程经验是必要的。 创建一个可玩的角色(征服者),具有动画,向任何方向移动,跳跃…

咪咕盒子链接服务器失败_云服务器怎样备份数据库备份
云服务器怎样备份数据库备份?云服务器数据库的备份很重要,而手动操作会比较麻烦。以西部数码云服务器为例,可以实现 Ms Sqlserver数据库定时自动备份,并存至指定存储空间。打开链接 下载,下载后无需安装,点…

在Ubuntu下构建Bullet以及执行Bullet的样例程序
在Ubuntu下构建Bullet以及执行Bullet的样例程序1、找到Bullet的下载页,地址是:https://code.google.com/p/bullet/downloads/list2、下载Bullet。找到.tgz格式进行下载。我下载的版本号是bullet-2.82-r2704。 3、假设没有安装cmake,那么使用s…

2022-2028年中国第五代移动通信技术(5G)市场研究及前瞻分析报告
【报告类型】产业研究 【报告价格】4500起 【出版时间】即时更新(交付时间约3个工作日) 【发布机构】智研瞻产业研究院 【报告格式】PDF版 本报告介绍了中国第五代移动通信技术(5G)行业市场行业相关概述、中国第五代移动通信…

机房合作—我是组长
五一期间开始机房合作,到现在一个多星期了。我,蕾蕾,亮亮一组,我担任组长一职。在着手准备项目开始之前,我们听取了各位师父的一些建议,也算是给我们指明一下方向。第一天晚上,我召开了我们项目…

Linux环境下命令行截图【转】
参考链接:命令行截图 将剪切板内容粘贴出来:CtrlV

用Unity和Playmaker创建一个限时游戏 Creating a Time Limit game with Unity and Playmaker
本课程结束时,您将拥有在Unity中使用Playmaker创建游戏的工具 你会学到: playmaker状态的基础以及它们如何与动作一起工作。 安装悬停车,可以在竞技场内行驶。 不同力度的射击地雷驱动中心机。 设置坏地雷和电源盒。 设置主时光机机制。 影响时间机器的…

app.vue 跳转页面_独立站如何提高产品页面转化呢?
在网上商城中,你的产品页面也是销售页面。顾客进入产品页面,然后根据你提供的产品描述内容,再决定是否立马购买,或者以后再考虑购买。以下是小跨收集的可以用于提高你独立站产品描述页面转化的几个要素。1.撰写激动人心的产品标题…

原生javascript实现放大镜效果
2019独角兽企业重金招聘Python工程师标准>>> html部分: <div class"main"><div id"xiaotu" class"xiaotu"><img src"http://zhangyan520.com/1.jpg" alt"" /><div id"yido…

新建个人博客参考
各种配置过程:新建参考 如果输入链接,出现如下截图,参考:报错404

C4D+ PS打造城市场景 Create a Cityscape with Cinema 4D + Photoshop
初级到中级课程,包括创建真实的城市景观可视化的步骤 你会学到: 建筑三维建模所涉及的创造性和技术性步骤。 使用变形器和MoGraph克隆器创建建筑变体,以更改每个建筑的形状。 创建城市街区,添加环境和提高中央处理器性能的技巧。 使用Adobe …

抽象工厂————三层架构
抽象工厂作用:降低BLL和Model层耦合度 核心思想:1.通过接口类实现对象的分离 2.通过一个类,实现指定对象的创建,并且这个类通过配置文件决定获取哪个对象 这样只要调用一个接口和这个类,就能实现BLL和Model的分离 这样做的优点是便于维护和…
jQuery 一次定时器_干货 | 小论定时器玩法(时间轮询法)
EEWORLD电子资讯 犀利解读 技术干货 每日更新经常来说,对于一些不复杂的单片机应用,而且对于内存和存储要求比较严格,又需要多分时去处理一些指定的任务,在无法使用RTOS的情况下,使用一个硬件定时器,来建立…