当前位置：首页 > 编程日记 > 正文

图像在计算机中通过什么方式表示_万物皆可“计算机视觉”

编程日记 2024-02-14 06:30:00

本文为 AI 研习社编译的技术博客，原标题：
How to do everything in Computer Vision
作者 | George Seif
翻译 | chesc、Disillusion、Ophria
校对 | 邓普斯•杰弗审核 | Lam-W 整理 | 菠萝妹
原文链接：https://towardsdatascience.com/how-to-do-everything-in-computer-vision-2b442c469928

Mask-RCNN进行目标检测和实例分割

想做计算机视觉？深度学习是最近的发展方向。大规模数据集加上深度卷积神经网络（CNNs）的表征能力使得超精确和稳健的模型成为可能。现在只剩下一个挑战：如何设计你的模型。

由于计算机视觉领域广泛而复杂，因此解决方案并不总是很清晰。计算机视觉中的许多标准任务都需要特别考虑：分类，检测，分割，姿态估计，增强和恢复，动作识别。尽管用于每个任务的最先进的网络表现出共同的模式，但他们都需要自己独特的设计风格。

那么我们如何为所有这些不同的任务建立模型呢？

让我来告诉你如何用深度学习在计算机视觉中做所有事情！

分类

所有任务中最为人所知的！图像分类网络以固定尺寸的输入开始。输入图像可以具有任意数量的通道，但对于RGB图像通常为3。在设计网络时，分辨率在技术上可以是任何尺寸，只要它足够大以支持你将在整个网络中执行的下采样数量。例如，如果您在网络中进行4次下采样，那么您的输入尺寸需要至少为 4² = 16 x 16 像素。

当你进入网络更深层时，空间分辨率将会降低，就像我们尽力挤压所有信息并降低到一维向量表示。为了确保网络始终具有继承其提取的所有信息的能力，我们根据深度按比例增加特征图的数量以适应空间分辨率的降低。也就是说，我们在下采样过程中丢失了空间信息，为了适应损失，我们扩展了我们的特征图以增加我们的语义信息。

在你选择了一定数量的下采样后，特征图会被矢量化并送入一系列全连接层。最后一层的输出与数据集中的类一样多。

目标检测

目标检测器有两种形式：单阶段和两阶段。它们两者都以“锚框”开始；这些是默认的边界框。我们的检测器将预测这些方框与边界框真值之间的差异，而不是直接预测方框。

在两阶段检测器中，我们自然有两个网络：一个框提议网络和一个分类网络。框提议网络得到了边界框的坐标，它认为目标在这里的可能性很大；再次提醒，这些坐标都是相对于锚框的。然后，分类网络获取每个边界框并对其中的潜在物体进行分类。

在单阶段检测器中，提议和分类器网络被融合到一个单独的阶段中。网络直接预测边界框坐标和在该框内物体的类别。因为两个阶段融合在一起，所以单阶段检测器往往比两阶段更快。但是由于两个任务的分离，两阶段检测器具有更高的精度。

Faster-RCNN 两阶段目标检测架构

SSD 一阶段目标检测架构

分割

分割是计算机视觉中更独特的任务之一，因为网络需要学习低级和高级信息。低级信息通过像素精确地分割图像中的每个区域和物体，而高级信息用于直接对这些像素进行分类。这就需要将网络设计成结合低级信息和高级信息的结构，其中低级空间信息来自于前面层且是高分辨率的，高级语义信息来自于较深层且是低分辨率的。

正如我们在下面看到的，我们首先在标准分类网络上运行我们的图像。然后，我们从网络的每个阶段提取特征，从而使用从低到高的级别内的信息。每个级别的信息都是独立处理的，然后依次将它们组合在一起。在组合信息时，我们对特征图进行上采样以最终获得完整的图像分辨率。

要了解更多有关如何用深度学习进行分割的详细信息，请查看此文章。

GCN分割架构

姿态估计

姿态估计模型需要完成两个任务：（1）检测每个身体部位图像中的关键点（2）找出如何正确连接这些关键点的方式。这分为三个阶段：

1、使用标准分类网络从图像中提取特征

2、鉴于这些特点，训练一个子网络来预测一组2D热力图。每张热力图都与一个特定的关键点相关联，并且包含每个图像像素是否可能存在关键点的置信值。

3、再次给出分类网络的特征，我们训练一个子网络来预测一组2D向量场，其中每个向量场编码关键点之间的关联度。具有高度关联性的关键点就称其为连接的。

以这种方式训练模型与子网络将共同优化检测关键点并将它们连接在一起。

开放式姿态估计体系结构

增强和恢复

增强和恢复网络是它们自己的独特之处。因为我们真正关心的是高像素/空间精度，所以我们不会对这些进行任何降采样。降采样真的会杀死这些信息，因为它会减少我们空间精度的许多像素。相反，所有的处理都是在完整的图像分辨率下完成的。

我们首先将要增强/恢复的图像以全解析度传递到我们的网络，而不进行任何修正。网络仅仅由一堆卷积和激活函数组成。这些块通常是最初为图像分类而开发的那些块的灵感，有时是直接副本，例如残余块、密集块、挤压激励块等。由于我们希望直接预测图像像素，不需要任何的概率或分数，所以在最后一层上没有激活功能，甚至没有sigmoid或softmax。。

这就是所有这些类型的网络！在图像的全解析度下进行大量的处理，以获得高空间精度，这些使用已经证明与其他任务相同的卷积。

EDSR超分辨率架构

行为识别

动作识别是少数几个需要视频数据才能正常工作的应用之一。要对一个动作进行分类，我们需要知道随着时间的推移场景发生的变化；这导致我们需要视频。所以我们的网络必须训练以学习空间和时间信息。也就是空间和时间的变化。最适合的网络是3D-CNN。

3D- CNN，顾名思义，就是一个使用3D卷积的卷积网络！它们不同于常规CNN的地方在于其卷积应用于三维空间：宽度、高度和时间。因此，每个输出像素都是基于它周围的像素和相同位置上的前帧和后帧中的像素进行计算预测的！

直接进行图像的批量传递

视频帧可以通过以下几种方式传递:

(1)直接以大批量，如图1所示。由于我们正在传递一组序列帧，因此空间和时间信息都是可用的

单帧+光流(左)。视频+光流(右)

(2)我们还可以在一个流(数据的空间信息)中传递单个图像帧，并从视频(数据的时间信息)中传递其相应的光流表示。我们将使用常规的2D CNNs从两者中提取特征，然后将它们组合起来传递给我们的3D CNN，它将组合这两种类型的信息

(3)将我们的帧序列传递给一个3D CNN，将视频的光流表示传递给另一个3D CNN。这两个数据流都有可用的空间和时间信息。这可能是最慢的选项，但同时也可能是最准确的选项，因为我们正在对视频的两个不同表示进行特定的处理，这两个表示都包含所有信息。

所有这些网络都输出视频的动作分类。

想要继续查看该篇文章相关链接和参考文献？

长按链接点击打开：

https://ai.yanxishe.com/page/TextTranslation/1358

AI研习社每日更新精彩内容，观看更多精彩内容：

命名实体识别（NER）综述

杰出数据科学家的关键技能是什么？

初学者怎样使用Keras进行迁移学习

如果你想学数据科学，这 7 类资源千万不能错过

等你来译：

深度学习目标检测算法综述

一文教你如何用PyTorch构建 Faster RCNN

高级DQNs：利用深度强化学习玩吃豆人游戏

用于深度强化学习的结构化控制网络（ICML 论文讲解）

【AI求职百题斩 - 每日一题】

赶紧来看看今天的题目吧！

扫描二维码即可开始答题

https://www.dkcj.cn/info/1691.html

2022-2028年中国电池制造行业市场供需规模及投资前景预测报告

【报告类型】产业研究【报告价格】4500起【出版时间】即时更新（交付时间约3个工作日） 【发布机构】智研瞻产业研究院【报告格式】PDF版本报告介绍了中国电池制造行业市场行业相关概述、中国电池制造行业市场行业运行环境、分析了中国电池制造行…

编程日记2024/02/14 06:00:00

Ubuntu14.04 64bit 编译安装nginx1.7+php5.4+mysql5.6

我的操作系统是Ubuntu14.04，其它linux系统的操作流程类似。主要安装的软件是nginx1.7php5.4mysql5.6 1. 创建必要目录 sudo mkdir ~/setup sudo mkdir /opt/software sudo chmod 777 /opt/software 2. 下载必要软件 cd ~/Downloadswget http://am1.php.net/distrib…

编程日记2024/02/14 05:30:00

QGC注释消息提示框

消息提示框：有时显示时覆盖想要看的界面，可注释！

编程日记2024/02/14 05:00:00

学习编写Unity计算着色器 Learn to Write Unity Compute Shaders

利用图形处理器的力量你会学到: 如何编写Unity计算着色器如何在后处理图像过滤器中使用ComputeShaders 如何使用ComputeShaders进行粒子效果和群集如何使用StructuredBuffers在计算着色器和实例表面着色器之间共享数据使用计算机处理器处理流体模拟使用计算机开发者创建物…

编程日记2024/02/14 04:30:00

[重磅] 让HTML5达到原生的体验系列之中的一个避免切页白屏

非常多人都想、甚至曾使用HTML5开发跨平台App。而且想达到原生App的体验。最后的结果都是无奈的放弃。HTML5貌似美好，但坑太多。想做到原生App的体验差点儿不可为。也曾有过著名的facebook放弃HTML5改用原生做App的事件。可是坑多不怕，就怕没人填。本系…

编程日记2024/02/14 04:00:00

测试中如何管理外包质量_如何从测试自动化中实现价值

如果几年前，质量管理部门都试图通过ROI指标来证明对测试的投资是合理的，那么现在情况发生了变化，是时候重新审视这个问题了。当实施连续测试，并且每天在不同的环境下以不同的角色运行多次测试自动化时，由于测量方法与以…

编程日记2024/02/14 03:30:01

2022-2028年中国碘矿行业竞争格局分析及市场需求前景报告

【报告类型】产业研究【报告价格】4500起【出版时间】即时更新（交付时间约3个工作日） 【发布机构】智研瞻产业研究院【报告格式】PDF版本报告介绍了中国碘矿行业市场行业相关概述、中国碘矿行业市场行业运行环境、分析了中国碘矿行业市场行业的…

编程日记2024/02/14 03:00:00

centos下axel安装与使用

一、获得Axel32位系统：wget -c http://www.centoscn.com/tool/axel-2.4-1.el5.rf.i386.rpm rpm -ivh axel-2.4-1.el5.rf.i386.rpm #安装64位系统：wget -c http://www.centoscn.com/tool/axel-2.4-1.el5.rf.x86_64.rpm rpm -ivh axel-2.4-1.el5.rf.x86_64…

编程日记2024/02/14 02:30:00

Qt编译PX4源码，参考如下进行配置

参考链接： https://blog.csdn.net/qq_38768959/article/details/106822491如单独打开一个的话可以选择打开仿真编译套件，如需下载则选择下载套件！

编程日记2024/02/14 02:00:00

Unity三维游戏开发C#编程大师班 Masterclass In C# Programing Unity 3D Game Development FPS

本课程采用现代游戏开发(Unity 2021)的最新内容和最新技术学习任何东西的最好方法是以一种真正有趣的方式去做，这就是这门课程的来源。如果你想了解你看到的这些不可思议的游戏是如何制作的，没有比这门课更好的起点了。我们确保本课程具备一切你需要的…

编程日记2024/02/14 01:30:00

Integer.toHexString(b & 0xff)理解以及& 0xff什么意思

首先toHexString传的参数应该是int类型32位，此处传的是byte类型8位，所以前面需要补24个0。然后& 0xff 就是把前面24个0去掉只要后8位。toHexString(b & 0xff)相当于做了一次位的与运算，将前24位字符省略，将后8位保留。是两个十六进制的数,每个f用二进制表示是1111,所以占四位（bit）,两个f（）占八位（bit），八位（bit）也就是一个字节（byte）.这个方法是把字节（转换成了int）以16进制的方式显示。我的理解是这样，如有不对欢迎指正！

编程日记2024/02/14 01:00:01

DIV+CSS规范命名大全集合

网页制作中规范使用DIVCSS命名规则，可以改善优化功效特别是团队合作时候可以提供合作制作效率，具体DIV CSS命名规则CSS命名大全内容篇。常用DIVCSS命名大全集合，即CSS命名规则 DIV CSS命名目录命名规则说明重要CSS命名CSS命名参考表命名技巧…

编程日记2024/02/14 01:00:00

Java中的位运算符号详解（&、|、^、~、＜＜、＞＞、＞＞＞）

（&&）在运算时，如果（&&）前面的表达式的结果为false，则（&&）后面的表达式就不会执行运算。（||）在运算时，如果（||）前面的表达式的结果为true，则（||）后面的表达式就不会执行运算。（&）在运算时，不论（&）前面的表达式的结果是否为false，（&）后面的表达式都会执行运算；（|）在运算时，不论（|）前面的表达式的结果是否为true，（|）后面的表达式都会执行运算；在Java中，（&）不仅可以作为位运算符号，同样也可以作为逻辑与符号，要注意：（||）并不是位运算符号，不可以参与位运算！

编程日记2024/02/14 00:30:01

图像在计算机中通过什么方式表示_万物皆可“计算机视觉”

分类

目标检测

分割

姿态估计

增强和恢复

行为识别

相关文章：

2022-2028年中国电池制造行业市场供需规模及投资前景预测报告

Ubuntu14.04 64bit 编译安装nginx1.7+php5.4+mysql5.6

QGC注释消息提示框

学习编写Unity计算着色器 Learn to Write Unity Compute Shaders

[重磅] 让HTML5达到原生的体验系列之中的一个避免切页白屏

测试中如何管理外包质量_如何从测试自动化中实现价值

2022-2028年中国碘矿行业竞争格局分析及市场需求前景报告

centos下axel安装与使用

Qt编译PX4源码，参考如下进行配置

Unity三维游戏开发C#编程大师班 Masterclass In C# Programing Unity 3D Game Development FPS

Integer.toHexString(b & 0xff)理解以及& 0xff什么意思

DIV+CSS规范命名大全集合

Java中的位运算符号详解（&、|、^、~、＜＜、＞＞、＞＞＞）

unity 200.8m yoy_专场分享会|大会最新Unity、中创文旅专场预告来啦！

2022-2028年中国碲化镉薄膜太阳能电池行业发展现状分析及投资前景趋势报告

从高耦合到低耦合到底有多远？

写论文查论文查参考文献

C# Unity编程终极指南

咪咕盒子链接服务器失败_云服务器怎样备份数据库备份

在Ubuntu下构建Bullet以及执行Bullet的样例程序

2022-2028年中国第五代移动通信技术（5G）市场研究及前瞻分析报告

机房合作—我是组长

Linux环境下命令行截图【转】

用Unity和Playmaker创建一个限时游戏 Creating a Time Limit game with Unity and Playmaker

app.vue 跳转页面_独立站如何提高产品页面转化呢?

原生javascript实现放大镜效果

新建个人博客参考

C4D+ PS打造城市场景 Create a Cityscape with Cinema 4D + Photoshop

抽象工厂————三层架构

jQuery 一次定时器_干货 | 小论定时器玩法(时间轮询法)