当前位置: 首页 > 编程日记 > 正文

关注度越来越高的行人重识别,有哪些热点?

来源 |  HyperAI超神经

责编 | Carol

封图 | CSDN付费下载自视觉中国

在茫茫人海中,你能不能一眼就找到想找的那个人?

如今,这个任务对于计算机来说,可能是小菜一碟了。而这得益于近年行人重识别技术的飞速发展。

行人重识别(Person Re-identification),也称行人再识别,简称 ReID,是利用计算机视觉技术,判断图像或者视频序列中,是否存在特定行人的技术。直观点来说,就是能够通过穿着、体态、发型等特征,识别出不同场景中的同一个目标人物,因此它也被称作跨境追踪技术。

行人重识别被称为人脸识别之后的「杀手级应用」

行人重识别已经成为人脸识别之后,计算机视觉领域的一个重点研究方向。

尽管人脸识别技术已经十分成熟,但在很多情况下,比如人群密集、或监控摄像头分辨率低、拍摄角度较偏等,人脸常常无法被有效识别。行人重识别便成为了重要补充。

因此,人脸重识别近年来也得到越来越多的关注,其相关应用也日益广泛。

了解一项技术,我们首先要了解它解决的问题是什么,如何取得突破,发展到什么阶段了,又存在哪些挑战。接下来,我们将进行全面解析。

行人重识别用在哪儿?

首先,上文中已提到,行人重识别是人脸识别技术的一个重要补充。

人脸识别的前提是:清晰的正脸照。但在图像只有背面、或其它看不到人脸的角度时,人脸识别便失效了。这时候,行人重识别便可通过姿态、衣着等特征,继续追踪目标人物。

目前,行人重识别技术在安防领域、自动驾驶等领域都有着广泛的应用。比如:

智能安防:警方办案人员能够借助 ReID 帮助快速筛查可疑人员;

智能寻人系统:在人流量较大的场所如机场、火车站,通过 ReID 寻找走失儿童和老人;

智能商业:ReID 可以根据行人外观的照片,实时动态跟踪用户轨迹,以此了解了解用户在商场的兴趣所在,以便优化用户体验;

自动驾驶系统:通过 ReID,能够更好地识别行人,提升自动驾驶安全性。

某安防领域解决方案提供商,借助 ReID 快速寻回走失少年

技术突破的关键:大规模数据集

根据相关研究者总结,实现行人重识别技术,一般需要以下五个步骤:

  1. 数据收集;

  2. 包围框生成;

  3. 训练数据标注;

  4. 模型训练;

  5. 行人检索

其中,数据收集作为第一步,是整个行人重识别研究的基础。近年来,行人重识别之所以取得重大突破,离不开大规模数据集的推动与支撑。

本篇将介绍几个行人检测常用数据集,以供大家研究和训练模型。

INRIA Person Dataset 行人检测数据集 

INRIA Person 数据集目前是最流行的、使用最多的静态行人检测数据集之一,由 INRIA(法国国家信息与自动化研究所)于 2005 年发布。该数据集用来对图像和视频中的直立行人进行检测。

该数据集包含两类格式的数据。

第一类:原始图像和相应的直立行人标注;

第二类:标准化为 64x128 像素的直立行人正类和对应图片的负类图像。

数据集中每张图片上只标出身高 > 100cm 的直立的人

该数据集基本信息如下:

INRIA Person Dataset

发布机构: INRIA

包含数量:训练集与测试集共 2573 张图像

数据格式:正样本为 .png 格式,负样本为 .jpg 格式

数据大小:969MB

更新时间:2005 年

下载地址:https://hyper.ai/datasets/5331

相关论文:

https://lear.inrialpes.fr/people/triggs/pubs/Dalal-cvpr05.pdf

UCSD Pedestrian 行人视频数据集 

UCSD Pedestrian 行人视频数据由加州大学和香港城市大学收集整理,于 2013 年 2 月发布。

该数据集用于运动分割和人群计数。数据集包含了 UCSD(加州大学圣迭戈分校)人行道上行人的视频,均来自一个固定的摄像机。

其中,所有视频为 8 位灰度,尺寸 238×158,10 帧/秒。原始视频是 740×480,30 帧/秒,如果有需求可以提供。

视频目录包含两个场景的视频(分为 vidf 和 vidd 两个目录)。每个场景都在自己的 vidX 目录中,并被分割成一组 .png 片段。

数据集示例

该数据集基本信息如下:

UCSD Pedestrian Dataset

发布机构: UCSD,香港城市大学

包含数量:长度约 10 小时的视频

数据格式:.png

数据大小:vidf:787MB;vidd:672MB

更新时间:2013 年 2 月

下载地址:https://hyper.ai/datasets/9370

相关论文:

http://visal.cs.cityu.edu.hk/static/downloads/crowddoc/README-vids.pdf

Caltech Pedestrian Detection Benchmark 

Caltech Pedestrian Detection Benchmark 数据库,由加州理工学院于 2009 年发布,并且每年都持续更新。

该数据库是目前规模较大的行人数据库,包含约 10 个小时的视频,主要由行驶在城市中正常交通环境的车辆的车载摄像头拍摄,视频的分辨率为 640x480,30 帧/秒。

视频中标注了共计约 250000 帧(约 137 分钟),350000 个矩形框,2300 个行人,另外还对矩形框之间的时间对应关系及其遮挡的情况进行标注。

该数据集基本信息如下:

Caltech Pedestrian Dataset

发布机构: 加州理工学院

包含数量:训练集与测试集共2573 张图像

数据格式:.jpg

数据大小:11.12GB

更新时间:2019 年 7 月

下载地址:https://hyper.ai/datasets/5334

相关论文:

http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/files/CVPR09pedestrians.pdf

先进方法有哪些?

行人重识别领域的研究已有近三十年,近年来,该技术得益于数据集的大规模化、深度学习的发展,取得了长足的发展。

我们在此例举两个最新提出的方法,以供大家学习与参考。

消除不同摄像机的风格差异问题 

在计算机视觉国际顶会 CVPR 2020 中,中科院发表的论文《Unity Style Transfer for Person Re-Identification》(《行人重识别的一致风格转移》)中,提出了一种 UnityStyle 自适应方法,该方法可以统一不同摄像机之间的风格差异。

论文地址:http://r6a.cn/dbWQ

无论是同一摄像头还是不同摄像头,在拍摄画面时,受时间,光照,天气等影响,都会产生较大的差异,为目标查询带来困难。

为了解决这个问题,研究团队首先创建了 UnityGAN 来学习相机之间的风格变化,为每个相机生成形状稳定的 styleunity 图像,将其称之为 UnityStyle 图像。

同时,他们使用 UnityStyle 图像来消除不同图像之间的风格差异,使得 query(查询目标)和 gallery(图像库)之间更好地匹配。

然后,他们将所提出的方法应用于重新识别模型,期望获得更具有风格鲁棒性的深度特征用于查询。

团队在广泛使用的基准数据集上进行了大量的实验来评估所提框架的性能,实验结果证实了所提模型的优越性。

解决行人遮挡问题 

旷视研究院在 CVPR 2020 中发表的论文《High-Order Information Matters: Learning Relation and Topology for Occluded Person Re-Identification》中,解决了该领域中,经常出现也最具挑战性的问题——行人遮挡问题。

论文地址:https://arxiv.org/pdf/2003.08177.pdf

该论文中,旷视研究院提出的框架,包括:

  • 一个一阶语义模块(S),它可以取人体关键点区域的语义特征;

  • 一个高阶关系模块(R),它能对不同语义局部特征之间的关系信息进行建模;

  • 一个高阶人类拓扑模块(T),它可以学习到鲁棒的对齐能力,并预测两幅图像之间的相似性。

这三个模块以端到端的方式进行联合训练。

论文中对高阶信息和拓扑关系的说明

此前,我们还曾在史上最火 ECCV 已开幕,这些论文都太有意思了中介绍了,由华中科技大学,中山大学,腾讯优图实验室发表的论文《请别打扰我:在其他行人干扰下的行人重识别》,该论文提出的方法,解决了拥挤场景中、背景行人干扰或人体遮挡造成的错误检索结果问题。感兴趣的同学,可以再次回顾。

热点技术,尚存难点

目前,行人重识别仍然面临不小的挑战,包括数据、效率、性能等方面。

拿数据方面来说,不同场景(如室内和室外)、不同季节风格的变换、不同时间(如白天和晚上)光线差异等,获取的视频数据都会有很大差异,这些都是行人重识别的干扰因素。这些干扰因素不仅影响模型识别准确度,也会影响识别效率。

非可控环境下行人识别存在的难点

因此,尽管在现有应有案例中,我们看到行人重识别甚至已经超过了人类的分辨能力,但仍然有很多问题需要解决。

更多精彩推荐
  • 微信群总有人发广告?用Python写一个自动化机器人消灭他

  • Cognitive Inference:认知推理下的常识知识库资源、常识推理测试评估与中文实践项目索引

  • 滴滴AI Labs负责人叶杰平离职!CTO 张博接任

  • 一年翻 3 倍,装机量 6 亿台的物联网操作系统又放大招!

  • 谷歌软件工程师薪资百万,大厂薪资有多高?

相关文章:

《QTP自动化测试进阶》(1)

学习《QTP自动化测试进阶》第一章。 采用不同的项目开发模型对自动化测试有不同的影响。 (1)瀑布模型:瀑布模型在需求定义方面做得很好,这对自动化测试是有益的,包括可以尽早选择合适的自动化测试策略,让自…

JNDI概述(转载)

JNDI是 Java 命名与目录接口(Java Naming and Directory Interface),在J2EE规范中是重要的规范之一,不少专家认为,没有透彻理解JNDI的意义和作用,就没有真正掌握J2EE特别是EJB的知识。那么,JNDI…

怎样用Python控制图片人物动起来?一文就能Get!

作者 | 李秋键责编 | 李雪敬头图 | CSDN 下载自视觉中国出品 | AI科技大本营(ID:rgznai100)引言:近段时间,一个让梦娜丽莎图像动起来的项目火遍了朋友圈。而今天我们就将实现让图片中的人物随着视频人物一起产生动作。…

Directx11教程(61) tessellation学习(3)

现在我们看看在不同tess factor的情况下,三角形是如何细分的?(这儿三条边和内部tess factor值是一样的,而且partitioning("integer")) 下面8张图是三角形在tess factor 1到8的情况下的细分细节: 因为TS阶段是硬件自己做…

HTML語法大全

作者&#xff1a;闪吧標籤 , 屬性名稱 , 簡介 <! - - ... - -> 註解 <!> 跑馬燈 <marquee>...</marquee>普通捲動 <marquee behaviorslide>...</marquee>滑動 <marquee behaviorscroll>...</marquee>預設捲動 <marquee beh…

php相关书籍视频

虽然如今web领域&#xff0c;PHP JSP .NET 并驾齐驱&#xff0c;但PHP用的最广&#xff0c;原因不用我多说。 首先发一个PHP手册&#xff0c;方便查询&#xff0c;这个肯定是学PHP必备的。 下载地址&#xff1a;http://u.115.com/file/aq3e5sv9PHP100的视频教程&#xff0c;这个…

你究竟了解多少HTML代码

作者&#xff1a;十二 文章来源&#xff1a; 蓝色理想今天想学习一下基础知识&#xff0c;就看了一下HTML(4.0)&#xff0c;发现自己对HTML掌握的太少了。很多代码都很陌生&#xff0c;根本就没见过&#xff0c;更别提用了。就拿<a></a>元素来举个例子。它的属性…

Delphi 调用webservice接口

一、使用向导 1.导入wsdl文件&#xff1a;file--new----other----webservice---WSDLimporter---输入wsdl地址 http://www.webxml.com.cn/webservices/qqOnlineWebService.asmx?wsdl 完成之后&#xff0c;即可导入wsdl文件。 注&#xff1a;结尾处的&#xff1f;wsdl不能少。 2…

都是程序员,凭什么他能站在鄙视链的顶端?

在写代码、改bug之中&#xff0c;有时候会陷入焦虑&#xff1a;明年我还要继续这样的生活吗&#xff1f;程序员群体中有一条无形的鄙视链&#xff0c;最直观的表现就是薪资差异。在最新的调查报告中&#xff0c;全国范围内&#xff0c;程序员年薪达到 50 万以上的&#xff0c;仅…

软件开发经验总结(一)细节决定软件的成败

最近在公司做开发的时候,需要开发一个自动备份的功能,于是我想到了SQL SERVER备份调度功能,于是打开SQL SERVER 备份调度界面,想照样画葫芦做一个,然后20分钟就把该功能做出来。30分钟过去了&#xff0c;我的界面依然还没有做完&#xff0c;原来打算很快做完的界面却总是离目标…

简明 HTML CSS 开发规范

作者&#xff1a;wjack 文章来源&#xff1a; 蓝色理想//总论本规范既是一个开发规范&#xff0c;也是一个脚本语言参考&#xff0c;本规范并不是一个一成不变的必须严格遵守的条文&#xff0c;特殊情况下要灵活运用&#xff0c;做一定的变通。但是&#xff0c;请大家千万不…

B 站神曲damedane:精髓在于换脸,五分钟就能学会

导读&#xff1a;AI 换脸技术层出不穷&#xff0c;但一代更比一代强。最近&#xff0c;一个发表在 NeurIPs 2019 的 AI 换脸模型 first order motion model 火了起来&#xff0c;其表情迁移效果胜过同领域其它方法。最近&#xff0c;这项技术在 B 站引起一波新潮流……来源 | H…

html select以数组的方式提交

2019独角兽企业重金招聘Python工程师标准>>> 1).select 以数组的方式提交 <form> <input type"hidden" name"app" value"wap_test"> <select name"attribute[颜色]"> &…

META的一些功用

作者&#xff1a;军军 文章来源&#xff1a;闪吧 META的一些功用 META标记用于描述不包含在标准HTML里的一些文档信息。基于这一基 础上又开发出一些其它的有用功能&#xff0c;下面我挑选几种功能和大家说一下&#xff1a; &#xff11;、如何让搜索引擎搜索到你的页面 …

Python爬虫并自制新闻网站,太好玩了

来源 | 凹凸数据&#xff08;ID&#xff1a;alltodata&#xff09;我们总是在爬啊爬&#xff0c;爬到了数据难道只是为了做一个词云吗&#xff1f;当然不&#xff01;这次我就利用flask为大家呈现一道小菜。Flask是python中一个轻量级web框架&#xff0c;相对于其他web框架来说…

CPU值满resmgr:cpu quantum造成的Oracle等待事件解决办法

cpu quantum造成的Oracle等待事件解决办法 不少接触数据库的朋友有一个困扰已久的问题——resmgr:cpu quantum。已经遇过不少次这种CPU突然全绿的情况&#xff0c;通过隐含参数屏蔽了一下&#xff0c;方便研究。 刚好有人问我这个问题&#xff0c;就干脆翻文档写一篇文章给这位…

讲解用户角色切换

方法一&#xff1a;有root密码&#xff0c;可以使用su - root切换到root下&#xff0c;为了安全起见&#xff0c;不建议使用&#xff0c;因为如果切换到root下&#xff0c;被人修改了root密码&#xff0c;就真的完蛋了.......方法二&#xff1a;通过sudo给普通用户授权&#xf…

HTML教程-各窗口间相互操作(Frame Target)

文章来源&#xff1a; 山西之窗由Frames分出来的几个窗口的内容并不是静止不变的&#xff0c;往往一个窗口的内容随着另一个窗口的要求而不断变化&#xff0c;这就提高了Frames的利用价值。为了完成各窗口之间的相互操作&#xff0c;我们必须为每一个窗口起一个名字&#xff0c…

[转载] 晓说——第3期:梦回青楼 爱与自由的温柔乡(上)

转载于:https://www.cnblogs.com/6DAN_HUST/archive/2012/08/20/2647811.html

10个 Python 工程师,9个不合格!

毋庸置疑&#xff0c;Python越来越被认可为程序员新时代的风口语言。 无论是刚入门的程序员&#xff0c;还是年薪百万的 BATJ 的大牛都无可否认&#xff1a;Python的应用能力是成为一名码农大神的必要项。 所以&#xff0c;很多程序员把Python当做第一语言来学习。 但对于Pytho…

驱动07.USB驱动程序

1 了解USB识别的过程 eg&#xff1a;在Windows系统下的一个现象&#xff1a;把手机的USB设备接到PC  1. 右下角弹出"发现android phone"  2. 跳出一个对话框&#xff0c;提示你安装驱动程序 问1. 既然还没有"驱动程序"&#xff0c;为何能知道是"a…

豪气!华为放话:3年培养100万AI人才!网友神回应了

大家经常把BAT挂在嘴边&#xff0c;但是可能有些人还不知道&#xff0c;华为的体量早已超越了这三巨头&#xff0c;只是迟迟不肯上市。华为的创始人任正非曾说表&#xff1a;上不上市不重要&#xff0c;最重要的是要让中国华为的技术能够称霸全球&#xff01;华为对技术的重视&…

InnoDB的启动,关闭,恢复

InnoDB存储引擎是MySQL的存储引擎之一&#xff0c;因此InnoDB存储引擎的启动和关闭更准确地是指在MySQL实例的启动过程中对InnoDB表存储引擎的处理过程。 参数innodb_fast_shutdown 在关闭时&#xff0c;参数innodb_fast_shutdown影响着表的存储引擎为InnoDB的行为。该参数可取…

微软推出提点神器动态ReLU,可能是最好的ReLU改进

作者 | Vincent 来源 | 晓飞的算法工程笔记 简介ReLU是深度学习中很重要的里程碑&#xff0c;简单但强大&#xff0c;能够极大地提升神经网络的性能。目前也有很多ReLU的改进版&#xff0c;比如Leaky ReLU和 PReLU&#xff0c;而这些改进版和原版的最终参数都是固定的。所以论…

监控 monit

官方说明文档 http://mmonit.com/monit/documentation/monit.html 实例 http://mmonit.com/wiki/Monit/ConfigurationExamples 下载最新软件包 wget http://mmonit.com/monit/dist/monit-5.4.tar.gz monit 介绍 monit是一个实用程序&#xff0c;用于在 Unix 系统上管理和监视…

框架窗口的尺寸设置

将窗口分割为几块&#xff0c;横向分用ROWS属性&#xff0c;纵向分用COLS属性&#xff0c;每一块的大小可以由这两个属性的值来实现。 <frameset cols#>  例&#xff1a;<frameset cols"100,200,300">   <frameset rows#>  例&#xff1a;<…

C语言双链表遍历,插入,删除

#include<stdio.h> #include<stdlib.h> #include <string.h> #define bzero(a, b) memset(a, 0, b)//windows平台下无bzero函数。 增加宏拓展移植性struct node{int data; //有效数据 struct node *pLast;//指向上一个节点的指针…

详解.NET的RAD功能

作者&#xff1a;中国计算机报Visual Studio.NET 拥有开发者建立一个成功而强大的中间层应用服务所需要的所有开发工具&#xff0c;利用这些工具&#xff0c;开发者可以&#xff1a; 1.保障消息传播和利用微软消息队列&#xff08;MSMQ&#xff09;跨平台的通讯&#xff1b; 2…

Java初学者如何自学和自己定位解决问题

注&#xff1a; OneCoder 即本人苦逼Coder 今天群里(Java Coder群&#xff1a;91513074)的朋友&#xff0c;问我该如何看帮助文档&#xff0c;或者说在遇到问题的时候如何解决。希望我能介绍一下我的方法。 这个OneCoder其实没有资格高谈阔论&#xff0c;只能说说个人的习惯和…

仅用 4 小时,吃透“百度太行”背后硬科技!

我们正处于一个 AI 生万物&#xff0c;万物生 AI 的时代&#xff0c;云与 AI 也如共同体&#xff0c;水乳相容不可分割。无论是企业还是政府机构、社会团体&#xff0c;上云已然成为一个不可抗的趋势&#xff0c;尤其是 AI 的发展&#xff0c;更是离不开强大、灵活、便捷的云计…