当前位置：首页 > 编程日记 > 正文

迁移学习与图神经网络“合力”模型：用DoT-GNN克服组重识别难题

编程日记 2024-12-15 18:00:00

作者 | Ziling Huang、Zheng Wang、Wei Hu、Chia-Wen Lin、Shin’ichi Satoh

译者 | 刘畅

编辑 | Jane

出品 | AI科技大本营（ID：rgznai100）

【导读】目前，大多数行人重识别（ReID）方法主要是从收集的单个人图像数据库中检索感兴趣的人。在跨摄像头的监控应用中，除了单人ReID任务外，匹配一组行人（多个人）也起着重要的作用。这种组重识别（GReID）的任务非常具有挑战性，因为它不仅面临着单个人外观的变化，还有组的布局和成员身份变化也会带来更多困难。为了获得组图像的鲁棒表示，本文设计了一种域迁移图神经网络（DoT-GNN）方法。

DoT-GNN方法主要包括三个方面：

（1）类型迁移（Transferred Style）：由于缺少训练样本，我们将标记的ReID数据集迁移为G-ReID数据集样式，并将迁移的样本提供给深度学习模型。利用深度学习模型的优势，本文得到了可区分的个体特征模型。

（2）图生成（Graph Generation）：本文将每个组视为一个图，其中每个节点表示单个行人的特征，每个边沿表示几个个体之间的关系。本文提出了一种图生成策略来生成足够的图样本。

（3）图神经网络：本文利用生成的图样本来一个训练GNN，以获取针对大型图变化具有鲁棒性的图特征。DoT-GNN成功的关键在于，迁移的图解决了外观变化的问题，而GNN中的图表示克服了组布局和单个成员变化的问题。大量的实验结果证明了本文方法的有效性，与最优方法（SOTA）相比，本文方法在Road Group数据集上高1.8％CMC-1，在DukeMCMT数据集上高6.0％CMC-1。

图1：图解GReID任务及其挑战。分别用红框、蓝框、绿框表示的行人会在一组人中变化他们的位置。用紫框表示的行人会加入该组。用黄框表示的行人离开了该组。除了外观变化的挑战之外，GReID还会带来组布局和成员的改变。

行人重识别（ReID）由于其广泛的应用（例如监控）而备受关注。现有的研究主要集中于针对个人的行人重识别，而同时搜索特定人群的研究相对较少。实际上，在街道上一群人一起走动是很普遍的现象。如图1所示，一群人从摄像机A的视野走到摄像机B的视野。系统需要一种算法来重识别跨不同摄像机的一群人（称为Group ReID或G-ReID）。实际上，G-ReID在日常生活中变得越来越重要，这是对单人ReID的补充。

与单独的ReID不同，G-ReID的目标是将不同摄像机视图下的特定组相关联。除了单个ReID的传统挑战（例如低分辨率，姿势变化，照明变化和视觉模糊）之外，G-ReID还具有其自身的独特挑战。如图1所示，当组从摄像机A移到摄像机B时，1）人们改变了他们在组中的位置（称为组布局更改），2）一些人动态加入并离开了组（称为组成员资格更改）。也就是说，G-ReID是一个更具挑战性的任务，因为一个组具有可变形的特征。因此，将组作为一个整体来处理并提取其全局或半全局特征可能做不好，因为组的布局和成员资格变化会极大地改变组的视觉表征内容。

当一个小组由几个人组成时，其表示可以是个人及其关系表示的组合。这启发作者使用图来构造整个表示。作者选择采用无向图来表示组图像中的成对对称关系，并利用图神经网络（GNN）模型来标识图ID。通过表示图中各个行人之间的关系，GNN能够通过图卷积（即在相邻节点之间传递消息）来提取组特征。此外，GNN能在图上提供每个组里面关系的灵活表示，适于解决组布局更改和成员资格更改的问题。

为了更详细的了解清楚GReID任务的难点。作者列出了一个表格来详细说明。如下表格所示。

作者提出了一种用于组重识别的域迁移图网络模型，利用GNN学习组特征并识别相应的组。总而言之，主要有以下三个贡献：

1、利用图表示和建模的思想来解决G-ReID的不规则性问题。据我们所知，我们是第一个针对G-ReID提出基于GNN框架的人。尽管深度学习模型具有其优势，但尚未有针对G-ReID提出有效的深度学习模型，更不用说具有迁移学习功能的深度GNN了。

2、本文提出了一种域迁移图节点构造方法和两种分组策略来保存和更改组成员身份，用以克服在训练数据非常有限的情况下个人外观和G-ReID成员身份更改带来的问题。图的构建过程得益于迁移的图节点。

3、在G-ReID的两个数据集DukeMTMC Group和Road Group上，证明了本文方法的有效性。

方法

框架

本文所提出的框架如图2所示，其中包括了训练步骤和测试步骤。在训练步骤中，该框架包括一个域迁移模型，该模型负责将源域的个体图像迁移到其对应的目标域的图像；一个图生成器，它用迁移后的单图表示来构建图样本池作为节点，并在图样本池上训练一个GNN模型去对组ID进行分类。

在测试步骤中，本文通过GNN模型对待检测图像p和图库图像G提取特征，然后计算待检索特征与图库特征之间的距离，以便根据距离去重识别组ID。

域迁移模型

由于G-ReID图像集合中组数量非常有限，因此仅基于这些数据本身直接训练一个网络十分困难。为了学习更好的表示，我们应该利用外部信息。目前有大量的ReID数据集，且能有较好的针对单体图像的特征表示。但是由于现有的ReID数据集和目标G-ReID图像的获取条件不同，它们之间的域gap会显著降低表示学习的性能。

于是，本文提出了学习ReID数据集S到G-ReID数据集T之间的映射函数，这样生成的数据集T(S)与T的分布不会有差异。这样由CNN提取的域迁移个体特征就能用于图构建。

图生成器

我们可以从相邻的组成员那里获得更多有用的信息。在本文的工作中，每个组图像均以图表示，以表征行人的相互和全局关系。图中的每个节点代表组中的一个人，两个节点之间的边表示两个人之间的亲密关系，这是通过两个人的特征之间的相似度（基于预定义的相似性度量）来衡量的。如果使用图来表示组图像，则可以基于图之间的相似性度量来搜索目标组。

在本文中，作者使用GNN来表示图特征用以测量图相似度。为了训练GNN，作者使用了域迁移节点来构建图样本池。对一个图，它包含多个节点、多条边和对应的标签。本文的图生成器会采用两种策略来构造图样本，即成员资格保留组和成员资格可变组。

成员资格保留组（Membership-preserving grouping）

本文使用迁移的图特征来代替图样本。如果两个组图像包含相同的成员，则将这两个图像标记为同一组。当然，从一个摄像头到另一个摄像头，组的布局可能会发生变化，本文使用无向图来解决布局和外观变化的问题。

因此，作者提出了一种保留成员资格的分组策略，针对图像类Lx，作者首先随机选取一些人作为其成员。然后，针对每一个成员，再随机选择一个与其相关联的节点。第三，不同成员的节点共同构成一个图样本，并且计算两个节点之间的权重作为边。

成员资格可变组(Membership-varying grouping)

如上所示，组的成员也有可能会发生改变。这意味着对应于相同标签的图样本，可能会包含彼此不完全相同的节点。因此本文计算了两个图样本之间的成员相似度比率，该比率的定义是两个图的节点来自同一个公共组成员的百分比。如果两个组有相似的相似度比率。则可以认为它们共享相同的组ID。

实验

数据和实验数据

使用DukeMTMC Group和Road Group两个公共数据集。域迁移模型使用的是CycleGAN，GNN模型使用的是半监督图网络的源代码，图生成器的设定是组最大人数15，阈值0.1。

实验对比

消融实验对比

其中Tr.表示域迁移模型，S1表示成员资格保留组策略，S2表示成员资格可变组策略，GNN表示图网络。

总结

在本文中，作者解决了一个重要但研究较少的问题：组重识别。本文提出使用图节点生成（迁移），成员资格保留组和成员资格更改组来分别克服组重标识中的三个主要挑战：训练数据不足，布局和外在更改以及成员资格导致的布局更改。本文还提出了一种图网络，用以学习和提取构造图的组特征表示，以便更好地识别其组ID。实验结果表明，我们的方法优于现有的最新方法。

（*本文为AI科技大本营编译文章，转载请微信联系1092722531）

◆

精彩推荐

◆

开幕倒计时11天｜2019 中国大数据技术大会（BDTC）即将震撼来袭！豪华主席阵容及百位技术专家齐聚，十余场精选专题技术和行业论坛，超强干货+技术剖析+行业实践立体解读。6.6 折票限时特惠（立减1400元），学生票仅 599 元！

推荐阅读

马斯克发首款会上火星的电动皮卡：28万起，可防弹，造型相当“赛博朋克”
YC中国被撤，陆奇独立运营个人新品牌「奇绩创坛」
5种小型设备上深度学习推理的高效算法
中国工程院院士评选结果公布，阿里王坚当选
2097352GB地图数据，AI技术酷炫渲染，《微软飞行模拟器》游戏即将上线
用Go重构C语言系统，这个抗住春晚红包的百度转发引擎承接了万亿流量
日均350000亿接入量，腾讯TubeMQ性能超过Kafka
揭秘支撑双 11 买买买背后的硬核黑科技！
假如有人把支付宝存储服务器炸了
乔布斯的简历 120 万被拍卖，HR 看了想打人
区块链+“中国制造”：一文看懂区块链如何提升供应链金融活力与效能！

你点的每个“在看”，我都认真当成了AI

https://www.dkcj.cn/info/31966.html

马斯克发首款会上火星的电动皮卡：28万起，可防弹，造型相当“赛博朋克”

YC中国被撤，陆奇独立运营个人新品牌「奇绩创坛」

5种小型设备上深度学习推理的高效算法

中国工程院院士评选结果公布，阿里王坚当选

2097352GB地图数据，AI技术酷炫渲染，《微软飞行模拟器》游戏即将上线

用Go重构C语言系统，这个抗住春晚红包的百度转发引擎承接了万亿流量

日均350000亿接入量，腾讯TubeMQ性能超过Kafka

揭秘支撑双 11 买买买背后的硬核黑科技！

假如有人把支付宝存储服务器炸了

乔布斯的简历 120 万被拍卖，HR 看了想打人

区块链+“中国制造”：一文看懂区块链如何提升供应链金融活力与效能！

相关文章：