当前位置: 首页 > 编程日记 > 正文

352万帧标注图片,1400个视频,亮风台推最大单目标跟踪数据集

640?wx_fmt=png


CVPR 2019期间,专注于AR技术,整合软硬件的人工智能公司亮风台公开大规模单目标跟踪高质量数据集LaSOT,包含超过352万帧手工标注的图片和1400个视频,这也是目前为止最大的拥有密集标注的单目标跟踪数据集。

 

论文《LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking》详细阐述了LaSOT数据集的构造原理和评估方法,由亮风台、华南理工大学、美图-亮风台联合实验室等单位共同完成,收录于CVPR 2019。此外,亮风台另一算法成果投影AR新成果入选CVPR 2019 oral。

 

LaSOT贡献



视觉跟踪是计算机视觉中最重要的问题之一,其应用领域包括视频监控、机器人技术、人机交互等。随着跟踪领域的巨大进步,人们提出了许多算法。在这一过程中,跟踪基准对客观评估起到了至关重要的作用。LaSOT的推出,是希望为行业提供一个大规模的、专门的、高质量的基准,用于深度跟踪训练和跟踪算法的真实评估。

       640?wx_fmt=png      

图1:常用跟踪数据集统计示意图。包括OTB-2013、OTB-2015、TC-128、NUS-PRO、UAV123、UAV20L、VOT-2014、VOT-2017和LaSOT。圆直径与数据集的总帧数数成比例。所提出的LaSOT比所有其他基准都要大,并且专注于长期跟踪。

 

观察和比较不同的跟踪算法发现,其进一步发展和评估受到现有评测集的限制,存在的问题主要包括:

 

1. 规模小。现有数据集很少有超过400个序列,由于缺乏大规模的跟踪数据集,很难使用跟踪特定视频训练深度跟踪器。


2. 短时跟踪。理想的跟踪器能够在相对较长的时间内定位目标,目标可能消失并重新进入视图。然而,大多数现有的基准都集中在短期跟踪上,其中平均序列长度小于600帧(即20秒左右),而且目标几乎总是出现在视频帧中。


3. 类别偏见。一个稳健的跟踪系统应该表现出对目标所属类别的不敏感性,这意味着在训练和评估跟踪算法时都应该抑制类别偏差(或类别不平衡)。然而,现有的基准通常只包含几个类别,视频数量不平衡。

 

许多数据集被提议处理上述问题,然而,并都没有解决所有的问题。

     640?wx_fmt=png       

基于上述动机,他们为社区提供了一个新的大型单目标跟踪(LaSOT)基准,并提供了多方面的贡献:

 

1. LaSOT包含1400个视频,每个序列平均2512帧。每一帧都经过仔细检查和手动标记,并在需要时对结果进行目视检查和纠正。这样,可以生成大约352万个高质量的边界框注释。

 

此外,LaSOT包含70个类别,每个类别包含20个序列。据了解,LaSOT是迄今为止最大的具有高质量手动密集注释的对象跟踪数据集。

 

2. 与之前的数据集不同,LaSOT提供了可视化边界框注释和丰富的自然语言规范,这些规范最近被证明对各种视觉任务都是有益的,包括视觉跟踪。这样做的目标是鼓励和促进探索集成视觉和语言功能,以实现强大的跟踪性能。

 

3. 为了评估现有的跟踪器,并为将来在LaSOT上的比较提供广泛的基准,团队在不同的协议下评估了35个具有代表性的跟踪器,并使用不同的指标分析其性能。


 

LaSOT大规模多样化的数据采集


 

LaSOT数据集的构建遵循大规模、高质量的密集注释、长期跟踪、类别平衡和综合标记五个原则。

 

LaSOT基准数据采集涵盖了各种不同背景下的各种对象类别,包含70个对象类别。大多数类别是从ImageNet的1000个类别中选择的,但少数例外(如无人机)是为流行的跟踪应用程序精心选择的。以往的数据集通常含有的类别少于30个,并且一般分布不均匀。相比之下,LaSOT为每个类别提供相同数量的序列,以减轻潜在的类别偏差。

在确定了LaSOT中的70个对象类别之后,他们从YouTube中搜索了每个类的视频。最初,他们收集了5000多个视频。考虑到追踪视频的质量和LaSOT的设计原则,他们挑选了1400个视频。但是,由于大量无关内容,这1400个序列不能立即用于跟踪任务。例如,对于个人类别的视频(例如,运动员),它通常在开始时包含每个运动员的一些介绍内容,这不适合跟踪。因此,他们仔细过滤掉每个视频中不相关的内容,并保留一个可用于跟踪的剪辑。此外,LaSOT的每一个分类都包含20个目标,反映了自然场景中的分类平衡和多样性。

 

最终,他们通过收集1400个序列和352万帧的YouTube视频,在Creative Commons许可下,编译了一个大规模的数据集。LaSOT的平均视频长度为2512帧(即30帧每秒84秒)。最短的视频包含1000帧(即33秒),最长的视频包含11397帧(即378秒)。


LaSOT提供可视化边界框注释

 

为了提供一致的边界框注释,团队还定义了一个确定性注释策略。对于具有特定跟踪目标的视频,对于每个帧,如果目标对象出现在帧中,则标注者会手动绘制/编辑其边界框,使其成为最紧的右边界框,以适合目标的任何可见部分;否则,标注者会向帧提供一个“目标不存在”的标签,无论是不可见还是完全遮挡。请注意,如任何其他数据集中所观察到的那样,这种策略不能保证最小化框中的背景区域。然而,该策略确实提供了一个一致的标注,这对于学习物体的运动是相对稳定的。

 

虽然上述策略在大多数情况下都很有效,但也存在例外情况。有些物体,例如老鼠,可能有细长和高度变形的部分,例如尾巴,这不仅会在物体的外观和形状上产生严重的噪声,而且对目标物体的定位提供很少的信息。他们在LaSOT中仔细识别这些对象和相关的视频,并为它们的注释设计特定的规则(例如,在绘制它们时不包括鼠标的尾部)。

        

640?wx_fmt=png

图2:LaSOT示例序列和标注


序列的自然语言规范由描述目标的颜色、行为和环境的句子表示。对于LaSOT,他们为所有视频提供1400个描述语句。请注意,语言描述旨在为跟踪提供辅助帮助。例如,如果追踪器生成进一步处理的建议,那么语言规范可以作为全局语义指导,帮助减少它们之间的模糊性。

       640?wx_fmt=png

 

构建高质量密集跟踪数据集的最大努力显然是手动标记、双重检查和纠错。为了完成这项任务,他们组建了一个注释小组,包括几个在相关领域工作的博士生和大约10名志愿者。

 

35个代表性跟踪器的评估

 

他们没有对如何使用LaSOT进行限制,但提出了两种协议来评估跟踪算法,并进行相应的评估。

 

方案一:他们使用1400个序列来评估跟踪性能。研究人员可以使用除了LaSOT中的序列以外的任何序列来开发跟踪算法。方案一旨在对跟踪器进行大规模评估。

 

方案二:他们将LaSOT划分为训练和测试子集。根据80/20原则(即帕累托原则),他们从每类20个视频中选出16个进行培训,其余的进行测试。具体来说,训练子集包含1120个视频,2.83m帧,测试子集包含280个序列,690k帧。跟踪程序的评估在测试子集上执行。方案二的目标是同时提供一大套视频用于训练和评估跟踪器。

 

根据流行的协议(如OTB-2015[53]),他们使用OPE作为量化评估标准,并测量两个协议下不同跟踪算法的精度、标准化精度和成功率。他们评估了LaSOT上的35种算法,以提供广泛客观的基准,Tab. 3按时间顺序总结这些跟踪器及其表示方案和搜索策略。

 

       640?wx_fmt=png      

表3:已评估跟踪程序的摘要。

 

方案一评估结果

 

方案一旨在对LaSot的1400个视频进行大规模评估。每个跟踪器都按原样用于评估,没有任何修改。他们使用精度、标准化精度和成功率在OPE中报告评估结果,


640?wx_fmt=png

图3:利用精度、归一化精度和成功率对一号方案下的算法量化评估。

       640?wx_fmt=png


图4:在协议I下,追踪器在三个最具挑战性的属性上的代表性结果。

       640?wx_fmt=png

图5:六大典型挑战序列上的的定性评价结果。

 

方案二评估结果

      640?wx_fmt=png

图6:使用精度、标准化精度和成功率对方案II下的跟踪算法评估。

 

根据方案二,他们将LaSOT分为训练集和测试集。研究人员可以利用训练集中的序列来开发他们的跟踪器,并评估他们在测试集中的表现。为了提供测试集的基线和比较,他们评估了35种跟踪算法。每个跟踪器都被用于评估,没有任何修改或再培训。使用精度、归一化精度和成功率的评价结果如图6所示。

 

除了对每一种跟踪算法进行评估外,他们还对两种具有代表性的深跟踪算法MDNET[42]和SIAMFC进行了重新培训,并对其进行了评估。评估结果表明,这些跟踪器在没有重训练的情况下具有相似的性能。一个潜在的原因是他们的重新培训可能和原作者使用配置不同。

 

他们对SiamFC的LaSOT训练集进行了再培训,以证明使用更多的数据如何改进基于深度学习的跟踪器。Tab. 4报告了OTB-2013和OTB-2015的结果,并与在ImageNet视频上培训的原始SIAMFC的性能进行了比较。请注意,使用彩色图像进行培训,并应用3个比例的金字塔进行跟踪,即SIAMFC-3S(彩色)。表4为在LaSOT上对siamfc进行再培训。

  640?wx_fmt=png       

跟踪在这两个实验中保持不变。他们在两个评测集上观察到了一致的性能提升,显示了针对深度追踪器的特定大规模训练集的重要性。

 

LASOT主页:https://cis.temple.edu/lasot/

数据集下载:https://cis.temple.edu/lasot/download.html                 

算法测评和工具包:https://cis.temple.edu/lasot/results.html

论文:https://arxiv.org/abs/1809.07845


(*本文为 AI科技大本营整理文章,转载请微信联系 1092722531


公开课精彩推荐



想跟NVIDIA专业讲师学习TensorRT吗?扫码进群,获取报名地址,群内优秀提问者可获得限量奖品(定制T恤或者技术图书,包邮哦~)


NVIDIA TensorRT是一种高性能深度学习推理优化器和运行时加速库,可以为深度学习推理应用程序提供低延时和高吞吐量。通过TensorRT,开发者可以优化神经网络模型,以高精度校对低精度,最后将模型部署到超大规模数据中心、嵌入式平台或者汽车产品平台中。


640?wx_fmt=jpeg

640?wx_fmt=png

推荐阅读

  • 西交出身,辛书冕获CVPR 2019最佳论文,李飞飞团队获经典论文奖

  • 媲美Pandas?Python的Datatable包怎么用?

  • 蔡徐坤1亿转发量幕后推手被封,能否动摇饭圈文化?| 数据会说话

  • 解密Kernel:为什么适用任何机器学习算法?

  • Python最抢手、Java最流行、Go最有前途,7000位程序员揭秘2019软件开发现状

  • 一张图告诉你到底学Python还是Java!

  • 10分钟读懂什么是容器云?

  • 倒计时10天 | 堪称年度中国最具影响力的以太坊技术盛宴,为何不容错过?

  • 技术面试别扯智力题!


640?wx_fmt=png你点的每个“在看”,我都认真当成了喜欢

相关文章:

centos7中nfs文件系统的使用

需求:file01:1.1.1.1(内网ip 172.20.103.212),file02:2.2.2.2(内网ip 172.20.103.211) 这两台机器的 /dev/mapper/myvg-mylv /data 这个盘都挂载到 video01 47.254.78.171, video02 47.254.83.81 这两台机器上即将file01和file02的/data目录都挂载到vid…

在图像变换中用最小二乘法求解仿射变换参数

设原图像为f(x,y),畸变后的图像为F(X,Y),要将F(X,Y)恢复为f(x,y),就是要找到(X,Y)坐标与(x,y)坐标的转换关系,这个转换关系称为坐标变换,表示为(x,y)T(X,Y)。 景物在成像过程中产生的扭曲,会使图像的比例失…

showModalDialog关闭子窗口,并刷新父窗口

一、用法&#xff1a;window.showModalDialog(url,args,dialogWidth650px;scrollno;dialogHeight250px;statusno; ); 二、关闭子窗口&#xff0c;并刷新父窗口 想在showModalDialog打开的窗口中提交表单且不打开新窗口 只需在打开的页面的<head>中加入<base target&qu…

cvDrawContours:在图像上绘制外部和内部轮廓

转自&#xff1a;http://www.aiseminar.cn/html/18/t-618.html?action-uchimage 函数cvDrawContours用于在图像上绘制外部和内部轮廓。当thickness > 0 时&#xff0c;绘制轮廓线&#xff1b;否则填充由轮廓包围的部分。 void cvDrawContours( CvArr *img, CvSeq* contour,…

Python最抢手、Go最有前途,7000位程序员揭秘2019软件开发现状

作者 | 屠敏 整理报告来源 | JetBrains转载自 CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;互联网的下半场&#xff0c;科技公司为面对更加严峻的竞争环境&#xff0c;越来越重视开源节流。而对于身处其中且撑起 IT 半边天的技术人&#xff0c;如今如何了&#xff1f;从…

main函数参数

参考&#xff1a;Where Does GCC Look to Find its Header Files? 命令行参数 VS 程序参数 ./a.out 1 2 3 4 5 6 1 2 3 4 5 6是程序参数&#xff0c;是传给a.out这个程序处理的&#xff0c;main里面的argv来接收 ./a.out 1 2 3 4 5 6完整的这一串才是命令行参数 代码演示 如下…

转载 load-on-startup的用法

转载于:http://www.ituring.com.cn/article/50477 Web.xml中的Servlet中的配置&#xff1a; <servlet><servlet-name>createBlog</servlet-name><servlet-class>com.cnblogs.CreateBlog</servlet-class><load-on-startup>0</load-on-s…

商汤62篇论文入选CVPR 2019,一览五大方向最新研究进展

&#xff08;图源自视觉中国&#xff09;作为与ICCV、ECCV并称为计算机视觉领域三大国际会议之一&#xff0c;本届CVPR大会共收到5265篇有效投稿&#xff0c;接收论文1300篇&#xff0c;接收率为25.2%。商汤科技CVPR 2019录取论文在多个领域实现突破作为国内CV领域的明星公司&a…

cvSaveImage保存图像

转自&#xff1a;http://blog.csdn.net/luhuillll/archive/2009/10/28/4739471.aspx opencv保存图象直接使用cvSaveImage,这个函数.但是windows位图的图象格式是RGBt格式,而opencv的图象存储格式是BGR. 这样导致保存的图象失真.在windows下查看图象好象变绿色了.所以在保存图象…

软工实践原型设计——PaperRepositories

软工实践原型设计——PaperRepositories 写在前面 本次作业链接队友&#xff08;031602237吴杰婷&#xff09;博客链接pdf文件地址原型设计地址(加载有点慢...)结对成员:031602237吴杰婷 & 031602636许舒玲原型设计工具:Axure RP 8PSP表格 PSP3.1Personal Software Process…

nagios+sendmail配置

以下为自己安装测试过的&#xff0c;如果有问题&#xff0c;大家一起讨论 系统环境&#xff1a;centos6.2 64位 最小化安装 一 安装nagios 见附件&#xff1a;nagios官方文档&#xff08;nagios_nrpe20120929_web.pdf&#xff09; 二 安装配置sendmail 我用hotmail邮箱接收nagi…

真正的博士是如何参加AAAI, ICML, ICLR等AI顶会的?

&#xff08;图源自视觉中国&#xff09;整理 | 一一出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;源于对学术的热爱&#xff0c;让很多人走上了博士这条求索之路&#xff0c;而热爱会让他们勤奋付出&#xff0c;勤奋让他们成为佼佼者。在刚刚过去的 ICML 大会上&a…

matlab图像滤波

转自&#xff1a;http://hi.baidu.com/wang%5Fpw/blog/item/36354a637ac87b48eaf8f879.html clc; clear all; Iimread(eight.tif); % %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % %用中值滤波&#xff0c;多维滤波&#xff0c;使用中心为-4,-8的拉普 % %拉…

​2018你不得不看的国内CRM软件排行榜

2018你不得不看的国内CRM软件排行榜短短几年时间&#xff0c;CRM在中国的发展就已经非常迅猛&#xff0c;现在已经成为了管理软件增长最快的产业。在我们总结的CRM软件排行榜中&#xff0c;腾讯企点的CRM软件赫然摆在前列。而CRM在中国中小企业已经突破千万家&#xff0c;占全国…

二维物体形状识别方法比较

二维物体形状识别方法比较 摘 要 针对模式识别中二维物体的形状识别问题&#xff0c;以二值图像中的物体形状为主要研究对象&#xff0c;依次从特征提取、分类器设计两个主要层面对形状识别方法进行了全面综述&#xff0c;并分析了国内外研究现状&#xff0c;特别是近年来所取…

个人知识管理的10个误区

100个人&#xff0c;有100个对个人知识管理的理解。 当我们热烈的讨论“个人知识管理”的时候&#xff0c;也许我们讨论的根本不是一个东西&#xff1a;你理解的个人知识管理和他理解的个人知识管理根本不同。 拙作《你的知识需要管理》试图去建立一个个人知识管理内容的框架&a…

关于比特币现金升级问题讨论不断升温

过去几周&#xff0c;比特币现金的支持者一直在讨论定于今年11月15日推出的硬叉。大多数人都明白&#xff0c;目前有两个阵营有着完全不同的愿景。看来双方在短期内不会达成妥协。最近&#xff0c;随着时间的推移&#xff0c;双方都在测试某些特性&#xff0c;并发表了关于特定…

阿里AI摘图像识别竞赛WebVision桂冠,万物识别准确率创世界纪录

近日&#xff0c;第三届图像识别竞赛WebVision中&#xff0c;阿里AI击败了全世界150多支参赛队伍&#xff0c;获得冠军。 WebVision由谷歌、美国卡耐基梅隆大学、苏黎世联邦理工大学等机构联合全球视觉技术领域顶级学术会议CVPR发起&#xff0c;是目前图像识别领域最权威的竞赛…

做人工智能必看的45篇论文 | 附下载地址

而AI领域的发展会是IT中最快的。我们所看到的那些黑客技&#xff0c;其后面无不堆积了大量的论文。而且都是最新、最前沿的论文。从某种调度来讲&#xff0c;他们所用的技术跟书籍里的内容确实不是一个时代。要想与时俱进&#xff0c;就必须改变思路——从论文入手。今天给大家…

C# Socket编程(5)使用TCP Socket

TCP 协议(Transmission Control Protocol,传输控制协议)是TCP/IP体系中面向连接(connection oriented)的传输层(transport layer)&#xff0c;TCP协议能够检测和恢复IP层提供的主机到主机的信道中可能发生的报文丢失、重复以及其他错误。由于TCP协议是一种面向连接协议:在使用它…

opencv 检测直线、线段、圆、矩形

转自&#xff1a;http://blog.csdn.net/byxdaz/archive/2009/12/01/4912136.aspx 检测直线&#xff1a;cvHoughLines&#xff0c;cvHoughLines2 检测圆&#xff1a;cvHoughCircles 检测矩形&#xff1a;opencv中没有对应的函数&#xff0c;下面有段代码可以检测矩形&#xff…

kaldi 源码分析(十) - gmm-init-mono.c分析

一直没有搞明白 hmm-gmm 之间是通过什么联系起来的&#xff0c;花了些时间查代码&#xff0c;看到最直观联系的就是 gmm-init-mono 工具。 gmm-init-mono 基础类通过上述看到&#xff0c;主要的配置都是 在 topo 文件中, 这里需要将一些常见的名称理解下来&#xff0c;这里直接…

你最需要了解的H3C交换机端口安全模式

以下内容摘自正在全国热销的《Cisco/H3C交换机高级配置与管理技术手册》一书&#xff08;畅销经典——《Cisco/H3C交换机配置与管理完全手册》&#xff08;第二版&#xff09;的配套姊妹篇&#xff09;。目前京东网和卓越网上都有“满150元减50元&#xff0c;满300元减100元”的…

TCL发布7项AI合作项目,聘任蒋涛为技术顾问

作者 | 夕颜出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;2019 年 6 月 14 日&#xff0c;TCL 举办了以“技术无疆界&#xff0c;合作赢未来”为主题的技术合作开放大会。会上&#xff0c;TCL 面向全球发布了 13 项技术合作项目&#xff0c;其中包括 7 项人工智能技…

Microsoft Platform SDK Febrary 2003更新vc6的SDK网址

Microsoft Platform SDK Febrary 2003更新vc6的SDK网址&#xff0c;目前找到3处&#xff0c;分别为&#xff1a; 1、http://www.x86pro.com/plus/view.php?aid100 2、http://blog.csdn.net/Mobidogs/archive/2007/02/22/1512620.aspx 3、http://blog.chinaunix.net/u1/34831…

11岁姑娘挑战8分钟编程小程序!蚂蚁金服董事长井贤栋:欢迎加入

小蚂蚁说&#xff1a; 9月19日&#xff0c;在阿里巴巴云栖大会现场&#xff0c;一位年仅11岁的小学生万海妍报名参加了支付宝8分钟小程序挑战赛&#xff0c;成为现场最年轻选手。据悉&#xff0c;蚂蚁金服董事长兼CEO井贤栋在会后对万海妍十分赞赏&#xff0c;向她发出邀请&…

MST配置详解

一、 组网需求1. 网络中所有设备都属于同一个MST域。SW1和SW2为汇聚层设备&#xff0c;SW3和SW4为接入层设备。 2. 通过配置MSTP&#xff0c;使不同VLAN的报文按照不同的MSTI转发&#xff1a; VLAN10的报文沿MSTI1转发&#xff0c;VLAN30沿MSTI3转发&#…

CImg库的一个简单例子

转自&#xff1a;http://www.cppprog.com/2009/0424/106.html CImg是一个跨平台的C的图像处理库&#xff0c;提供了加载、处理、显示、保存等一系列功能&#xff0c;其中的图像处理功能尤其强大。 首先&#xff0c;建议先到这里欣赏一下使用CImg代码做的Demo&#xff0c;就是它…

继AutoML后,第四范式发布软硬一体化AI集成系统SageOne

作者 | 夕颜出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;6 月 20 日&#xff0c;AI产品和服务提供商第四范式宣布发布最新 AI 系列产品SageOne Appliance软硬一体化AI集成系统&#xff0c;性能较市面开源工具或GPU解决方案至少提高6倍。这是继 2018 年9 月 18 日第…

Apache 基金会宣布 Apache Pulsar 毕业成为顶级项目

开发四年只会写业务代码&#xff0c;分布式高并发都不会还做程序员&#xff1f; Apache 软件基金会宣布&#xff0c;Apache Pulsar 已经成功地从孵化毕业&#xff0c;成为基金会的一个新的顶级项目。Pulsar 是一个分布式的消息发布/订阅传递平台&#xff0c;旨在实现可扩展性…