不止于刷榜,三大CV赛事夺冠算法技术的“研”与“用”

(由AI科技大本营付费下载自视觉中国)
在 5 个月时间里(5月-9月),创新工场旗下人工智能企业创新奇智连续在世界顶级人脸检测竞赛 WIDER FACE、物体检测竞赛 PASCAL VOC、图像分割竞赛 Cityscapes 中取得三冠的佳绩,体现了创新奇智人工智能算法能力,尤其是在计算机视觉领域中算法的创新和设计能力。
一、AInnoFace 人脸检测算法:权威数据集 WIDER FACE 最新排名第一
人脸检测是人工智能算法最重要的商业场景之一,也是计算机视觉领域中非常热门和具有挑战性的问题。为提升人工智能算法精度,彰显其人工智能技术实力,很多 AI 公司都会选择在公开数据集上验证自身的算法能力。
在众多数据集中,由香港中文大学于 2016 年建立的 WIDER FACE 是目前业界公开的规模最大、检测难度最高的人脸检测数据集。该数据集共包含 32,203 张图像和 393,703 个人脸标注。其中,40% 的数据为训练集(Training),10% 的数据为验证集(Validation),50% 的数据为测试集(Testing),而每个集合中的数据根据人脸检测的难易程度分为“Easy”,“Medium”,“Hard”。
WIDER FACE 的数据集更贴近现实场景,识别难度非常大,典型例子如下图所示。
从图片中可以看到,该数据集汇集了人脸尺寸、拍照角度、人脸姿态、人脸遮挡、表情等各种变化,还有不同类型的光照污染、强弱差异,以及多样的化妆风格等影响因素,因此该数据集在全球人脸检测领域极具挑战性,也极具权威性,每次评测都会吸引国内外高校和科技企业一较高下。
近日,世界权威的人脸检测公开评测集 WIDER FACE 公布最新评测排名,在 WIDER FACE 的 Easy、Medium 和 Hard 三个评测子集的六项评估结果中,创新奇智(AInnovation)研发的 AInnoFace 人脸检测算法综合排名第一(六个分项排名中五项第一,一项第二),超越百度、旷视、腾讯、京东、滴滴、卡耐基梅隆大学、北京邮电大学、中国科学院大学等众多国内外知名人工智能企业和高校人工智能实验室。
图片来自WIDER FACE官网
WIDER FACE官网
http://shuoyang1213.me/WIDERFACE/WiderFace_Results.html
AInnoFace 算法是如何力压群雄的?
它以著名的一阶段检测器 RetinaNet 为起点,其中:
(a)骨干网络:前馈ResNet-152网络架构用来提取多尺度特征图。
(b)颈部网络:一个6级特征金字塔网络(FPN)用来生成更丰富的多尺度卷积特征金字塔,之后连接两个共享子网,一个子网负责分类目标框,另一个网络负责将目标框回归到真实框。
随后,他们使用focal-loss作为二分类的损失和使用IoU loss 作为框回归的损失。IoU 损失函数(IoU regression loss)进行边框回归使得检测结果的位置更加精准,使用了选择性二阶段回归和分类(Selective Refinement Network)让检测结果的召回率更高并且产生的虚检更少,融合了多种数据増广策略使得最终的检测模型更加鲁棒,借鉴了标签最大化操作(Max-out Label)让分类预测结果更加准确从而降低虚检,还利用改进的多尺度测试策略以更好地检测不同尺度的人脸。
经过上述一系列改进,AInnoFace算法对极端尺寸、模糊、遮挡等姿态下的人脸都有很好的检测效果,能有效提升复杂场景下人脸检测召回率及精准度,更好地解决了开放场景人脸检测的技术难题。
详细信息请查看论文:
《Accurate Face Detection for High Performance》
https://arxiv.org/pdf/1905.01585.pdf
以曾经有“世界上人数最多的自拍合影”照片为例,据公开消息显示,百度的算法 PyramidBox 在该图片上检测到 880 张人脸,而 AInnoFace 算法可以检测出918张人脸,在检测精度上有较大幅度的提升。
二、AInnoDetection 目标检测算法:Pascal VOC 挑战赛算法综合排名第一
目标检测是图像领域三大基本任务之一,也是图像领域非常具有挑战的算法难题。Pascal VOC 挑战赛是世界最权威的三大计算机视觉挑战赛之一,其数据集标注质量高、场景复杂、目标多样、检测难度大,是快速检验算法有效性的首选。
Pascal VOC数据集部分样本
在人们所熟知的几大公开数据集中,虽然 Pascal VOC 数据量不如 ImageNet、MSCOCO 等数据集的数据量大,但是 Pascal VOC 数据集中丰富的场景,更加考验人工智能算法的设计和创新能力,而 ImageNet、MSCOCO 数据集更侧重考查人工智能算力的建设能力。
可以说,Pascal VOC 是国内外 AI 企业展开激烈竞争的主赛场。截至目前,Pascal VOC 挑战赛吸引了全球近百支专业队伍参赛,包括 Google、Microsoft、CMU、清华大学、阿里巴巴、腾讯、搜狗、Yi+、平安科技等国内外知名图像领域的顶尖团队参与比赛。
图片源自Pascal VOC官网 ,单项第一使用黑粗体显示
Pascal VOC官网
http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4
Pascal VOC 的数据集包括人类、动物、交通工具、室内物体等数十个类别。创新奇智视觉算法团队研发的 AInnoDetection 目标检测算法参加了 Object Detection(Competition4)子任务,在 20 类不同目标检测中超越上述公司,获得了 10 个类别的检测 MAP(准确率)第一,总分第一的成绩。

AInnoDetection模型算法使用了著名的二阶段检测算法,采用数据增强来扩充训练数据,包括填充小物体和mixup的方法。通过以上步骤,使检测模型能够对小物体检测效果更好,同时能够使模型预测效果更好。
三、AInnoSegmentation 算法:夺冠并刷新纪录实例分割任务
而在国际权威图像分割竞赛 Cityscapes 上,创新奇智的AInnoSegmentation 算法在各项指标比拼中均名列第一,综合成绩第一,并刷新实例分割任务世界纪录,超越 NVIDIA(英伟达)、Facebook、Uber、香港中文大学、商汤、搜狗、科大讯飞等几十支强劲的国际企业和科研机构。
图片来源:Cityscapes官网
Cityscapes 评测数据集在 2015 年由奔驰公司推动发布,是目前公认的机器视觉领域内最具权威性和专业性的图像分割数据集之一。Cityscapes 评测数据集共分为像素级分割和实例分割两个子任务,相较于像素级分割,实例分割的难度要更大,也是计算机视觉领域最重要、最具挑战的任务之一。
Cityscapes 实例分割任务所对应的数据集中,包含了 5000 张精细标注的图像和 20000 张粗略标注的图像,其中包含 50 个城市的不同场景、不同背景、不同街景,以及 30 类涵盖地面、建筑、交通标志、自然、天空、人和车辆等的物体标注,以关注真实场景下的环境理解著称,任务难度更高。
Mask R-CNN网络图
AInnoSegmentation 算法则以著名的 Mask R-CNN 网路架构为基础,骨干网络使用 SE-Resnet-152 网络架构,使用它来提取多尺度特征图,颈部网络采用一个 6 级特征金字塔网络(FPN),用来生成更加丰富的多尺度卷积特征。然后使用自研的特征融合模块作为特征融合器,后面连接两个共享子网,一个负责分类和框回归,一个负责图像分割。
AInnoSegementation 算法在 Cityscapes 数据集上的表现
四、不止于单一算法能力,AI落地才是王道
不止在这些算法竞赛中夺冠,更重要的是把算法应用到产业中创造价值,助力企业客户及合作伙伴提升商业效率和价值,
创新奇智自成立伊始就瞄准人工智能算法在制造、零售、金融等多个领域的商业化产品落地,形成具有商业潜力的 AI 产品和解决方案。
AInnoFace人脸检测算法已应用在创新奇智的人脸识别智能货柜、智慧园区社区等领域。AInnoDetection 目标检测算法已在创新奇智的商品检测、工业视觉缺陷检测、渠道陈列监控等产品中已经使用。AInnoSegmentation 算法广泛应用于工业视觉中,典型场景包括缺陷检测、定位、识别等,创新奇智已将该算法应用于成衣、磁性材料等质检场景中,以提高产品的质检精准度;应用于零售场景中的渠道陈列和智能货柜等商品识别场景,提高商品识别准确度的同时,帮助客户提升运营效率;应用于创新奇智正在实施的智慧铁水无人机车运输系统上,进一步提高该解决方案的成熟度和技术壁垒。
此外,创新奇智还打造人工智能数据平台、原创的深度学习支撑平台、机器学习平台和 AI 工业视觉平台 ManuVision,这些成果提升了算法在实际场景应用的精度,并高效整合了算力资源。

推荐阅读
旷视张祥雨:高效轻量级深度模型的研究和实践 | AI ProCon 2019
一份职位信息的精准推荐之旅,从AI底层架构说起
Uber提出损失变化分配方法LCA,揭秘神经网络“黑盒”
使用Python对大脑成像数据进行可视化分析
看完这篇还不会kafka,我跪榴莲!
干货 | OpenCV看这篇就够了,9段代码详解图像变换基本操作
横扫阿里、滴滴、美团后,阿里程序媛整理出这份厚厚的面经!
谷歌称已实现量子霸权;iOS 捷径功能被诉侵权;Chrome 78 Beta 发布 | 极客头条
一文读懂分片基础原理, 数据分片, 跨分片交易, 区块链分片和缩放究竟是什么鬼?

你点的每个“在看”,我都认真当成了喜欢
相关文章:
Ubuntu14.04上编译指定版本的protobuf源码操作步骤
Google Protobuf的介绍可以参考 http://blog.csdn.net/fengbingchun/article/details/49977903 ,这里介绍在Ubuntu14.04上编译安装指定版本的protobuf的操作步骤,这里以2.4.1为例:1. Ubuntu14.04上默认安装的是2.5.0,…

Linux下,各种解压缩命令集合
Linux下,各种解压缩命令集合tar xvfj lichuanhua.tar.bz2tar xvfz lichuanhua.tar.gztar xvfz lichuanhua.tgztar xvf lichuanhua.tarunzip lichuanhua.zip.gz解压 1:gunzip FileName.gz解压 2:gzip -d FileName.gz压缩:gzip File…
gtest使用初级指南
之前在 http://blog.csdn.net/fengbingchun/article/details/39667571 中对google的开源库gtest进行过介绍,现在看那篇博文,感觉有些没有说清楚,这里再进行总结下:Google Test是Google的开源C单元测试框架,简称gtest。…

iOS视频流采集概述(AVCaptureSession)
需求:需要采集到视频帧数据从而可以进行一系列处理(如: 裁剪,旋转,美颜,特效....). 所以,必须采集到视频帧数据. 阅读前提: 使用AVFoundation框架采集音视频帧数据GitHub地址(附代码) : iOS视频流采集概述 简书地址 : iOS视频流采…

300秒搞定第一超算1万年的计算量,量子霸权时代已来?
(由AI科技大本营付费下载自视觉中国)作者 | 马超责编 | 郭芮来源 | CSDN 博客近日,美国航天局(NASA)发布了一篇名为《Quantum Supremacy Using a Programmable Superconducting Processor》的报道,称谷歌的…

2014-3-6 星期四 [第一天执行分析]
昨日进度: [毛思想]:看测控技术量待定 --> [良]超额完成,昨天基本上把测控看了一大半啦 [汇编]:认真听课,边听边消化自学 --> [中]基本满足,还需要抽时间总结,特别是前面寻址的各种情况…
行列式介绍及Eigen/OpenCV/C++的三种实现
行列式,记作det(A),是一个将方阵A映射到实数的函数。行列式等于矩阵特征值的乘积。行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少。如果行列式是0,那么空间至少沿着某一维完全收缩了,使其失去了所有的体积…

基于Go的语义解析开源库FMR,“屠榜”模型外的NLP利器
(由AI科技大本营付费下载自视觉中国)作者 | 刘占亮 一览群智技术副总裁编辑 | Jane出品 | AI科技大本营(ID:rgznai100)如何合理地表示语言的内在意义?这是自然语言处理业界中长久以来悬而未决的一个命题。在…

【高级数据类型2】- 10. 接口
2019独角兽企业重金招聘Python工程师标准>>> Go语言-接口 在Go语言中,一个接口类型总是代表着某一种类型(即所有实现它的类型)的行为。一个接口类型的声明通常会包含关键字type、类型名称、关键字interface以及由花括号包裹的若干…

Linux软件包命令
2019独角兽企业重金招聘Python工程师标准>>> dpkg命令: dpkg -i **/**.deb 安装软件 dpkg -x **.deb 解开.deb文件 dpkg -r /-p 删除并清配置 更详细的 用dpkg --help 查询 如下: dpkg -i|--install <.deb 文件的文件名> ... | -R|--re…
Caffe中计算图像均值的实现(cifar10)
在深度学习中,在进行test时经常会减去train数据集的图像均值,这样做的好处是:属于数据预处理中的数据归一化,降低数据间相似性,可以将数值调整到一个合理的范围。以下code是用于计算cifar10中训练集的图像均值…

阿里云弹性公网IP(EIP)的使用限制
阿里云弹性公网IP(EIP)是一种可以独立购买和持有的公网IP地址资源,弹性公网IP具有独立购买持有、弹性绑定和配置灵活等优势,但实际使用中弹性公网IP也是有很多限制的,阿里云惠网分享弹性公网IP(EIP…

400名微软员工主动曝光薪资:28万元到228万元不等!
作者 | Dave Gershgorn译者 | 弯月,编辑 | 郭芮来源 | CSDN(ID:CSDNnews)【导读】近日,近400名微软员工分享了他们的薪酬(从4万美元到32万美元不等,约为28万人民币到228万人民币)&am…

Extjs:添加查看全部按钮
var grid new Ext.grid.GridPanel({renderTo:tsllb,title:产品成本列表,selModel:csm,height:350,columns:[csm,{header: "编码", dataIndex: "bm", sortable: true,hidden:true},{header: "产品", dataIndex: "cp", sortable: true},…

练手扎实基本功必备:非结构文本特征提取方法
作者 | Dipanjan (DJ) Sarkar编译 | ronghuaiyang来源 | AI公园(ID:AI_Paradise)【导读】本文介绍了一些传统但是被验证是非常有用的,现在都还在用的策略,用来对非结构化的文本数据提取特征。介绍在本文中,我们将研究如…
范数介绍及C++/OpenCV/Eigen的三种实现
有时我们需要衡量一个向量的大小。在机器学习中,我们经常使用被称为范数(norm)的函数衡量向量大小。形式上,Lp范数定义如下:范数(包括Lp范数)是将向量映射到非负值的函数。直观上来说,向量x的范数衡量从原点到点x的距离。更严格地…

js添加网页水印和three.js场景中加水印
我们在日常网页开发的时候,可能想给自己的网页或者canvas里面添加水印,增添个人标记,我这里分为普通静态html页面和threejs中3d场景里面添加水印功能。一 静态html页面添加水印你只需要在你的页面添加一个图片遮罩,通过绝对定位和…

JAVA学习笔记(6)
关于多线程的优先级,这个程序里面,现在计算机比较好,int存储不下了,我跑了好几次都是负分,特把int改成long。但是之后跑出来的结果,两个数字都差不多,不知道是什么问题?等待答案中。…

C++/C++11中std::deque的使用
std::deque是双端队列,可以高效的在头尾两端插入和删除元素,在std::deque两端插入和删除并不会使其它元素的指针或引用失效。在接口上和std::vector相似。与sdk::vector相反,std::deque中的元素并非连续存储:典型的实现是使用一个…

贾扬清:我对人工智能方向的一点浅见
阿里妹导读:作为 AI 大神,贾扬清让人印象深刻的可能是他写的AI框架Caffe ,那已经是六年前的事了。经过多年的沉淀,成为“阿里新人”的他,对人工智能又有何看法?最近,贾扬清在阿里内部分享了他的…

吴甘沙:天外飞“厕”、红绿灯消失,未来无人驾驶将被重新定义
整理 | 夕颜出品 | AI科技大本营(ID:rgznai100)2019 年9 月 5 日至 7 日,由新一代人工智能产业技术创新战略联盟(AITISA)指导,鹏城实验室、北京智源人工智能研究院支持,专业中文 IT 技术社区 CS…

Linux内核--网络栈实现分析(二)--数据包的传递过程--转
转载地址http://blog.csdn.net/yming0221/article/details/7492423 作者:闫明 本文分析基于Linux Kernel 1.2.13 注:标题中的”(上)“,”(下)“表示分析过程基于数据包的传递方向:”…

C++/C++11中std::stack的使用
栈stack 是一个容器适配器(container adaptor)类型,被特别设计用来运行于LIFO(Last-in First-out,后进先出)场景,在该场景中,只能从容器末尾添加和删除元素,其定义在stack头文件中。stack默认基于std::deque实现&#…

团队前四次作业——个人总结
团队前四次作业——个人总结 描述 团队名称待就业六人组相关团队第四次作业答辩——反思与总结做了哪些事?工作量、完成度 作业负责工作量完成度团队队员展示创意合照后期1h95%项目选题报告编写创新和收益部分2h85%项目原型设计原型设计6h95%需求规格说明书功能需求…

吴甘沙:天外飞“厕”、红绿灯消失,未来无人驾驶将被重新定义 | AI ProCon 2019
2019 年9 月 5 日至 7 日,由新一代人工智能产业技术创新战略联盟(AITISA)指导,鹏城实验室、北京智源人工智能研究院支持,专业中文 IT 技术社区 CSDN 主办的 2019 中国 AI 开发者大会(AI ProCon 2019&#x…

MySQL基础day03_数据的导入、导出-MySQL 5.6
MySQL基础day03_数据的导入、导出-MySQL 5.6注:把数据按照一定格式存放到文件里才能进行数据的导入。1,数据导入的条件把文件里的内容保存到数据的表里;把数据按照一定格式存放文件里;注:默认情况下,只有管…
“含光”剑出,谁与争锋?阿里重磅发布首颗AI芯片含光800
作者 | 夕颜、胡巍巍 编辑 | 唐小引 出品 | AI 科技大本营(ID:rgznai100) 9 月末的杭州气温适宜,宜出游,宜在湖边餐厅浅酌一杯清茶消闲。但在钱塘江水支流河畔的云栖小镇,却完全一副与闲适氛围不相称的热闹景象。 …

c++面试题中经常被面试官面试的小问题总结(一)(本篇偏向基础知识)
原文作者:aircraft 原文链接:https://www.cnblogs.com/DOMLX/p/10711810.html 1.类中的函数定义后加了一个const代表什么? 代表它将具备以下三个性质:1.const对象只能调用const成员函数。2.const对象的值不能被修改,在…
矩阵特征分解介绍及雅克比(Jacobi)方法实现特征值和特征向量的求解(C++/OpenCV/Eigen)
对角矩阵(diagonal matrix):只在主对角线上含有非零元素,其它位置都是零,对角线上的元素可以为0或其它值。形式上,矩阵D是对角矩阵,当且仅当对于所有的i≠j, Di,j 0. 单位矩阵就是对角矩阵,对角元素全部是1…
Entity Framework CodeFirst数据迁移
原文:Entity Framework CodeFirst数据迁移前言 紧接着前面一篇博文Entity Framework CodeFirst尝试。 我们知道无论是“Database First”还是“Model First”当模型发生改变了都可以通过Visual Studio设计视图进行更新,那么对于Code First如何更新已有的模型呢&…