AIの幕后人:探秘“硬核英雄”的超级武器
作者 | 云计算的阿晶
出品 | AI科技大本营(ID:rgznai100)
掐指一算八年之前,那时正是国内互联网卯足劲头起飞的一年,各行各业表现都很突出,尤其是与人们生活密切相关的手机,正大踏步地从功能机向智能手机转型,其中的市场需求可想而知,阿晶觉得那种爆炸程度完全不亚于如今人们对5G的狂热追逐。
伴随智能手机的迅速普及并大举助力产业化发展进程,各类 APP 宛如新生。同样是那一年,一家名为云测的企业在业内初现,迎着移动互联网的风口做起了应用测试的业务。回顾当时的云测,创始团队几乎将市面上所有“露头”的手机机型都采购回来,建立云真机平台,提供包括质量测试、自动化测试等在内的诸多服务,为加快移动互联网产品的迭代无私地贡献了自己的血汗。
随着时间推移,企业发展且技术演进,在云测积累大量客户的过程中,一些 AI 企业主动找到云测提出 AI 数据服务的需求。如果说最初选择应用测试是行业所趋的话,这次与“数”结缘则完全是需求导向,就这样云测开始布局AI数据服务行业,旗下的 AI 数据服务品牌“云测数据”就此诞生。
据阿晶了解,作为AI数据资源服务的头部品牌,云测数据早已走在行业前列。其拥有足够的方法论和对应的协同工作的处理方式,为智能驾驶、智能家居、智能安防、智慧金融保险等领域提供定制化的数据采集标注服务,可以做到全方位支持文本、语音、图像、视频等各类型数据的处理。截至目前,云测数据在华东、华北、华南都设有数据交付中心和采集基地,已成功为数百家企业提供了一站式AI数据服务。
说到此处,不容忽视的一点,伴随 AI 应用落地,对于数据种类、质量以及场景匹配程度的要求正逐渐提升,拥有特定场景数据的优势会逐渐成为 AI 企业在行业内纵横捭阖的“杀手锏”之一。
对此,云测数据总经理贾宇航强调,为了贯彻这种战略导向,获取更多特定场景的数据,云测数据结合多年的项目管理流程能力,在全国多地自建了数据场景实验室和数据标注基地,并配备多种采集软、硬件设备,着力打造了一只专业的定制化采集和高质量的标注队伍。
“我们要做到能尽可能多的覆盖 AI 客户的不同长尾场景,满足各类场景要求高、采集难度大等采集作业,从源头提升数据适用性。此外还需凭借管理、风控等方式,最大程度确保数据精确度、保密性等进而完成企业赋能。”他进一步补充道。
纵观AI技术以及行业的发展,阿晶觉得其实云测的“数据战略”不无道理。
从整体人工智能的发展历程来说,背后支撑的三大要素分别是数据、算法和算力,当人们将过多的精力聚焦在算法和算力上时,殊不知 AI 数据在人工智能商业化落地中发挥着不可替代的作用。
举个例子来说,算法模型被设计好后就需要大量标注好的数据进行训练才能实现更智能的结果;如果希望性能和算法精准度得到进一步提升,细化精准的数据更是必不可少,否则会制约整个数据行业以及人工智能产业的发展。
具体到商业化的落地,贾宇航表示,虽然算法和算力得到巨大提升,但只有拥有贴近真实场景的精准数据,企业才能在AI落地和商业化道路上越走越稳。
这么看,数据对 AI 就像水电一样关键,如果从 AI 数据服务的发展进程考量,互联网沉积数据可被认为是初始期,时间大致可以追溯到 5-10 年前。当时很多 AI 领域的企业依托互联网上沉积的大量数据投身算法验证,通过爬虫和数据清洗等简单易操作的方式,至此一些主营数据集产品的公司应运而生。
发展到第二阶段,主要涌现的是通用型数据产品,催生了以“识别”为主,用于实现简单数据分析的用途。“第三阶段,有些企业发现通用性产品确实存在不小的问题,例如无法解决诸多企业面临的实际问题,由此定制化需求的产生势在必行,例如亚马逊 Amazon Mechanical Turk。”贾宇航总结道。
“发展到第四阶段,部分企业为了突破行业内算法的局限性,选择通过硬件升级或者数据维度多样化得角度着手,进一步丰富自己的数据库存,但有一点困难之处,这些定制化数据很难通过众包途径获得,定制市场机会无限。”
发展到如今,用户数据进入到沉淀时期。该阶段,企业在使用过程中会不断积累数据,进而让产品迭代更加智能。值得注意的是,有些产品自带分享或社交功能,很大程度上会丰富互联网的数据沉积,助力企业进入到下一个阶段并加强其中的循环往复。
总体来看,企业在不同的阶段需要不同类型的数据服务,但众包采集和定制化采集是数据采集行业的两种常见模式。
其中众包模式的优势主要体现在样本的丰富性上,但对于今日的 AI 数据服务业务的特性,通过众包模式解决所有数据采集的需求显然不现实。更关键的是,定制化需求的采集任务中,众包用户采集到的数据往往差强人意,反倒出现增加审核成本的情况。
此处阿晶搜罗了一些有关具体企业级数据采集的资料,其显示 2018 年中国AI公司的总融资规模达到千亿元以上,其中数据采标的市场约为 100 亿元— 300 亿元。具体来说 AI 公司内部的标注部门之间消化,基本占三分之一;剩下的 25%—33% 则流向专门做数据采标的第三方公司。
如此看来,数据采集对企业来说不但必要而且重要,但如果企业选择自建团队进行数据采集和标注,必然面临耗费大量时间成本、人力成本的局面;另一方面,花钱花时间不说,要做到壁垒般独享数据,又对数据安全提出更高要求,轻易分享怎么能行?
基于 AI 数据发展路径以及诸多企业痛点,云测主要瞄准了为企业提供定制化场景的数据采集与提供自建团队式的高精度标注服务的业务重点。对此贾宇航解释道,投身做定制化场景数据采集主要在于,目前很多企业已存在的数据维度对于算法提升的效果早就面临瓶颈,必然需要引入更多维度的数据,例如对应场景的多模态数据,将 2D、3D 数据以及声音等多维度的数据结合起来提升算法性能,而这样的数据在互联网的条件下或者通过已有的众包数据采集很难获得。
此外有些企业为了提升算法精度自研了一些硬件,而这些硬件只能通过定制化场景去实现更好的效果。所以帮助企业还原想要的定制化场景是显示业务优势的手段之一,这项实践被贾宇航称之为场景实验室。
据阿晶了解,这些场景实验室目前主要分布在华东、华北和华南。在场景实验室中,云测数据会根据客户需求,邀请特定模特到实验室中进行数据采集。可以这样定义,场景实验室是云测数据布局高度定制化、多模态的 AI 数据服务的重要组成部分,借此能使得其交付能力与客户需求平行,甚至领先客户的需求一点点。
当然除了很智慧的场景实验室之外,云测数据的核心优势还可总结为三方面。
从人才专业性角度出发,目前云测数据主要服务于智能驾驶、金融、智能生活、安防等四大领域,每一领域均由不同的项目经理组负责。
其中项目经理都经过包括 AI 基础、作业管理、场景搭建、突发事件处理等至少 350 小时的职前培训,完全能够做到为客户梳理项目需求文档并提供专业咨询服务,从源头上保证高质量输出。
更重要的是,云测数据配备了专业的软硬件设备,针对客户不同的定制化需求持续优化工具、迭代产品,满足技术要求高、采集难度大的采集任务,如此一来工具层面确实很给力。
对数据质量和安全的把控方面,云测数据进行了严格的质量风险评估、过程质量控制、质量审核以及质量验收等,用于输出高质量的数据作业;据了解员工都按照流程协同作业,将采集后的数据传输至数据中心,项目交付后直接清毁数据,杜绝员工接触数据的机会,提升数据安全性。
此外以云测为背书,企业还针对数据采集业务搭建了定制化采集场景。基于客户算法模型提出的具体需求定制化搭建采集场景,以达到覆盖尽可能多的实际场景及边际场景的目的,保证采集数据契合算法模型,为客户提供高精度的采集数据。
值得提及的是,此环节备采样本覆盖全国及海外的数据采集体系,涵盖各类型图片、视频、音频和文本数据等,同时配备了专业的备采人群样本,可依照客户实际需求快速采集合适的数据样本。
在高精度的数据标注服务上,云测数据自建数据基地,所有标注员统一管理、规范生产,在保证数据准确率的同时有效确保标注作业的信息流转,提升标注效率;而自研标注平台则聚合了各种数据标注应用场景,配置灵活,可满足各种数据标注需求,保证标注作业高质量输出。
在数据的审核机制方面,主要采用工、审分离的审核模式,即审核团队不参与标注作业;同时将附有标准答案的作业项目无感知地安插在标注人员的正式标注作业中,精准把握标注人员的对标注规则的理解度。
谈及宏观市场,贾宇航认为数据标注和采集的确是一个新兴行业,但目前来说整个行业市场足够大,各家其实并没有很激烈的竞争关系。一般情况下,企业在面对满足自身需求的同时,可选择的形式也变得多种多样。当下而言,数据行业更像是一个蹒跚学步的孩童,每个阶段被不同类型的数据服务所满足,面对着不断变化的服务需求,企业服务市场的变革也在同时加速。
在此基础上,未来云测数据的发展目标将更多着力在细分领域中,做到领域知识积累更深厚,数据更精准安全。“我们会逐渐将业务向更细分领域场景做深入,以满足企业的未来需求。” 如此看来,云测数据的“硬核英雄之路”才刚刚开始…
如果您对云测数据提供的 AI 数据服务感兴趣,或想了解 AI 数据解决方案,欢迎点击此链接。
相关文章:

PAT乙级1003
1003 我要通过! (20 point(s))“答案正确”是自动判题系统给出的最令人欢喜的回复。本题属于 PAT 的“答案正确”大派送 —— 只要读入的字符串满足下列条件,系统就输出“答案正确”,否则输出“答案错误”。 得到“答案…

史上最简洁的UITableView Sections 展示包含NSDicionary 的NSArray
这个最典型的就是电话本,然后根据A-Z分组, 当然很多例子,不过现在发现一个很简洁易懂的: 1. 准备数据,定义一个dictionary来显示所有的内容,这个dictionary对应的value全是数组 也就是: A &…

微软麻将AI Suphx或引入“凤凰房”,与其他AI对打
作者 | 夕颜出品 | AI科技大本营(ID:rgznai100)【导读】在刚刚结束的上海2019世界人工智能大会上,微软宣布了其在人工智能领域的最新研究突破——由微软亚洲研究院研发的麻将 AI 系统 Suphx 在国际知名的专业麻将平台“天凤”上荣升十段&…

C++11中std::function的使用
类模版std::function是一种通用、多态的函数封装。std::function的实例可以对任何可以调用的目标实体进行存储、复制、和调用操作,这些目标实体包括普通函数、Lambda表达式、函数指针、以及其它函数对象等。 通过std::function对C中各种可调用实体(普通函数、Lambd…

django模板的导入
模板导入 前提:多个页面有一个相同的页面版块(多个有样式标签的集合体) 如何运用:可以将多个样式标签的集合进行封装对外提供版块的名字(接口),在有该版块的页面中直接导入即可 语法:{% include 版块页面的路径 %} 四inclusion_tag自定义标签 -- 模板导入 前提:多个页面有一个相…

[UML]UML系列——包图Package
系列文章 [UML]UML系列——用例图Use Case [UML]UML系列——用例图中的各种关系(include、extend) [UML]UML系列——类图Class [UML]UML系列——类图class的关联关系(聚合、组合) [UML]UML系列——类图class的依赖关系 [UML]UML系…

2017-2018 ACM-ICPC German Collegiate Programming Contest (GCPC 2017)
A Drawing Borders 很多构造方法,下图可能是最简单的了 代码: #include<bits/stdc.h> using namespace std; const int maxn1e610; struct Point{ int x,y; }; Point a[maxn]; int numa0; Point b[maxn]; int numb0; vector<pair<double,d…

C++11中std::bind的使用
std::bind函数是用来绑定函数调用的某些参数的。std::bind它可以预先把指定可调用实体的某些参数绑定到已有的变量,产生一个新的可调用实体。它绑定的参数的个数不受限制,绑定的具体哪些参数也不受限制,由用户指定。 std::bind:(…

在图数据上做机器学习,应该从哪个点切入?
作者 | David Mack编译 | ronghuaiyang来源 | AI公园(ID:AI_Paradise)【导读】很多公司和机构都在使用图数据,想在图上做机器学习但不知从哪里开始做,希望这篇文章给大家一点启发。自从我们在伦敦互联数据中心(Connected Data Lon…

C++11中Lambda表达式的使用
Lambda表达式语法:[capture ] ( params ) mutable exception attribute -> return-type { body } 其中capture为定义外部变量是否可见(捕获),若为空,则表示不捕获所有外部变量,即所有外部变量均不可访问, 表示所有…

倒计时2天 | 专属技术人的盛会,为你而来!
5G 元年,人工智能 60 年,全球AI市场正发生着巨大的变化,顶尖科技企业和创新力量不断地进行着技术的更迭和应用的推进,专属于 AI 开发者的技术盛宴——2019 AI开发者大会(AI ProCon)将于 2 天后(…

了解大数据的特点、来源与数据呈现方式
作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2639 浏览2019春节各种大数据分析报告,例如: 这世间,再无第二个国家有能力承载如此庞大的人流量。http://www.sohu.com/a/290025769_313993春节人口迁徙大数据…

Mysql使用大全 从基础到存储过程
平常习惯了phpmyadmin等其他工具的的朋友有的根本就不会命令,如果让你笔试去面试我看你怎么办,所以,学习一下还是非常有用的,也可以知道你通过GUI工具的时候工具到底做了什么。Mysql用处很广,是php最佳拍档,…
GDAL库简介以及在Windows下编译过程
GDAL(Geospatial Data Abstraction Library,地理空间数据抽象库)是一个在X/MIT许可协议下的开源栅格空间数据转换库。官网http://www.gdal.org/index.html,也可参考GitHub https://github.com/OSGeo/gdal,最新release版本为2.1.1. GDAL是一个…

Hexo博客NexT主题美化之评论系统
前言 更多效果展示,请访问我的 个人博客。 效果图: Valine 诞生于2017年8月7日,是一款基于Leancloud的快速、简洁且高效的无后端评论系统。 教程: 登录 Leancloud 官网,注册之后创建一个应用,选择【设置】-…

倒计时1天 | 专属技术人的盛会,为你而来!
5G 元年,人工智能 60 年,全球AI市场正发生着巨大的变化,顶尖科技企业和创新力量不断地进行着技术的更迭和应用的推进,专属于 AI 开发者的技术盛宴——2019 AI开发者大会(AI ProCon)将于 明天(9 …

Selenium 2 WebDriver 多线程 并发
我用的是Selenium2,至于它的背景和历史就不赘述了。Selenium2也叫WebDriver。下面讲个例子,用WebDriverjava来写个自动化测试的程序。(如果能用firefox去测试的话,我就直接用Selenium IDE录脚本了。。。)有个前提&…
GDAL2.1.1库在Ubuntu14.04下编译时遇到的问题处理方法
不用作任何调整,直接在Linux下编译GDAL2.1.1源码的步骤是:$ ./configure $ make $ make install非常简单, 这样也能正常生成gdal动态库、静态库,如果想将生成的文件放到指定的目录,则需改第一条命令为:$ ./…

刷爆了!这项技术BAT力捧!程序员:我彻底慌了...
人工智能离我们还遥远吗?近日,海底捞斥资1.5亿打造了中国首家火锅无人餐厅;阿里酝酿了两年之久的全球首家无人酒店也正式开始运营,百度无人车彻底量产。李彦宏称,这是中国第一款能够量产的无人驾驶乘用车。而阿里的这家…
redux的compose源码,中文注释
用图片会更清楚一点,注释和代码会分的清楚源码解析参考请参考https://segmentfault.com/a/11...

做好职业规划:做自己的船长
要想在职场上有所斩获,就必须做好职业规划。对于职场中人来说,职业规划是职业发展中最关键的向导。职业规划因人而异,不同的对象有不同的需求,因此制定的目标与计划也不尽相同,但个人为自己做职业规划的方法和流程是大…

GDAL中GDALDataset::RasterIO分块读取的实现
GDALDataset类中的RasterIO函数能够对图像任意指定区域、任意波段的数据按指定数据类型、指定排列方式读入内存和写入文件中,因此可以实现对大影像的分块读、写运算操作。针对特大的影像图像,有时为了减少内存消耗,对图像进行分块读取很有必要…

掌握深度学习,为什么要用PyTorch、TensorFlow框架?
作者 | Martin Heller译者 | 弯月责编 | 屠敏来源 | CSDN(ID:CSDNnews)【导读】如果你需要深度学习模型,那么 PyTorch 和 TensorFlow 都是不错的选择。并非每个回归或分类问题都需要通过深度学习来解决。甚至可以说,并…

ICANN敦促业界使用DNSSEC,应对DNS劫持攻击
HTTPS加密 可以有效帮助服务器应对DNS欺骗、DNS劫持、ARP攻击等安全威胁。DNS是什么?DNS如何被利用?HTTPS如何防止DNS欺骗? DNS如何工作? 如果您想访问www.example.com,您的浏览器需要找到该特定Web服务器的IP地址。它…

Lucene.net: the main concepts
2019独角兽企业重金招聘Python工程师标准>>> In the previous post you learnt how to get a copy of Lucene.net and where to go in order to look for more information. As you noticed the documentation is far from being complete and easy to read. So in …

einsum,一个函数走天下
作者 | 永远在你身后转载自知乎【导读】einsum 全称 Einstein summation convention(爱因斯坦求和约定),又称为爱因斯坦标记法,是爱因斯坦 1916 年提出的一种标记约定,本文主要介绍了einsum 的应用。简单的说ÿ…
常用排序算法的C++实现
排序是将一组”无序”的记录序列调整为”有序”的记录序列。假定在待排序的记录序列中,存在多个具有相同的关键字的记录,若经过排序,这些记录的相对次序保持不变,即在原序列中,rirj,且ri在rj之前࿰…

4.65FTP服务4.66测试登录FTP
2019独角兽企业重金招聘Python工程师标准>>> FTP服务 测试登录FTP 4.65FTP服务 文件传输协议(FTP),可以上传和下载文件。比如我们可以把Windows上的文件shan上传到Linux,也可以把Linux上的文件下载到Windows上。 Cent…

JavaScript的应用
DOM, BOM, XMLHttpRequest, Framework, Tool (Functionality) Performance (Caching, Combine, Minify, JSLint) ---------------- 人工做不了,交给程序去做,这样可以流程化。 Maintainability (Pattern) http://www.jmarshall.com/easy/http/ http://dj…

miniz库简介及使用
miniz:Google开源库,它是单一的C源文件,紧缩/膨胀压缩库,使用zlib兼容API,ZIP归档读写,PNG写方式。关于miniz的更详细介绍可以参考:https://code.google.com/archive/p/miniz/miniz.c is a loss…