训练数据也外包?这家公司“承包”了不少注释训练数据,原来是这样做的……...
作者 | Lionbridge AI
译者 | 天道酬勤 责编 | 徐威龙
封图| CSDN│下载于视觉中国
出品 | AI科技大本营(ID:rgznai100)
在机器学习领域,训练数据准备是最重要且最耗时的任务之一。实际上,许多数据科学家声称数据科学的很大一部分是预处理的,并且一些研究表明,训练数据的质量比你使用的算法类型更为重要。
事实上,越来越多的公司进入了人工智能市场,来帮助满足这种对训练数据的需求。
你如何获取机器学习训练数据?
获取训练数据的主要方法有以下三种:
开源数据集:通过Kaggle、Google数据集搜索或数据集聚合器等网站在线查找。
自己构建数据集:收集/创建数据并在内部进行注释。
外包数据收集和注释服务:训练数据提供商提供的服务。
对于个人项目或学校作业,有时打开的数据集可以为你需要完成的任务提供足够的数据量。但是,在为商业目的构建和训练人工智能解决方案时,开源数据集通常无法用于你的用例,也不能用于商业化获利。
此外,当你拥有数千条数据并且只有少量员工时,内部采购和注释训练数据通常效率不高。这给我们提供了第三个选择:外包训练数据服务。
机器学习训练数据服务
Lionbridge通过各种机器学习训练数据服务来帮助客户改善其模型。
目前,有一家相关的企业:Lionbridge 就正在做这类型的工作。当我们去了解之后,发现 其中的一些核心服务如下:
数据收集:语音/话语数据,手写数据,聊天机器人训练短语。
图像和视频注释:边界框,多边形,圆形,直线,关键点。
文字注释:情感,实体,实体链接,分类。
音频注释:逐字记录,智能逐字记录,音频分类。
内容评估:广告评估,搜索评估,地理位置数据评估。
从翻译到训练数据
Lionbridge 利用他们的全球数据科学家、计算语言学家、翻译和注释者的专业知识,为各种用例创建机器学习训练数据。
为什么翻译公司适合数据注释?
例如 Lionbridge ,是意识到他们的全球社区是进行数据注释的理想劳动力。
尤其是对于自然语言处理(NLP),专业的语言学家是实体提取、搜索查询分类和其他基于语言的注释项目的理想注释者。经过全面的测试和培训之后,这些相同的员工可以轻松地执行各种图像注释任务,来实现计算机视觉。
翻译质量等于训练数据质量吗?
没必要质量相等。但是,翻译中的质量保证过程非常类似于人工智能训练数据的质量检查协议。
例如,本地化项目的质量检查流程之一就是编辑审查。在进行翻译时,通常我们需要一位或多位编辑来审核翻译人员的输出。同样,在我们的许多人工智能项目中,我们有多个贡献者注释同一条数据来检查是否一致。
很多时候,质量管理意味着对贡献者的管理。为了确保准确性,你的数据必须经过许多流程。
管理输出
社区需要有许多协议可以确保每个贡献者都尽其所能。例如检查注释者之间的协议,来确保每个注释正确。此过程还可以帮助其验证数据本身是否清晰以及任务是否简单。对于某些项目,最多有五个贡献者对同一数据进行注释。此外,还可以实施自我协议检查,来确保每个贡献者与其工作保持一致。
机器学习训练数据质量保证的一个很好的例子,是他们的话语/语音数据收集过程:
首先,我们有声音工程师确保每个贡献者正确地说出该短语,他们确保贡献者没有遗漏任何单词,并以自然的语调说话(与单调阅读相反)。
接下来,我们将音频文件发送给每种语言的母语者,他们来根据脚本检查声音片段。
最后,他们发送文件以进行音频质量检查,以确保在特定阈值内没有噪音,以及客户要求的其他标准。
这些只是他们已经实施的质量检查措施中的一部分,看起来正在持续完善中。
数据质量是主观的
归根结底,数据质量的定义取决于项目。“当谈到训练数据的质量时,没有客观的定义。这取决于用户要尝试做的事情。” Lionbridge日本AI服务总监Cedric Wagrez说。 “质量与用户的最终目标和各种因素有关,例如用户的KPI、精度和量身定制的用例。”
高质量的机器学习训练数据是以可以帮助用户实现目标的方式收集、注释和校准的数据。
在开始管理质量之前,首先必须了解这对用户的意愿是什么。
试验项目
在项目开始之前会提供免费咨询,来解释收集或注释数据的最佳方法。
接下来,运行测试和试验项目以符合客户预期。假设你有10,000条要注释的数据。为确保所有人都在同一页上,他们将获取前100个数据,在系统中设置项目,并让社区为数据添加标签。如果最终结果与你的想象完全一样,那么将继续处理其余数据。如果需要更改,将根据反馈进行重新校准。
重要的是,质量数据不仅仅是关于清晰的图像和紧密的边界框。你必须考虑选择标签数据的人员,提供数据的准则以及收集数据的环境。
文本、音频、图像和视频的数据收集和注释工具
有员工为你的数据添加标签,但是需要一个平台对其进行标签?如今,这类需求也得到了满足,已经有服务商将数据注释平台发布为消费产品。
人工智能行业有望在未来十年内为世界经济增加15万亿美元。随着市场的持续增长,对训练数据的需求也将不断增长。因此,我们可能会看到更多类似的服务公司进入机器学习训练数据行业。
一切都在发展,这个行业将会越来越丰富,越来越值得期待!
原文:
https://hackernoon.com/get-machine-learning-training-data-using-the-lionbridge-method-a-how-to-guide-ay4f32xi
【end】
◆
原力计划
◆
《原力计划【第二季】- 学习力挑战》正式开始!即日起至 3月21日,千万流量支持原创作者!更有专属【勋章】等你来挑战
推荐阅读
Google重磅发布开源库TFQ,快速建立量子机器学习模型
用于小型图形挖掘研究的瑞士军刀:空手道俱乐部的图表学习Python库
MySQL 狠甩 Oracle 稳居 Top1,私有云最受重用,大数据人才匮乏! | 中国大数据应用年度报告
Libra新编程语言 :Move 的所有权模型灵感来源原来是它……
曾经摸鱼的程序员,如今在武汉自愿加班
云原生的漏洞与威胁有哪些?云原生安全性如何?这里有你想知道的一切!
你点的每个“在看”,我都认真当成了AI
相关文章:

JavaScript Switch 语句
avaScript Switch 语句如果希望选择执行若干代码块中的一个,你可以使用 switch 语句:语法:switch(n){case 1:执行代码块 1breakcase 2:执行代码块 2breakdefault:如果n即不是1也不是2,则执行此代码}工作原理:switch 后…

参观Speedy Cloud 有感
上周老男孩的所有学生参观了Speedy Cloud ,在这里我首先感谢Speedy Cloud的邀请和服务,我们每一个同学的收获都很大,不管是在以后的发展,还是现在的学习,都给了我很大的推动作用,帮助我去了解计算机的发展的…

C语言文件操作函数大全
unix中一切皆文件,所以文件操作至关重要! clearerr(清除文件流的错误旗标) 相关函数 feof 表头文件 #include<stdio.h> 定义函数 void clearerr(FILE * stream); 函数说明 clearerr()清除参数stre…
Python进阶之递归函数的用法及其示例
作者 | 程序员adny责编 | 徐威龙封图| CSDN│下载于视觉中国出品 | AI科技大本营(ID:rgznai100)本篇文章主要介绍了Python进阶之递归函数的用法及其示例,现在分享给大家,也给大家做个参考。一起来看看吧。递归是指函数…

万科的千亿修炼
一位知名企业家说过,改革开放30年只是完成了市场经济的启蒙和启动,在未来的10至20年,中国将出现一批千亿级的企业。此次金融危机在为经济带来震荡的同时,也为我们提供了一个极佳的视角和机会,审视中国千亿企业的过去、…

nginx 开发一个简单的 HTTP 模块
2019独角兽企业重金招聘Python工程师标准>>> 1. 下载 Nginx http://nginx.org/ 2. 目录结构 $ tree -L 2 . ├── mytest_module │ ├── config │ └── ngx_http_mytest_module.c └── nginx ... 3. config # 在 configure 执行时使用 ngx_addon_nam…

Jquery 之Ajax方法$.get() 的运用,扩展链接模型的天地
如前文说道的那个表现层和业务层的链接模型,从上篇博文(http://www.cnblogs.com/AflutterFeather/archive/2010/01/07/1641315.html)中可以看到:我们通过WebService提供的方法来获取服务端的返回值。 如果不采用WebService&#…

B树建立与遍历
# include <stdio.h> # include <stdlib.h># include "btrees.h"/* 给一个结点分配空间 */ struct btnode * allocateNode(struct btnode *ptr){int i,max;ptr (struct btnode *)malloc(sizeof(struct btnode));if(!ptr){printf("allocated error!…
2.2版本发布!TensorFlow推出开发者技能证书
作者 | 弯月出品 | AI科技大本营(ID:rgznai100)受 COVID-19 的影响,今年的 TensorFlow 开发者大会于2020年3月12日(北京时间)凌晨以线上直播的方式与全球开发者见面。Google决定开源TensorFlow是为了让每个开发人员和研…

X3D中Profile如何翻译
问题在哪 在计算机术语中,Profile其实是很难用中文对应的词汇来翻译的一个单词。 在X3D国际标准中,就出现了Profile。它把软件产品对X3D的功能实现范围和相应支持程度做了预先的约定,分为Core Profile、Interchange Profile、Interactive Pro…
腾讯提结合ACNet进行细粒度分类,效果达到最新SOTA | CVPR 2020
作者 | VincentLee来源 | 晓飞的算法工程笔记细粒度分类(Fine-Grained Visual Categorization, FGVC)是图片分类的一个分支,由于类别间的相似性非常大,一般人比较难区分,所以是个很有研究意义的领域。受神经树研究的启发,论文设计…

asp.net mvc view中支持多个实体强类型小技巧
在MVC的开发过程中,在一个View里面可能需要调用多个对象,可是传统的方法是一次只能压入一个对象到View里面,这点并不像Castle框架的MVC好用,在Castle里面,可以很方便的把对象压入到前台Html里面,然后通过Ve…

使用指针做函数返回值
使用指针做函数返回值 1、当使用指针做为函数的返回值时,主函数处的char *p;将获得调用函数char *pf;的值,即一个地址值,如oxAE72。此时需要我们注意的是该地址值所指向的空间是否存在(即已向操作系统声明注册,不会被释放&#x…

Android Studio快捷键每日一练(2)
原文地址:http://www.developerphil.com/android-studio-tips-of-the-day-roundup-2/ 12、复制行 苹果:CmdD Windows:CtrlD 顾名思义,就是拷贝当前行并粘贴在下一行,整个过程无需和剪贴板交互。这个功能配合行移动快…
C语言字符char和整型int的关系
C语言并无char类型,就是用Int表示char的!char占一个字节,在C语言所有类型中最小。 char *占4字节(32位),8字节(64位) 在C语言中,实际上字符型数据在内存中是以二进制形式…
PyTorch关键算法疑似侵权,Facebook被起诉
作者 | 神经星星来源 | HyperAI超神经(ID:HyperAI)近期,一纸诉讼书引起社区的广泛讨论。该诉讼由创业公司 Neural Magic 发起,指控 Facebook 发布到 GitHub 的神经网络软件,使用了他们开发的核心算法。而泄露机密的人&…

大数据高效复制的处理案例分析总结
一个老客户提出这样的需求,希望将SQLServer中的某个表的数据快速复制到SQLite数据库里面以便进行定期的备份处理,数据表的记录大概有50多万条记录,表有100个字段左右,除了希望能够快速做好外,效率是第一位的࿰…

memset函数使用详解
1.void *memset(void *s,int c,size_t n) 总的作用:将已开辟内存空间 s 的首 n 个字节的值设为值 c。 2.例子 #include void main(){ char *s"Golden Global View"; clrscr(); memset(s,G,6); printf("%s",s); getchar(); ret…
节后招人平均工资9000上热搜,为什么有些人去哪里都值钱?
我”荒“了。这是很多中国AI企业的现状。《人民日报》报道称,我国AI的人才缺口超过500万,供求比例仅为1:10!很多企业已经开始面临“人才荒”的窘境,外媒爆料说,中国企业已经不断在硅谷挖人了!目…

关于定于如何弄的漂亮点
</div></div><div class"panel"><h5 οnclickshowhidediv("sidebar_rss");>订阅博客</h5><div class"panel-content" id"sidebar_rss" style"display: block"><ul class"list&…

Happy New Year 2016
大学之前的时间都是按天来过的,期盼着一天一天地快快长大,期盼着过年穿新衣,阖家团聚,其乐融融; 大学的时间都是按周来过的,根据每周的课表周而复始,虽然单调但也是自由自在,简单充实…

HashTable原理与实现
memcached中hashtable部分的源码,hash部分的源码主要分布在assoc.h/c、hash.h/c中,总得来说代码比较简单,这里就稍微介绍一下。hashtable通常包括哈希函数和解决冲突的方法两个最主要的因素,memcached使用的哈希函数为Bob Jenkins…

as3自定义加载图片类
ImageLoader.as类: package{ import flash.display.Bitmap; import flash.display.Loader; import flash.display.Sprite; import flash.events.Event; import flash.events.ProgressEvent; import flash.net.URLRequest; /** * 图片加载类…
想成为一个数据科学家却不知道从何下手?这份路线图带你打开数据科学大门!...
作者 | Jane译者 | 火火酱 责编 | 徐威龙出品 | AI科技大本营(ID:rgznai100)你想成为一名数据科学家吗?你对数据科学了解很多,想知道关于数据科学天花乱坠的宣传都在讲什么吗?那好,你算是来对了地方。在过去…

bzoj 1691: [Usaco2007 Dec]挑剔的美食家
Time Limit: 5 Sec Memory Limit: 64 MBSubmit: 621 Solved: 280[Submit][Status][Discuss]Description 与很多奶牛一样,Farmer John那群养尊处优的奶牛们对食物越来越挑剔,随便拿堆草就能打发她们午饭的日子自然是一去不返了。现在,Farmer…

PHP内核中的哈希表结构
https://github.com/HonestQiao/tipi/commit/17ca680289e490763a6a402f79afa2a13802bb36 下载:https://github.com/HonestQiao/tipi/tree/master/book/sample/chapt03 原文地址:http://www.nowamagic.net/librarys/veda/detail/1344 PHP中使用最为频…
应聘苹果数据科学家,你需要知道些什么?
作者 | Jay Feng译者 | 孙薇,责编 | 屠敏头图 | CSDN 下载自东方 IC出品 | CSDN(ID:CSDNnews)以下为译文:苹果公司是全球最大的技术公司之一,从事电子消费产品、计算机软件以及在线服务的设计、开发并销售工…

python 利用模板文件生成配置文件
2019独角兽企业重金招聘Python工程师标准>>> gen.py: __author__ fuhan from jinja2 import Template a{name:a} b{name:b} mode_dict { a:a, b:b } def gen_config(tplt_file, modea): with open(tplt_file, r) as r: tplt Template(r.read()) config mode_dic…

利用Apache的ab命令做Benchmark性能测试
测试系统性能,例如httpsqs # ab -k -c 10 -n 100000 "http://127.0.0.1:1218/?namexoyo&optput&dataabc ab是Apache超文本传输协议(HTTP)的性能测试工具。 其设计意图是描绘当前所安装的Apache的执行性能,主要是显示你安装的Apache每秒可…
MySQL 狠甩 Oracle 稳居 Top1,私有云最受重用,大数据人才匮乏! | 中国大数据应用年度报告...
整理 | 屠敏出品 | CSDN(ID:CSDNnews)科技长河,顺之者昌,错失者亡。在这个技术百态之中,中国专业的 IT 社区CSDN 创始人&董事长蒋涛曾多次在公开活动中表示,开发者是对技术变革最敏感的人群。这不仅源于…