机器学习中的7种数据偏见
作者 | Hengtee Lim
翻译 | Katie,责编 | 晋兆雨
出品 | AI科技大本营
头图 | 付费下载于视觉中国
机器学习中的数据偏差是一种错误,其中数据集的某些元素比其他元素具有更大的权重和或表示。有偏见的数据集不能准确地表示模型的用例,从而导致结果偏斜,准确性水平低和分析错误。
通常,用于机器学习项目的训练数据必须代表现实世界。这很重要,因为这些数据是机器学习如何完成其工作的方式。数据偏差可能会发生在从人类报告和选择偏差到算法和解释偏差的一系列区域中。下图是仅在数据收集和注释阶段可能出现的各种偏差的一个很好的示例。
解决机器学习项目中的数据偏差意味着首先确定它在哪里。只有在知道存在偏见的地方之后,你才可以采取必要的措施来纠正它,无论是解决数据不足还是改善注释过程的问题。考虑到这一点,请务必对数据的范围,质量和处理保持警惕,以免产生偏差。这不仅影响模型的准确性,而且还会涉及道德,公平和包容性问题。
下面,我列出了机器学习中最常见的7种数据偏见类型,以帮助你分析和了解其发生的位置以及你可以采取的措施。
(如果你需要有关机器学习项目的数据收集和数据标签的更多信息,请在阅读本文的其余部分之前,这里有一个链接,可详细了解有关机器学习的训练数据。)
数据偏差的类型
尽管并不详尽,但此列表包含了该领域中数据偏见的常见示例,以及其发生位置的示例。
样本偏差:当数据集不能反映模型将在其中运行的环境的实际情况时,就会发生样本偏差。这样的一个例子是某些主要在白人图像上训练的面部识别系统。这些模型对妇女和不同种族的人的准确度要低得多。此偏差的另一个名称是选择偏差。
排除偏差:排除偏差在数据预处理阶段最常见。通常,这是删除不重要的有价值数据的情况。但是,由于某些信息的系统排除,它也可能发生。例如,假设你有一个在美国和加拿大的客户销售数据集。98%的客户来自美国,因此你选择删除不相关的位置数据。但是,这意味着你的模型将不会因为加拿大客户的消费增加两倍多这一事实而受到影响。
测量偏差:当为训练而收集的数据与现实世界中收集的数据不同时,或者当错误的测量结果导致数据失真时,就会发生这种偏差。这种偏差的一个很好的例子出现在图像识别数据集中,其中训练数据是用一种类型的照相机收集的,而生产数据是用另一种照相机收集的。在项目的数据标记阶段,由于注释不一致也会导致测量偏差。
召回偏差:这是一种测量偏差,在项目的数据标记阶段很常见。当你不一致地标记相似类型的数据时,就会产生召回偏差。这导致较低的精度。例如,假设你有一个团队将电话的图像标记为损坏,部分损坏或未损坏。如果有人将一张图像标记为已损坏,但将相似的图像标记为部分已损坏,则你的数据将不一致。
观察者偏差:也称为确认偏差,观察者偏差是看到你期望在数据中看到或想要看到的结果的效果。当研究人员在有意识或无意识的情况下对自己的研究有主观想法进入项目时,可能会发生这种情况。当标签制作者让主观思想控制他们的标签制作习惯,从而导致数据不准确时,你也可以看到这一点。
种族偏见:尽管不是传统意义上的数据偏见,但由于其在AI技术中的盛行,因此仍然值得一提。当数据偏向特定人群时,就会发生种族偏见。在面部识别和自动语音识别技术中可以看到这一点,该技术无法像白种人那样准确地识别有色人种。Google的Inclusive Images竞赛提供了很好的例子说明了这种情况的发生。
关联偏差:当机器学习模型的数据加强和/或乘以文化偏差时,就会发生这种偏差。你的数据集可能包含一组工作,其中所有男性都是医生,所有女性都是护士。这并不意味着女人不能当医生,男人不能当护士。但是,就你的机器学习模型而言,不存在女医生和男护士。社交偏见最出名的是造成性别偏见,这在“挖掘人工智能”研究中可见。
如何避免机器学习项目中的数据偏差?
防止机器学习项目中的数据偏差是一个持续的过程。尽管有时很难知道数据或模型何时出现偏差,但是你可以采取许多步骤来帮助防止偏差或及早发现偏差。尽管远非详尽的清单,但以下要点为思考机器学习项目的数据偏差提供了入门级指南。
尽你所能,事先研究用户。请注意你的一般用例和潜在异常值。
确保你的数据科学家和数据标签团队是多元化的。
尽可能合并来自多个来源的输入以确保数据多样性。
为数据标签创建黄金标准。黄金标准是一组数据,可以反映任务的理想标记数据。它使你能够测量团队的注释的准确性。
为数据标签期望制定明确的准则,以便数据标签保持一致。
对于可能会出现数据准确性偏差的任何项目,请使用多次通过注释。例如,情感分析,内容审核和意图识别。
寻求具有领域专业知识的人员的帮助,以查看你收集和/或注释的数据。团队外部的人可能会看到团队忽略的偏见。
定期分析你的数据。跟踪错误和问题区域,以便您快速响应并解决它们。在决定删除或保留它们之前,请仔细分析数据点。
使偏差测试成为开发周期的一部分。Google,IBM和Microsoft都发布了工具和指南,以帮助分析许多不同数据类型的偏差。
如果你想更深入地了解偏见的产生方式,偏见对机器学习模型的影响以及过去在自动化技术中的偏见,我建议你参考玛格丽特·米切尔(Margaret Mitchell)的“人工智能的视野和语言偏见”演示(链接:
https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/slides/cs224n-2019-lecture19-bias.pdf?ref=hackernoon.com)。
总结
请务必注意任何数据项目在机器学习中的潜在偏见。通过尽早安装正确的系统并保持数据收集,标记和实施的最顶层,你可以在出现问题之前就注意到它,或者在出现问题时对其进行响应。
原文链接:https://hackernoon.com/7-types-of-data-bias-in-machine-learning-ubl3t3w
本文由AI科技大本营翻译,转载请注明出处
更多精彩推荐
AI 隐身术,能让物体在视频中消失的魔法
程序员奶爸用树莓派制作婴儿监护仪:哭声自动通知,还能分析何时喂奶
强化学习:10种真实的奖励与惩罚应用
全球数百万台 Mac 疑似因 Big Sur 更新险酿计算灾难,苹果官方回应来了!
大神们都是如何在时间序列中进行特征提取的?看完就懂了!
相关文章:

windows7 下arp 绑定的实现
局域网的arp***常常让人头痛,绑定IP/MAC地址是解决方式之一; 在xp下面绑定mac地址很简单,只需“arp -s IP地址 MAC地址 ”就ok, 在win7下的命令有所不同; 首先,需要查看可用网卡的id,使用命令n…

Asp.net(c#)实现多线程断点续传
http://www.cnblogs.com/bestcomy/archive/2004/08/10/31950.html以前一直错误的认为在ASP.NET中无法通过编程方式实现多线程断点续传,今天终于获得了这样一个解决方案,让我明白要学习的东西还很多。此解决方案基于其它解决方案及相关资料,根…
0.7秒完成动漫线稿上色,爱奇艺发布AI上色引擎
出品 | AI科技大本营(ID:rgznai100)中国漫画的需求量在不断增加,而动漫制作成本一直居高不下。究其原因为动漫制作是一个复杂且耗时的过程,需要大量工作人员在不同阶段进行协作。动漫制作过程中,需先创作关键帧草图&am…

Java Web整合开发读书笔记
下载JDK:http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html 下载Eclipse: http://www.eclipse.org/downloads/ 下载Tomcat: http://tomcat.apache.org/download-70.cgi 正则表达式:http://www.cnblogs.com/deerchao…
ListView中CheckBox使用问题
因为CheckBox的点击事件优先级比ListView的高,所以当ListView中使用CheckBox会导致ListView的setOnItemClickListener失去响应。 解决的方法:在CheckBox中加入android:focusable"false"。使得CheckBox初始的时候没有获取焦点。 假设想在单击C…

网页播放的视频代码
网页播放的视频代码 第一种是通过调用window media player进行播放诸如:wmv,asf等格式文件: <object alignmiddle classOBJECT classidCLSID:22d6f312-b0f6-11d0-94ab-0080c74c7e95 height320 idMediaPlayer width356> <param name"ShowStatusBar…

[Ruby] 模块
1. 命名空间模块定义了一个命名空间,方法和常量可以在其中任意使用而不必担心被其他方法或常量干扰,例如:module Testdef Test.method()end end模块常量的命名和类常量一样,都以大写字母开头,方法定义类似于类方法的定…
10个工程师,9个不合格!
如果你想问最近这些年什么编程语言最值得学习,我会毫不犹豫的告诉你是Python。无论是刚入门的程序员,还是年薪BATJ的技术大牛,都无可否认现在Python对于一个程序员职业发展的重要性。所以不仅是开发小白,甚至很多开发老手…

云计算(2)it 是什么
2015年,全世界在it上面的花费达到3亿8千亿美金之多。 云数据中心:核心基础架构,云计算的物理载体,提供数据处理、存储和高性能计算支撑,包括服务器、存储、冷却、机房空间和能耗管理等。 超大规模的云数据中心…
大批量生成假数据,faker.js获得近28k个Star
整理 | 夕颜图源 | 视觉中国来源 | CSDN(ID:CSDNnews)近日,GitHub上一个生成假数据的项目faker.js火了,攀升Trendinging榜单第二,标星目前已超过27.1k。只需要简单几步操作,就可以在浏览器和node.js中生成大…

C++代理类,句柄(智能指针)_C++沉思录笔记
代理类 首先定义三个类: class Animal{ public:virtual void getName()0;virtual void clone()0; };class Cat:public Animal{ public:void getName(){cout<<"this is Cat"<<endl;}Animal* clone(){return new Cat;} };class Dog:public Animal{ public:…

浅析C语言的一个关键字——register
1、register修饰符暗示编译程序相应的变量将被频繁地使用,如果可能的话,应将其保存在CPU的寄存器中,以加快其存储速度。例如下面的内存块拷贝代码, /* Procedure for the assignment of structures, */ /* if the C compiler doe…

《Haskell趣学指南》—— 第1章,第1.2节小朋友的第一个函数
本节书摘来自异步社区《Haskell趣学指南》一书中的第1章,第1.2节小朋友的第一个函数,作者 【斯洛文尼亚】Miran Lipovaca,更多章节内容可以访问云栖社区“异步社区”公众号查看 1.2 小朋友的第一个函数函数的声明与它的调用形式大体相同&…

ASP.NET中利用DataGrid的自定义分页功能和存储过程结合实现高效分页
关键字:DataGrid、存储过程、分页出自: http://blog.csdn.net/yzx110/archive/2004/08/18/78525.aspx摘要:在最进的一个项目中因为一个管理页面要管理的数据量非常大,所以必须分页显示,并且不能用DataGrid的内置分页功能,于是自己实现分页. 下…
看清头秃元凶,腾讯AI首度揭示真相
出品 | AI科技大本营(ID:rgznai100)11月17日,腾讯公布了一项人工智能助力药物发现的新进展。通过腾讯自研的提升蛋白质结构预测精度的新方法,联合研究团队首次解析了II型5a还原酶(SRD5A2)的三维结构&#x…

UNIX--stat、fstat和lstat函数
2019独角兽企业重金招聘Python工程师标准>>> stat、fstat和lstat函数(UNIX) #include #include int stat(const char *restrict pathname, struct stat *restrict buf); 供给文件姓名,获取文件对应特点。感受通常是文件没有翻开的时分这样操作。 int fst…

UVA 1482 - Playing With Stones(SG打表规律)
UVA 1482 - Playing With Stones 题目链接 题意:给定n堆石头,每次选一堆取至少一个。不超过一半的石子,最后不能取的输,问是否先手必胜 思路:数值非常大。无法直接递推sg函数。打出前30项的sg函数找规律 代码ÿ…
Google和网易有道合作开课了
11月16日,2020年Google开发者大会正式开幕。受疫情影响,本次大会首次以线上形式举办,这也是Google首次以全线上形式与中国开发者相聚。本届大会主题聚焦“代码不止”,其中“学习”成为本次大会重要板块之一。在该主题下࿰…

Node.js v0.10版本发布
Node.js研发团队发布了node.js v0.10版本,它是个基于Javascript、用于构建高性能异步服务器的平台。该版本主要更新如下:更易于使用的数据流处理模块,通过域更好地处理错误,此外还带来了性能方面的提升。该团队还宣布在v0.10之后、…

动手扩充FreeTextBox的功能
作者:朱俊代码:C#关键字:FreeTextBox、流媒体出自:http://blog.csdn.net/foxmail/archive/2004/08/21/81096.aspx摘要:最近一个项目要求可以在发表文章的时候能发布电影,当然不可能叫用户去写HTML代码了&am…

《防患未然:实施情报先导的信息安全方法与实践》——3.3 攻击剖析
本节书摘来自华章计算机《防患未然:实施情报先导的信息安全方法与实践》一书中的第3章,第3.3节,作者:[美] 艾伦利斯卡(Allan Liska) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.3 攻击剖析 为了开发更…

c#.net常用函数和方法集
1、DateTime 数字型 System.DateTime currentTime new System.DateTime(); 1.1 取当前年月日时分秒 currentTimeSystem.DateTime.Now; 1.2 取当前年 int 年currentTime.Year; 1.3 取当前月 int 月currentTime.Month; 1.4 取当前日 int 日currentTime.Day; 1.5 取当…
员工培训:如何制定以数据为依据的业务决策
作者 | Kamy Anderson翻译| Katie,责编 | 晋兆雨出品 | AI科技大本营头图 | 付费下载于视觉中国普华永道的研究表明,高度数据驱动的组织在决策方面取得显着改善的可能性要高三倍。不幸的是,高达62%的高管仍然更多地依赖经验和直觉…

IoC容器Autofac(1) -- 什么是IoC以及理解为什么要使用Ioc
阅读目录: 一. 一个没有使用IoC的例子 二. 当需求发生变动时,非IoC遭遇到的困境 三. 使用IoC彻底解决问题 四. 总结 一、一个没有使用IoC的例子 IoC的全称是Inversion of Control,中文叫控制反转。要理解控制反转,可以看看非控制反转的一个例…

【直播预告】7月18日3D游戏引擎免费公开课答疑,參与送C币!
喜讯喜讯!为了酬谢广大学员。CSDN学院特推出iOS和3D游戏引擎开发免费技术答疑公开课,让您度过一个充实的暑假~ 參与本次公开课,即有机会获得50C币! 答疑公开课时间:7月18日 晚7:30-9:30 答疑主题:姜雪伟3D…

Linux0.11内核引导启动过程概述
Linux0.11仅支持x86架构。它的内核引导启动程序在文件夹boot内,共有三个汇编代码文件。按照启动流程依次是: (1)bootsect.s。boot是启动引导的意思,sect即sector,是扇区的意思,二者合在一起启动…
用Python分析5000+抖音大V,粉丝最喜欢的视频类型是它
作者 | 小F来源 | 法纳斯特头图 | CSDN下载自视觉中国最近,小F在知乎上看到一个关于抖音的问题。里面提到了,目前我国人均每天刷短视频110分钟。看这数据,看来小F又被平均了。不过老实说,只要一打开抖音,小F确实是有一…

JSTL 读取数组 和 字符串连接
2019独角兽企业重金招聘Python工程师标准>>> JSTL读取数组: 从后台取得一个字符串,如:AA-50-3,通过-划分成字符串数组。然后读取每个字符串。 <c:set var"cle" value"${fn:split(AA-50-3,-)}"…
《Photoshop Lab修色圣典(修订版)》—第1课1.7节言归正传
本节书摘来自异步社区《Photoshop Lab修色圣典(修订版)》一书中的第1课1.7节言归正传,作者【美】Dan Margulis,更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.7 言归正传Photoshop Lab修色圣典(修订版)上面的讨论说明,与其他方法相比&#x…

PHP获取当前时间差8小时的问题
<?php echo date("Y-m-d H:i:s"); //当前时间 ?> 这个方法获取的时间和标准时间差8小时;从php5.1.0开始,php.ini里加入了date.timezone这个选项,默认情况下是关闭的也就是显示的时间(无论用什么php命令…