改善AI性别偏见的4种方法 | CSDN博文精选
加入「公开课」交流群,获取更多学习资料、课程及热招岗位等信息
作者 | Josh Feast
翻译 | 王子龙
校对 | 王琦
本文阐述导致AI偏见的原因并提出应用的解决方案。
任何对AI偏见的审查都需要意识到一个事实:这些偏见主要源于人类固有的偏见。我们创建、训练的模型和系统就是我们人类自己的真实写照。
因此AI从人类那里学习到了性别偏见也就不足为奇了。例如,亚马逊的Alexa和苹果的Siri等常见AI系统的核心—自然语言处理(natural language processing, NLP)就存在性别偏见,而这并不是孤例。此前还发生了几起明显带有性别偏见色彩的案例,包括能够识别性别的计算机视觉系统,其在识别女性时报告的错误率更高,尤其是对于那些肤色较深的女性。
为了开发出更公平的技术,整个行业的研究人员和机器学习团队必须共同努力来纠正这种不平衡。幸运的是,我们开始看到有新的研究致力于解决这些问题。
其中需要特别提到的是目前正在进行的关于词嵌入(Word-embeddings)的偏见研究,词嵌入将词转换为数字表示,然后在自然语言处理模型中用作输入。词嵌入将词表示为序列或数字向量,如果两个词意思相近,它们的映射(associated embedding)在数学意义上也是相近的。词嵌入通过评估单词出现的上下文来编码信息。例如,AI能够客观地把“女王”一词填充到“男人是国王,女人是X”这句话中的X处。但当AI填写“父亲是医生,母亲是护士”这样的句子时,就会引起潜在的问题。这句话中固有的性别偏见反映了我们社会中对妇女的过时看法,这种看法既没有事实根据,也不平等。
很少有研究对情感相关的演讲中的性别偏见进行评估,而情感AI在未来的工作、营销以及几乎所有你能想到的行业中开始扮演更重要的角色。在人类社会中,当一个人对某一类人情感的误解多于另一类时,偏见就会产生。例如,错误地认为某一类人比另一类人更容易生气。目前的机器也有同样的偏见,它们将与情感相关的信息错误地分类。要理解为什么会这样,以及我们如何解决这个问题,先去了解造成AI偏见的原因就显得重要了。
什么导致了AI偏见?
在机器学习的背景下,偏见可能意味着某些人口统计类别的误差更大。因为找不到这种偏见的根源,所以在开发和训练机器学习模型时,研究人员必须考虑许多变量,包括以下因素:
不完整的或偏斜的训练数据集:当训练数据中缺少某种人口统计类别时,就会出现这种情况。在那些有缺失人口统计类别的新数据上使用这些数据训练的模型时,则不能正确地衡量。例如,如果女性演讲者只占你训练数据的10%,那么当你将一个训练过的机器学习模型应用于女性时,很可能会产生更高程度的误差。
训练模型所用的标签:绝大多数商业AI系统使用有监督机器学习,这意味着训练数据是被打上标签的,标签用来训练模型如何作出反应。通常情况下,这些标签是人类想出的,考虑到人们经常表现出偏见(既有有意识的,也有无意识的),这些偏见会无意地编码到由此产生的机器学习模型中。考虑到机器学习模型被训练出来用于估计这些标签,这种对特定性别不公平的分类将被编码到模型,这会导致偏见。
特征和建模技术:机器学习模型的输入值或者实际的模型训练过程中都可能因为测量而产生偏见。例如,几十年来,语音合成,即把文本转换为语音的技术(例如:斯蒂芬·霍金的声音)和自动语音识别,即把语音转换为文本的技术(例如:CC字幕)都有该情况发生。与男性相比,女性演讲者的表现不佳,这是由于对演讲者的分析和建模对于声带较长、音调较低、个子较高的人来说更准确。因此,语音技术对于具有这些特征的演讲者(通常是男性)来说是最准确的,而对于那些音调较高的演讲者(通常是女性)来说就不那么准确了。
机器学习团队避免性别偏见的四个最佳解决方案
和生活中的许多事情一样,AI偏见的原因和解决方案并不是非黑即白的。“公平”本身甚至也必须通过量化来减轻偏见所带来的不必要影响。对于那些想要利用AI的力量,但又担心产生偏见的管理者来说,落实下面的方法对于你的机器学习团队很重要。
确保训练样本的多样性(例如,在训练数据中使用与男性差不多数量的女性音频样本)。
确保给音频打标签的人们有着多元化的背景。
针对不同人口统计类别,鼓励机器学习团队分别评估模型的准确程度。并且当某个类别被不公平地对待时要能识别得出来。
通过收集更多与敏感群体相关的训练数据来解决不公平的问题。在此基础上,可以应用新的机器学习去除偏见技术,该技术不仅惩罚主要变量的识别错误,还额外惩罚造成不公平的错误。
虽然研究这些原因和解决办法是非常重要的第一步,但仍有许多悬而未决的问题需要回答。除了训练机器学习模型之外,业界还需要开发更全面的方法以解答造成上述三个主要偏见的原因。此外,为了应对日益增加的多样性,未来的研究应该考虑性别变量的更广泛表示,如跨性别者、非二元性别等,以此来增强我们对此的理解。
我们有义务创造对每个人都有效和公平的技术。我相信,如果我们能够共同解决这些问题,AI的收益将超过风险。这取决于该领域的所有从业者和领袖合作、研究和开发解决方案,以减少AI对任何人的偏见。
原文标题:
4 Ways to Address Gender Bias in AI
原文链接:
https://hbr.org/2019/11/4-ways-to-address-gender-bias-in-ai
编辑:黄继彦
扫码查看作者更多文章
▼▼▼
(*本文为AI科技大本营转载文章,转载请联系原作者)
◆
精彩公开课
◆
推荐阅读
专访ClickHouse创始人:数据库竞争依旧火热,技术整合势在必行
商汤联手华科:提出文字检测模型GNNets,新颖模块可解决几何分布难题
微信地位,牢不可破?
为什么要学数据结构?| 原力计划
支付宝也崩溃,中心化支付体系尚能饭否?
Android 10 vs iOS 13,逐鹿手机操作系统之王!
搞定面试算法系列 | 分治算法三步走
公司倒闭,39 岁重新找工作,薪资不到 8000,太残酷!
摩托罗拉的百年沉浮
底层公链行业报告:国产公链未来应积极协助政企开发联盟链;跨链和分层等技术取得较大进展,链链互通将成为现实
你点的每个“在看”,我都认真当成了AI
相关文章:

C#程序调用外部程序
/**编程语言:VisualStudio.NetC#(Beta2)*作者:迪泊威*功能:通过C#程序调用Windows记事本程序编辑一个*名为test.txt的文本文件。**在整个程序中System.Diagnostics.Process.Start(Info)*为主要语句。*如果只是单独执行一个外部程序࿰…

svn 同步脚本
REPOS"$1"REV"$2"export LANGen_US.UTF-8/usr/bin/svn update /home/wwwroot/yswifi --username yangxc --password yangxc >>/tmp/svn_hook_log.txtecho who am i,$REPOS,$REV >> /tmp_hook_var.txt转载于:https://www.cnblogs.com/xkcp008/p…
DevOps火爆,招人却太难了!
DevOps一词最近两年人们谈的比较多,很多人简单地理解为“Dev”“Ops”,是否将开发人员和运营人员放在一个部门就完事了呢?其实DevOps是一组过程、方法与系统的统称,用于促进开发、技术运营和质量保障部门之间的沟通、协作与整合。…

网络数据包分析软件Wireshark简介
Wireshark是被广泛使用的免费开源的网络协议分析软件(network protocol analyzer)或网络数据包分析软件,它可以让你在微观层面上查看网络上发生的事情,它的功能是截取网络数据包,并尽可能显示出最为详细的网络数据包信息。它的源码在https://…

SEO研究:网站结构
在衡量所有权重之间,网站结构大概占到30%,这也是很多网站排名不好,或者有站长根本不用优化就能获得很好排名的原因。说到结构必须明白两个概念,一个是物理概念,就是文件存放的路径,另一个是逻辑结构。比较好的情况是逻…

form实现登陆操作
这几天想写个保存cookies的网页,先写了个登陆界面,奈何点击登陆后总是无法正常跳转。经查阅资料和询问高手,总算得以解决。 原错误代码如下: <html> <title>SaveCookies</title> <head> <script>fu…

深度学习中的优化算法之BGD
之前在https://blog.csdn.net/fengbingchun/article/details/75351323 介绍过梯度下降,常见的梯度下降有三种形式:BGD、SGD、MBGD,它们的不同之处在于我们使用多少数据来计算目标函数的梯度。 大多数深度学习算法都涉及某种形式的优化。优化指…
死宅福音:乐高不怕多,智能分拣机帮你归类
作者 | 神经小兮来源 | HyperAI超神经(ID:HyperAI)【导读】乐高现在几乎已经是优质玩具的代名词,该品牌旗下最为知名的,莫过于乐高积木。其丰富的形状与多样的玩法,无论大人小孩都喜欢。但是,这…

优化eclipse启动速度
< DOCTYPE html PUBLIC -WCDTD XHTML StrictEN httpwwwworgTRxhtmlDTDxhtml-strictdtd> 最近发现eclipse越来越慢,影响了开发使用速度。经过处理,快了一些,希望给大家一些提示。 1,取消系统的自动折叠 操作方法:…

一个基于J2EE的web应用程序运行起来需要什么?
2019独角兽企业重金招聘Python工程师标准>>> Eclipse ?IDEA?这是目前市面上最常用的开发工具啦,我的理解是这些只是开发工具,是为了方便开发的,而不是web应用程序运行起来必须的东西。 为什么会有些这方面东…

深度学习中的优化算法之MBGD
之前在https://blog.csdn.net/fengbingchun/article/details/75351323 介绍过梯度下降,常见的梯度下降有三种形式:BGD、SGD、MBGD,它们的不同之处在于我们使用多少数据来计算目标函数的梯度。 大多数深度学习算法都涉及某种形式的优化。优化指…
华科提出目标检测新方法:基于IoU-aware的定位改进,简单又有效
作者 | 周强来源 | 我爱计算机视觉(ID:aicvml)【导语】近日,华中科技大学发表了一篇新论文《IoU-aware Single-stage Object Detector for Accurate Localization》,在此论文中作者提出了一种非常简单的目标检测定位改…

js init : function ()
这个init外面应该还有一层,比如 var a { init: function () {...}, exit: function () {...} } 这样的话,可以用a.init()来调用这个函数, <script type"text/javascript">var obj{init:function(str){alert("init调用&…
Google提出移动端新SOTA模型MixNets:用混合深度卷积核提升精度
作者 | Google译者 | 刘畅编辑 | Jane出品 | AI科技大本营(ID:rgznai100) 【导语】目前,深度卷积(Depthwise convolution)在追求高性能的卷积网络中的应用变得越来越流行,但很多研究忽略了其内核…

桌面窗口的一些发现
最近因业务需要,玩了一下全屏问题。后来,对windows xp sp2的桌面窗口产生了兴趣。写了段代码,玩了一下。同时结合网上的一些知识,发现了以下一些现象。(转载请指明出处) 首先窗口名有#32769、Progman、Shel…

三说输入法[转]
如果我愿意,我会不停地说下去,直到烦死你们,谁让我用的输入法快呢。 我说了几句搜狗或股沟输入法的坏话,引来一些人的争论,大大在我预料之中,这年头,当你想说一些知名度较高的人或物的坏话时&am…

回忆之城市搜索
直接看效果点这里 HTML <!DOCTYPE html> <html> <head lang"zh-CN"><meta charset"utf-8"><title> 城市搜索 </title><link rel"stylesheet" href"ui-departure.css"> </head> <b…

ATL::CStringA和std::string之间转换的一些误区
对于刚做windows下VC的开发同学,类型转换应该是一个令其很苦恼的问题。我刚写工作的时候,也为这类问题不停的在网上搜索转换方法。最近工作中遇到一个“神奇”的bug(一般“神奇”的问题往往是低级错误导致的),最后跟踪…

Windows XP鲜为人知的70招
一、Windows XP优化恢复Windows经典界面很多人安装了Windows XP后的第一感觉就是Windows变得漂亮极了。只是可惜美丽的代价要耗掉我们本就不富裕的内存和显存。要想恢复到和经典Windows类似的界面和使用习惯,请在桌面上单击鼠标右键,选择“属性”命令即可…
Github开源趋势榜Top 1:英伟达升级发布二代StyleGAN,效果更完美
整理 | Jane出品 | AI科技大本营(ID:rgznai100)2018 年底,英伟达借鉴风格迁移的思路,提出当时最先进的无条件生成模型—— StyleGAN ,吸引了大家广泛关注。随后,代码开源,一位 Uber …

百度地图 ip查询 service
官方文档:http://developer.baidu.com/map/wiki/index.php?titlewebapi/ip-api 请求 一个例子: http://api.map.baidu.com/location/ip?ak3GFi2F04wXaVuwmGu8fN49kL1234567890&ip180.161.128.181 返回 {"address": "CN|\u6cb3\u535…

python3编写简易统计服务器
打点这个功能总是美其名曰“帮助提升用户体验”,其实说白了就是记录用户做了哪些操作。目前国内很多通用软件都做了相关功能,像360、QQ等这样的以用户体验出众的软件,其打点的面自然也很广很细。当然这种“侵犯”用户隐私的事情在业内各个公司…
作价20亿美元!英特尔收购以色列AI芯片公司Habana Labs
出品 | AI科技大本营(ID:rgznai1000)12月16日,英特尔宣布以约 20 亿美元收购以色列公司Habana Labs,这成为英特尔在以色列仅次于 Mobileye(153 亿美元) 的第二大收购案。Habana Labs 成立于 2016 年&#x…

这就是奇客文化?简直太有才了!
这就是奇客文化?简直太有才了……

java中的char类型
2019独角兽企业重金招聘Python工程师标准>>> 一:char的初始化 char是Java中的保留字,与别的语言不同的是,char在Java中是16位的,因为Java用的是Unicode。不过8位的ASCII码包含在Unicode中,是从0~127的。 Ja…

[原创] 如何追踪每一笔记录的来龙去脉:一个完整的Audit Logging解决方案—Part I...
一、提出问题 在开发一个企业级 应用的时候,尤其在一个涉及到敏感数据的应用,比如财务系统、物流系统,我们往往有这样的需求:对于数据库中每一笔数据的添加、修改和删除,都需要有一个明确的日志,以便我们可…

进程间通信:同步双工管道
因为工作需要,需要设计出一个双工的IPC。(转载请指明出处)在一番比较后,我发现管道是比较符合我们的需求的。但是我们需求要求管道的对方是可信任的,而在vista以下系统是没有GetNamedPipeClientProcessId、GetNamedPip…
就因为一个笔记本,运营和产品吵得不可开交......
上班最讨厌的一件事情,莫过于开会,因为每次开会感觉就要吵架,这个今天开会又吵架了,吵架竟然是因为产品小姐姐的笔记本。产品小姐姐用了一本可擦笔记本记录会议内容,运营小姐姐竟然说这个本子有什么用,不就…

Ka的递归编程练习 Part4|Hanoi汉诺塔,双色汉诺塔的也有
1 #include <stdio.h>2 void hanoi(int s,char a,char b,char c) //a是出发盘,b是中途盘,c是结束盘 3 {4 if(s0) return;5 hanoi(s-1,a,c,b); //把最底下的从a借助c移动到b6 printf("%d from %c move to %c\n",s,a,c);7 …

一种精确从文本中提取URL的思路及实现
在今年三四月份,我接受了一个需求:从文本中提取URL。这样的需求,可能算是非常小众的需求了。大概只有QQ、飞信、阿里旺旺等之类的即时通讯软件存在这样的需求。在研究这个之前,我测试了这些软件这块功能,发现它们这块的…