“男医生,女护士?”消除偏见,Google有大招
编译整理 | 若奇
出品 | AI科技大本营
如何消除 AI 带来的性别偏见是个令人头疼的问题,那究竟有没有方法去解决?
12 月 6 日,Google 宣布他们迈出了减少 Google 翻译中性别偏见的第一步,并且还详细介绍了如何为 Google 翻译上的性别中性词提供女性化和男性化两种翻译结果的技术原理。
过去几年,Google 翻译通过使用基于端到端的神经网络系统大大提高了翻译质量,但与此同时,模型的翻译结果呈现出了社会偏见,尤其是性别偏见。具体而言,由于 Google 翻译的结果一直都是从网上数以亿计的已翻译数据中学习得到,这造成的后果是,即使翻译结果可能具有女性化或男性化形式的倾向,但它也只为查询提供一种翻译。因而,这无可避免地复制了已有的性别偏见。例如,像“强壮”或“医生”这样的词语,它会生成偏向于男性化的翻译结果,而对于“护士”或“美丽”等词汇,则会生成偏向于女性化的翻译。
现在,Google 翻译解决了上述问题。当你把诸如“外科医生”这样的单字从英语翻译成法语、意大利语、葡萄牙语或西班牙语时,会得到的男性化和女性化的两种翻译结果。另外,当把短语和句子从土耳其语翻译成英语时,你也会得到这两类翻译,比如你用土耳其语输入“o bir doktor”,就会得到“she is a doctor”和“he is a doctor”这两种按性别翻译的结果。
Google 翻译中有特定性别的翻译
Google 团队是如何做的?
要知道,支持单字查询的特定性别翻译涉及到用性别属性丰富 Google 的底层词库。支持较长(短语和句子)查询的性别翻译尤其具有挑战性,这甚至需要对翻译框架进行部分重构。对于这些较长的查询,他们最初将重点放在从土耳其语到英文的翻译上。总体而言,他们制订了三步法来解决土耳其语中性别中立查询的问题,即同时提供英文的男性化和女性化翻译结果。
检测性别中立查询
许多土耳其语中提到人的句子都是性别中立的,但并不是全部都这样。检测哪些查询符合特定性别的翻译是一个难题,由于土耳其语在形态学上的很复杂,这意味着指代一个人可以是明确的性别中立代词(例如 O,Ona)或隐式编码。例如,“Biliyor mu?”没有明确的性别中立代名词,可以翻译为“她知道吗?”或“他知道吗?”这种复杂性导致我们不能使用简单的性别中性代词列表来检测性别中立的土耳其语查询,另外我们还需要一个机器学习系统。Google 团队估计大约有 10% 的土耳其语的翻译查询含糊不清,能同时符合女性化和男性化翻译的条件。
为了检测这些查询,他们使用了最先进的文本分类算法(与他们的云自然语言 API 中使用的算法相同)来构建一个系统,该系统能够检测给定的土耳其语查询何时是性别中立的。这就导致在翻译前新增了一个步骤,所以他们必须平衡模型在延迟时的复杂性。Google 团队对数千个土耳其人进行系统培训,要求这些人判断出一个给定的例子是否是性别中立的。而他们最终的分类系统是卷积神经网络,以此可以准确检测出需要按性别翻译的查询。
生成特定性别翻译
随后,Google 团队增强了基础神经机器翻译(NMT)系统,以便在需要时生成女性化和男性化翻译。当没有要求区分性别时,训练模型生成的是默认翻译。这主要包括:
识别并将平行训练数据划分为具有女性化词语、男性化词语和性别不明词语。
在句子的开头添加一个新增的输入标记,以指定要翻译的所需性别,类似于已构建的多语言 NMT 系统的方式:
<2MALE> O bir doktor→他是一名医生
<2FEMALE> O bir doktor→她是一名医生
训练增强的 NMT 模型对女性、男性和性别中立数据源的影响。他们对这些来源进行了各种混合比试验,使模型在这三个任务中的表现同样出色。
如果确定用户查询是性别中立的,他们会在翻译请求中添加性别前缀。对于这些要求,他们的最终 NMT 模型可以在 99% 情况下生成可靠的女性化和男性化性别的翻译结果。此外,系统在没有性别前缀的查询中还能保持翻译质量。
检查准确性
最后的一个步骤决定是否显示特定性别的翻译结果。由于产生男性化翻译的训练数据与产生女性化翻译的训练数据不同,因此在与性别无关的两种翻译间可能存在差异。如果确定特定性别的翻译质量低,则只显示单一的默认翻译。为了确定特定性别的句子翻译质量,他们进行以下验证:
要求的女性翻译是女性化的;
要求的男性化翻译是男性化的;
除了与性别相关的变化,如果女性化和男性化翻译完全相同,即使翻译结果间的措辞发生微小变化也会被系统过滤掉。
男性化和女性化翻译仅在性别方面有所不同,即“he”和“his”与“she”和“her”。因此,他们展示了特定性别的翻译。底部:男性化和女性化翻译在性别方面有所不同,即“he”与“she”。但是,从“really”到“actually”的变化与性别无关。因此,系统将过滤特定性别的翻译并显示默认翻译结果。
如果将所有内容放在一起,输入句子首先会通过分类器,分类器检测它们是否可以进行特定性别翻译。如果分类器说“是”,系统则向增强型 NMT 模型发送三个请求:女性化翻译请求、男性化翻译请求和性别中立翻译请求。最后一步考虑了所有的三个答案,并决定是否显示特定性别翻译或单个默认翻译。Google 团队认为,这一步仍然相当保守,为了最大限度提高所显示的特定性别的翻译质量,因此系统的整体召回率仅为 60% 左右。
对 Google来说,这只是他们解决机器翻译系统中性别偏见的第一步,未来,他们计划将特定性别的翻译扩展到更多语言,并解决自动完成查询等功能中的性别偏见问题。此外,他们已经在考虑如何在翻译中解决非二元性别的问题。
相关链接:
https://ai.googleblog.com/2018/12/providing-gender-specific-translations.html
本文为 AI科技大本营编译文章,转载请联系微信 1092722531。
◆
推荐
◆
推荐阅读
最懂区块链的十大女神,值得你关注 | 年度盘点
“腾讯也感受到危机了!”
程序员依然是这个时代,贫寒学子翻身的不二选择
讲述:一个月薪12000的北京程序员的真实生活
程序员为啥365天都背电脑包?这答案我服!
点击“阅读原文”,打开APP 阅读更顺畅
相关文章:

Web Developer中文版下载
Web Developer是一款非常优秀的网页调试工具。Web Developer有IE和Firefox两个版本,主要功能表现在几个重要的方面:对页面中的文本、图像、媒体文件进行控制,对网页所应用的CSS文件的id与class辅助查看,表格辅助查看,可…

位置服务与地图应用
位置服务与地图应用: 位置服务(Location Based Services,LBS)又称为服务或基于位置的服务。Andorid平台支持提供位置服务的API,在开发过程中主要用到LocationManager 和LocationProviders对象。 为开发能够提供位置服务,首先需要得…

20分钟教你搞懂Git!
Git 是最流行的版本管理工具,也是程序员必备的技能之一。本文就来教你 20 分钟搞懂 Git!以下为译文:尽管每天你都会用到Git,但也有可能搞不懂它的工作原理。为什么Git可以管理版本?基本命令git add和git commit到底在干…

android 长按赋值功能,android实现WebView中长按选中复制文本操作
啥都不说了,老司机直接移步GITHUB看源码吧:https://github.com/deaboway/AndroidWebViewTextSelect万一不work,一定不是代码的问题,你可以自查链接中的如下情况CSS控制页面文字不能被选中user-select:none;body{-moz-user-select:…

如何找回丢失的Vista系统“休眠”菜单
如何让Vista系统“休眠”菜单重见天日一些使用Windows Vista的朋友为了节省磁盘空间,在命令提示符下使用命令关闭休眠功能。但是如果再用相同的方法打开休眠功能时,就会发现,即使恢复了功能,“休眠”菜单还是看不见,这…

go3--常量和类型转换
/* Go中不存在隐式转换,所有类型转换必须显式声明 转换只能发生在两种相互兼容的类型之间 类型转换的格式:<ValueA> [:] <TypeOfValueA>(<ValueB>)全局变量可以使用var()的形式,局部变量不可以使用v…

android倒计时实现方法,Android实现倒计时方法汇总
Android开发中经常会有倒计时的功能,下面将总结出常见的集中实现方式。1.直接使用Handler的消息机制来实现xml布局中文件如下:android:layout_width"match_parent"android:layout_height"match_parent"android:orientation"hor…

今晚8点直播 | 详讲NLP的经典应用实践——文本分类
文本分类问题是企业在 NLP 领域中处理文本数据时经常会遇到的一个问题,很多时候,我们需要将文本信息进行分类,或提相关的接口以供外部进行文本上传,在针对于用户所上传的文档信息就需要进行文档内容的分类,那么针对于这…

谈论 嵌入式系统
引用 嵌入式系统嵌入式系统http://www.lumit.org/index.htm嵌入式相关的网站http://www.mcu123.com/news/Article/web/uc/200611/3939.html转载于:https://www.cnblogs.com/stoneresearch/archive/2008/10/21/4336381.html

SharePoint Server 2013 之四:部署SharePoint企业版
在上篇文章我们完成了SharePointServer 2013 必备的组件,用户可根据自己需求联网安装或离线安装。接下来我们进入SharePoint 企业版的部署。 运行SharePointServer 2013 SP1 安装程序,点击“安装SharePoint Server”如下图: 企业版安装是需要…

android 监测内存泄漏工具,LeakCanary:Android内存泄漏检测工具
LeakCanaryA memory leak detection library for Android and Java.“A small leak will sink a great ship.” - Benjamin FranklinGetting startedIn your build.gradle:dependencies {debugImplementation com.squareup.leakcanary:leakcanary-android:1.6.1releaseImplemen…

为什么说可视化编程是糟糕的想法?
可视化编程语言可以让程序员通过操纵图形元素来创建程序,而无需键入文本命令。众所周知的例子是 Scratch,这是一种麻省理工学院开发的可视化编程语言,用来教孩子们学编程。该语言的优势在于新手和普通用户可以更容易接触编程。二十世纪九十年…

7年增长16倍,清华AI+ML课程学生数暴增 | AI Index 2018
整理 | 非主流出品 | AI科技大本营用数据解读 AI。昨日,来自斯坦福大学、MIT、哈佛、OpenAI 等高校与企业的多位专家正式发布了 2018 年度 AI Index 报告,用一系列数据全面回顾了过去几年里 AI 领域的全球发展。营长挑了一些重点内容,为大家解…

RunTime的使用-Category改变整个项目全部字体
在项目比较成熟的基础上,遇到了这样一个需求,应用中需要引入新的字体,需要更换所有Label的默认字体,但是同时,对于一些特殊设置了字体的label又不需要更换。乍看起来,这个问题确实十分棘手,首先…

android 耳机红外线,红外线耳机制作方法
本文介绍的语音红外转发器具有结构简单、易于制作、无干扰、低噪声的特点。工作原理:转发器由发射和接收两部分组成。见附图1。鉴频后的伴音(音频)信号经三极管V放大后推动红外发射管。由于发射管的发光强度与通过的电流成正比,所以D1、D2所发出的红外光…

解决load cycle count的一个偏方,告别硬盘卡卡响
load cycle count猛增,笔记本电脑硬盘喀嚓喀嚓响,我倒不担心硬盘寿命,但是实在烦人那声音,系统也时常被卡一下。我曾使用了hdparm -B 254 /dev/sda 的方法,但是硬盘升温太明显,右掌托烫得忍无可忍。苦寻方法…

AI工程的实践者:普元积极将场景落地,为企业提供智能化解决方案
作者 | Jane出品 | AI科技大本营11 月 8-9 日,CSDN 和 AICamp 联合举办的 AI 开发者大会在北京顺利举行。普元移动产品线总经理郝振明发表了《基于机器学习的工程实践》的主题演讲,并接受了 AI科技大本营的专访。以下内容为郝振明的演讲与采访总结&#…

android用户界面设计:基本按钮,Android用戶界面設計:基本按鈕
本文向你展示了在你的android應用程序中創建一個簡單的Button或ImageButton控件的步驟。首先,你會學到如何向你的布局文件中添加按鈕控件。然後你會學習如何用兩種方法處理用戶對按鈕的點擊。最後,我們討論android中按鈕控件一些其它的可用特性。第1步&a…

快速浏览Silverlight3 Beta:当HLSL遇上Silverlight
HLSL高级着色器语言(High Level Shader Language,简称HLSL),由微软拥 有及开发的一种语言,只能供微软的Direct3D使用。 HLSL是微软抗衡GLSL的产品,同时不能与OpenGL标准兼容。他跟Nvidia的Cg非常相似。 看…

“80后”财富新贵创业秘诀
"80后"财富新贵创业秘诀:具有冒险和创新精神 不论是文化市场,还是经济市场,当许多人还认为还是“60后”或“70后”的天下时,“80后”财富新贵已在不知不觉中浮出水面,并试图用自己的实力证明新一代的崛起。李想、戴志康…

小插件 打开Android程序动画,android-单击小部件后如何启动活动?
这就是对我有用的…onUpdate方法代码应为:Overridepublic void onUpdate(Context context, AppWidgetManager appWidgetManager, int[] appWidgetIds) {for (int i 0; i < appWidgetIds.length; i) {int appWidgetId appWidgetIds[i];try {Intent intent new …

“深度学习之父”大谈AI:寒冬不会出现,论文评审机制有损创新
整理 | 琥珀出品 | AI科技大本营【AI 科技大本营导读】近日《连线》杂志发表了一篇文章,记录了与“深度学习之父” Geoffrey Hinton 围绕人工智能伦理、技术、学术等领域的采访实录。当被问到如今人工智能是否将走进寒冬时,Hinton 的回答非常坚决&#x…

金山词霸2009牛津版
http://download.iciba.com/Pw2009_oxf/Powerword2009Oxf.25269.4011.exe新版本的词霸2009牛津版的 需要的朋友下载看看 转载于:https://blog.51cto.com/zmdzhangzhe/112418

面向对象之数值的悲剧(8月28日会议有感)
枚举的悲剧 枚举基本用法大家应该都很熟悉,在我们去避免硬编码,增强代码可读性,可维护性方面很好用。不过话说枚举底层还是比较复杂的,以前看过一些关于枚举的说明。至少C#里边的枚举是很复杂的,本身是结构类型&#x…

C++虚函数探索!
C中的虚函数实现了C中的多态。昨天C老师着重讲了讲虚函数。这个很重要,也有点玄机在里面。 下面阐述一下理论: C的类机制中有支持多态的技术来解决抽象编程。使用的是滞后捆绑技术。即预先设定其成员函数虚函数性质,使得任何捆绑该成员函数的…

htc820+android+l,首款高通64位八核 HTC Desire 820评测
9月初的IFA2014展会期间,多款搭载64位处理器的新品智能手机扎堆发布,也算是拉开了64位处理器安卓手机的时代序幕。其中,最引人注目的新品之一莫过于HTC Desire 820,它于北京时间9月4日在德国柏林发布,拔得了全球首款64…

关于正则表达式 g,m 参数的总结,为了回答“正则表达式(/[^0-9]/g,'')中的/g是什么意思?”...
为了解答“正则表达式(/[^0-9]/g,)中的"/g"是什么意思?”这个问题,也为了能够便于大家对正则表达式有一个更为综合和深刻的认识,我将一些关键点和容易犯糊涂的地方再系统总结一下。 总结1:附件参数g的用法 表达式加上参…

那位13岁就当上老板的开发者是如何炼成的?
当我们听到有关年轻有为的企业家的故事时,大多会想到 25 到 30 岁左右的年轻人。毕竟,Google、亚马逊、Facebook、Twitter、LinkedIn、Pinterest、Instagram、Snapchat 以及其它很多公司的创始人都是在他们 20 多岁时创办的这些企业。随着人们与科技的联…

phonegap android,Phonegap 3不适用于Android Studio
对我来说,这似乎很简单,但我根本做不到.我已经成功安装了npm install -g phonegap并安装了phonegap.C:\var\www\sexdiaries.co.uk>phonegap create sexdiaries -n SexDiaries -i co.uk.sexdiaries.app然后,我被告知Here尝试运行andriod但出现以下错误C:\var\www\sexdiaries.…

安装VCenter提示数据库排序规则有问题
安装VCenter提示数据库排序规则有问题 有时候在安装sql server 数据库时你如果修改了排序规则,那么在安装VCenter时它会提示你的数据库排序规则有问题,不让你安装。这个时候你去修改一下数据库规则就可以继续安装了。 解决方法: 1.把安装光盘…