当前位置: 首页 > 编程日记 > 正文

深度学习先驱 Yann LeCun 被骂到封推!AI 偏见真该甩锅数据集?

整理 | 夕颜

出品 | CSDN(ID:CSDNnews)

最近,人工智能领域又发生了一次热热闹闹的争论,随后演变成一场偏离轨道的争吵,目前以 Yann 道歉封推暂告一段落......

              

争论来龙去脉

这次争论的主角是图灵奖得主、人工智能标杆性人物 Yann LeCun,争论源自于 Yann 针对一篇 CVPR 论文提出的 PULSE 算法发表的一句观点。

PULSE 算法是美国杜克大学研究人员发明的一种新的图像识别算法,它可以将低分辨图片变成高清图片,细致到毛孔、头发都能神还原,即使是被打了马赛克的图片,也可以通过该算法“脑补”出清晰地图片。于是一张引起争议的图片诞生了:

有人用作者在论文中开源的代码进行了模型推理,使用美国前总统奥巴马的打码图像进行了试验,结果发现奥巴马被还原成了白人。

            

为了证明还原照片不是假的,还有人用自己和更多人的照片做了对比实验,可以很清楚地看到,生成照片中的人都具有了白人的特征。

一石激起千层浪,尤其是在这个特殊时期,有色人种被还原成白人的事挑起了大家对于 AI 系统产生偏见(bias)的批判,也再次警醒人们,AI 技术带有偏见所带来的潜在危机。

而 Yann 此时在 Twitter 上发表了自己的观点:

推文大意是,当数据集有偏见时,机器学习系统也随之产生偏见。这个系统之所以让生成图片看起来都是白人是因为系统在只包含白人图像的 FlickFaceHQ 数据集上进行预训练,换成一个来自塞内加尔的数据集,同一个系统生成的图像看起来就是非洲人了。

就是这样一句话引起了争议,有人说,机器学习系统产生偏见不应只归咎于数据集,这种甩锅的做法是不公平的,还有人的原因、观念的原因,等等,最后评论区的声音很快偏离轨道,没有多少人关心关于偏见的学术和技术讨论,而是转移到具有煽动性的种族话题讨论中, Yann 也终于疲于应对指责,发布了一条道歉推文,宣布自己从此将不再在推特发表重要观点。

PULSE 算法如何产生偏见?

抛开不理智的声音,这次陷入争论中心的 AI 系统偏见其实是一个存在很久热度很高的话题,今天我们就来看一下,还原马赛克图片背后的PULSE 算法究竟是怎么回事,为什么会产生偏见。

PULSE 算法背后的团队来自杜克大学,阐述这一算法的论文入选了 CVPR 2020 大会。

论文地址:https://arxiv.org/pdf/2003.03808.pdf

简单来说,该算法利用了“放大(upscaling)”技术来处理图像中的像素,其工作原理类似于将低分辨率电影高清化,就是在放大画面后增强细节。问题是,马赛克图片缺少了很多像素细节,PULSE 算法必须借助机器学习技术来填补像素不足的地方,也就是说,还原后的图像实际上并不是说复原图像本来真实的样子,而是算法通过数据记得训练,“脑补”出新的图像。

而“脑补”的过程,就需要用到英伟达的 StyleGAN。PULSE 算法进一步利用了 StyleGAN 的想象力。论文作者在文章中也指出,虽然用 PULSE 用 StyleGAN(在FFHQ上训练)作为生成模型生成了令人印象深刻的图像质量,但他们注意到当在测试以外的人脸自然图像上进行实验时会产生偏见,而他们认为 PULSE 的偏见继承自 StyleGAN 的一些固有偏见,并提出了这种偏见的来源:

  • 从潜在空间约束继承的偏差:如果为StyleGAN有色人种分布在隐空间较低密度的区域会产生偏见,这是因为PULSE对潜在空间的的必要限制,以持续生成高分辨率图像。

  • 无法收敛:在GitHub上发布的初始代码中,当在优化结束时 PULSE 仍未找到正确缩小的图像(在内)时,PULSE 无法返回“找不到图像”。因此,可能的问题是,在 StyleGAN 的输出中很难找到有色人种要比白人人少的图像。

  • 从优化继承而来:这意味着受约束的潜在空间包含各种有色人种的图像,但PULSE的优化程序未找到它们。但是,如果是这种情况,那么我们应该能够在受约束的潜在空间中找到具有足够随机初始化的图像。但是经过试验似乎并不奏效。

  • 从StyleGAN继承:一些人指出,似乎在StyleGAN的增强的潜在空间中可以生成更多元化的图像。但是,这与StyleGAN本身在训练后生成的图像集并不相似,例如,在同一篇论文中,作者展示了嵌入的不相关领域(例如猫)的图像也很成功。在他们的工作中,PULSE仅限于StyleGAN认为是真实的人脸图像。

正如算法的创建者在 GitHub 上的说明:“看起来 PULSE 生成白人面孔的频率确实比其他有色人种高很多,这种偏见很可能是从 StyleGAN 训练时使用的数据集继承而来的,也可能存在我们不知道的其他因素,”

AI 艺术家 Mario Klingemann 认为,这个问题应该归结于 PULSE 算法本身,在选择像素的逻辑上出现了偏见,而不全是训练数据的问题。Mario 强调自己可以利用 StyleGAN,从相同的低分辨率奥巴马图像中生成非白人特征的图片。

在论文中,PULSE 的作者在附录中的model card中也讨论了模型偏见,写道相比于 CelebA HQ(基于公众人物(名人)的人脸数据集),FairFace或许是评估模型时的更好选择。

偏见都甩锅给数据集对吗?

在这个案例中,AI 艺术家 Mario Klingemann 认为,算法产生偏见其实应该归结于 PULSE 算法本身在选择像素的逻辑上出现了偏见,而不全是训练数据的问题,指出自己利用 StyleGAN,从相同的低分辨率奥巴马图像中可以生成非白人特征的图片。

其实 Yann 在推特中已经很明确地表示,他的本意并不是说问题都出在数据集上,只是针对这篇论文中 PULSE 算法在特定场景下,换个数据集就能解决问题,但并不是说所有的机器学习系统偏见都来源于数据集。

机器学习系统中导致社会偏见的原因很多(这里不谈论更一般的归纳偏置):

1.如何收集数据和格式化

2.特征设计

3.模型的架构

4.目标函数

5.部署方式

摒弃偏见,还能从哪里入手?

其实,关于 去 AI 偏见的研究早就已经有了,各种方法各有利弊,但是也表明了大家对这一问题的重视。当然,最重要的思路还是从训练数据集本身入手,尽量使用不带偏见的数据集,从源头上摒弃偏见。然而,世界上不可能存在完全不带任何偏见的数据集,还需从其他角度提出解决的方案。

比如 2019 年 MIT 就提出了一种纠偏算法,可以通过重新采样来自动消除数据偏见,借助无监督神经网络 VAE (变分自编码器)学习训练数据的潜在结构,用学到的潜在分布为数据点加权,从而解决偏见问题。

这并不是人们第一次提出解决 AI 偏见问题。早在 2018 年,Facebook 曾发布Fairness Flow,会在算法因种族、性别、年龄等因素做出不公正判断时发出警告以提醒开发者。

宾夕法尼亚州立大学的研究人员开发了一种人工智能工具,用于识别人工智能系统或人类决策者对受保护属性(如性别或种族)的歧视,该工具基于因果关系的概念,即一件事(一个原因)导致另一件事(一个结果),同时利用反事实推理算法来达到最优猜测。

再比如,南加州大学信息科学研究所(ISI)的AI研究人员研究团队发表了论文《通过对抗遗忘实现不变表示》,提出了一种被称为对抗性遗忘的机制,可以首先训练神经网络来表示所分析数据的所有潜在方面,忘记指定的偏见。举例来说,用机器学习模型预测某个人的信用卡限额,使用这个机制可以教会银行的算法预测限额,同时忘记或不改变与性别或种族有关的特定数据,这意味着它可用于训练神经网络,使其与训练数据集中的已知偏差保持不变,反过来,这将导致训练有素的模型在做出决策时不会受到偏见。

奥哈拉说,记住,鉴别力衰弱时,偏见就会占上风。对于人类创造出来的 AI 系统来说也是如此,系统怎样才能具备强大的鉴别力,还需要我们继续探索。条条大路通罗马,希望在不久的将来,我们能找到那个摒弃 AI 偏见的金手指。

推荐阅读
  • 牛!Python 也能实现图像姿态识别溺水行为了!

  • 高文、张钹、杨强隔空论道:AI精度与隐私的博弈

  • 90行Python代码,让张小龙的微信地球转起来

  • 突发!印度封禁抖音、微信、快手等 59 款中国 App

  • 厉害!国内大学生计算机编程第一人,一人挑战一个队,百度最年轻 T10,现创业自动驾驶

  • Balancer因通缩代币STA遭遇闪电贷攻击,价值50万美元资产被黑

  • 浅谈分布式存储中的网络通信

你点的每个“在看”,我都认真当成了AI

相关文章:

JS加强学习-DOM学习01

JavaScript由三个部分组成:ECMAScript、DOM、BOM。前面已经学习了ECMAScript中的基础内容,现在可以开始学习DOM部分了,在DOM中更多的是实际效果的展现。 1. DOM定义 DOM:document object model 文档对象模型 它是将整个页面文档封…

android 游戏引擎libgdx demo cuboc分析

开始学习android游戏开发也有一段时间了,挑选libgdx这个游戏引擎来进行学习和开发。Libgdx是一款支持2D与3D游戏开发的游戏类库,并且它是夸平台的。例如你可以在windos下开发,同样的代码也可以运行在android上。 刚开始学习这个游戏引擎可能会感觉无从下手&#…

倒计时1天 | 张钹院士领衔,AI开发者大会20大论坛全攻略!

2020年7月3—4日,由 CSDN 主办的第三届 AI 开发者大会(AI ProCon 2020)(大会官网:https://aiprocon.csdn.net/)将以线上直播的形式与大家相见。本次大会历时2天,一次性设立6大主题、20大精彩分论…

在页面中导入文件

1. <% Response.WriteFile ("Yourfile.inc") %> 2. Server.Execute("Yourfile.inc")

How Tomcat works — 四、tomcat启动(3)

上一节说到StandardService负责启动其子组件&#xff1a;container和connector&#xff0c;不过注意&#xff0c;是有先后顺序的&#xff0c;先启动container&#xff0c;再启动connector&#xff0c;这一节先来看看container。 目录 Pipeline和VavleStandardEngine类和Standar…

DataList分页

<% Page Language"C#" %> <% Import Namespace"System.Data" %> <% Import Namespace"System.Data.OleDb" %> <Script Language"C#" Runat"Server"> /* Create By 飞刀 http://www.aspcn.com 20…

【中文】Joomla1.7扩展介绍之Googlemaps Plugin

Googlemaps Plugin 插件分类&#xff1a;Maps 支持版本&#xff1a;1.5 /1.6 /1.7 关注程度&#xff1a;【最流行的】 所属类型&#xff1a;插件、多语种 可以在 Joomla 1.5.x (native), 1.6.x and 1.7.x. 的内容条目、模块或者组件中显示一个&#xff08;或多个&#xff09;…

一文读懂:GoogleNet的Inception从v1到v4的演变

来源 | 机器学习炼丹术GoogleNet和VGG是ImageNet挑战赛中的第一名和第二名。共同特点就是两个网络的层次都更深了。但是&#xff1a;VGG继承了LeNet和AlexNet的一些框架结构而GoogleNet则做了更大胆的尝试&#xff0c;虽然深度有22层&#xff0c;但是参数却是Alexnet的1/12.而V…

几何画板画一个五边形内部的方法

五边形属于多边形里面比较简单的&#xff0c;就是在四边形的基础上增加一条边而已&#xff0c;五边形在平面几何学上指所有由五条边围衬成及有五个角的多边形。完美五边形和正五边形都是五边形的一种特殊类型。几何画板作为专业绘图工具&#xff0c;可以轻松就画出五边形&#…

GDAL Data Model(转)

即描述一个GDAL data store能够包含的信息的类型。 Dataset 一个dataset &#xff08;即一个GDALDataset 对象&#xff09;是一组相关的raster bands和一些属于它们的公共信息的集合。尤其是dataset有一个适用于它所有bands的关于raster size的概念&#xff0c;它是用pixels 和…

实战:人脸识别实战项目(源码共享)

首先我想问个问题&#xff1a;现在什么工程师最值钱&#xff1f;毫无疑问&#xff0c;我想超 90% 的都会说&#xff1a;人工智能工程师。也难怪&#xff0c;随着近几年人工智能的发展&#xff0c;已经逐渐渗透到了各个领域&#xff0c;比如&#xff1a;医疗、教育、机械自动化、…

Calendar如何只显示“一、二、三...日”,不显示“星期”

秋水无恨 asp.net Calendar DayNameFormat Globalization DayNames http://www.csdn.net/develop/Read_Article.asp?id15715 Calendar的DayNameFormat&#xff0c;如FirstLetter &#xff0c;FirstTwoLetters &#xff0c;Full &#xff0c;Short 但是争对英文而言的&#xf…

gulp插件之browser-sync安装报错

2019独角兽企业重金招聘Python工程师标准>>> 最近做前端开发&#xff0c;一直用gulp来写一些自动化脚本。之前用的npm的镜像为edunpm&#xff0c;很简单&#xff0c;因为这个镜像非常的快。 但是不知道为什么browser-sync插件总是下载不成功。。。 后来用nrm切换到t…

TensorFlow、PyTorch之后,“国产”AI框架还有没有机会?

出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;众所周知&#xff0c;在机器学习框架领域&#xff0c;PyTorch、TensorFlow已分别成为目前学界和业界使用最广泛的两大实力玩家&#xff0c;而紧随其后的Keras、MXNet等框架也由于其自身的独特性受到开发者的喜爱。 202…

结构成员访问的三种方法

结构成员访问的三种方法 #include "stdio.h"#include "string.h"#include <stdlib.h>main (){struct student{int num;char * name;int score;}stu;struct student *p&stu;stu.num1;(*p).name"tom";p->score78;printf("%d\n&q…

数据库字段命名及设计规范

1.设计原则 1) 标准化和规范化数据的标准化有助于消除数据库中的数据冗余。标准化有好几种形式&#xff0c;但 Third Normal Form&#xff08;3NF&#xff09;通常被认为在性能、扩展性和数据完整性方面达到了最好平衡。简单来说&#xff0c;遵守3NF 标准的数据库的表设计原则是…

更改管理GPO的域控制器

1.GPO先被存储到扮演PDC模拟器操作主机角色的域控制器&#xff0c;然后再由它将其复制到其他域控制器&#xff0c;域成员计算机再通过域控制器来应用GPO.2.可通过DC选项与组策略两种方式来将管理GPO的域控制器从PDC模拟器操作主机更改为其他域控制器。转载于:https://blog.51ct…

怎样使元素可编辑

作者&#xff1a;http://lucky.myrice.comE-mail:amxh21cn.com 在IE5.5中&#xff0c;可以设定元素的编辑属性。语法如下&#xff1a; object.contentEditable [ sEditable]; 其中的sEditable为下列三个之一&#xff1a; ◇inherit ◇false ◇true <script lang…

知乎多场景内容匹配方案荣获CSDN AI优秀案例奖

7月3日&#xff0c;由CSDN主办的2020 AI开发者大会拉开帷幕&#xff0c;以直播形式进行吸引了上万名技术从业者参与。大会颁发了2020 AI企业及技术应用系列奖项&#xff0c;其中知乎凭借“多场景内容匹配方案”荣获“AI优秀案例奖”。 过去一年&#xff0c;人工智能技术研发和…

批量创建用户和设置密码

(1) 首先创建用户名文件和密码文件 # touch user_name passwd active:/srv # cat passwd win00:123456 win01:123456 active:/srv # cat user_name win00:x:520:520::/home/win00:/bin/bash win01:x:521:521::/home/win01:/bin/bash (2) 然后执行命令导入用户名和密码 a…

Eclipse 小插件

http://www.junginger.biz/eclipse/

肝了三天,万字长文教你玩转 tcpdump,从此抓包不用愁

图源 | 视觉中国来源|Python编程时光&#xff08;ID: Cool-Python&#xff09;今天要给大家介绍的一个 Unix 下的一个 网络数据采集分析工具 -- Tcpdump&#xff0c;也就是我们常说的抓包工具。与它功能类似的工具有 wireshark &#xff0c;不同的是&#xff0c;wireshark 有图…

【中文】Joomla1.7扩展介绍之Fabrik (强大的表单处理能力)

Fabrik 插件分类&#xff1a; Contacts & Feedback > Forms 支持版本&#xff1a;1.5 /1.7 关注程度&#xff1a;【最流行的】 所属类型&#xff1a;组件、模块、插件、多语言 Fabrik 2.1.1 is a security fix, please update immediately Fabrik 2.1.1是一个安全…

CPU的序列号

可以取CPU的序列号。 string cpuInfo "";//cpu序列号 ManagementClass cimobject new ManagementClass("Win32_Processor"); ManagementObjectCollection moc cimobject.GetInstances(); foreach(ManagementObject mo in moc) { cpuInfo mo.Properties…

Sqli-labs less 9

Less-9 本关我们从标题就可以看到 《基于时间-单引号》&#xff0c;所以很明显的这关要我们利用延时注入进行&#xff0c;同时id参数进行的是 的处理。这里我们大致的将延时注入的方法演示一次。 这里用sleep()函数。 这里因为我们利用的是时间的延迟&#xff0c;贴图就没有意…

用ASP.NET上传图片并生成带版权信息的缩略图

作者&#xff1a;活靶子 出处&#xff1a;AspxBoy.Com <% Page Language"C#" ResponseEncoding"gb2312" %><% import Namespace"System" %><% import Namespace"System.IO" %><% import Namespace"Sys…

服务器ping你可以ping通,你ping服务器ping不同的解决方案!!

这几天让公司的服务器弄的蛋疼啊&#xff01;&#xff01;三天两头的出问题&#xff0c;主管脸色不大好看&#xff0c;我这里也郁闷的要死。所以发誓一定要把好安全关&#xff01;&#xff01; 今天在自己的虚拟机上边装了一个winserver2003标准版&#xff0c;搭建好环境之后发…

重磅!CSDN 发布「AI开源贡献奖Top5」「AI新锐公司奖Top10」「AI优秀案例奖Top30」三大榜单...

2020 年无疑是特殊的一年&#xff0c;AI 在开年的这场“战疫”中表现出惊人的力量。站在“新十年”的起点上&#xff0c;CSDN发起【百万人学AI】评选活动。我们继续聚焦AI的技术落地&#xff0c;关注开源和新生的力量。作为CSDN第三届AI评选活动&#xff0c;本次活动受到数百家…

linux 模拟生成 CAN 设备

/*************************************************************************************** linux 模拟生成 CAN 设备* 说明&#xff1a;* 最近在看CANopenSocket的过程中看到能够生成模拟的CAN设备&#xff0c;于是查了点资料&#xff0c;结…

关于委托的精彩解说

作者&#xff1a;TomMax (笑望人生) 出处&#xff1a;csdn community 主 题&#xff1a; “.net百题问答的活动”--许多人问过的--《 C#委托及事件 》作 者&#xff1a; TomMax (笑望人生) 信 誉 值&#xff1a; 100 所属论坛&#xff1a; .NET技术 C# 问题点数&am…