当前位置: 首页 > 编程日记 > 正文

年收入百万美元AI科学家的烦恼与思考

AI 研究科学家 Alexis Conneau 只需敲击了几下键盘,包含数千亿字的信息洪流,就能在他的电脑屏幕窗口中滚动起来。

多年来,自动化 “爬虫” 用 100 种语言将互联网中的古老诗歌、愤怒的评论、甜点食谱和其他一切信息吸进庞大的数据库中。

作为人类, Conneau 自己根本无法去逐条阅读如此多的数据,但他的作品 ——XLM-RoBERTa,却已经把数据库 “读” 了很多遍。这项 Facebook AI 的关键技术成果,基于 transformer,共使用超过 2TB 的过滤公共爬网数据在 100 种语言上训练而得。

Conneau 帮助 Facebook 建立的机器学习系统,能够比此前最好的系统更好地理解几十种语言。

图|Alexis Conneau

近年来,AI 取得了巨大进步,每年数百亿美元的投资、海量数据、强大的计算能力以及影响力,在全球科技巨头的竞争推动下,该领域已经超越其学术根源,成为企业巨头乃至国家之间的必争技术高地,机器本身也重写了技术的制造方式。

回归最基本的层面上,推动这场 AI 革命的相关技术是由像 Conneau 这样的开发者建造的,Conneau 是一个聪明的机器学习痴迷者,他将这场通往未来的竞赛视为一系列注定要解决的工程问题。但这些成绩却将他卷入到一场新的困境之中。

被伦理问题困扰的 AI 科学家们

2021 年 4 月,Conneau 从 Facebook 跳槽到谷歌,作为一名研究科学家,年仅 30 岁的他年收入近 100 万美元。

但随着 AI 领域的发展,像 Conneau 这样的研究人员发现自己正处于一个无法摆脱的激烈的 “全球动荡时刻”。外界提出了很多令人不安的问题,既有科技集团对 AI 研究实验室开发的控制,也有 AI 在现实世界中使用所产生的破坏力。

几乎所有方面都存有争议:算法和开发团队的种族偏见;对知识自由和公司压制的焦虑;还有更多关于该领域资金、能源和权力失衡的问题。

行业危机动摇了人们对这个以乌托邦、乐观主义而闻名的开创性技术领域的信心,在竞争紧张局势空前高涨的时候,研究人员、思想家、企业高管和工程师们相互争辩,这些辩论的主要赢家,可能会主导塑造出 AI 改变全世界数百万人生活的方式。

Conneau 帮助行业推动了自然语言处理技术的发展,它重新定义了我们在网络上的交流方式,他领导的 AI 研究被 Facebook 用于自动拦截系统,针对欺凌、偏见和仇恨言论的自动屏蔽系统,比任何人类版主都能更快、更严格地应对网络的粗糙化影响。

但在现实工作中,Conneau 并不像一个为网络未来而战的斗士,他经常一边编码一边听着恍惚的音乐,他贴在笔记本电脑屏幕上的便利贴记录他在 AI 训练中的壮举 —— 比如 “准备 10 亿句话”。没有人向他询问大公司的政策决定,尽管像他这样的开发者可以赋予这些政策以技术力量。

在一个完美的世界中,Conneau 相信,他的工作可以赋予自动语音监管机构以保护人们免受人类最恶劣因素的影响,建立更友善、更快乐的互联网环境。他认为,这些系统对于驾驭在线言论的标志性拉锯战至关重要:鼓励言论自由,同时抑制偏见和愤怒。

“我们在仇恨言论和欺凌分类方面所做的工作,除了自动解决处理这些问题之外,没有其他方法了。”Conneau 说道。

但在他的批评者眼里,他的发明将成为财大气粗的科技巨头们滥用的工具:一种充满偏见和侵入性的力量,可以在全球范围内提供更有针对性的广告、更自动化的监控和更多的大规模欺骗。

Conneau 和其他 AI 研究人员有时被当作 “雇佣兵”,因为他们的发明几乎会从每个网络用户身上直接或间接地赚取巨额金钱 —— 用户通过每次搜索、点击和滚动,提供了关于他们自己的线索,进而被算法 “俘虏 “。

这些偏见看法是 Conneau 和许多像他一样的开发者感到非常不舒服地方。因为,他是一个机器学习科学家,而不是一个政治家或决策者。虽然他经常思考自己的工作所带来的重大社会和道德问题。但他认为,决定这些问题答案的,仍是那些具有更多全球背景和公共权力者的任务。

问题的日积月累,给整个技术领域蒙上了愈发不可忽视的阴影。随着 AI 研究人员的工作逐渐重塑新社会的基础,他们开发的工具是否有助于创造更好的未来世界?

答案似乎越来越不明朗。

技术越先进,负面作用越要警惕

Conneau 在法国西北部长大,学生时代就爱上了抽象数学令人费解的特性 —— 它是如何将存在分解为最基本的部分的:数字、模式、思想。大学毕业时,他进入了科技行业。

2012 年,一度沉寂的机器学习实现技术复兴,新一波 “神经网络”—— 大量以大脑神经元和化学相互作用为基础建模的软件 —— 赋予我们思想和记忆 —— 已经开始主导长期以来建立的识别模式和图像的方法。

研究人员使用超级强大的显卡,这些芯片主要用于视频游戏,以冲破旧的计算瓶颈,互联网世界再次迎来信息技术 “大爆炸”,钱在流动,一切都令人兴奋。

2015 年,Conneau 加入了 Facebook 位于巴黎的新 AI 实验室,该实验室是在美国顶尖科技巨头的全球扩张中启动的:每个科技公司都想挖到世界上最有才华的研究和工程专业学生。

Facebook 尤其相信自己正坐在 AI 金矿上 —— 因为每天都有数亿张用户照片被发布到社交网络上,正确的算法可以使用这些数据来制作一个利润丰厚的技术杰作。

AI “计算机视觉” 的发展也推动了其他领域的发展,人类文明的大量书面作品可以通过模型以数学的方式进行量化和分析,以发现模式并预测未来的使用。

这一技术进展重塑了人们与网络的互动方式:存在于我们今天看到的几乎每一款智能手机的基因密码中 —— 自动更正、个性化推荐和搜索结果。AI 系统不知道这些词的太深层的定义或意义,但是,它们在意义和推理中,可以猜测接下来可能出现的其他单词或短语。

但在 2016 年,Conneau 接触到了惊人的身边事:他妻子的妹妹在 21 岁时自杀。她在学校和互联网上,包括在社交网络上,遭到过无情的网络欺凌。Conneau 开始深刻意识到先进技术的另一面危害。

Facebook 资助了一系列研究实验室 —— 在纽约、匹兹堡、西雅图、伦敦、蒙特利尔、巴黎和特拉维夫 —— 这些实验室追逐了该领域一些最疯狂的想法,从虚拟的 “AI 栖息地” 到六足蜘蛛机器人。但其 Conneau 所在的 AI 应用研究小组则专为 “此时此地” 开发产品:使在线广告更具吸引力、更具粘性的新闻流以及让 Facebook 的全球受众在日常生活中更需要这款软件。

在实验室里,Conneau 潜心开发出能够探测人类语言深度的 AI。他和他的同事们发表了一些论文,包括 “没有并行数据的单词翻译” 和 “跨语言语言模型预训练”,这些论文帮助推动了 “无监督机器翻译” 的最新进展。

神经网络可以在广阔的三维空间中将单词转化为光点,单词将不再是混乱的定义,而是数字计算,这是计算机非常擅长的。换句话说,语言将变成数学。

2019 年,Conneau 和其他研究人员开始训练一个 AI 模型,可以同时拼读不同语言,速读电影字幕、联合国会议记录和其他不同语言的书面作品,能将句子配对在一起。

“训练” 一个系统模型需要大量的准备工作:遵循规则集的编码算法;将数据收集并处理成机器可以读取的形式;设计测试;分析结果等等。

为了运行计算,Conneau 依赖于一个巨大的数据中心处理器集群,该集群能够每秒运行数万亿次计算;XLM-R 的 “无监督跨语言表达学习” 培训依赖于 500 个 Nvidia Tesla V100 图形卡。

当 Conneau 和他的同事通过一些国际 AI 研究人员用作基准的语言理解测试来运行该系统时,他们惊呆了:100 种语言模型的准确性与其专门的单语言竞争对手的准确性非常接近。这意味着世界上最大的社交网络 —— 其核心业务模式是新闻提要算法、关系图和定向广告 —— 可以开始使用该系统在数十毫秒内扫描每天 30 亿用户上传的每一篇帖子。

Conneau 在 Facebook 最后的贡献之一,是与其他研究人员一起帮助设计了一个新的语音识别系统:wav2vec-U。与竞争对手技术相比,该工具具有关键优势:它不是通过阅读大量人工转录的语音来学习的,而是通过聆听大量音频并自行找出单词来学习的。

在 wav2vec-U 中看到的 “无监督” 学习技术长期以来一直是 AI 研究人员的圣杯,因为它可以在没有大量手工标记训练数据的基础上完成很多语言处理工作。

Facebook 和其他公司表示,AI 是人类面对分裂性、仇恨性和危害性的在线言论的最佳解决工具。Facebook 在 5 月份表示,它的 AI 系统可以主动检测到 97% 的仇恨言论,这些言论最终在被报道之前就被从网站上删除了。

AI 现在可以一起分析帖子中的图像、视频、文本和评论,而不是单独分析。Conneau 说,正是一个对更美好世界的承诺让他继续前进。“也许有一条我们技术归类为有害的信息,用户没有收到,可能就会完全改变了他们的生活。”

当 Conneau 在 AI 模型上运行基准测试时,却又察觉到现代 AI 技术危险傲慢的特征。他们构建的系统因容易被滥用、被偏见扭曲或过于强大而无法控制面临批评。

AI 领域最有影响力的参与者通常也是最大的科技公司,它们以现金充裕的方式招募顶尖人才,这意味着该领域的大多数重大技术进展都很快成为公司的新产品,而不是考虑公共利益的产物。

谷歌一些最著名的研究人员,如 Timnit Gebru 和 Margaret Mitchell,最近几个月已经辞职或被解雇,Samy Bengio 在谷歌工作了 14 年,管理了数百名顶尖 AI 研究人员,今年春天,他也跳槽去了苹果公司,主要原因是他们强烈抗议谷歌内部对待有色人种的态度,并干涉影响所谓的 “独立” 研究。

人们担心所有可怕的事情发生 —— 种族主义、性别歧视、暴力威胁等 —— 可能最终被 AI 系统吸收,供它们学习、处理和复制,忽视这些问题可能是灾难性的,因为这些系统将越来越多地塑造现代世界的生活和交流方式。

“这些优化问题很难解决。但我认为,通过继续研究工作,我们将更接近于找到解决这些问题的最佳方案,我不认为这是幼稚的,而是务实的。我们不妨乐观一些。”

AI 并没有更聪明,它仍是 “机器”

对于埋头苦干的工程师们来说,这些 AI 技术道德和滥用问题正变得越来越难以回避。行业顶级机器学习会议 NeurIPS 每年都有数千名精英研究人员争夺关注和奖项,去年宣布所有提交的工作将首次需要分析 “不仅是有益的应用…… 还有潜在的恶意用途以及失败的后果。”

这种变化并未受到普遍欢迎,而且这种转变不会在一夜之间发生。一位深度学习研究人员在推特上说,大多数研究人员不会 “拿出足够好的学术成果来对这项技术的社会影响发表有意义的言论”。也有一些研究人员认为,对下游后果的考虑超出了他们的职责范围,并认为他们的重点应该只放在科学进步上。

有一些线索表明,AI 研究人员现在开始更频繁地考虑他们所构建的东西。今年 5 月,当谷歌推出新的语言 AI 系统 LaMDA 时,谷歌表示该系统经过训练可以模拟人类对话的曲折风格,并承认这样的系统可以学习内化在线偏见、复制仇恨言论或误导性信息,或以其他方式 “被滥用”,尽管谷歌表示 “会努力确保将此类风险降至最低”,但不少人对此持怀疑态度,将这些说法称为 “道德清洗”。

随着工作的进展,Conneau 预计,研究人员们将发现自己越来越成为在线对话演变和机器学习局限性之争的中心。“我们都在以某种方式书写这段历史。”

他说,“这是每个人、社会、民主,包括公共权力的角色来决定的。” 也有不少舆论呈现出对 AI 技术的恐惧:一种可以征服我们人类的超级智能的威胁。

但 Conneau 对未来充满希望,当我们训练语言模型时,它能够生成文本数据,但这不是思考。他认为 AI 并没有变得更聪明,它只是以更令人信服的方式读取、处理和操纵数据而已。

“你给它一种输入,它就会产生一种输出,它只是一台机器。对吧?”Conneau 说道。

相关文章:

web架构设计经验分享

本人作为一位web工程师,着眼最多之处莫过于 性能与架构,本次幸得参与sd2.0大会,得以与同行广泛交流,于此二方面,有些心得,不敢独享,与众博友分享,本文是这次参会与众同撩交流的心得,…

BOM和DOM的区别

为什么80%的码农都做不了架构师?>>> BOM 浏览器对象模型提 供了独立于内容而与浏览器窗口进行交互的对象。描述了与浏览器进行交互的方法和接口,可以对浏览器窗口进行访问和操作,譬如可以弹出新的窗口,改变状态栏 中的…

C#编码简单性之语义篇(如何编写简短的C#代码,随时更新)

以前写C的时候曾经在自己网站上发表过一个编码“简单性”之文章,现在编写C#了才发现自己无意之间就会写下一些浪费屏幕的代码。下面是自己编码中偶然发现的一些案例,欢迎中等水平的编程者参考。因为要积累案例,所以随时更新。---------------…

网站性能越来越差怎么办?

新的一年,你的老板或客户,是否曾和你抱怨公司的网站性能愈来愈差?网站大家都会写,自从有了 Visual Studio 之后,连你家楼下的正妹小喵和隔壁的王大婶都会写 ASP.NET。但同样的一个画面,背后的性能却可能是天…

如何设计一个高性能CPU?

任何一种技术都会经历从阳春白雪到下里巴人的过程,就像我们对计算机的理解从“戴着鞋套才能进的机房”变成了随处可见的智能手机。在前面20年中,大数据技术也经历了这样的过程,从曾经高高在上的 “火箭科技(rocket science&#x…

Python包管理工具Distribute的安装

Python包管理工具Distribute的安装Python的包管理工具常见的有easy_install, setuptools, 还有pip, distribute,那麽这几个工具有什么关系呢,看一下下面这个图就明白了:可以看到distribute是setuptools的替代方案,pip是easy_insta…

如何用 Graylog 管理日志?- 每天5分钟玩转 Docker 容器技术(93)

上一节已经部署好了 Graylog,现在学习如何用它来管理日志。 首先启动测试容器。 docker run -d \ --log-drivergelf \ --log-opt gelf-addressudp://localhost:12201 \ --log-opt tag"log-test-container-A" \ b…

php调用C代码的方法详解

在php程序中需要用到C代码,应该是下面两种情况: 1 已有C代码,在php程序中想直接用2 由于php的性能问题,需要用C来实现部分功能针对第一种情况,最合适的方法是用system调用,把现有C代码写成一个独立的程序。…

如何在Django中接收JSON格式的数据

Django做了大量工作简化我们的Web开发工作, 这其中当然也包括接收来自客户端的数据这一普遍需求. 大部分时候,从客户端传入的数据主要是FORM的POST数据,和来自URL的GET数据, 在Django中对应了HttpRequest对象的POST和GET属性, 例如读取FORM表单中的用户名username输入框的内容:…

写了篇爬虫文章,收到律师函,怎么办

大家好,我是早起。从写公众号开始,不论是私信还是交流群,常常都会有粉丝会问出类似下面的问题xx网站能不能爬?爬xx数据有没有风险?其实我并不是爬虫从业人员,充其量算爬虫爱好者,去年也转载过一…

在SQL中使用CRL函数示例

在SQL中使用CRL函数 实验目标: 1. 在SQL中创建CRL函数,使之能够向指定的计算机发送消息 实验步骤 2. 在VS中创建类发送消息的类 3. 将以下代码黏贴进去 using System; using System.Collections.Generic; using System.Text; using System.Net.Sockets; …

ASP.NET的(HttpModule,HttpHandler)

在以前的ASP时候,当请求一个*.asp页面文件的时候,这个HTTP请求首先会被一个名为inetinfo.exe进程所截获,这个进程实际上就是www服务。截获之后它会将这个请求转交给asp.dll进程,这个进程就会解释这个asp页面,然后将解释…

页面GBK,用jquery.post乱码问题

2019独角兽企业重金招聘Python工程师标准>>> jquery ajax默认为UTF-8,所以页面上要 encodeURIComponent ("内容") 后台代码 再 URLDecoder.decode("内容" "utf-8") 转载于:https://my.oschina.net/wangchongya/blog/34651…

专访陈天桥:把钱投给甘坐冷板凳的AI研究员

作者:钱童心 责编:刘佳“别的投资人听陶虎说,要10年才能做出消费级产品,就不投了,我跟陶虎说,我给你20年时间做。”人工智能(AI)技术正在为各行各业赋能,这使得一场人才…

使用DPM2007备份还原Exchange2007邮箱数据库

创建演示环境1. 在这里,由于要演示备份和还原,所以我们先让用户bob给alice发一封信以作测试验证。2. 用户alice登录OWA后,可以看到bob发来的一封信,主题为“DPM Test For Exchange”,如图1.创建保护组并备份Exchange…

大有乾坤,售前机器人背后的 AI 技术

作者 | 伍杏玲出品 | AI科技大本营(ID:rgznai100)我们在网上购物时,无论多晚找客服咨询,对面均会回复一句“在呢,请问有什么可以帮助您?”,屏幕背后大部分为智能客服机器人。在不同业务场景对话…

c3p0数据库连接池使用报错【 You can't operate on a closed Connection!!!】解决方案

一般情况下&#xff0c;我们的项目中都有一个获取数据库连接的方法。我获取数据库连接的方法是这样实现的&#xff1a;1. 创建一个 ComboPooledDataSource对象&#xff0c;使用它的getConnection()方法获取连接。2. 创建一个泛型为Connection的ThreadLocal<Connection>对…

Asp.Net下通过切换CSS换皮肤

换皮肤的方式有很多种&#xff0c;最简单的通常就是切换页面CSS&#xff0c;而CSS通常写在外部CSS文件里。那么切换css其实就是更换html里的link href路径。我在网上搜索了下。一般有两种方式&#xff1a; 1,在页面放一个holder控件。然后用编程方式把当前用户的风格css link写…

用 Label 控制 Service 的位置 - 每天5分钟玩转 Docker 容器技术(106)

上一节我们讨论了 Service 部署的两种模式&#xff1a;global mode 和 replicated mode。无论采用 global mode 还是 replicated mode&#xff0c;副本运行在哪些节点都是由 Swarm 决定的&#xff0c;作为用户我们有没有可能精细控制 Service 的运行位置呢&#xff1f; 答案是&…

oracle11g数据库升级

Oracle支持周期Oracle对自己产品也一样&#xff0c;对于自己的产品在不同的时期&#xff0c;支持的强度是不一样的。大体分来&#xff0c;支持的强度分为三个级别&#xff1a;Premier Support&#xff08;最高优先级的支持&#xff09;,Extended Support&#xff08;中等优先级…

DPU加持下的阿里云如何做加密计算?

作者&#xff1a;谭婧来源&#xff1a;亲爱的数据人在干&#xff0c;天在看&#xff0c;云在算。云计算越发展&#xff0c;云安全越重要。故事得从小小的芯片讲起。一家以色列的芯片公司&#xff0c;名叫Annapurna Labs&#xff0c;以喜马拉雅山脉的最高十峰之一——安娜普尔纳…

Fastcgi是什么

一、FastCGI是什么&#xff1f;FastCGI是语言无关的、可伸缩架构的CGI开放扩展&#xff0c;其主要 行为是将CGI解释器进程保持在内存中并因此获得较高的性能。众所周知&#xff0c;CGI解释器的反复加载是CGI性能低下的主要原因&#xff0c;如果CGI解释器保持在内存 中并接受Fas…

Android 中文 API (25) —— ZoomControls

正文 一、结构 public class ZoomControls extends LinearLayout java.lang.Object android.view.View android.view.ViewGroup android.widget.LinearLayout android.widget.ZoomControls 二、概述 ZoomControls显示一个简单的设置来控制缩放并回调已注册的事件。 三、 公共方…

你知道吗?你可以在异常中解退调用栈

[原文作者]&#xff1a;Bill Horst [原文链接]&#xff1a;Did you know? You can unwind the call stack from exceptions (Bill Horst) 解退一个异常堆栈的能力是Visual Basic.NET 2005的一个新引进的特性。当调式器触发了一个异常&#xff0c;你可以解退这个堆栈以便于使用…

UnicodeDecodeError: ‘ascii’ codec can’t decode...: ordinal not in range(128 问题解决

今天在使用yum源安装时出现UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xe5 in position 108: ordinal not in range(128原因就是python的str默认是ascii编码&#xff0c;和unicode编码冲突&#xff0c;就会报这个标题错误。那么该怎样解决呢&#xff1f;/usr/li…

女程序员也有35岁危机焦虑吗?

作者 | 郭雪 信通院云大所 责编 | 张红月出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;【CSDN 编者按】在程序员界&#xff0c;我们鲜少会去关注女性的职场处境及工作危机&#xff0c;本文从女性是否适合做开发谈起&#xff0c;到35岁女性职场现状&#xff…

android:关于主工程和library project

1、如何将一个android工程作为库工程&#xff08;library project&#xff09;library project是作为jar包被其它android工程使用的&#xff0c;首先它也是普通的android工程。然后&#xff1a;1&#xff09;在eclipse Package Explorer, 右键android工程选择Properties2&#…

JavaScript 读写文件

<script> /* object.OpenTextFile(filename[, iomode[, create[, format]]]) 参数 object 必选项。object 应为 FileSystemObject 的名称。 filename 必选项。指明要打开文件的字符串表达式。 iomode 可选项。可以是三个常数之一&#xff1a;ForReading 、 ForWriting 或…

css3箭头效果

css3 record1 尝试用css写了个箭头效果 思路就是通过span和span子元素i分别通过设置他们的伪元素构造两个箭头,但是i构造的箭头两条线height都是0,hover的时候渐近的动画效果就是i箭头的高度变化而来的,还有rotate相同的角度 css3知识&#xff1a; transitiontransform伪元素::…

计算机视觉,凉了?

机器学习是目前比较热门的技术&#xff0c;包含深度学习、强化学习、对抗学习、对偶学习、迁移学习、分布式学习、以及元学习等内容。得益于大数据、大模型、大计算的发展&#xff0c;深度学习在计算机视觉、语音处理、自然语言方面相继取得了突破&#xff0c;达到甚至超过了人…