当前位置：首页 > 编程日记 > 正文

年收入百万美元AI科学家的烦恼与思考

编程日记 2024-11-06 11:10:00

AI 研究科学家 Alexis Conneau 只需敲击了几下键盘，包含数千亿字的信息洪流，就能在他的电脑屏幕窗口中滚动起来。

多年来，自动化 “爬虫” 用 100 种语言将互联网中的古老诗歌、愤怒的评论、甜点食谱和其他一切信息吸进庞大的数据库中。

作为人类， Conneau 自己根本无法去逐条阅读如此多的数据，但他的作品 ——XLM-RoBERTa，却已经把数据库 “读” 了很多遍。这项 Facebook AI 的关键技术成果，基于 transformer，共使用超过 2TB 的过滤公共爬网数据在 100 种语言上训练而得。

Conneau 帮助 Facebook 建立的机器学习系统，能够比此前最好的系统更好地理解几十种语言。

图｜Alexis Conneau

近年来，AI 取得了巨大进步，每年数百亿美元的投资、海量数据、强大的计算能力以及影响力，在全球科技巨头的竞争推动下，该领域已经超越其学术根源，成为企业巨头乃至国家之间的必争技术高地，机器本身也重写了技术的制造方式。

回归最基本的层面上，推动这场 AI 革命的相关技术是由像 Conneau 这样的开发者建造的，Conneau 是一个聪明的机器学习痴迷者，他将这场通往未来的竞赛视为一系列注定要解决的工程问题。但这些成绩却将他卷入到一场新的困境之中。

被伦理问题困扰的 AI 科学家们

2021 年 4 月，Conneau 从 Facebook 跳槽到谷歌，作为一名研究科学家，年仅 30 岁的他年收入近 100 万美元。

但随着 AI 领域的发展，像 Conneau 这样的研究人员发现自己正处于一个无法摆脱的激烈的 “全球动荡时刻”。外界提出了很多令人不安的问题，既有科技集团对 AI 研究实验室开发的控制，也有 AI 在现实世界中使用所产生的破坏力。

几乎所有方面都存有争议：算法和开发团队的种族偏见；对知识自由和公司压制的焦虑；还有更多关于该领域资金、能源和权力失衡的问题。

行业危机动摇了人们对这个以乌托邦、乐观主义而闻名的开创性技术领域的信心，在竞争紧张局势空前高涨的时候，研究人员、思想家、企业高管和工程师们相互争辩，这些辩论的主要赢家，可能会主导塑造出 AI 改变全世界数百万人生活的方式。

Conneau 帮助行业推动了自然语言处理技术的发展，它重新定义了我们在网络上的交流方式，他领导的 AI 研究被 Facebook 用于自动拦截系统，针对欺凌、偏见和仇恨言论的自动屏蔽系统，比任何人类版主都能更快、更严格地应对网络的粗糙化影响。

但在现实工作中，Conneau 并不像一个为网络未来而战的斗士，他经常一边编码一边听着恍惚的音乐，他贴在笔记本电脑屏幕上的便利贴记录他在 AI 训练中的壮举 —— 比如 “准备 10 亿句话”。没有人向他询问大公司的政策决定，尽管像他这样的开发者可以赋予这些政策以技术力量。

在一个完美的世界中，Conneau 相信，他的工作可以赋予自动语音监管机构以保护人们免受人类最恶劣因素的影响，建立更友善、更快乐的互联网环境。他认为，这些系统对于驾驭在线言论的标志性拉锯战至关重要：鼓励言论自由，同时抑制偏见和愤怒。

“我们在仇恨言论和欺凌分类方面所做的工作，除了自动解决处理这些问题之外，没有其他方法了。”Conneau 说道。

但在他的批评者眼里，他的发明将成为财大气粗的科技巨头们滥用的工具：一种充满偏见和侵入性的力量，可以在全球范围内提供更有针对性的广告、更自动化的监控和更多的大规模欺骗。

Conneau 和其他 AI 研究人员有时被当作 “雇佣兵”，因为他们的发明几乎会从每个网络用户身上直接或间接地赚取巨额金钱 —— 用户通过每次搜索、点击和滚动，提供了关于他们自己的线索，进而被算法 “俘虏 “。

这些偏见看法是 Conneau 和许多像他一样的开发者感到非常不舒服地方。因为，他是一个机器学习科学家，而不是一个政治家或决策者。虽然他经常思考自己的工作所带来的重大社会和道德问题。但他认为，决定这些问题答案的，仍是那些具有更多全球背景和公共权力者的任务。

问题的日积月累，给整个技术领域蒙上了愈发不可忽视的阴影。随着 AI 研究人员的工作逐渐重塑新社会的基础，他们开发的工具是否有助于创造更好的未来世界？

答案似乎越来越不明朗。

技术越先进，负面作用越要警惕

Conneau 在法国西北部长大，学生时代就爱上了抽象数学令人费解的特性 —— 它是如何将存在分解为最基本的部分的：数字、模式、思想。大学毕业时，他进入了科技行业。

2012 年，一度沉寂的机器学习实现技术复兴，新一波 “神经网络”—— 大量以大脑神经元和化学相互作用为基础建模的软件 —— 赋予我们思想和记忆 —— 已经开始主导长期以来建立的识别模式和图像的方法。

研究人员使用超级强大的显卡，这些芯片主要用于视频游戏，以冲破旧的计算瓶颈，互联网世界再次迎来信息技术 “大爆炸”，钱在流动，一切都令人兴奋。

2015 年，Conneau 加入了 Facebook 位于巴黎的新 AI 实验室，该实验室是在美国顶尖科技巨头的全球扩张中启动的：每个科技公司都想挖到世界上最有才华的研究和工程专业学生。

Facebook 尤其相信自己正坐在 AI 金矿上 —— 因为每天都有数亿张用户照片被发布到社交网络上，正确的算法可以使用这些数据来制作一个利润丰厚的技术杰作。

AI “计算机视觉” 的发展也推动了其他领域的发展，人类文明的大量书面作品可以通过模型以数学的方式进行量化和分析，以发现模式并预测未来的使用。

这一技术进展重塑了人们与网络的互动方式：存在于我们今天看到的几乎每一款智能手机的基因密码中 —— 自动更正、个性化推荐和搜索结果。AI 系统不知道这些词的太深层的定义或意义，但是，它们在意义和推理中，可以猜测接下来可能出现的其他单词或短语。

但在 2016 年，Conneau 接触到了惊人的身边事：他妻子的妹妹在 21 岁时自杀。她在学校和互联网上，包括在社交网络上，遭到过无情的网络欺凌。Conneau 开始深刻意识到先进技术的另一面危害。

Facebook 资助了一系列研究实验室 —— 在纽约、匹兹堡、西雅图、伦敦、蒙特利尔、巴黎和特拉维夫 —— 这些实验室追逐了该领域一些最疯狂的想法，从虚拟的 “AI 栖息地” 到六足蜘蛛机器人。但其 Conneau 所在的 AI 应用研究小组则专为 “此时此地” 开发产品：使在线广告更具吸引力、更具粘性的新闻流以及让 Facebook 的全球受众在日常生活中更需要这款软件。

在实验室里，Conneau 潜心开发出能够探测人类语言深度的 AI。他和他的同事们发表了一些论文，包括 “没有并行数据的单词翻译” 和 “跨语言语言模型预训练”，这些论文帮助推动了 “无监督机器翻译” 的最新进展。

神经网络可以在广阔的三维空间中将单词转化为光点，单词将不再是混乱的定义，而是数字计算，这是计算机非常擅长的。换句话说，语言将变成数学。

2019 年，Conneau 和其他研究人员开始训练一个 AI 模型，可以同时拼读不同语言，速读电影字幕、联合国会议记录和其他不同语言的书面作品，能将句子配对在一起。

“训练” 一个系统模型需要大量的准备工作：遵循规则集的编码算法；将数据收集并处理成机器可以读取的形式；设计测试；分析结果等等。

为了运行计算，Conneau 依赖于一个巨大的数据中心处理器集群，该集群能够每秒运行数万亿次计算；XLM-R 的 “无监督跨语言表达学习” 培训依赖于 500 个 Nvidia Tesla V100 图形卡。

当 Conneau 和他的同事通过一些国际 AI 研究人员用作基准的语言理解测试来运行该系统时，他们惊呆了：100 种语言模型的准确性与其专门的单语言竞争对手的准确性非常接近。这意味着世界上最大的社交网络 —— 其核心业务模式是新闻提要算法、关系图和定向广告 —— 可以开始使用该系统在数十毫秒内扫描每天 30 亿用户上传的每一篇帖子。

Conneau 在 Facebook 最后的贡献之一，是与其他研究人员一起帮助设计了一个新的语音识别系统：wav2vec-U。与竞争对手技术相比，该工具具有关键优势：它不是通过阅读大量人工转录的语音来学习的，而是通过聆听大量音频并自行找出单词来学习的。

在 wav2vec-U 中看到的 “无监督” 学习技术长期以来一直是 AI 研究人员的圣杯，因为它可以在没有大量手工标记训练数据的基础上完成很多语言处理工作。

Facebook 和其他公司表示，AI 是人类面对分裂性、仇恨性和危害性的在线言论的最佳解决工具。Facebook 在 5 月份表示，它的 AI 系统可以主动检测到 97% 的仇恨言论，这些言论最终在被报道之前就被从网站上删除了。

AI 现在可以一起分析帖子中的图像、视频、文本和评论，而不是单独分析。Conneau 说，正是一个对更美好世界的承诺让他继续前进。“也许有一条我们技术归类为有害的信息，用户没有收到，可能就会完全改变了他们的生活。”

当 Conneau 在 AI 模型上运行基准测试时，却又察觉到现代 AI 技术危险傲慢的特征。他们构建的系统因容易被滥用、被偏见扭曲或过于强大而无法控制面临批评。

AI 领域最有影响力的参与者通常也是最大的科技公司，它们以现金充裕的方式招募顶尖人才，这意味着该领域的大多数重大技术进展都很快成为公司的新产品，而不是考虑公共利益的产物。

谷歌一些最著名的研究人员，如 Timnit Gebru 和 Margaret Mitchell，最近几个月已经辞职或被解雇，Samy Bengio 在谷歌工作了 14 年，管理了数百名顶尖 AI 研究人员，今年春天，他也跳槽去了苹果公司，主要原因是他们强烈抗议谷歌内部对待有色人种的态度，并干涉影响所谓的 “独立” 研究。

人们担心所有可怕的事情发生 —— 种族主义、性别歧视、暴力威胁等 —— 可能最终被 AI 系统吸收，供它们学习、处理和复制，忽视这些问题可能是灾难性的，因为这些系统将越来越多地塑造现代世界的生活和交流方式。

“这些优化问题很难解决。但我认为，通过继续研究工作，我们将更接近于找到解决这些问题的最佳方案，我不认为这是幼稚的，而是务实的。我们不妨乐观一些。”

AI 并没有更聪明，它仍是 “机器”

对于埋头苦干的工程师们来说，这些 AI 技术道德和滥用问题正变得越来越难以回避。行业顶级机器学习会议 NeurIPS 每年都有数千名精英研究人员争夺关注和奖项，去年宣布所有提交的工作将首次需要分析 “不仅是有益的应用…… 还有潜在的恶意用途以及失败的后果。”

这种变化并未受到普遍欢迎，而且这种转变不会在一夜之间发生。一位深度学习研究人员在推特上说，大多数研究人员不会 “拿出足够好的学术成果来对这项技术的社会影响发表有意义的言论”。也有一些研究人员认为，对下游后果的考虑超出了他们的职责范围，并认为他们的重点应该只放在科学进步上。

有一些线索表明，AI 研究人员现在开始更频繁地考虑他们所构建的东西。今年 5 月，当谷歌推出新的语言 AI 系统 LaMDA 时，谷歌表示该系统经过训练可以模拟人类对话的曲折风格，并承认这样的系统可以学习内化在线偏见、复制仇恨言论或误导性信息，或以其他方式 “被滥用”，尽管谷歌表示 “会努力确保将此类风险降至最低”，但不少人对此持怀疑态度，将这些说法称为 “道德清洗”。

随着工作的进展，Conneau 预计，研究人员们将发现自己越来越成为在线对话演变和机器学习局限性之争的中心。“我们都在以某种方式书写这段历史。”

他说，“这是每个人、社会、民主，包括公共权力的角色来决定的。” 也有不少舆论呈现出对 AI 技术的恐惧：一种可以征服我们人类的超级智能的威胁。

但 Conneau 对未来充满希望，当我们训练语言模型时，它能够生成文本数据，但这不是思考。他认为 AI 并没有变得更聪明，它只是以更令人信服的方式读取、处理和操纵数据而已。

“你给它一种输入，它就会产生一种输出，它只是一台机器。对吧？”Conneau 说道。

https://www.dkcj.cn/info/26308.html

年收入百万美元AI科学家的烦恼与思考

相关文章：

web架构设计经验分享

BOM和DOM的区别

C#编码简单性之语义篇（如何编写简短的C#代码，随时更新）

网站性能越来越差怎么办？

如何设计一个高性能CPU？

Python包管理工具Distribute的安装

如何用 Graylog 管理日志？- 每天5分钟玩转 Docker 容器技术（93）

php调用C代码的方法详解

如何在Django中接收JSON格式的数据

写了篇爬虫文章，收到律师函，怎么办

在SQL中使用CRL函数示例

ASP.NET的(HttpModule,HttpHandler)

页面GBK,用jquery.post乱码问题

专访陈天桥：把钱投给甘坐冷板凳的AI研究员

使用DPM2007备份还原Exchange2007邮箱数据库

大有乾坤，售前机器人背后的 AI 技术

c3p0数据库连接池使用报错【 You can't operate on a closed Connection!!!】解决方案

Asp.Net下通过切换CSS换皮肤

用 Label 控制 Service 的位置 - 每天5分钟玩转 Docker 容器技术（106）

oracle11g数据库升级

DPU加持下的阿里云如何做加密计算？

Fastcgi是什么

Android 中文 API （25） —— ZoomControls

你知道吗？你可以在异常中解退调用栈

UnicodeDecodeError: ‘ascii’ codec can’t decode...: ordinal not in range(128 问题解决

女程序员也有35岁危机焦虑吗？

android：关于主工程和library project

JavaScript 读写文件

css3箭头效果

计算机视觉，凉了？