当前位置: 首页 > 编程日记 > 正文

GPT-3 不够 Open,BigScience 构建开放语言模型,规模小 16 倍

编译 | 禾木木

出品 | AI科技大本营(ID:rgznai100)

大约一年前,总部位于纽约布鲁克林的自然语言处理初创公司 Hugging Face 推出了 BigScience。这是一个拥有 900 多名研究人员的国际项目,旨在更好地理解自然语言模型原理和提高大型语言模型的质量。大型语言模型(LLM)能够实现基于文本的数据集识别、预测和生成语言的算法,已经吸引了商业和技术爱好者的广泛关注。但是,它们背后没有像 OpenAI 和 DeepMind 这样的资源,开发 LLM 所需要的昂贵硬件成本仍然是研究人员的困难。

从欧洲核研究组织(CERN)及大型强子对接机等项目中收获得灵感,BigScience 的目标是创建 LLM 和大型文本数据集,并将这些数据集最终向更广泛的人工智能社区开放。这些模型将在法国巴黎附近的 Jean Zay 超级计算机上进行训练,这也是迄今为止全球最强大的机器设备之一。

对企业巨头们的影响可能还不清楚,但 BigScience 这样的努力实际是在降低 LLM 的接触门槛、提升模型开发透明度。除了由开放 AI 研究小组 EleutherAI 创建的几个模型之外,很少有经过培训的 LLM 可供研究或部署到生产中。OpenAI 拒绝将其最强大的 GPT-3 模型开源,反而是将源代码独家授权给了微软。与此同时,像英伟达等厂商虽然发布了性能不错的 LLM 代码,但是将这些 LLM 的训练留给了具有足够强大硬件的用户。

刚刚离开 Meta(前 Facebook)AI 研究部门、转投 Hugging Face 担任研究主管的 Douwe Kiela 表示:“很明显,直接跟业界巨头对抗并非明智之举。但作为弱势一方,我们可以找寻 Hugging Face 最与众不同的优势。初创企业更具活力,工作进程更快,而且对于开源的关注也让我们能够与来自学界乃至其他领域的研究人员们建立起强大的社区合作关系。这一切,都是在为 AI 技术的大众化与公平化进程而努力。”

LLM 大众化

LLM 与其他任何语言模型一样,也需要根据文本示例理解单词出现的几率。较为简单的模型会在特定语境下浏览,而大型模型则直接去理解句子甚至是段落。示例以训练数据集中的文本形式出现,包含从社交媒体、维基百科、书籍、GitHub 等软件托管平台以及公共网络上抓取到的 TB 级、甚至是 PB 级数据素材。

我们往往无法使用现成商用硬件训练最先进的 LLM 模型,部署最先进的 LLM 的障碍才是巨大的。像英伟达及微软的 Megatron 530B LLM 整个训练周期耗费可能高达数百万美元,这还不包含模型存储所带来的费用。接下来则是推理阶段,即通过运行训练后模型获得预测结果。根据估计,在单一 AWS 实例上运行 GPT-3 的成本至少为 87000 美元。

年初发布的 EleutherAi 模型与训练数据集倒是做出了一些更加可行的商业化。但此次 BigScience 的适用范围更广,不仅涵盖 LLM 的训练与发布,同时也解决了不少重大技术缺陷。

解决不平等问题

从计算的角度来看,LLM的好处并不是严格地分布不均的。英语法 LLM 的数量远远超过其他语言培训的 LLM,少数西欧语言(特别是德语,法语和西班牙语)占据了主导地位。正如哈佛大学、乔治梅森(George Mason)和卡耐基梅隆大学(Carnegie Mellon)近期共同发布了一项关于语言技术的研究,语言使用者的"经济实力"往往会推动模型的发展,而不是人口需求。

用英语以外的语言训练的大型多语言和单语模型虽然很少开源,但正变得比以前更常见,部分归功于企业利益。但是,由于公共数据源中的系统性偏差,非英语模型的表现并不总是与英语模型一样好。例如,基于维基百科的数据集内不同语种的素材规模差异巨大,而且在待完善内容方面的立项百分比、编辑次数和用户浏览量上也截然不同。相当一部分使用特定语种的群体根本无法访问维基百科。此外,阿拉伯语和乌尔都语版本的电子书大多为图像扫描件、而非纯文本,在使用光学字符识别工具转录过程中其精度可能低至 70%。

作为其工作的一部分,BigScience表示,它已经制作了分布在世界各地的近200种语言资源的目录。该项目的贡献者还创建了最大的阿拉伯语公共自然语言目录之一,称为Masader,拥有200多个数据集。

结语

在商业应用中,BIgScience 的工作很有可能会激发出原有 LLM 无法利用的全新 AI 驱动产品。语言模型已成为医疗保健、金融服务等行业的关键工具,可用于处理专利、从科学论文中获得见解,推荐新闻文章等。但是,规模较小的组织也越来越多地被排除在 AI 的前沿进步之外。

在 John Snow Labs 与 Gradient Flow 在 2021 年的一项调查中,受访企业普遍将准确性列为语言模型评估中的重要要素,其次是生产就绪性和可扩展性。最大的挑战体现为成本、维护与数据共享。

尽管 LLM 有潜在的危害,仍然在基础知识层面也仍然没有找到可行的出路,经常会自主打破语义规则并无休止地原地转圈。例如,模型经常会在没有转义的情况下改变对话主题,或者说出自相矛盾的言论。LLM 在道德、历史和法律问题上的了解也堪称浅薄,甚至会在无意间暴露出公共训练数据集中的个人信息。

Kiela 表示“在 Hugging Face 各研究团队的共同努力下,我们希望在 Meta 式的自下而上探索,与 DeepMind/OpenAI 式的自上而下研究之间找到完美的平衡点。在自下而上时,我们往往会遇到不必要的摩擦、竞争与资源争用问题。至于自上而下,研究人员的自由意志与创造力则会受到打压。我们的员工来自谷歌、Meta 以及整个学术界,所以当下正是最好的探索时机。我们希望创造出一种新的开创性研究环境,给传统实验思维带来一点有益的启发和补充。”

原文链接:

https://venturebeat.com/2022/01/10/inside-bigscience-the-quest-to-build-a-powerful-open-language-model/

相关文章:

华为云微服务引擎CSE大量新特性上线,诚邀您免费体验

1、提供GO语言微服务开发框架SDK 支持插件化注册中心、多RPC协议(已默认实现http和highway,可扩展) 提供熔断降级、容错、路由管理、限流、错误注入、灰度发布等治理能力 2、提供Service Mesh商业版 支持.NET、Node.js、PHP等多语言应用…

memcache和memcached安装

首先要明确 memcache不是memcached第一步安装libevent #wget https://github.com/downloads/libevent/libevent/libevent-2.0.15-stable.tar.gz #tar libevent-2.0.15-stable.tar.gz #tar xzvf libevent-2.0.15-stable.tar.gz #cd libevent-2.0.15-stable #./configure --h…

点击按钮下载文件

RequestMapping("/download.do")public void download(HttpServletRequest request,HttpServletResponse response)throws Exception {String filePath "文件路径";FileInputStream fis null;OutputStream os null;try {fis new FileInputStream(fileP…

开源社区的危机:拒绝被“白嫖”?2大著名项目遭作者破坏

作者 | 林檎来源 | 数据实战派近日,一位开源开发者的故意破坏,再次引发了机构依赖开源库的争议。这一类开源库往往由维护者义务工作而支撑。被破坏的开源库是 Marak Squires 开发的 color.js 库和 faker.js 库。这两个库被广泛使用,其中不乏企…

状态和面向对象编程——1.定位步骤

定位 所有无人驾驶车要安全畅游全球,都必须经过一系列相同的步骤。 你一直在学习第一步:定位。在车辆能够安全驾驶之前,它们首先要使用传感器和收集的其他数据对它们所处的位置做出最佳估计。 卡尔曼滤波器 让我们来回顾一下卡尔曼滤波器对汽…

ldconfig命令详解,linux动态链接库

动态链接库管理命令 为了让动态链接库为系统所共享,还需运行动态链接库的管理命令--ldconfig.此执行程序存放在/sbin目录下. ldconfig命令的用途,主要是在默认搜寻目录(/lib和/usr/lib)以及动态库配置文件/etc/ld.so.conf内所列的目录下,搜索出可共享的动态链接库(格式如前介绍…

用于自动驾驶的实时 YUV 多任务 CNN

作者 | AI 修炼之路来源 | AI 修炼之路摘要本文提出了一种针对低功耗车用SoC优化的多任务卷积神经网络(CNN)结构。我们介绍了一个基于统一架构的网络,其中编码器由检测和分割两个任务共享。该网络以25FPS运行,分辨率为1280800。简要讨论了直接利用原生YU…

博客5:文件,目录以及用户的权限管理

linux用户与组的相关内容简介: 1.Linux用户:Username/UID管理员:root,0普通用户:1-65535系统用户:1-499(在centos7上为1-999)作用:对守护进程获取资源进行权限分配登录…

以太坊代币空投合约的实现

2019独角兽企业重金招聘Python工程师标准>>> 本文将介绍如何在以太坊智能合约中实现代币的空投。区块链以太坊世界中所谓空投(airdrop),就是免费给你的区块链地址(公钥)发送代币。 代币空投的方式层出不穷&…

linux命令:ln 使用方法

命令:ln 使用方法指令名称 : ln使用权限 : 所有使用者使用方式 : ln [options] source dist,其中 option 的格式为 :[-bdfinsvF] [-S backup-suffix] [-V {numbered, existing, simple}][--help] [--version] [--] 说明 : Linux/Unix 档案系统中&#xf…

10 个案例分享几个 Python 可视化小技巧,助你绘制高质量图表

作者 | 俊欣来源 | 关于数据分析与可视化一般在Python当中,我们用于绘制图表的模块最基础的可能就是matplotlib了,今天小编分享几个用该模块进行可视化制作的技巧,帮助你绘制出更加高质量的图表。同时本篇文章的第二部分是用Python来制作可视…

(转) 地区赛获胜策略,赛前默念!

1. 比赛中评测会有些慢,偶尔还会碰到隔10分钟以上才返回结果的情况,这段时间不能等结果,必须开工其他题,如果WA,两道题同时做。交完每道题都要先打印。2. 比赛时发的饭不是让你当时就吃的,那是给你赛后吃的…

USG防火墙telnet实验

实验使用USG5500防火墙 &#xff0c;<SRG>system-view [SRG]interface g0/0/0       [SRG-GigabitEthernet0/0/0]ip address 192.168.1.1 24          接口配置地址[SRG-GigabitEthernet0/0/0]display this&#xff08;显示当前配置&#xff09; [SRG-G…

如何营造专属你的企业技术影响力氛围感?我不允许你还不知道

CSDN 推出《开发者研究与洞察》服务。基于3200万开发者的资源&#xff0c;从开发者视角出发&#xff0c;聚焦开发者“关注”、“使用”、“体验”三方面&#xff0c;帮助技术推广者打造技术品牌、优化技术产品的市场投放策略、提升技术产品的开发者使用体验&#xff0c;直接聆听…

php报错Permission denied

去apache的log下看error_log文件 #cd /usr/local/apache2/logs/ (13)Permission denied: exec of ....index.php failed加权限就可以 #chmod x index.php路径

Spring笔记——8.基于XML Schema的简化配置

我们可以使用XML Schema的配置方式来简化xml文件的配置。p&#xff1a;简化设值注入p&#xff1a;与property子元素作用相同&#xff0c;用于设值注入。若想使用p&#xff0c;则xml文件中需要引入对p的说明&#xff0c;一般自动生成的xml都会自带。xmlns:p"http://www.spr…

测试服务命名和动态注册路由的方式@Xan

2019独角兽企业重金招聘Python工程师标准>>> 1、测试服务命名&#xff1a;如不需要网关进行权限和登录验证时&#xff0c;服务名称命名后面加“tests”&#xff0c;例如&#xff1a; sysadmintests 2、动态注册路由地址&#xff1a; http://192.168.2.164:55551/sys…

POJ1386 Play on Words

题意&#xff1a;判断一些单词能不能首尾连成一体 #include <iostream> #include <algorithm> #include <cstring> #include <cmath> #include <cstdio> using namespace std; int n,father[30],range[30],save[100010],in[30],out[30]; bool us…

Linux tail 命令详解

用途从指定点开始将文件写到标准输出。使用tail命令的-f选项可以方便的查阅正在改变的日志文件&#xff0c;tail -f filename会把filename里最尾部的内容显示在屏幕上&#xff0c;并且不但刷新&#xff0c;使你看到最新的文件内容。 语法标准语法tail [ -f ] [ -c Number | …

万粉博主推荐,微信小程序 +Flask 后端调用 AnimeGanV2

作者 | Yunlord博客 | Yunlord做一个小程序&#xff0c;直接在手机端就能一键生成专属于自己的动漫头像&#xff0c;下面是展示效果&#xff01;&#xff01;&#xff01;核心功能设计该小程序想要实现的是将微信头像或者选择相册中的照片动漫化&#xff0c;所以拆解需求后&…

第十周课下作业

第十周课下作业&#xff08;补做课堂测试&#xff09; 一、知识点总结 1、单链表 创建单链表链表中数据的插入list.add("**");链表中数据的排序Collections.sort();链表中数据的删除lsit.remove("");2、排序 树集概念树映射 TreeMap<K,V>**适合用于数…

IE6的bug

内部系统 公司6楼正常&#xff0c;7楼不正常&#xff0c;一查系统没问题&#xff0c;7楼IE6&#xff0c;6楼是IE8 原因是系统接入第三方一个富客户端的程序&#xff0c;这个IE6不支持所以一直卡着。卡多了就挂了。 因为表象是还在卡着的网页浏览器一关重开就好了。。。。 而如…

python-sendcmd主动模式访问ftp——修改port中IP地址信息

用python访问ftp站点&#xff0c;主动模式发送port时&#xff0c;修改了IP地址&#xff0c;抓包分析网络会话信息。activesocket.py 1 #python for socket active mode 2 #!/usr/bin/python 3 # -*- coding: utf-8 -*- 4 import ftplib5 import os 6 import socket 7 impor…

「CSDN 2021年度 IT 技术影响力之星评选」活动报名倒计时!

“CSDN 2021年度IT技术影响力之星评选”活动自2021年12月6日启动以来受到了行业各界的关注以及企业和个人的积极响应&#xff0c;截止目前&#xff0c;已收到上千份参评报名。本次评选活动的第一阶段——企业/个人参与提名将于2022年1月30日结束&#xff0c;以真实数据为基础&a…

Spring Cloud入门教程 - Zuul实现API网关和请求过滤

简介 Zuul是Spring Cloud提供的api网关和过滤组件&#xff0c;它提供如下功能&#xff1a; 认证过滤压力测试Canary测试动态路由服务迁移负载均衡安全静态请求处理动态流量管理在本教程中&#xff0c;我们将用zuul&#xff0c;把web端的请求/product转发到对应的产品服务上&…

​谷歌大神 Jeff Dean 领衔,万字展望5大 AI 趋势

‍‍作者 | 学术头条来源 | 学术头条对于关心人工智能技术进展的读者来说&#xff0c;每年年底来自整个谷歌 research 团队撰写的年终总结&#xff0c;可谓是必读读物。今天&#xff0c;由谷歌大神 Jeff Dean 领衔&#xff0c;这份总结虽迟但到。出于知识传播目的&#xff0c;“…

php的webservice的wsdl的XML无法显示

php的webservice的因为wsdl有中文所以xml无法显示 可以用Nopepad 转码即可 以UTF-8无BOM编码

Journey源码分析三:模板编译

2019独角兽企业重金招聘Python工程师标准>>> 在Journey源码分析二&#xff1a;整体启动流程中提到了模板编译&#xff0c;这里详细说下启动流程 看下templates.Generate()源码: func Generate() error {compiledTemplates.Lock()defer compiledTemplates.Unlock()//…

linux中安装程序

实验&#xff1a;为 Linux 主机安装应用程序 环境&#xff1a;vmware workstation 14 . redhad-server-6.4需求&#xff1a;1.使用 RPM 包的方式安装 Mozilla Firefox 浏览器2.使用源代码包编译的方式安装 Apache3.使用 RPM 包的方式安装Webmin管理软件&#xff0c;并使用 rpm查…

php 的webservice类库NuSoap介绍

NuSOAP 是 PHP 环境下的 WEB 服务编程工具&#xff0c;用于创建或调用 WEB 服务。它是一个开源软件&#xff0c;当前版本是 0.9.5 &#xff0c;支持 SOAP1.1 、 WSDL1.1 &#xff0c;可以与其他支持 SOAP1.1 和 WSDL1.1 的系统互操作。 NuSOAP 完全由PHP语言编写&#xff0c;由…