当前位置: 首页 > 编程日记 > 正文

AI 语言模型真的是越大越好吗?这个模型优于 Gopher

编译 | 禾木木

出品 | AI科技大本营(ID:rgznai100)

近年来对于 AI 语言模型的有一个争议就是 —— 越大越好。

DeepMind 正在质疑这个理由,并表示给 AI 一个记忆可以帮助与它 25倍大小的模型竞争。

去年 6 月,OpenAI 发布 GPT-3 模型时,就重写了语言 AI 的规则手册。该实验室的研究人员标明,简单地扩大神经网络的规模和训练数据可以显著提高各种语言任务的性能。

RETRO 模型

自 GPT-3 发布以后,许多其他科技公司也加入了这一潮流,开发了自己的大型语言模型并实现了类似的性能提升。但研究人员还是对这种方法提出了担忧,尤其是前谷歌研究员 Timnit Gebru。

在一份公司的文件中,Gebru 和他的同事强调说,这些模型及其数据集的庞大规模使他们比普通的神经网络更加难以理解,而这些神经网络以「黑匣子」而闻名。这可能会使检测和减轻这些模型中的偏差变得更加困难。

他们发现了一个更大的问题,依靠越来越多的计算能力在 AI 领域取得进展意味着该领域的尖端技术对于除了资源丰富的商业实验室外的所有人来说都是遥不可及的。扩大模型就可以带来持续的进步,也意味着有前景的替代方案的资源更少。

但在新的研究中,DeepMind 表明可能还有另一种方式。在一系列论文中,该团队解释了他们首先是如何构建自己的大型语言模型 Gopher,该模型比 GPT-3 大 60% 以上。然后,他们展示了一个更小的模型,该模型能够在数据库中查找信息,可以与Gopher和其他大型语言模型进行面对面的交流。

研究人员将这个较小的模型称为 RETRO,代表 Retrieval-Enhanced Transformer。Transformers 是大多数大型语言模型中使用的特定类型的神经网络;他们对大量数据进行训练,以预测如何回答人类用户的问题或提示。

RETRO 也依赖于变压器,但它被赋予了一个重要的增强。除了根据训练预测接下来应该出现什么文本外,该模型还可以搜索包含 2 万亿个文本块的数据库,以查找使用类似语言的段落,从而改进预测。

研究人员发现,只有 70 亿个参数的 RETRO 模型在各种语言任务上都可以胜过 AI21 Labs 制作的 1780 亿个参数的 Jurassic-1 转换器,甚至在大多数方面都优于 2800 亿个参数的 Gopher 模型。

除了减少所需的训练量外,研究人员还指出,能够查看模型在进行预测时参考了哪些文本块,可以更容易地解释它是如何得出结论的。对数据库的依赖也为更新模型知识提供了机会,无需重新训练,甚至无需修改语料库以消除偏差来源。

结语

有趣的是,研究人员表明,他们可以利用现有的变压器,通过重新训练其网络的一小部分,对其进行改造,使其能够与数据库一起工作。这些模型很容易超越原始模型,甚至接近从头开始训练的 RETRO 模型的性能。

不过,重要的是要记住,按照大多数标准,RETRO 仍然是一个大型模型。它几乎是 GPT-3 的前身 GPT-2 的五倍。人们似乎很可能希望看到更大的 RETRO 模型和更大的数据库有什么可能。

DeepMind 当然认为进一步扩展是一个很有前途的途径。在 Gopher 的论文中,他们发现虽然增加模型大小并没有显著提高逻辑推理和常识任务的性能,但在阅读理解和事实核查等方面的好处是显而易见的。

也许 RETRO 最重要的教训是,扩展模型并不是获得更好性能的唯一途径,甚至不是最快的途径。虽然规模确实很重要,但人工智能模型的创新也至关重要。

所以说,语言模型真的是越大越好吗?对此,你怎么看呢?

参考链接:

https://singularityhub.com/2021/12/20/biggers-not-always-better-deepminds-new-language-ai-is-small-but-mighty/

相关文章:

[20180412]订阅+镜像切换

订阅镜像切换 主数据库挂了之后&#xff0c;镜像数据库没挂&#xff0c;那么就需要把镜像数据库设置成主数据库。1.修改主机名&#xff0c;改成和主数据库一样的&#xff0c;重启2.修改数据库中的主机名IF SERVERPROPERTY(ServerName)<>SERVERNAMEBEGINDECLARE srvname s…

【Cocos2d开发】Cocos2d下安卓环境的搭建

在进行Cocos2d游戏开发前 我们先来配置一下环境&#xff0c;我们先来准备一下工具&#xff0c;我们所需要的工具分别为&#xff1a;1.Cocos2d引擎2.JDK3.SDK4.NDK5.ANT6.ADT1.下载Cocos2d-x引擎&#xff0c;目前最新版本为3.6&#xff0c;本教程的所有例子以3.4版本为例&#x…

Linux时间转化方法

Linux时间转化方法&#xff1a;(1)date -d"2008年 12月 17日 星期三 17:27:22 CST" "%s"该命令将2008年 12月 17日 星期三 17:27:22 CST转化为时间戳结果:1229515680(2)将时间戳1123495443 换算成可以识别的年月日分秒date -d 1970-01-01 UTC 1123495443 s…

有的放矢,远程操控中实时音视频的优化之道

5G远程操控场景&#xff0c;对实时音视频传输的时延、卡顿率和抗弱网等指标都有着非常高的要求&#xff0c;本文将会介绍如何结合5G网络特点&#xff0c;在实时音视频通信链路中进行联合优化&#xff0c;满足行业场景远控需求&#xff0c;降低画面时延。 在上一篇文章中&#x…

Quartz动态添加、修改和删除定时任务

2019独角兽企业重金招聘Python工程师标准>>> Quartz动态添加、修改和删除定时任务 转载于:https://my.oschina.net/haokevin/blog/1795161

Linux下运行run文件

必须到Linux下的终端&#xff0c;不能用远程命令 #chmod 755 文件名 #./文件名

第五届中国企业服务年会:洞见2022数智化的“光与火”

汇智聚能&#xff0c;一起点亮“高增长的下一步”。 在疫情防控与复工复产双重因素的带动下&#xff0c;企业数智化成为不确定环境中的确定项&#xff0c;“ABCD&#xff08;人工智能、区块链、云计算、数据&#xff09;X”引爆生产力、生产资料、生产关系和基础设施革命&#…

QTP连接oracle

2019独角兽企业重金招聘Python工程师标准>>> 首先&#xff0c;因为群里很多朋友说QTP连接oracle有点麻烦&#xff0c;我针对于连接oracle做一个完整的教程&#xff0c;希望需要学习的朋友都可以来看一下&#xff1b;具体方法如下&#xff1a; 1、无论是什么语言&am…

java子类对象和成员变量的隐写方法重写

1、子类继承的方法只能操作子类继承和隐藏的成员变量名字类新定义的方法可以操作子类继承和子类新生命的成员变量&#xff0c;但是无法操作子类隐藏的成员变量&#xff08;需要适用super关键字操作子类隐藏的成员变量。&#xff09; public class ChengYuanBianLing { publi…

Linux的cron和crontab定时任务

定时任务调用shell本地Windows写一个shell test.sh #!/bin/bashecho "Course Arrange Job runs well at: " date "%Y-%m-%d %H:%M:%S" >> /usr/www/wwwshell/www.txt 先在服务器执行看可不可以 注意需要 # dos2unix ./test.sh 再 # ./test.sh需要…

用AI创造可持续发展社会价值,第二届腾讯Light·公益创新挑战赛正式启动

12月23日&#xff0c;“创变者”2021年度腾讯Light论坛在厦门正式举办。在论坛上&#xff0c;由全国妇联宣传部指导&#xff0c;腾讯公司联合中国儿童中心主办&#xff0c;企鹅伴成长、腾讯华东总部、腾讯SSV创新办学实验室、企鹅爱地球、腾讯优图实验室、腾讯云AI、腾讯云微搭…

CSS3 @keyframes animate

2019独角兽企业重金招聘Python工程师标准>>> 1.keyframes定义和用法 通过 keyframes 规则&#xff0c;您能够创建动画。 创建动画的原理是&#xff0c;将一套 CSS 样式逐渐变化为另一套样式。 在动画过程中&#xff0c;您能够多次改变这套 CSS 样式。 以百分比来…

linux系统命令学习系列-文件和目录管理

复习上节内容&#xff1a;1. 定时执行任务命令crontab –e, crontab –l,crontab –r2. 作业&#xff1a;定义一个定时任务&#xff0c;每分钟向/tmp/test.txt文件输出hello worldcrontab –e*/1 * * * * echo ‘hello world’>>/tmp/test.txt本节我们来说一下文件和目录…

GPT-3再进化:通过浏览网页来提高事实准确率

作者 | OpenAI来源 | 数据实战派为了让 GPT-3 模型可以更准确地对开放式问题进行回答&#xff0c;研究人员使用了基于文本的网络浏览器对 GPT-3 进行微调。微调后的 WebGPT 模型可以对人类实时回答问题的方法进行学习&#xff0c;比如提交搜索、跟踪链接并上下滚动网页。研究人…

lamp-安装脚本-修订版2

#!/bin/bash #write by zhang_pc #at 2015.08.07 #apache2.4 php.5.4 mysql5.5 #脚本说明&#xff0c;如果脚本所在目录有源码包就用本地的&#xff0c;否则就从互联网下载APR_FILESapr-1.5.2.tar.gz APR_DIRapr-1.5.2 ARP_PRE/usr/local/apr APR_URLhttp://mirror.bit.edu.cn/…

Linux的rc.local自启动服务

linux有自己一套完整的启动体系&#xff0c;抓住了linux启动的脉络&#xff0c;linux的启动过程将不再神秘。本文中假设inittab中设置的init tree为&#xff1a;/etc/rc.d/rc0.d/etc/rc.d/rc1.d/etc/rc.d/rc2.d/etc/rc.d/rc3.d/etc/rc.d/rc4.d/etc/rc.d/rc5.d/etc/rc.d/rc6.d/e…

[日常] Go语言圣经-函数递归习题

练习 5.1&#xff1a; 修改findlinks代码中遍历n.FirstChild链表的部分&#xff0c;将循环调用visit&#xff0c;改成递归调用。 练习 5.2&#xff1a; 编写函数&#xff0c;记录在HTML树中出现的同名元素的次数。 练习 5.3&#xff1a; 编写函数输出所有text结点的内容。注意不…

Centos下安装mysql 总结

一、MySQL安装 Centos下安装mysql 请点开:http://www.centoscn.com/CentosServer/sql/2013/0817/1285.html 二、MySQL的几个重要目录 MySQL安装完成后不象SQL Server默认安装在一个目录&#xff0c;它的数据库文件、配置文件和命令文件分别在不同的目录&#xff0c;了解这些目录…

Linux下的Memcache安装(含libevent的安装)

Linux下Memcache服务器端的安装服务器端主要是安装memcache服务器端&#xff0c;目前的最新版本是 memcached-1.3.0 。下载&#xff1a;http://www.danga.com/memcached/dist/memcached-1.2.2.tar.gz另外&#xff0c;Memcache用到了libevent这个库用于Socket的处理&#xff0c;…

谷歌发布 RLDS,在强化学习生成、共享和使用数据集

编译 | 禾木木 出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09; 大多数强化学习和序列决策算法都需要智能体与环境的大量交互生成训练数据&#xff0c;以获得最佳性能。这种方法效率很低&#xff0c;尤其是在很难做到这种交互的情况下&#xff0c;比如用真实的机器人…

浅谈 javascript 中的this绑定问题

javascript语言是在运行时前即进行编译的&#xff0c;而this的绑定也是在运行时进行绑定的。也就是说,this实际上是在函数被调用时候发生绑定的&#xff0c;它指向什么完全取决于函数在哪里被调用。1.默认绑定 例如直接在全局作用域下声明: var a2; console.log(this.a);在全局…

Centos用yum安装X Winodw

安装Centos 5.6系统的时候我没有先装任何组件&#xff0c;现在用X Window&#xff0c;需要再安装X Window&#xff0c;就可以启动图形界面了&#xff0c;但是默认的图形界面是很简陋的界面&#xff0c;可以根据需要再安装GNOME或KDE桌面环境安装X图形界面#可查询哪些组件是否已…

玩具javascript:cookie管理

2019独角兽企业重金招聘Python工程师标准>>> ;(function(window, undefined){var CookieUtil window.CookieUtil window.CookieUtil || {};var doc window.document;// 读取名称为name的Cookie信息CookieUtil.read function(name){// 暂无Cookieif(doc.cookie.l…

详解 Pandas 与 Lambda 结合进行高效数据分析

作者 | 俊欣来源 | 关于数据分析与可视化这篇文章小编来讲讲lambda方法以及它在pandas模块当中的运用&#xff0c;熟练掌握可以极大地提高数据分析与挖掘的效率导入模块与读取数据我们第一步需要导入模块以及数据集import pandas as pddf pd.read_csv("IMDB-Movie-Data.c…

前端工程师成长之多读好书

1 引言 乱七八糟的书看了很多&#xff0c;有一本讲JavaScript的印象特别深开篇说的是"JavaScript是Java的脚本语言"&#xff0c;但还是看完了&#xff0c;最后忘了书名。 下面列的这些都是看过后至少记得起书名的&#xff0c;也有部分是经常看的书&#xff0c;一起列…

linux下配置vnc的方法

网上这样的文章很多了&#xff0c;好多前辈们都把自己的经验配置共享出来&#xff0c;受益匪浅&#xff0c;现在整理一下。 下面摘录的两篇文章各有侧重&#xff0c;结合起来可以配置的比较完善了。总结一下&#xff0c;只需要四步&#xff1a;step1 在当前linux系统用户us…

用 Python 画圣诞树的 N 种玩法

作者 | 写代码的明哥来源 | Pyhton编程时光马上就是圣诞节了&#xff0c;先提前祝大家圣诞快乐&#xff01;今天来给大家分享一波如何使用 Python 来画一颗圣诞节树&#xff0c;包含多种版本&#xff0c;从平民版到豪华版&#xff0c;像极了一个程度员从入门到高级秃头程序员的…

ORM武器:NHibernate(三)五个步骤+简单对象CRUD+HQL

前面的两篇文章中。我们对NHibernate已经做了大致了解 《ORM利器&#xff1a;NHibernate&#xff08;一&#xff09;简单介绍》Nhibernate的作用&#xff1a;攻克了对象和数据库的转化问题 《ORM利器&#xff1a;NHibernate&#xff08;二&#xff09;使用CodeSmith高速生成映射…

Linux学习笔记8——bash基本概念

一个操作系统的组成中&#xff0c;shell是与用户最接近的部分shell&#xff1a;外壳&#xff0c;也是一种程序GUI&#xff1a;Gnome&#xff0c;KDE,XfaceCLI&#xff1a;sh&#xff0c;csh&#xff0c;ksh&#xff0c;bash&#xff0c;tcsh&#xff0c;zshLinux中大多使用bash…

UIScrollView offset in UINavigationController

转&#xff1a;UIScrollView offset in UINavigationController 通过设置viewCtronller的 self.automaticallyAdjustsScrollViewInsets NO; 禁用苹果scrollview提供的自适应功能。 延伸阅读&#xff1a;https://developer.apple.com/library/ios/documentation/UserExperience…