170亿参数加持,微软发布史上最大Transformer模型
来源 | 微软
译者 | 刘畅
出品 | AI科技大本营(ID:rgznai100)
Turing Natural Language Generation(T-NLG)是微软提供的一个有170亿参数的语言模型,在许多NLP任务上均优于目前的SOTA技术。我们向学者演示了该模型,包括生成自由格式,问题解答和概要功能,主要用于反馈和研究。
--该摘要由Turing-NLG语言模型本身生成
BERT和GPT-2之类的深度学习语言模型(language model, LM)有数十亿的参数,互联网上几乎所有的文本都已经参与了该模型的训练,它们提升了几乎所有自然语言处理(NLP)任务的技术水平,包括问题解答、对话机器人和文档理解等。
更好的自然语言生成模型可以在多种应用程序中实现自如的转化,例如协助作者撰写内容,汇总一长段文本来节省时间,或改善自动客服助理的用户体验。基于使用更大自然语言模型可以带来更好结果的趋势,微软推出了Turing自然语言生成(T-NLG)模型,这是有史以来规模最大的模型,其参数有170亿,在各种语言模型任务的基准上均优于最新技术,并且在应用于许多实际任务(包括概括和问题解答)时也很出色。这项工作得益于在DeepSpeed库(与PyTorch兼容)的ZeRO优化器方面的突破。
我们正在向学术界的一小部分用户发布T-NLG的演示视频,包括生成自由格式,问题解答和概要功能,以进行初步测试和反馈。
T-NLG:大型生成语言模型的优势
T-NLG是一个基于Transformer的生成语言模型,这意味着它可以生成单词来完成开放式的文本任务。除了补充未完成的句子外,它还可以生成问题的答案和文档的摘要。
T-NLG之类的生成模型对于NLP任务很重要,因为我们的目标是在任何情况下都尽可能与人类直接,准确和流畅地问答。以前,问题解答和概要系统是依赖于从文档中提取现有内容,把这些内容用作备用答案或摘要,但它们通常看起来不自然或不连贯。借助T-NLG模型,就可以很自然的总结或回答有关个人文档或电子邮件主题的问题。
我们已经观察到,模型越大,预训练数据需要越多样化和全面,在泛华到其它任务时也会表现得更好。因此,我们认为训练大型集中式多任务模型并在众多任务中共享其功能比单独为每个任务训练新模型更为有效。
训练T-NLG:硬件和软件的突破
任何超过13亿参数的模型都无法装入单张GPU(甚至一个具有32GB内存的电脑),因此该模型本身必须在多个GPU之间并行化或分解。我们利用了几项硬件和软件的突破来训练T-NLG:
1.我们利用NVIDIADGX-2硬件设置和InfiniBand连接,使GPU之间的通信比以前更快。
2. 在NVIDIAMegatron-LM框架上,我们使用张量切片技术在四张NVIDIAV100 GPU上分割模型。
3. DeepSpeed with ZeRO库使我们可以降低模型并行度(从16降低到4),将每个节点的批处理大小增加4倍,并将训练时间减少3倍。DeepSpeed可以使用更少的GPU训练更大的模型,从而提高效率,并且仅使用256个NVIDIA GPU就可以实现512 batchsize的训练,而单独使用Megatron-LM则需要1024个NVIDIA GPU。DeepSpeed与PyTorch兼容。
最终的T-NLG模型具有78个Transformer层,其隐藏层的节点大小为4256,并包含28个注意力头。为了使结果可与Megatron-LM相媲美,我们使用了与Megatron-LM相同的超参数对模型进行了预训练,
我们还比较了预训练T-NLG模型在标准语言任务(例如WikiText-103(越低越好)和LAMBADA下一个单词预测准确性(越高越好))上的性能。下表显示,我们在LAMBADA和WikiText-103上都达到了最新的技术水平。Megatron-LM是NVIDIA Megatron模型公开发布的结果。
Open AI使用了额外的处理(停用词过滤)以实现比单独实现模型更高的数量。Megatron和T-NLG均未使用这种停用词过滤技术。
下面图1显示了与Megatron-LM相比,T-NLG在验证perplexity方面的表现。
图1:训练期间Megatron-8B参数模型(橙色线)与T-NLG 17B模型在验证困惑度方面的比较(蓝线和绿线)。虚线表示当前SOTA技术模型达到的最低验证损失。图中从蓝色到绿色的过渡表示T-NLG在性能上超过了SOTA水平。
直接问答和Zero-shot提问功能
许多网络搜索用户习惯于在问问题时看到答案直接显示在页面的顶部。这些页面大多数会在其所属段落的上下文中显示一个答案句子。我们的目标是通过直接回答他们的问题来更明确地满足用户的信息需求。例如,大多数搜索引擎在显示全文时会突出显示名称,如“Tristan Prettyman”(请参见下面的示例)
相反,T-NLG将直接用完整的句子回答问题。在Web搜索之外,此功能更为重要,例如,当用户询问有关个人数据的问题(例如电子邮件或Word文档)时,此功能可使AI助手智能响应。
该模型还能够实现“zeroshot”问题解答,这意味着无需上下文即可进行回答。对于下面的示例,没有给出模型的段落,仅给出了问题。在这些情况下,模型依赖于在预训练过程中获得的知识来生成答案。
由于ROUGE分数与真实答案相符,无法反映其他方面,如事实正确性和语法正确性,因此我们要求人工标注者为我们之前的基准系统(类似于CopyNet的LSTM模型)和当前的T NLG模型进行评判。
我们还注意到,较大的预训练模型仅需要较少的其它任务样本就可以很好地学好。我们最多只有100,000个问题-消息-答案三元组的样本,即使仅进行了数千次训练,我们的模型仍优于训练了多次的LSTM基准模型。由于收集带标注的监督数据非常昂贵,因此这种观察到的现象会产生实际的业务影响。
不需监督的摘要总结
NLP文献中的摘要有两种类型:提取-从文档中获取少量句子作为摘要的代名词,抽象-用NLG模型像人类一样生成摘要。T-NLG的目标不是复制现有内容,而是为各种文本文档(如电子邮件,博客文章,Word文档,Excel工作表和PowerPoint演示文稿)编写类似于人类的抽象摘要。这其中主要的挑战之一是在所有这些情况下都缺乏监督训练数据:因为人类并不总是会明确地总结每种文档类型。T-NLG的强大功能在于,它已经非常了解文本,因此无需太多的监督即可胜过我们之前使用的所有技术。
为了使T-NLG尽可能通用,以汇总不同类型的文本,我们在几乎所有公开可用的汇总数据集中以多任务方式微调了T-NLG模型,总计约有400万个训练样本。我们给出了ROUGE分数,以便与另一种最新的基于Transformer的语言模型(称为PEGASUS)和以前的最新模型进行比较。
以多任务方式训练T-NLG,同时使用所有数据集对其进行训练。众所周知,由于ROUGE评估在汇总任务方面存在缺陷,因此我们在下面提供了一些公开可用文章的输出摘要,以供比较。
T-NLG未来的应用
T-NLG在自然语言生成方面已经取得了优势,为微软和我们的客户提供了新的机会。除了通过汇总文档和电子邮件来节省用户时间之外,T-NLG还可以通过为作者提供写作帮助并回答读者可能对文档提出的问题来增强MicrosoftOffice套件的体验。此外,它为更流畅的聊天机器人和数字助理铺平了道路,因为自然语言生成可以通过与客户交谈来帮助企业进行客户关系管理和销售。
原文链接:
https://www.microsoft.com/en-us/research/blog/turing-nlg-a-17-billion-parameter-language-model-by-microsoft/
(*本文由AI科技大本营编译,转载请联系微信1092722531)
【end】
◆
精彩推荐
◆
福利直达!CSDN技术公开课评选进行中,参与投票即有机会参与抽奖!大奖福利请见下方海报,承担你的2020全年技术干货!
推荐阅读
福利直达!CSDN技术公开课评选进行中
技术驰援抗疫一线, Python 线上峰会免费学!
此次疫情被战胜后,或将给区块链的发展带来深远的影响
企业微信再次升级;滴滴网约车欲加装防护隔离膜;Firefox 73发布 | 极客头条
一文看懂Microsoft Azure的十年变迁
“抗疫”第二战场,那些屏幕后的“云”医生
你点的每个“在看”,我都认真当成了AI
相关文章:

iOS 开发 OC编程 数组冒泡排序.图书管理
// // main.m // oc -5 数组 // // Created by dllo on 15/10/28. // Copyright (c) 2015年 dllo. All rights reserved. // #import <Foundation/Foundation.h> #import "Student.h" #import "Book.h" int main(int argc, const char * argv[])…

C#中使用Monitor类、Lock和Mutex类来同步多线程的执行(转)
C#中使用Monitor类、Lock和Mutex类来同步多线程的执行 在多线程中,为了使数据保持一致性必须要对数据或是访问数据的函数加锁,在数据库中这是很常见的,但是在程序中由于大部分都是单线程的程序,所以没有加锁的必要,但是…
从0开始搭建编程框架——思考
需求来源于问题。(转载请指明出于breaksoftware的csdn博客) 之前有个人做前端开发的同学在群里问“C语言能做什么?能写网页么?”,然后大家就开始基于这个问题展开争辩。有的认为是“不能,从来没听说过C语言…
2月15日Python线上峰会免费学!6场精华分享,用代码“抗”疫
截至截止2月12号09时43分,新型冠状病毒在全国已确诊44726例,疑似病例已达21675例。而专家所说的“拐点”始终未至,受疫的影响,各大公司开启远程办公模式,将返回工作场所办公的时间一延再延。在抗疫前线,中国…

C#语言 数组
转载于:https://www.cnblogs.com/a849788087/p/4947939.html
从0开始搭建编程框架——主框架和源码
一个良好的结构是“对修改关闭,对扩展开放”的。(转载请指明出于breaksoftware的csdn博客) 这个过程就像搭建积木。框架本身需要有足够的向内扩展能力以使自身有进化能力,其次要有足够的外向扩展能力以使其可以方便定制业务。一般…
中文版开源!这或许是最经典的Python编程教材
整理 | AI科技大本营(ID:rgznai100)想入门Python,但一直没找到合适的参考书籍?《Think Python》是很多Python初学者的不二入门教材,受到广泛好评。该书原作者是美国Olin工程学院的教授Allen B. Downey,目前…

[流水账]毕业?工作?
离正常毕业时间还有1年多, 没想到这么早就开始感受到毕业的气息了. 前几天收到去参加IBM中国研究院校友座谈会的邀请, 因为有事没过去, 今天又接到了校友蒋师兄的电话来了解我的个人情况. 接到电话时蒋师兄先核对了一下信息, 然后要我介绍一下自己, 我做事一向比较谨慎, 对涉及…

Java并发编程-信号量
Semaphore 直译是信号量,它的功能比较好理解,就是通过构造函数设定一个数量的许可,然后通过 acquire 方法获得许可,release 方法释放许可。它还有 tryAcquire 和 acquireUninterruptibly 方法,可以根据自己的需要选择。…

从0开始搭建编程框架——插件
我将插件设计为两种类型。一种是框架自身携带的插件,用于增强其基础能力。一种是用户自定义插件,用于完成业务。本文将分别介绍在peleus框架下,这两种插件该怎么写。(转载请指明出于breaksoftware的csdn博客) 本文谈下…
蚂蚁金服AAAI收录论文曝光,动态网络剪枝方法、无语预训练的网络剪枝技术有重大突破...
来源 | 蚂蚁金服责编 | Carol出品 | AI科技大本营(ID:rgznai100)一年一度在人工智能方向的顶级会议之一AAAI 2020于2月7日至12日在美国纽约举行,旨在汇集世界各地的人工智能理论和领域应用的最新成果。以下是蚂蚁金服的技术专家对入选论文《基…

安装 Enthought Tool Suite 时遇到的问题
文:fasiondog 来源:http://blog.csdn.net/KongDong/archive/2009/05/26/4217942.aspx 因想研究一下Enthought Tool Suite ,尤其是可能需要使用其中的Chaco 和Envisage 软 件包,便安装试用一下。刚开始装机时曾经使用新立得安装过…

SQL知识累积
详细介绍select的文章,展示原始数据、SQL、查询结果,以及在不同数据库下SQL应该如何写。 https://en.wikipedia.org/wiki/Select_(SQL) 目录如下: Contents [hide] 1 Examples 2 Limiting result rows 2.1 ROW_NUMBER() window fu…
C++拾趣——使用多态减少泛型带来的代码膨胀
泛型编程是C语言中一种非常重要的技术,它可以让我们大大减少相似代码编写量。有时候,我和同事提及该技术时,称它是“一种让编译器帮我们写代码的技术”。(转载请指明出于breaksoftware的csdn博客) C是一门静态语言&…

如何成为一个优秀的程序员
本文给出了十五个评定软件开发人员的标准,可以帮助程序员朋友从一个好的程序员成为一个优秀的程序员,和大家共飨! 怎样评定一名软件开发人员?这是一个颇为奇怪的问题。现在已经有了很多的理论和形式来做这件事,人力资源…
2020年,最适合AI的5种编程语言
来源 | medium编译 | 张涛责编 | Carol出品 | AI科技大本营(ID:rgznai100)AI系统的开发必须有计算机代码,而计算机程序的开发有不同类型的编程语言可以选择。本文分析哪些编程语言最适合你的人工智能或机器学习用例开发。文中给出了一个想要在…

kafka生产者、消费者java示例
1. 生产者 import java.util.Properties; import kafka.javaapi.producer.Producer; import kafka.producer.KeyedMessage; import kafka.producer.ProducerConfig; public class MyProducer { public static void main(String[] args) { Properties props new Properti…
bug诞生记——临时变量、栈变量导致的双杀
这是《bug诞生记》的第一篇文章。本来想起个文艺点的名字,比如《Satan(撒旦)来了》,但是最后还是想让这系列的重心放在“bug的产生过程”和“缺失的知识点”上,于是就有了本系列这个稍微中性的名称。(转载请…
波士顿动力的机器狗上班了!巡逻、检测不在话下,挪威公司为其编发工号
作者 | 神经小刀来源 | HyperAI超神经(ID: HyperAI)AI 界的网红,波士顿动力机器狗 Spot ,近日获得了新的工作岗位,它将入职挪威的石油天然气开采公司 Aker ,负责巡检工作,还破天荒地获得了工牌和…

C语言运算符的优先级
() [] -> . (--->) ! ~ -- - (type类型) * & sizeof (<---) 单目运算符 * / % (--->) - (--->) << >> (--->) 移位运算符 < < > > (--->) 关系运算符 ! (--->) 等于或不等于&…

Java 多线程(六) synchronized关键字详解
多线程的同步机制对资源进行加锁,使得在同一个时间,只有一个线程可以进行操作,同步用以解决多个线程同时访问时可能出现的问题。 同步机制可以使用synchronized关键字实现。 当synchronized关键字修饰一个方法的时候,该方法叫做同…

bug诞生记——const_cast引发只读数据区域写违例
对于C这种强类型的语言,明确的类型既带来了执行的高效,又让错误的发生提前到编译期。所以像const这类体现设计者意图的关键字,可以隐性的透露给我们它描述的对象的使用边界。它是我们的朋友,我们要学会和它相处,而不是…
听说Java被玩儿淘汰了?骨灰级程序员:远比你们想象的强大!
听过Java快被淘汰了?告诉你:没那么容易!Java从诞生至今,已经走过了20多年的历史,虽然相比新型的技术语言算是“老古董”,但是它的应用依然最为广泛,并且有着非常成熟的生态。而且我相信…

RapidFramework使用Oracle的步骤
1.在lib包中加入Oracle驱动2.修改generator.properties,注释掉mysql,打开oracle注释 jdbc.urljdbc:oracle:thin:127.0.0.1:1521:orcljdbc.driveroracle.jdbc.driver.OracleDriver 3.设置jdbc.schemaMEETRICEjdbc.catalog 注意:jdbc.schema的值为大写 4.修改jdbc.properties jdb…

拇指接龙游戏升级记录03(升级MainScene.cpp)
MainScene是拇指接龙游戏的主游戏场景文件,拥有近5000行代码。说实在的,实现自cocos2d-x 2.x版本向当下最新的3.8.1版本的升级过程,其中涉及的技术不是一下能够说明的。有些是形式上的简单修改,更多的则是性能上的提升相应的修改。…

Flex与.NET互操作(十二):FluorineFx.Net的及时通信应用(Remote Shared Objects)(三)
远程共享对象(Remote Shared Objects) 可以用来跟踪、存储、共享以及做多客户端的数据同步操作。只要共享对象上的数据发生了改变,将会把最新数据同步到所有连接到该共享对象的应用程序客户端。FluorineFx所提供的远程共享对象(Remote Shared Objects)和FMS的共享对…

ffmpeg api的应用——提取视频图片
这些年来,“短视频”吸引了无数网民的注意。相对于丰富有趣的内容,我们码农可能更关心其底层技术实现。本系列文章将结合ffmpeg,讲解几则视频处理案例。(转载请指明出于breaksoftware的csdn博客) “短视频”都是以“文…
蚂蚁金服AAAI论文:基于长短期老师的样本蒸馏方法和自动车险定损系统的最新突破...
来源 | 蚂蚁金服出品 | AI科技大本营(ID:rgznai100)一年一度在人工智能方向的顶级会议之一AAAI 2020于2月7日至12日在美国纽约举行,旨在汇集世界各地的人工智能理论和领域应用的最新成果。以下是蚂蚁金服的技术专家对入选论文《基于长短期老师…

C# 实现HTML转换成图片的方法
/// <summary> /// 通过WebBrowser控件来实现从HTML到Bmp图片的生成。 /// </summary> /// <param name"htmPath">HTML路径</param> /// <returns>Bmp图片路径</returns> private static st…
一套使用注入和Hook技术托管入口函数的方案
工作中,我们可能会经常使用开源项目解决一些领域中的问题。这种“拿来主义”是一种“专业人干专业事”的思想,非常实用。(转载请指明出于breaksoftware的csdn博客) 一般场景下,我们都是把开源项目代码编译到我们自己的…