当前位置: 首页 > 编程日记 > 正文

写给NLP研究者的编程指南

640?wx_fmt=gif点击上方↑↑↑蓝字关注我们~


640?wx_fmt=jpeg

参加 2019 Python开发者日,请扫码咨询 ↑↑↑



作者 | 赤乐君,日本某大手研发部门的NLP工程师。关注关系抽取与知识图谱的相关研究。

来源 | 赤乐君的知乎专栏


最近AllenNLP在EMNLP2018上做了一个主题分享,名为“写给NLP研究者的编程指南”(Writing Code for NLP Research)。


内容干货满满,仅仅只是看了slide就知道是非常有意思的一次演讲了。slide共有254页之多,这里我简单做个摘要,分享一些有意思的内容。


有时间的话推荐大家直接看slide,下面是地址,请自备梯子。


https://github.com/allenai/writing-code-for-nlp-research-emnlp2018/blob/master/writing_code_for_nlp_research.pdf


下面是整个分享的大纲。通过这次演讲,你可以学到如何写代码来促进你的研究,以及可复现的实验。


640?wx_fmt=jpeg


这里有两种写研究代码的模式,一种是写原型,一种是写组件。


640?wx_fmt=jpeg


我们先从写原型的方式开始介绍。


640?wx_fmt=jpeg


当我们开始写一个原型代码的时候,我们要做到下面三点。


  1. 写代码要快

  2. 跟踪实验结果

  3. 分析模型结果


快速开发


640?wx_fmt=jpeg


要做到快速编程,不要从头开始写所有内容,而是使用框架。这里的框架不仅指tensorflow或pytorch之类的框架,也可以理解为模板。比如上图中如果写trining loop的部分,已经有人写好了。我们只要看懂后,直接拿来用就行,没有必要从头开始自己写所有部分。


640?wx_fmt=jpeg


上面提到的一些内容,都是可以找到现成框架来套用的。


Don’t start from scratch! Use someone else’s components.


640?wx_fmt=jpeg


如果有人把你想用的东西模块化了,还等什么,直接拿来用啊!


640?wx_fmt=jpeg


要想快速开发,另一个建议就是先复制,再重构。要记住,我们是在写原型,不用在乎什么可用性,先把代码写work了再说。如果实现的效果不错的话,再回去重构。


640?wx_fmt=jpeg


另外,我们要有好的编程习惯。比如起有意义的变量名,写注释帮助理解。记住,我们是写给人看的,不是机器!


跟踪实验结果


640?wx_fmt=jpeg


可以准备一个Excel表格,来记录实验结果


640?wx_fmt=jpeg


每次只改变一个部分,方便跟踪实验结果的变化其原因在于哪里。


640?wx_fmt=jpeg


这里光是embedder,我们就有很多种选择


640?wx_fmt=jpeg


使用设定文件来记录模型的改变,方便我们以后查询当时的设定。


分析模型结果


640?wx_fmt=jpeg


在训练的时候,可视化对于分析模型表现是非常重要的。这个技能必须掌握。


640?wx_fmt=jpeg


Tensorboard可以提供很多分析结果。


640?wx_fmt=jpeg


Tensorboard能帮我们找到优化的bug。比如上图中的embedding梯度有两个数量级的差别。


640?wx_fmt=jpeg


原因在于embedding的梯度是稀疏梯度,即只有一部分会被更新。但是ADAM中的动量系数是针对整个embedding计算的,所以解决方法是直接引入特定的优化器:DenseSparseAdam。


640?wx_fmt=jpeg


对于预测结果,如果和做到交互式的方式来查看的话,是最好的。


开发组件


与写原型不同,开发可重复使用的组件有很多要注意的地方。


640?wx_fmt=jpeg

Code Reveiw是必不可少的。Review的时候,不仅能发现错误,还能提高代码的可读性。


640?wx_fmt=jpeg

如果我们不是软件开发人员的话,对于持续集成 以及构建自动化 这两个词可能比较陌生。通常我们只说持续集成的时候,也包含了构建自动化的意思。想要做到这点,要多写测试才行。


当然,如果我们不是开发一个很多人都会用到的库,上面这些步骤是用不到的ㄟ(▔,▔)ㄏ


不过测试很重要,如果是原型开发,也要做一些最基本的测试。


640?wx_fmt=jpeg


对读取的数据进行测试,看是否正确。


640?wx_fmt=jpeg

对模型进行测试,比如检查维度是否一致。


可以看到这两种测试的代码都不会很多。所以不要犯懒了,好好写测试吧。

关于AllenNLP库的一些介绍,这里就不花时间讨论了,感兴趣的可以看slide中p141~p205的部分。


下面直接进入分享的部分。


分享研究


640?wx_fmt=jpeg


简化安装的流程,令代码运行在任何平台,使用隔离的环境。


下面是使用Docker的一些优点。


640?wx_fmt=jpeg
640?wx_fmt=jpeg


用docker开发的好处不用多说,大家想必也已经都知道了。当然,缺点也是有的。


640?wx_fmt=jpeg


至于Python的包管理系统,AllenNLP采用了ANACONDA。


640?wx_fmt=jpeg


Docker是不错,但不适合做本地开发,这样的话,使用一些本地的包管理系统反而更方便。


最后做个总结。


640?wx_fmt=jpeg
  • 快速开发原型(要安全)

  • 写安全的产品代码(要快)

  • 好的流程有利于做出好的研究

  • 使用正确的抽象

  • 查看AllenNLP(广告)


这次分享的slide看了几遍,很多地方看得自己脸上发热,不写测试什么的说到了痛处。现在人工智能领域对于算法工程师的要求已经不是能掉个包,谈谈研究那么简单了,工程实践能力已经变得越来越重要。写优秀的代码,做优秀的研究,二者是一个互相促进的过程。最后放上原slide链接,感兴趣的最好自己看一遍。


https://github.com/allenai/writing-code-for-nlp-research-emnlp2018/blob/master/writing_code_for_nlp_research.pdf


如果你有什么想法,欢迎评论区讨论。

作者其他个人平台

Github: https://github.com/BrambleXu
Medium: https://medium.com/@bramblexu
Twitter: https://twitter.com/BrambleXu
知乎: 
https://www.zhihu.com/people/life-learner-lux/activities

原文地址:

https://zhuanlan.zhihu.com/p/48504619


(*本文是AI科技大本营转载文章,转载请联系原作者)


精彩推荐

640?wx_fmt=jpeg

推荐阅读:

  • 免费线下沙龙 | Python 技术学习指南与趋势探讨

  • 清华、北大、浙大的计算机课程资源集都在这里了

  • 受用一生的高效PyCharm使用技巧

  • GitHub超全机器学习工程师成长路线图,开源两日收获3700+Star!

  • 腾云驾雾的计算,让你蒙圈了么?

  • 中本聪的足球队,香吗?

  • 漫画:我是程序员,总想打产品经理怎么办?

  • 让苹果“沦为配角”的华为都发布了什么?

  • 曝光!月薪5万的程序员面试题:73%人都做错,你敢试吗?


640?wx_fmt=png

2019Python开发者日其他活动,你也可以点击阅读原文

相关文章:

【数据库】sqlite3常用命令及SQL语句

【数据库】sqlite3数据库备份、导出方法汇总 一、准备工作 0、安装SQLite3 1)ubuntu命令安装(不是最新版本) sudo apt install sqlite32)源码安装(可以安装最新版本) 下载: https://www.sq…

资本主义社会是不存在人道的

对叙利亚人民感到无助而写点文章,虽然没有什么大的作用,也谈谈自己对于战争与和平的理解,战争与和平就相当于爱与恨一样,爱的热切,恨之入骨,虽然形容不当,人性的双面总是要拿来剖析一二的。 人类…

再谈javascript图片预加载经典技术

图片预加载技术的典型应用: 如lightbox方式展现照片,无疑需要提前获得大图的尺寸,这样才能居中定位,由于javascript无法获取img文件头数据,必须等待其加载完毕后才能获取真实的大小然后展示出来,所以lightb…

【Go】Go基础(四):流程控制(控制结构)

1、if-else结构 格式: if condition1 {// do something } else if condition2 {// do something else } else {// default }和C的不同,条件语句没有大括号; 新增的语法: if initialization; condition {// do something }例…

让世界零距离 小鱼易连的大梦想

“他是高材生,也是技术大拿。十年北美,十年中国,他在高科技领域善于创新、精于管理,五项中美专利加身。他在北电网络领导团队不断创新,成就亚太顶尖;他曾任宝利通全球高管,带领团队从初创一路起飞&#xff…

程序员再也不能埋头敲代码了

上周,阿里巴巴重磅发布了机器学习平台 PAI 3.0 版本,据悉,这个 PAL 平台封装了 200 多种经典算法,可以轻松搭建机器学习实验。作为码农一枚,使我不得不抬起原本一直低着敲代码的头,看看这个为 AI 狂欢的世界…

函数的重载 - C++快速入门06

函数的重载 让编程改变世界 Change the world by program 函数的重载 C 里的函数重载(overloading)机制比我们此前见到的东西都高深,这种语言的灵活性和强大功能在它身上体现得淋漓尽致。 所谓函数重载的实质就是用同样的名字再定义一个有…

【Go】Go基础(五):函数

1、简述 Go 里面有三种类型的函数: * 普通的带有名字的函数 * 匿名函数或者lambda函数 * 方法(Methods)两个特殊函数:main()和init(),它们没有参数和返回值; Go语言里面没有函数重载; 2、函数…

搬箱轮滑再炫技!一个被波士顿动力耽误的机器人

点击上方↑↑↑蓝字关注我们~「2019 Python开发者日」7折优惠最后3天,请扫码咨询 ↑↑↑整理 | 琥珀出品 | AI科技大本营(ID:rgznai100)据 TheVerge 等多家外媒报道,波士顿动力公司 (Boston Dynamics) 又推出了一款新的机器人&…

我是如何在天猫、蚂蚁金服、百度等大厂面试中被拒的 | 掘金技术征文

本人16年毕业于普通二本院校网络相关专业,工作经验两年半,目前就职业于一家普通民营企业。 由于非985、211学历硬伤,校招进大厂的门槛远高于同届985、211的毕业生。于是乎,从毕业到现在经历了三家创业公司,创业公司的痛…

solaris上的pkg管理

原文写于2010-05-18 19:43:40 网易博客,已删. 在solaris上安装程序,很多时候多离不开package管理.上的编译好的软件都是已package的形式压缩好然后提供给大家下载的. 关键是3个命令:pkgadd/pkginfo/pkgrm pkgadd -d pkgname用来添加安装包 pkginfo 用来打印系统…

【Go】Go基础(六):数组、切片slice、映射map

1、数组 1.1 数组定义 数组:数组是具有相同 唯一类型 的一组已编号且长度固定的数据项序列。 数组长度必须是一个常量表达式,并且必须是一个非负整数。数组长度也是数组类型的一部分,所以[5]int和[10]int是属于不同类型的。数组长度最大为 …

语义表征的无监督对比学习:一个新理论框架

点击上方↑↑↑蓝字关注我们~「2019 Python开发者日」7折优惠最后3天,请扫码咨询 ↑↑↑译者 | Linstancy责编 | 琥珀出品 | AI科技大本营(ID:rgznai100)诸如图像、文本、视频等复杂数据类型的语义表征 (也称为语义嵌入) 已成为机器学习的核心…

YEX黄建:脱离比特币谈区块链,要么真傻,要么装疯卖傻丨区块链十人谈

如果说2017年是属于虚拟货币的一年,那么2018年的区块链将是生态和应用的一年,随之而来的也将是新的玩法、新的赚钱姿势。为此,雷锋网推出“区块链十人谈”(十人者,取是知众人博所长之意,非实指)…

70佳精美的PSD素材免费下载(上篇)

设计师经常会去网上搜罗各种各样的素材,这些免费素材不仅能帮助他们节省大量的时间,而且能有很好的效果。今天,本文与大家分享70佳精美的PSD素材,非常感谢那些很有才华的设计师分享它们的劳动成果,让更多的人可以使用他…

漫画讲述人工智能简史

点击上方↑↑↑蓝字关注我们~「2019 Python开发者日」7折优惠最后3天,请扫码咨询 ↑↑↑作者 | 武博士、宋知达、袁雪瑶、聂文韬来源 | 大鱼AI(id:DayuAI-Founder)本文我们会以生动有趣的漫画来介绍关于人工智能(AI)相…

【Go】Go基础(七):包

一、标准库概述 1、官方手册 内置包在 Go 语言中有 150 个以上,它们被称为标准库,完整列表可以在Go Walker中查看 https://gowalker.org/search?qgorepos 2、常用包简介 unsafe: 包含了一些打破 Go 语言“类型安全”的命令,一般的程序中不会…

Mysql是时候学习一个存储过程了

create procedure 存储过程名() DECLARE uid INT; #注意声明的变量名不能跟表的字段名一致,否则会报错。如user的主键是id,那么这里声明用来存id值的变量名就不能为id,可以改为uid等 DECLARE done INT DEFAULT 0; #repeat结束标识 DECLARE us…

ASP.NET的Cookie跨域问题

将Cookie的有效范围限制到域。 默认情况下,Cookie 与特定的域相关联。例如,如果您的站点是 www.contoso.com,那么当用户向该站点请求页面时,您编写的Cookie就被发送到服务器。(有特定路径值的Cookie除外)…

详解物联网的中间件:为何说它是不可或缺的?

互联网的大规模普及,拉近了人与人之间的交流,而不同国家人与人之间的交往也变得密切起来。由于彼此使用的语言不通,为了能够互相交流,我们需要将不同种的交流语言转换成对方可识别的信息,这就是翻译存在的理由了。同样…

Decoders对于语义分割的重要性 | CVPR 2019

点击上方↑↑↑蓝字关注我们~「2019 Python开发者日」7折优惠最后3天,请扫码咨询 ↑↑↑作者 | Lin-Zhuo Chen转载自博客链接:https://linzhuo.xyz/posts/DUpsample/今天为大家推荐一篇 CVPR2019 关于语义分割的文章 Decoders Matter for Semantic Segme…

【Go】Go基础(八):结构体和方法

一、 结构体(struct) 1、结构体定义 type identifier struct {field1 type1field2 type2... }声明:new(Type) 和 &Type{}是等价的 2、初始化结构体 type Interval struct {start intend int }初始化方式: intr : Inter…

Windows 2008 R2 SP1部署Lync2010企业版(四)

9 部署存档和监控服务器 1) 以域管理身份登录SQL01服务器。 2) 单击“开始”,依次指向“程序”、“管理工具”,然后单击“服务器管理器”显示服务器管理器。 3) 单击“添加功能”启动“添加功能向导”,选择“消息队列”,下一步。 …

【Go】Go基础(九):接口(Interfaces)与反射(reflection)

一、接口(interfaces) 1、概述 接口定义了一组方法(方法集),但是这些方法不包含(实现)代码:它们没有被实现(它们是抽象的)。接口里也不能包含变量。 通过如…

用ECMAScript4 ( ActionScript3) 实现Unity的热更新 -- 使用原型链和EventTrigger

原型链是JS的必备,作为ECMAScript4,原型链也是支持的。 特别说明,ActionScript3是支持完整的面向对象继承支持的,原型链只在某些非常特殊的情况下使用。 本文旨在介绍如何使用原型链。 任意对象类型都有一个prototype属性,包括导入的Unity的A…

教育部发文35所高校新增AI本科专业!想回去重新高考

点击上方↑↑↑蓝字关注我们~「2019 Python开发者日」7折优惠最后3天,请扫码咨询 ↑↑↑作者 | 琥珀出品 | AI科技大本营(ID:rgznai100)2019 年 3 月 28 日,教育部公布了 2018 年度普通高等学校本科专业备案和审批结果。消息一出&…

莱芜市公安局交警支队智能交通项目集成及容灾公开招标公告

莱芜市公安局交警支队智能交通建设项目公开招标公告 时间:2011-7-5 点击:249莱芜市公安局交警支队智能交通建设项目公开招标公告一、招标人名称:莱芜市公安局交警支队 联系方式:0634-5667998(吕老师)二、招标代理机构名称&#x…

【Go】Go基础(十):文件读写

一、读写数据 1、读取用户的输入 使用fmt 包提供的 Scan 和 Sscan 开头的函数; * Scanln 扫描来自标准输入的文本,将空格分隔的值依次存放到后续的参数内,直到碰到换行。 * Scanf 与其类似,除了 Scanf 的第一个参数用作格式字符…

怎样能拿到第一份编程工作?这里告诉你答案 | 码书

“写代码时,每次都要告诉自己:最后负责维护代码的,会是一个知道你住在哪的变态暴力狂。” ——约翰伍德(John Woods)拿下第一份编程工作需要付出更多努力,但是如果采纳下面的建议,应该不会有太大…

JSON知识点

JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读…