当前位置: 首页 > 编程日记 > 正文

半小时训练亿级规模知识图谱,亚马逊AI开源知识图谱嵌入表示框架DGL-KE

出品 | AI科技大本营(ID:rgznai100)

知识图谱 (Knowledge Graph)作为一个重要的技术,在近几年里被广泛运用在了信息检索,自然语言处理,以及推荐系统等各种领域。学习知识图谱的嵌入表示 (Knowledge Graph Embeddings)是一种从知识图谱结构中生成无监督节点特征(node feature)的方法,生成的特征可以被用在各种机器学习任务之上。例如,可以通过节点的嵌入表示来预测两个节点之间是否有链接(link prediction)。

然而,随着社交网络、推荐系统等典型图数据场景的发展,知识图谱的规模也在不断地增长。在工业界真实的场景中,技术人员常常需要面对千万级,甚至是亿万级节点的大规模图数据。如何快速、高效地在大规模知识图谱上进行嵌入表示的训练是当前的一个挑战。

近日,亚马逊 AI 团队继 DGL 之后,又开源了一款专门针对大规模知识图谱嵌入表示的新训练框架 DGL-KE,旨在能让研究人员和工业界用户方便、快速地在大规模知识图谱数据集上进行机器学习训练任务。

github 地址:https://github.com/awslabs/dgl-ke

相比于已有的开源框架,DGL-KE 的亮点如下:

  • 支持各种主流知识图谱表示学习算法,包括 TransE、ComplEx、DistMult、TransR、RESCAL、RotatE 等;

  • 已有开源框架中唯一支持多核 CPU,多卡 GPU,CPU-GPU 混合训练,以及分布式训练的知识图谱嵌入表示框架;

  • 简单易用,用户无需编写代码,直接将知识图谱数据作为输入即可;

  • 高性能且可扩展。根据 DGL-KE 发布的 Freebase 数据集 (超过 8600 万节点,3 亿条边)Benchmark 显示,在 AWS EC2 平台上,一台 p3.16xlarge (8 GPUs)可以在 100 分钟内完成训练。4 台 r5dn.24xlarge (4*48 CPUs)可以在 30 分钟内完成训练,并且达到线性加速比。这一结果比当前最快的同类系统(如 Facebook 发布 Pytorch-BigGraph)快 2-5 倍。

图1: DGL-KE 系统架构

DGL-KE 之所以能够有这样的性能,主要是因为采用了许多创新的系统和算法优化:

(一)基于 METIS 图分割算法的分布式训练

对超大规模的图数据进行训练,分布式训练必不可少。其思路主要是将原始大图分割成不同的子图,每一台机器负责在一个子图上进行随机梯度下降训练,所有机器之间通过参数服务器(Parameter Server)进行模型的同步。其架构如下图所示:

图2: DGL 分布式架构

然而,如果只是对一张大图进行随机切割,会造成训练机器与参数服务器之间的数据通信量巨大(本地机器需要从远程机器去请求自己所需的模型数据),从而造成网络瓶颈。为了解决这一问题,DGL-KE 在训练前会预先通过 METIS 图分割算法对原始数据进行切割。

METIS 算法是计算机科学家 George Karypis 于 1995 年提出的一种高效的图分割算法,而 George Karypis 也正是 DGL-KE 项目的作者之一。METIS 算法会将一张大图上相关联的节点尽可能放置在同一个划分(partition)之中。这样可以将大部份的网络通信开销转化成本地机器的内存拷贝,从而大大提升了分布式训练的速度。

在 Freebase 这个数据集的实际训练中,METIS 算法可以节省将近 90% 的模型网络传输带宽,从而使分布式训练达到线性加速比。DGL-KE 的分布式训练使用了 DGL-KVStore 组件。DGL-KVStore 是专门为 DGL 系统定制开发的参数服务器模块,用来实现稀疏模型的同步通讯。该组件通过 C++ 实现了底层 socket、消息队列,以及稀疏数据序列化的定向优化,并且可以无缝兼容 METIS 图分割算法。

(二)基于共享内存的单机多进程训练

多核(Multi-core)已经成为当前计算机体系架构的标配,很多强大的 workstation 在一台机器内更是会有超过几十个 CPU 核心和上百 GB  甚至上 T 的内存。对于很多千万级节点的图数据来说,这样的单机性能已经足够处理这种规模的数据。

DGL-KE 针对这样的场景也做了相应的系统优化,让用户尽可能地挖掘一台机器的性能极限。与传统基于多线程(Multi-thread)的并行优化不同,DGL-KE 采用了基于多进程(Multi-Process)的粗粒度并行优化。粗粒度的并行可以最大限的提升程序运行并行度,从而提高加速比。此外,DGL-KE 在不同进程之间通过共享内存(Shared-memory)进行模型同步,从而大大减小了进程之间的通信开销。

图3: 基于共享内存的单机多进程训练

(三)CPU-GPU 混合训练

知识图谱嵌入表示的训练过程中会产生大量的矩阵运算,而矩阵运算可以通过 GPU 来加速。对于小规模的图数据来说,DGL-KE 允许用户将完整的图模型放入 GPU 中进行训练,从而达到最优性能。然而,相比于 CPU 内存,GPU 内存要小很多,一但模型 Embeddings 的大小超过了 GPU 内存限制就无法进行训练。针对这样的场景,DGL-KE 为用户提供了 CPU-GPU 混合训练的模式。


在 CPU-GPU 混合训练模式中,模型 Embeddings 被存储在 CPU 的内存里,而 GPU 通过 mini-batch 的方式在每一轮迭代过程中将一小部分数据从 CPU 拷贝到 GPU 进行训练。为了避免 CPU 与 GPU 之间的数据拷贝开销,DGL-KE 采用异步训练的方式将数据拷贝与计算 overlap 起来。然而,异步计算会带来模型收敛速度和精确度的下降,DGL-KE 在这里采用了另一个优化,将 Entity Embedding 和 Relation Embedding 的更新采用不同的方式进行:relation 使用同步更新,而 enity 使用异步更新。

之所以这样做是因为在实际的训练过程中,relation 在很多数据集上都表现为长尾分布,即某几种 relation 类型占据绝大多数,所以异步更新会导致 relation embedding 在训练过程中产生大量的模型冲突,从而影响模型的收敛和准确性。而 entity 在训练过程通常是稀疏的,所以异步训练只会产生很小的冲突。采用这样一个简单的优化,DGL-KE 既可以保证模型训练的收敛性,又可以保证系统性能。

图4: CPU-GPU 混合训练

除了以上优化之外,DGL-KE 还提供了其他若干优化方法。例如,使用 Joint Negative Sampler 加速负采样过程,使用 Relation Partition 来减少训练过程中的数据拷贝,以及使用 Periodic synchronization 保证模型的收敛等。DGL-KE 内置了多个处理好格式的知识图谱数据集,用户可以直接下载使用。

除此之外,DGL-KE 在两个小数据集 FB15k,wn18,以及一个大数据集 Freebase 上提供了训练 Benchmark,用户可以直接通过提供的脚本复现训练结果。和已有的开源框架相比,DGL-KE 的性能优势明显,如下结果展示了 DGL-KE 与 Graphvite 在 FB15k 数据集上的性能比较,以及和 Pytorch-Biggraph 在 Freebase 数据集上的比较。

DGL-KE vs Graphvite

DGL-KE vs Pytorch-Biggraph

【end】

欢迎所有开发者扫描下方二维码填写《开发者与AI大调研》,只需2分钟,便可收获价值299元的「AI开发者万人大会」在线直播门票!

推荐阅读全球呼吸机告急!医疗科技巨头美敦力“开源”设计图和源代码使用大batch优化深度学习:训练BERT仅需76分钟 | ICLR 2020
互联网之父确诊新冠,一代传奇:任谷歌副总裁、NASA 访问科学家
微软为一人收购一公司?破解索尼程序、写黑客小说,看他彪悍的程序人生!在Kubernetes上部署一个简单的、类PaaS的平台,原来这么容易!2020年,这20个大家都认识的加密交易所过得怎么样?你点的每个“在看”,我都认真当成了AI

相关文章:

数组的各类排序

1 package sort;2 3 /**4 * 数组的各种排序操作5 * Created by liuwei on 16/3/6.6 */7 public class MSort {8 9 /**10 * 直接插入排序11 * 外层一个循环,从第2个元素开始(下标为1),遍历后面的所有元素12 * 内层一个循环,从当前位置position i 开始,每次…

Virtualbox安装使用注意

1.VirtualBox升级到4.3以后不能打开 提示创建 COM 对象失败 应用程序将被中断 解决方案:右键VirtualBox的桌面快捷方式,选择属性,选到兼容性选项卡,勾选“以兼容模式运行这个程序”,下拉框选择Windows Server 2008 …

机器学习项目模板:ML项目的6个基本步骤

来源 | DeepHub IMBA每个机器学习项目都有自己独特的形式。对于每个项目,都可以遵循一组预定义的步骤。尽管没有严格的流程,但是可以提出一个通用模板。准备问题不仅是机器学习,任何项目的第一步都是简单地定义当前的问题。您首先需要了解背景…

ib_logfile 在数据库中有何作用?

ib_logfile 在数据库中有何作用? ib_logfile0/ib_logfile1 文件在数据库中起什么作用? 如果被删除,对数据库有何影响? ----->>>>>>>>>>> 回复 #1 mugua_xinli 的帖子 用于存放InnoDB引擎的事…

Podfile 常见语法

source URL : 指定镜像仓库的源 platform : ios, 6.0 : 指定所支持系统和最低版本 inhibit_all_warnings! :屏蔽所有warning workspace 项目空间名: 指定项目空间名 xcodeproj 工程文件名:指定xcodeproj工程文件名 …

今天学完了ccna

通过10天的学习,终于学完了NA,但是会不会呢?还是个未知数,再就也一知半解的。觉得基础知识太差了,可是看书,又觉得太长了,太多了,晚上老是停电 白天啥也看不进去。热。还是静不下心&…

攀登数据科学家和数据工程师之间的隔墙

来源 | 数据派 THU机器学习的教育和研究重点往往集中在数据科学过程的模型构建、训练、测试和优化等方面。要使这些模型投入使用,需要一套工程专长和组织结构,对于其中的标准尚不存在。有一个架构可以指导数据科学和工程团队相互协作,从而将机…

js变量以及其作用域详解

2019独角兽企业重金招聘Python工程师标准>>> 一、变量的类型 Javascript和Java、C这些语言不同,它是一种无类型、弱检测的语言。它对变量的定义并不需要声明变量类型,我们只要通过赋值的形式,可以将各种类型的数据赋值给同一个变…

在A*寻路中使用二叉堆

在A*寻路中使用二叉堆 作者:Patrick Lester(2003年4月11日更新) 译者:Panic 2005年3月28日 译者序: 这一篇文章,是“A* Pathfinding for Beginners.”,也就是我翻译的另一篇文章A*寻路初探…

“Hey Siri” 背后的黑科技大揭秘!

作者 | Vishant Batta译者 | 苏本如,责编 | 伍杏玲出品 | CSDN(ID:CSDNnews)以下是译文: 如今苹果手机可随时检测并回答“Hey Siri”命令,有人可能会想,它是不是在随时记录我们的日常生活对话呢…

[ASP.NET4之旅]Circular file references are not allowed

将ASP.NET 2.0的项目升级到ASP.NET 4后&#xff0c;用VS2010编译站点&#xff0c;某些控件出现编译错误“Circular file references are not allowed”&#xff0c;比如&#xff1a; <% Control Language"C#"ClassName"NewsRight"%>解决方法&#xf…

IOS-XMPP

一、即时通讯技术简介 即时通讯技术&#xff08;IM -- Instant Messaging&#xff09;支持用户在线实时交谈。如果要发送一条信息&#xff0c;用户需要打开一个小窗口&#xff0c;以便让用户及其朋友在其中输入信息并让交谈双方都看到交谈的内容有许多的IM系统&#xff0c;如AO…

libcurl使用

官网&#xff1a;http://curl.haxx.se/libcurl/c/libcurl-tutorial.html #curl-config --libs 得到 -lcurl #cc libcurl_test.c -o libcurl_test -lcurl 所有的例子&#xff1a;http://curl.haxx.se/libcurl/c/example.html 例子&#xff1a; /***********************…

RH5.4下samba共享配置实例(3)

一、基于用户名的访问控制实例&#xff1a; 王乾大哥写的比较详细了&#xff0c;我是跟着他的教程学习的&#xff0c;按照他的教程走一边&#xff1b; 要求如下&#xff1a; 1、创建一个公共的交换文件夹&#xff0c;所有人都可以写入删除&#xff0c;但不能删除修改其他人的文…

《评人工智能如何走向新阶段》后记(再续21)

346.中国抗疫十大黑科技&#xff08;以人工智能为主力的黑科技&#xff09; 摘自数邦客&#xff08;2020.3.30发布&#xff09; 负压救护车 人工智能机器人&#xff1a;如送餐机器人、消毒机器人、服务型机器人&#xff0c;及机器人呼叫等呼吸道病毒核配检测试剂盒&#xf…

ssh-keygen

nagios npc安装后状态为off的解决方法

1、检查ndo2db的进程是不是二个 nagios 16825 0.0 0.1 6784 396 ? Ss 19:05 0:00 /usr/local/nagios/bin/ndo2db -c /usr/l nagios 17032 0.0 0.3 6784 1268 ? S 19:09 0:00 /usr/local/nagios/bin/ndo2db -c 2、检查nagios.log日志看…

C语言extern关键字定义外部变量--Redis源码extern使用

在Redis2.8中有networking.c&#xff0c;这个文件没有networking.h networking.c首先引入redis.h这个头文件 #include "redis.h" 在redis.c一开始就声明了全局变量 /* Global vars */ struct redisServer server; networking.c的createClient函数 redisClient *cr…

深度学习面试必备的25个问题

作者 | Tomer Amit译者 | 弯月&#xff0c;编辑 | 屠敏出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;在本文中&#xff0c;我将分享有关深度学习的25个问题&#xff0c;希望能够帮助你为面试做好准备。1.为什么必须在神经网络中引入非线性&#xff1f;答&#xf…

一分钟了解阿里云产品:先知计划

一、 概述 阿里云发布了各种各样的产品&#xff0c;今天让我们一起来了解下阿里云先知计划吧。 什么是先知计划呢&#xff1f; 先知计划是一个帮助企业建立私有应急响应中心的平台&#xff08;帮助企业收集漏洞信息&#xff09;。企业加入先知计划后&#xff0c;可…

C语言的HashTable简单实现

原文地址&#xff1a;http://blog.csdn.net/zmxiangde_88/article/details/8025541 HashTable是在实际应用中很重要的一个结构&#xff0c;下面讨论一个简单的实现&#xff0c;虽然简单&#xff0c;但是该有的部分都还是有的。 一&#xff0c;访问接口 创建一个hashtable. h…

GitHub标星2000+,如何用30天啃完TensorFlow2.0?

作者 | 梁云1991来源 | Python与算法之美&#xff08;ID:Python_Ai_Road&#xff09;天下苦tensorflow久矣&#xff01;尽管tensorflow2.0宣称已经为改善用户体验做出了巨大的改进&#xff0c;really easy to use&#xff0c;但大家学得并不轻松。tensorflow2.0官方文档和tenso…

【Struts2学习笔记(1)】Struts2中Action名称的搜索顺序和多个Action共享一个视图--全局result配置...

一、Action名称的搜索顺序 1&#xff0e;获得请求路径的URI&#xff0c;比如url是&#xff1a;http://server/struts2/path1/path2/path3/test.action 2&#xff0e;首先寻找namespace为/path1/path2/path3的package&#xff0c;假设不存在这个package则运行步骤3&#xff1b;假…

大话卷积神经网络CNN,小白也能看懂的深度学习算法教程,全程干货建议收藏!...

来源 | 程序员管小亮本文创作的主要目的&#xff0c;是对时下最火最流行的深度学习算法的基础知识做一个简介&#xff0c;作者看过许多教程&#xff0c;感觉对小白不是特别友好&#xff0c;尤其是在踩过好多坑之后&#xff0c;于是便有了写这篇文章的想法。由于文章较长&#x…

频繁分配释放内存导致的性能问题的分析--brk和mmap的实现

&#xfeff;现象1 压力测试过程中&#xff0c;发现被测对象性能不够理想&#xff0c;具体表现为&#xff1a; 进程的系统态CPU消耗20&#xff0c;用户态CPU消耗10&#xff0c;系统idle大约70 2 用ps -o majflt,minflt -C program命令查看&#xff0c;发现majflt每秒增量为0&…

Linux 服务器日志文件查找技巧精粹

用来在日志文件里搜索特定活动事件的工具不下几十种&#xff0c;本文将介绍搜索日志文件时应该采取的策略。然后&#xff0c;通过几个具体示例介绍一些使用grep命令手动搜索日志文件的办法。接下来&#xff0c;我们将看到 logwatch工具和logsurfer工具的用法。最后&#xff0c;…

程序猿面试什么最重要?

程序猿面试一直是社区乐于讨论的热门话题。我自己从06年实习以来。先后经历了4家软件公司。所有是外企。当中有世界500强的通信企业&#xff0c;有从事期权期货交易的欧洲中等规模的金融公司&#xff0c;也有为大型汽车制造商开发Android智能汽车的新兴公司。跨入IT行业以来。我…

open的O_DIRECT选项

http://blog.chinaunix.net/uid-223060-id-2127385.html http://blog.csdn.net/hhtang/article/details/6605951 查看磁盘分区&#xff1a; #df -h #tune2fs -l /dev/mapper/VolGroup-lv_root 或者 #dumpe2fs /dev/mapper/VolGroup-lv_root|grep -i "block size"…

2020 年,AI 芯片内存哪家强?

目前多家公司都在开发网络边缘系统的AI芯片&#xff0c;本文作者详细分析AI边缘芯片遇到的问题和挑战&#xff0c;并给出一些新的内存技术解决方案。作者 | Mark LaPedus译者 | 弯月&#xff0c;责编 | 伍杏玲封图 | CSDN下载自视觉中国出品 | CSDN&#xff08;ID:CSDNnews&…

Excel数字、文本混合列导入SQL Server出现的问题&解决办法

版权声明&#xff1a;转载时请以超链接形式标明文章原始出处和作者信息及本声明http://annie-out.blogbus.com/logs/60276495.htmlExcel文件&#xff1a;序号 姓名 内部电话 住址 1 小李 1234 …… 2 小王5678……3小张2345(国内长途&#xff09;…………………………如上结构的…