当前位置: 首页 > 编程日记 > 正文

大规模1.4亿中文知识图谱数据,我把它开源了


作者 | Just

出品 | AI科技大本营(ID:rgznai100)

人工智能从感知阶段逐步进入认知智能的过程中,知识图谱技术将为机器提供认知思维能力和关联分析能力,可以应用于机器人问答系统、内容推荐等系统中。

不过要降低知识图谱技术应用的门槛,也需要公共平台上沉淀的各种数据和技术。要构建知识生态,共同贡献知识是关键。

现在,一个名为 OwnThink 的平台在 GitHub 上开源了中文知识图谱项目,这也是目前已开源的最大规模的中文知识图谱,数据是以(实体、属性、值),(实体、关系、实体)混合的形式组织,数据格式采用csv格式,总共有 1.4 亿个三元组。

AI科技大本营(ID:rgznai100)采访了该知识图谱开源项目的算法工程师 Yener,他是开源平台 OwnThink 的作者,主要从事知识图谱、对话机器人、语义理解方面的研究。他表示,知识图谱的开发过程是一个标准的百科知识图谱构建流程,数据抽取来源于结构化数据、半结构化数据、非结构化数据,对各大百科进行抽取后,再对知识进行融合、实时更新等一系列操作。

这个项目究竟怎样?先给出 GitHub 链接:

https://github.com/ownthink/KnowledgeGraphData

在其官网上,AI科技大本营尝试使用了其知识图谱功能窗口。在输入“周杰伦”后,会看到与其相关的大量链接实体。

       640?wx_fmt=png

值得一提的是,除了开源知识图谱项目外,OwnThink 平台还开放了对话机器人、语义理解、自然语言处理工具。机器人采用了基于知识图谱的语义感知与理解,自然语言处理工具包的功能有:中文分词、词性标注、命名实体识别、关键词提取、文本摘要、新词发现、情感分析等。

640?wx_fmt=png


以下为其 1.4 亿知识图谱数据下载途径,同时还可以从网站上获取歧义关系、获取实体知识、获取属性值。

数据下载方式:


百度网盘链接: 

https://pan.baidu.com/s/1LZjs9Dsta0yD9NH-1y0sAw 提取码: 3hpp

注:解压密码是 OwnThink 首页地址:https://www.ownthink.com/

解压后查看知识图谱规模:

$ wc -l ownthink_v2.csv
140919781 ownthink_v2.csv

查看知识图谱数据:

$ head ownthink_v2.csv
实体,属性,值
胶饴,描述,别名: 饴糖、畅糖、畅、软糖。
词条,描述,词条(拼音:cí tiáo)也叫词目,是辞书学用语,指收列的词语及其释文。
词条,标签,文化
红色食品,描述,红色食品是指食品为红色、橙红色或棕红色的食品。
红色食品,中文名,红色食品
红色食品,是否含防腐剂,否
红色食品,主要食用功效,预防感冒,缓解疲劳
红色食品,适宜人群,全部人群
红色食品,用途,增强表皮细胞再生和防止皮肤衰老

使用 python 进行读取测试:

import sys
import csv

with open('ownthink_v2.csv', 'r', encoding='utf8') as fin:
reader = csv.reader(fin)
for index, read in enumerate(reader):
print(read)

if index > 10:
sys.exit(0)

运行以上脚本输出结果:


['实体', '属性', '']
['胶饴', '描述', '别名: 饴糖、畅糖、畅、软糖。']
['词条', '描述', '词条(拼音:cí tiáo)也叫词目,是辞书学用语,指收列的词语及其释文。']
['词条', '标签', '文化']
['红色食品', '描述', '红色食品是指食品为红色、橙红色或棕红色的食品。']
['红色食品', '中文名', '红色食品']
['红色食品', '是否含防腐剂', '']
['红色食品', '主要食用功效', '预防感冒,缓解疲劳']
['红色食品', '适宜人群', '全部人群']
['红色食品', '用途', '增强表皮细胞再生和防止皮肤衰老']
['红色食品', '标签', '非科学']
['红色食品', '标签', '生活']

以下为AI科技大本营对 OwnThink 平台的作者 Yener 的对话内容:

AI科技大本营:知识图谱项目是如何启动的?您一个人开发吗?服务器资源及维护费用如何解决?

Yener:我是一名人工智能爱好者,在人工智能方面不断努力着,希望有一天能够出现独立思考的人工智能机器人。为了能够实现这样的机器人,自己经常在思考,人是如何学习的?人是如何理解的?人的思考方式是怎么样的?


思考的过程中,我发现人在思考的时候好像总有一团知识混沌体围绕着自己思考的主题,也就是相关的知识,当时自己就提出了一种叫“关联图谱”的概念,这个图谱可以从一个知识联想到另外一个知识,知识之间可以包含有明确关系的关联关系,也可以包含有潜移默化的关联关系。


在学习与实现的过程中,发现谷歌在 2012 年发布了和自己所想的类似概念叫“知识图谱”,后面也就将有明确关系的关联部分从“关联图谱”中单独拆分出来,以“知识图谱”这个概念为准了。

OwnThink 的知识图谱项目是我一个人做的,并且在 2017 年开始对外开放。这个项目主要是用个人业余时间来维护,服务器资源是自己掏钱买的云服务器,当然还有网友的捐赠支持,这里也非常感谢那些帮助过、关心过 OwnThink 的人工智能爱好者。

AI科技大本营:简单介绍下这个知识图谱项目开发的过程?

Yener:知识图谱的开发过程是一个标准的百科知识图谱构建流程,数据抽取来源于结构化数据、半结构化数据、非结构化数据,对各大百科进行抽取后,再对知识进行融合、实时更新等一系列操作。非结构化抽取采用的是联合信息抽取模型,数据标注格式也是采用的(实体、属性、值)或者(实体、关系、实体)的混合标注模式,标注完就是常规训练、调参了。

AI科技大本营:为什么要开源?

Yener:我是一名人工智能爱好者,也非常期待能够独立思考的人工智能机器人到来的那一天,为了尽自己的一份绵薄之力,将这个知识图谱项目开源,让大家去了解知识图谱,去免费使用知识图谱。

AI科技大本营:对开发者以及构建行业知识图谱的企业有什么益处?

Yener:知识图谱构建重要的是一个思想,不管百科类的知识图谱,还是金融知识图谱,或者是医疗知识图谱,其实构建思想都是一样的。大家可以直接使用这个知识图谱,当然如果是想要构建行业知识图谱,这个项目也可以给大家提供一个参考,能够帮助开发者快速去了解知识图谱、去构建自己所需要的行业知识图谱。

AI科技大本营:后续的更新计划是怎样的?

Yener:目前这个知识图谱已经做到实时更新,只需要对服务器进行续费即可,后续的发展计划是融合行业的知识图谱知识,比如说金融知识图谱、医疗知识图谱等等,这些知识其实对行业是非常有用的,以后大家可以直接使用,当然数据也将会继续开源下载。

AI科技大本营:OwnThink 还开放了对话机器人、知识图谱、语义理解、自然语言处理工具,还会推出其他开源项目么?OwnThink 平台最终会朝什么方向发展?

Yener:我们后续的开源项目是语音识别和语音合成,这是人工智能机器人链路上不可获取的一项技能,人是有感知和认知的,机器人也一样,语音识别和语音合成是感知层,对话机器人是属于认知层,有了感知和认知才能算一个比较完整的人工智能机器人;语音识别和语音合成开源项目应该会在 2020 年开始,后续大家也可以在开源平台上 clone 然后直接使用这些项目。


OwnThink 最终的方向是类似于 Wikipedia 这样的组织,我们将开放接口调用,也将开源数据下载,当然也会开源代码工具等。

AI科技大本营:做开源这件事的源动力是什么?

Yener:最大的动力其实就是我的人工智能梦。兴趣是最好的老师,目前我所做的也都是兴趣驱动。希望有更多的爱好者加入我们,为开源项目做贡献。


(*本文为 AI科技大本营原创文章,载请微信联系 1092722531


精彩推荐


2019 中国大数据技术大会(BDTC)再度来袭!豪华主席阵容及百位技术专家齐聚,15 场精选专题技术和行业论坛,超强干货+技术剖析+行业实践立体解读,深入解析热门技术在行业中的实践落地。


即日起,限量 5 折票开售,数量有限,扫码购买,先到先得!


640?wx_fmt=png


推荐阅读

  • @程序员:Python 3.8正式发布,重要新功能都在这里

  • AutoML很火,过度吹捧的结果?

  • AI大佬“互怼”:Bengio和Gary Marcus隔空对谈深度学习发展现状

  • Python脚本BUG引发学界震动,影响有多大?

  • 太鸡冻了!我用Python偷偷查到暗恋女生的名字

  • 苹果 5G 芯片“难产”

  • 如果把线程当作一个人来对待,秒懂

  • C 语言这么厉害,它自身是用什么语言写的?

  • 从4个维度深度剖析闪电网络现状,在CKB上实现闪电网络的理由 | 博文精选

640?wx_fmt=png

你点的每个“在看”,我都认真当成了AI

相关文章:

使用CSS 3创建不规则图形

2019独角兽企业重金招聘Python工程师标准>>> 前言 CSS 创建复杂图形的技术即将会被广泛支持,并且应用到实际项目中。本篇文章的目的是为大家开启它的冰山一角。我希望这篇文章能让你对不规则图形有一个初步的了解。 现在,我们已经可以使用CSS…

谷歌丰田联合成果ALBERT了解一下:新轻量版BERT,参数小18倍,性能依旧SOTA

作者 | Less Wright编译 | ronghuaiyang来源 | AI公园(ID:AI_Paradise)【导读】这是来自Google和Toyota的新NLP模型,超越Bert,参数小了18倍。你以前的NLP模型参数效率低下,而且有些过时。祝你有美好的一天。谷歌Resear…

C++中extern C的使用

C程序有时需要调用其它语言编写的函数,最常见的是调用C语言编写的函数。像所有其它名字一样,其它语言中的函数名字也必须在C中进行声明,并且该声明必须指定返回类型和形参列表。对于其它语言编写的函数来说,编译器检查…

Linux之tmpwatch命令

1、tmpwatch命令功能简介[rootvms002 /]# whatis tmpwatch tmpwatch (8) - removes files which havent been accessed for a period of... #删除一段时间内未被访问的文件tmpwatch删除最近一段时间内没有被访问的文件,时间以小时为单位,节省磁盘空间。…

你不得不知道的Visual Studio 2012(1)- 每日必用功能

2019独角兽企业重金招聘Python工程师标准>>> Visual Studio 2012已经正式发布,有很多花哨的新特性,也有很多方便使用者的新功能,当然也有负面声音。对于我们程序员,最关心的还是如何快速掌握VS2012,用于平时…

C++11中std::unique_lock的使用

std::unique_lock为锁管理模板类,是对通用mutex的封装。std::unique_lock对象以独占所有权的方式(unique owership)管理mutex对象的上锁和解锁操作,即在unique_lock对象的声明周期内,它所管理的锁对象会一直保持上锁状态;而unique…

为何Google将几十亿行源代码放在一个仓库?| CSDN博文精选

作者 | Rachel Potvin,Josh Levenberg译者 | 张建军编辑 | apddd【AI科技大本营导读】与大多数开发者的想象不同,Google只有一个代码仓库——全公司使用不同语言编写的超过10亿文件,近百TB源代码都存放在自行开发的版本管理系统Piper中&#…

小小hanoi

为什么80%的码农都做不了架构师?>>> View Code #include " iostream " using namespace std; int k 0 ; void hanoi( int m , char a , char b, char c){ if (m 1 ) { k ; printf( " %c->%c " ,a , c); return…

Unity3D心得分享

本篇文章的内容以各种tips为主,不间断更新 2019/05/10 最近更新: 使用Instantiate初始化参数去实例对象 Unity DEMO学习 Unity3D Adam Demo的学习与研究 Unity3D The Blacksmith Demo部分内容学习 Viking Village维京村落demo中的地面积水效果 Viking V…

django搭建示例-ubantu环境

python3安装--------------------------------------------------------------------------- 最新的django依赖python3,同时ubantu系统默认自带python2与python3,这里单独安装一套python3,并且不影响原来的python环境 django demo使用sqlite3&#xff0c…

C++11中std::lock_guard的使用

互斥类的最重要成员函数是lock()和unlock()。在进入临界区时,执行lock()加锁操作,如果这时已经被其它线程锁住,则当前线程在此排队等待。退出临界区时,执行unlock()解锁操作。更好的办法是采用”资源分配时初始化”(RAII)方法来加…

OpenAI机械手单手轻松解魔方,背靠强化学习+新技术ADR

编译 | 夕颜出品 | AI科技大本营(ID:rgznai100)【导读】10月15日,人工智能研究机构OpenAI发布了一条机械手单手解魔方的视频。这个自学式的类人机器人手臂名为 Dactyl,不仅可以单手解魔方,甚至能在外加各种干扰&#x…

AMD and CMD are dead之js模块化黑魔法

缘由 在2013-03-06 13:58的时候,曾甩下一片文章叫:《为什么不使用requirejs和seajs》,并放下豪言说发布一款完美的模块化库,再后来就把那篇文章删了,再然后就没有然后。该用seajs还用seajs,甚至我码的SCJ都…

一文了解Python常见的序列化操作

关于我 编程界的一名小小程序猿,目前在一个创业团队任team lead,技术栈涉及Android、Python、Java和Go,这个也是我们团队的主要技术栈。 联系:hylinux1024gmail.com 0x00 marshal marshal使用的是与Python语言相关但与机器无关的二…

TEE(Trusted Execution Environment)简介

TEE(Trusted Execution Environment),可信执行环境,该环境可以保证不被常规操作系统干扰的计算,因此称为”可信”。这是通过创建一个可以在TrustZone的”安全世界”中独立运行的小型操作系统实现的,该操作系统以系统调用(由TrustZ…

自动驾驶关键环节:行人的行为意图建模和预测(上)

作者 | 黄浴出品 | AI科技大本营(ID:rgznai100)【导读】介绍一下最近行人行为意图建模和预测的研究工作,还是分上下两部分,本文为上半部分。Social LSTM: Human Trajectory Prediction in Crowded Spaces比较早的是斯坦福大学 201…

自定义windows下自动清除文件夹或者文件的只读属性的脚本

脚本内容入下:其中脚本中 ”/d"作用 (可以用来改变当前驱动器目录)例如: 我现在是在D盘,现在我要切换到C:\windows目录 脚本参数中 ATTRIB -R /S /D 解释内容如下:(上述脚本参数中的 cd …

C++11容器中新增加的emplace相关函数的使用

C11中,针对顺序容器(如vector、deque、list),新标准引入了三个新成员:emplace_front、emplace和emplace_back,这些操作构造而不是拷贝元素。这些操作分别对应push_front、insert和push_back,允许我们将元素放置在容器头…

Silverlight+WCF 新手实例 象棋 主界面-棋谱-获取列表(三十八)

2019独角兽企业重金招聘Python工程师标准>>> 在线演示地址:SilverlightWCF 新手实例 象棋 在线演示 在SilverlightWCF 新手实例 象棋 主界面-棋谱-布局写谱(三十六)中,我们完成下棋双方的棋谱显示,这节,我们为观众增加…

确认!语音识别大牛Daniel Povey将入职小米,曾遭霍普金斯大学解雇,怒拒Facebook

整理 | 夕颜 出品 | AI科技大本营(ID:rgznai100) 【导读】10 月 17 日,语音界传奇 Daniel Povey 发布推特,宣布自己 2019 年末将要入职小米,目前正在签订合同阶段,入职后,他将带领一支团队研发…

软链接与硬链接

$ ln f1 f2 #创建f1的一个硬连接文件f2$ ln -s f1 f3 #创建f1的一个符号连接文件f3$ ls -li # -i参数显示文件的inode节点信息转载于:https://www.cnblogs.com/zhizouxiao/p/3794668.html

一文读懂Python复杂网络分析库networkx | CSDN博文精选

作者 | yyl424525来源 | CSDN博客文章目录1. 简介安装支持四种图绘制网络图基本流程2. Graph-无向图节点边属性有向图和无向图互转3. DiGraph-有向图一些精美的图例子环形树状图权重图Giant ComponentRandom Geometric Graph 随机几何图节点颜色渐变边的颜色渐变Atlas画个五角星…

C++11多线程中std::call_once的使用

C11中的std::call_once函数位于<mutex>头文件中。在多线程编程中&#xff0c;有时某个任务只需要执行一次&#xff0c;此时可以用C11中的std::call_once函数配合std::once_flag来实现。如果多个线程需要同时调用某个函数&#xff0c;std::call_once可以保证多个线程对该函…

Solaris 上网配置

2019独角兽企业重金招聘Python工程师标准>>> 早上装solaris10系统的时候&#xff0c;没选默认&#xff0c;选了desk-session模式安装。全英文无界面安装&#xff0c;中间还跑出几个乱码。 靠着随便选随便F2&#xff0c;终于安装完了。 就在那设完分辨率后&#xff0…

Configure,Makefile.am, Makefile.in, Makefile文件之间关系

为什么80%的码农都做不了架构师&#xff1f;>>> 1.autoscan (autoconf): 扫描源代码以搜寻普通的可移植性问题&#xff0c;比如检查编译器&#xff0c;库&#xff0c;头文件等&#xff0c;生成文件configure.scan,它是configure.ac的一个雏形。 your source files…

这款耳机一点不输千元级的AirPods

你如果问我&#xff1a;生活中你觉得必不可少的一件电子产品是什么&#xff1f;那么我会毫不犹豫的回答你&#xff1a;是耳机&#xff01;出门忘带耳机是绝对不能忍听不听没关系&#xff0c;但是有它比较安心我觉得生活中不仅是我很多人都对耳机有一种依赖因为很多人都喜欢音乐…

CUDA Samples: Image Process: BGR to Gray

在图像处理中&#xff0c;颜色变换BGR到Gray&#xff0c;常见的一般有两种计算方式&#xff0c;一种是基于浮点数计算&#xff0c;一种是基于性能优化的通过移位的整数计算。浮点数计算公式为&#xff1a; gray 0.1140 * B 0.5870 * G 0.2989 * R;整数计算公式为&#xff1…

CYQ.Data 数据框架系列索引

2019独角兽企业重金招聘Python工程师标准>>> 索引基础导航&#xff1a; 1&#xff1a;下载地址&#xff1a;http://www.cyqdata.com/download/article-detail-426 2&#xff1a;入门教程&#xff1a;http://www.cyqdata.com/cyqdata/article-cate-33 3&#xff1a;购…

Tesseract 3 语言数据的训练方法

OCR,光学字符识别 光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描&#xff0c;然后对图像文件进行分析处理&#xff0c;获取文字及版面信息的过程。OCR技术非常专业&#xff0c;一般多是印刷、打印行业的从业人员使用&#xff0c;可以快速的将纸质资料…

Windows C++中__declspec(dllexport)的使用

__declspec是Microsoft VC中专用的关键字&#xff0c;它配合着一些属性可以对标准C/C进行扩充。__declspec关键字应该出现在声明的前面。 __declspec(dllexport)用于Windows中的动态库中&#xff0c;声明导出函数、类、对象等供外面调用&#xff0c;省略给出.def文件。即将函数…