知识图谱,下一代数据中台的核心技术
作者 | 杨威,明略科技技术中心负责人
编辑 | 夕颜
出品 | AI科技大本营(ID:rgznai100)
本文为CSDN即将推出的《新战场:决胜中台》专刊的第 3 篇文章。
【导读】数据中台火的十分突然,似乎年前还在炒概念,年后突然就冒出来各种中台的实践。当然其中有跟风的因素,但根本原因在于,“数据”的价值正在越来越受到企业的重视,数据正在成为企业最核心以及最重要的生产资料,成为决定企业业务转型的关键因素。企业需要一个源源不断的输出数据服务,数据洞察的能力源泉,数据中台的出现就成了顺理成章的事情。
提到数据中台,就先要了解什么是中台,对于中台的建设,大都是跟随阿里中台的方法论(来源于其 2015 年提出的「⼤中台,⼩前台」战略)。中台的作用在于打通固有多业务系统之间的数据壁垒,融合各个不同业务系统间所产生的数据,通过数字化的运营和驱动来支撑前端业务的快速变化,从而产生更大的价值。而新一代数据中台,在融合数据的基础上,更要关注是否能够积累和沉淀行业Know-How,将数据智能和组织智能融合,形成行业智能,更敏捷更快速的响应前端业务的变化,更好的协作创新。
中台虽火,但并不是所有企业的标配。这需要看企业的发展阶段,有些企业可能处于比较早期的阶段,未必需要很强大的中台支持,可能像大型企业的一个独立的BU方式就可以快速发展了。
在明略科技的实践中,我们总结来看大型企业才是中台的主要用户人群。这类企业本身一般来说规模和体量相对比较大,业务相对比较复杂,以前IT系统建设也比较多,目前开始从原有传统行业转到在线业务行业,甚至做线上下结合的场景,这就到了数字化转型的时机,因此中台部门会起到比较大的作用,会打通原有很多业务系统的壁垒,融合各个不同业务系统产生的数据,通过数字化的运营和驱动促使业务敏捷迭代,从而发挥更大的价值。
只是为了规避烟囱化问题的中台 不是好中台
中台落地的根本促因之一是规避企业系统的烟囱化问题。有了中台之后,企业第一步做的是把系统拉平,建立中台平台型的组织来支撑企业内数个系统里共性的技术或是数据或是业务,比如数据中台,就是把数据全部汇聚到这个平台组织上。企业中组织的方式,一般是按照面向业务过程的数据组织方式,从存储角度来看,数据就是一张张独立的表结构,如常用的会员表,订单表等,但表与表之间无法在数据层面直接连接打通,而是需要通过外在的辅助工具,例如字典表、元数据系统等,才能进行数据梳理与逻辑分析。所以这种形式只实现了数据存储上的物理集中,而不是真正的数据层面的逻辑集中。这种数据组织形式,更多适用于统计分析等较为简单的计算场景。这样建设的中台只是起到了整合及存储作用,自身并不智能。
具有行业Know-How的数据中台才能被持续使用
针对上述场景中,在明略科技为客户构建中台过程中,我们会把所有的隐性语义全部显性放在图谱里面表示,一个人和哪些商品有购买关系,和哪些商品有浏览关系,原来在数据字典里面定义的隐性的关系全部都有显性语义化放在图谱面呈现出来,所有的数据都被连通和打通。这就使得数据中台不仅仅是一个技术平台,而是有了一个持续运营的业务体系视角,且持续使用会呈现智能化的。
明略科技为企业建设的是新一代的以知识图谱为行业Know-How的载体,沉淀行业业务规则与算法模型,同时提供实时反馈系统,这是一个企业智能化建设过程,并且只有智能化才能增加中台的实用性和使用率。
基于明略数据中台的定位,在设计构建时,我们把数据协作的高度看到了企业组织运营层面,我们希望使用中台的人通过数据进行协作。
中台毕竟是一个巨大的系统和体系,需要不同的人进行相互之间的协作。这个协作,包含有几个含义:提升每一个人对于数据的信任度。通过监控每一个数据的生命全周期,生产-处理-消费的全过程,以及过程中所相关的人和这个人做的操作,将这些操作和代码统一管理起来,全流程可视化,每一个人都可以详细看到每一个的进程,可以大大提升开发者对于系统和数据的信任度。
同时这一过程是可以被沉淀的。以前大家使用数据的方式,经常提走一份数据,在我自己的电脑上做分析之后出来一个结果产生一个报告,就拿走了。但其实中间分析过程、计算过程和报告的洞察insight是没有积累下来,没有办法很快被分享。在我们的中台上,我们希望整个的计算过程和所有的计算结果是可以被写回到后面的中台和图谱里面去,所以这些洞察insight和过程都会保留下来,可以被其他的人分享、复用,是数据协作的理念。
打造真正为“业务而生”Data API 才能实现人机协同
DataAPI是数据中台的核心,是能让数据中台真正发挥价值的关键,是未来企业实现人机协同的关键,在明略科技看来,将知识图谱引入到数据中台体系内重要原因之一就是可以让DataAPI真正为了“业务而生”。
当我们将知识图谱引入到数据中台后,实现了面向业务领域的数据组织方式。明略科技通过知识图谱技术,将知识图谱融入在中台数据模型这一层,用包含概念、实体、关系、事件、标签、指标的知识图谱统一视图来定义面向领域的数据模型,并将所有隐性的语义,全部以显性的形式放到知识图谱里进行呈现,将领域知识图谱作为数据中台的数据底座,从而实现面向业务领域数据组织方式的转变。基于图挖、机器学习技术来实现隐性关联关系挖掘,并以此来满足图谱节点相似度测算、节点重要性测算、关系图中的频繁模式子图、多节点子图挖掘、社区发现、两两关联、聚类等业务需求,这些复杂计算和挖掘场景,是传统数仓模式无法支持的。
明略科技领域知识图谱落地流程图
明略科技:基于Daas+SaaS层的中台建设定位
在整个生态里面,明略科技的中台属于DaaS+SaaS层的建设,一方面我们结合平台型厂商,比如像腾讯、华为这一层为主,同时我们数据中台是国内适配云能力最强的一个中台,几乎所有的云我们都适配过,无论是共有云还有私有云等等,这是往下生态的一个能力。同时,我们整个中台是非常开放,基于知识图谱分析,通过Data API将明略科技的数据汇聚能力、数据治理能力、数据知识图谱构建和知识图谱存储的能力与其他ISV合作。
在为各行业客户构建了数据中台后,明略科技基于机器学习和深度学习技术,将行业知识进行沉淀成算法模型,迭代成智能化应用供客户使用。明略科技发布的面向高端设备运维推出的“智能运维”解决方案,面向数据采集场景推出的“泛在感知”解决方案,以及面向零售行业推出的“明略智慧零售全渠道业务+数据中台”解决方案,都是基于这种思路。
数据中台未来:知识图谱是下一代数据中台最核心的技术
下一代数据中台最核心的技术是知识图谱,因为它可以实现探索式的分析。数据的结构有链表、二位表、栈、队列、堆、数,最复杂的其实就是图,因为在海量信息中,图连接了任意两个点之间的关系。Excel 表只有横竖,所有的数据分析只能按行或者按列。而知识图谱可以给数据库带来的革命,是任何两个数据节点之间都可以建立关系,当把这个关系建立好以后就有机会按照这个维度来进行分析、关联、探索,这就像人的大脑一样。
人的大脑里没有“行”和“列”,只有“图”。所以当你用大脑计算逻辑思考这个世界时会发现,你可以探索发现很多东西,这就是为什么人类可以做创造,而如今机器人都很难做到创造的原因,因为人类可以探索、发现,找到一些你从来没有想到的东西,通过“图”的数据结构不停延展。未来后台的数据中台,可以把“头脑风暴”得到的想法连成知识图谱。上一代数据中台不做知识图谱,原因很简单,因为太贵了,原来把任何两个数据连上,数据量就已经很大,计算成本高昂。但是,幸运的是未来人类的计算机存储的成本会越来越低,存储量越来越大、计算速度越来越快。
未来一定是不断地消耗计算机的时间和空间来节省人类的时间,所以知识图谱最终一定会替代上一代数据平台的存储。未来,所有的数据并不是以矩阵结构、立方体的结构来存储,而是图状结构。人平时思考多,用的时候就可以更快,这就是知识图谱本质的原理。每一个行业的每一个数据中台,将来都应该这样做存储。
此外,企业打造了数据中台,也一定要有业务中台,否则数据中台就是个“空架子”,没有可以服务的对象。从数据中台到业务中台,无论是架构、技术接口还是逻辑,都能够通过行业知识图谱这样统一的数据和业务语言进行无缝链接,实现对上层业务更加强有力的支撑。
2019年是数据中台元年,接下来,明略科技的新一代数据中台建设将贯穿更多业务场景,让数据服务于业务决策,实现数据到智慧的转换,挖掘智能时代的新机会,最终实现人机同行的美好未来。
(*本文为AI科技大本营约稿文章,转载请微信联系1092722531)
◆
精彩推荐
◆
推荐阅读
你点的每个“在看”,我都认真当成了AI
11年艺术学习“转投”数学,他出版首本TensorFlow中文教材,成为蚂蚁金服技术大军一员
清华官宣:前百度总裁张亚勤正式加盟清华大学
小米回应“米家”商标争议;人人 App 回归社交市场;TiDB 2.1.19 发布| 极客头条
迁移学习前沿研究亟需新鲜血液,深度学习理论不能掉链子
详解GPU技术关键参数和应用场景
链版“微信”,27 岁身价达 2.5 亿美元
“微软让我损失了两亿美金!”
太逆天!程序员当总统、拿下《国家地理》全球总冠军、成著名歌手!
区块链重塑人类社群生态
相关文章:

StoneAge Dict 技术方案的可行性[1]
上次和项目经理讨论了技术选型的事,现在简单地说一下,等下次开会再系统地讲。1. 平台环境:Java1.52. 用户接口:Web: JSP, JSFSpring2.5xDesktop: JavaFX3. 技术:dictzip(解析StarDict词库), XML因为StarDict是目前很受…

using的几种用途
using 常用来引用命名空间 1 using System; 2 using System.Data; 3 using System.Data.SqlClient; 4 using System.Collections.Generic; 5 using Model; 6 using IDAL; 7 using DBUnititly; using另一个用途是给类和命名空间指定别名 1 using spacename system.io2 3 using…

以金山界面库(openkui)为例思考和分析界面库的设计和实现——资源读取模块分析
按照软件的执行流程,我们首先遇到《以金山界面库(openkui)为例思考和分析界面库的设计和实现——问题》中提出的最后一个问题:界面描述文件的放置位置。我们曾提出一种方案:将界面描述文件打包后放在资源文件中&#x…
开发者如何赶上5G风口?
随着5G正式步入商用,5G 技术引发广泛关注。据信息通信研究院《5G经济社会影响白皮书》预测,2030年,5G将直接带动的总产出、经济增加值、就业机会分别为6.3万亿元、2.9万亿元和800万个。据BOSS直聘 《2019年5G相关人才数据观察》报告指出&…

使用C# 3.0编译器编译 Asp.Net 项目代码
只需要在 web.config 里添加这样的一段设置就OK了:<configuration><system.codedom><compilers><compiler language"c#;cs;csharp"extension".cs"type"Microsoft.CSharp.CSharpCodeProvider,System, Version2.0.0.0, Cultureneu…

java 它 引用(基本类型的包装,构造函数和析构函数c++不同)
一个:java 和c参考控制 他提到引用,我们会想到java它不喜欢c里面的指针。当然java内引用和c里面的引用是不同的。 比如: 比方C中,我对某一个函数的声明。int a(int &b),b即为引用类型,函数内b的改动能够…

使用程序解决一道逻辑推理题
今天看朋友发了一个老问题,一道很有意思的推理题:(转载请指明出于breaksoftware的csdn博客) 小明和小强都是张老师的学生,张老师的生日是M月N日,2人都知道张老师的生日是下列10组中的一天: 3月4…

AjaxControlToolKit之DragPanelExtender用法
1、将控件ToolkitScriptManager拖至页面中...2、定义3个Panel,用于实现窗体拖动效果,代码如下:1<body>2<form id"form1"runat"server">3<div>4<cc1:ToolkitScriptManager ID"ToolkitScriptMan…
自带数据线的迷你数显充电宝,旅途必备
还有20多天就过年了有件极其考验情商的事情也来临了就是我们这群90后过年最怕的事情——相亲但是在尴尬的场合手机可是一个缓解气氛的好东西不管是想要选择看电影,还是找附近的游玩只要有手机,就可以从容不迫的应对但是带手机最尴尬的事情莫过于结账的时…

SpringJDBC的简单应用
此处写上应用JdbcTemplate的dao操作数据库的一些代码(含基本的增删改查,注:重点是查询出多条语句的写法): package org.sakaiproject.zhaorui.dao.impl;import java.sql.ResultSet;import java.sql.SQLException;impor…

WMI技术介绍和应用——查询硬件信息
这个月实在太忙了,一直没有时间去继续写WMI的应用例子。 本来是希望将《WMI技术介绍和应用》系列博文写的像WMI百科全书般,但是貌似对这个技术感兴趣的同学并不多,所以我决定对部分知识点点到为止,有需求的同学可以查询MSDN相关类…
微软开源的自动机器学习工具上新了:NNI概览及新功能详解
作者 | 宋驰来源 | 微软研究院AI头条(ID: MSRAsia)2018年9月,微软亚洲研究院发布了第一版 NNI (Neural Network Intelligence) ,目前已在 GitHub 上获得 3.8K 星,成为最热门的自动机器学习(AutoMLÿ…

10624 - Super Number
题目链接 题意:给出n到m的范围,求出一个数在前i位数组成的数字能被i整除。假设存在输出这个数,假设不存在。输出-1. 思路:回溯,每次放第i位,然后推断是否符合题意。这题踩着时间过去的2.6s(看了…

2008找回企业久违的网速
曾几何时,单位上网访访问页面也是忽忽的,等待10秒简直是不可忍受;曾几何时,公司网络下载是嗖嗖的,转眼已是2M开外;曾几何时,办公室上网看视频是杠杠的,那流畅那画面都快赶上电视直播…

发现一个windows7(32bit或64bit)DirectUI的bug
前段时间发现一个windows7的一个bug,不是什么严重的问题,我在此记录下。(转载请指明出于breaksoftware的csdn博客) 重现步骤如下: 0 在文件夹的“更改您的视图”中选择下图中用红色叉叉标记的项 1 新建一个文件夹名为“Cs" 2…
阿里达摩院2020趋势第一弹:感知智能的“天花板”和认知智能的“野望”
作者 | Just出品 | AI科技大本营(ID:rgznai100)“感知智能与认知智能是相辅相成的关系。认知智能需要感知系统来进行信号处理和概念识别,而感知系统也需要认知系统的反馈来决定如何进行更有效的提取和识别。”1月2日,阿里巴巴达摩…

Java 对synchronized的补充Lock锁
Java并发编程:Lock 从Java 5之后,在java.util.concurrent.locks包下提供了另外一种方式来实现同步访问,那就是Lock。 也许有朋友会问,既然都可以通过synchronized来实现同步访问了,那么为什么还需要提供Lock࿱…
有奖评选 | 2020年的AI技术公开课,你想听到哪些干货?
CSDN技术公开课有奖评选开始啦~~听过课的小伙伴们,哪位讲师的分享让你获益匪浅?记得给TA投票哦!投票后获取入群方式,参与抽奖,奖品很丰厚哦~~进入付费时代,如今我们看似只要招招手,一切知识随手…
一个分析“文件夹”选择框实现方法的过程
在软件开发中,我们如果存在“导入导出”的场景时,难免会用到“文件夹”选择框。之前一直没有太关注过这个的实现过程。最近在工作中遇到了一些问题,我做了一些研究。在此记录下研究的过程。(转载请指明出于breaksoftware的csdn博客…

Openssl req命令
一、简介 req指令用来创建和处理PKCS#10格式的证书 二、语法 openssl req [-inform PEM|DER] [-outform PEM|DER] [-in filename] [-out filename] [-text] [-pubkey] [-noout] [-verify] [-modulus] [-nodes] [-subject] [-passin arg] [-passout arg] [-key filename] [-key…
使用windbg抓取崩溃文件和分析的过程
在软件编程中,崩溃的场景比较常见的。且说微软技术再牛X,也是会出现崩溃的场景。网上有一段Win98当着比尔盖茨蓝屏的视频非常有意思。 (转载请指明出于breaksoftware的csdn博客)我们身边的很多软件都引入了dump生成和收集机制。但…
TF 2.1.0-rc2发布,2020年停止支持Python 2
作者 | 神经星星来源 | HyperAI超神经(ID:HyperAI)【导读】2020 年 1 月 1 日,Python 2 停止维护,正式退休。Python 3 全面登场的时刻,TensorFlow 也在悄悄改变。近日 TensorFlow 官方 GitHub 账号中,发布了…

重新认识笔记本锂电池的保养
重新认识笔记本锂电池的保养 对于笔记本电脑来说,电池可以说是一个比较重要的部件,它的效能直接关系到笔记本电脑在缺少电源的环境中的工作能力。而电池在笔记本电脑的众组件中又算是一个不折不扣的消耗品,因此涉及到笔记本电脑电池的保养和合…

nginx转发及后端服务器获取真实client的IP
针对nginx的模块介绍可以查阅wiki:http://wiki.nginx.org/Modules常用模块:HTTP CoreProxyRewriteUpstream 原理:squid,varnish以及nginx等,在做反向代理的时候,因为要代替客户端去访问服务器,所以…

AJAX的组成应用
表示层XHTMLCSS 动态显示和数据 DOM (文档对象模型)数据交互和操作 XML,XSLT 异步数据获取 XMLHttpRequest 绑定和处理数据 JavaScript XMLhttpRequest对象属性:Number readyState 4 表示完成Function onreadystatechange 回调函数string responseText XMLDocument responseXM…
打开,保存文件框的文本溢出排查
工作中遇到的这个问题还是很有意思的。其中嵌套了很多奇葩性的问题。 (转载请指明出于breaksoftware的csdn博客)我们来看下故事的发生过程,QA同学发现我们存在如下的bug 看到如此多的串,可以认为这个是典型的溢出问题。后来我咨询…
2020年,为什么说入坑AI是最好的时机?
2019年可以说是AI全面落地和商用的一年,产业智能化成为各个行业重点关注的发展方向,交通、工业、农业、医疗等主流行业无一例外。随着人工智能技术的进一步发展和落地,深度学习、数据挖掘、自动程序设计等领域也将在更多应用场景中得到实现。…

IIS 伪静态配置(安装ISAPI_Rewrite配置)
第一:首先到官方网站下载ISAPI_Rewrite 我的机子是32位的就下32位免费版的,链接地址如下: http://www.helicontech.com/download/isapi_rewrite/ISAPI_Rewrite3_0064_Lite.msi 可以选择不同版本:http://www.helicontech.com/downl…
Github标星24k,127篇经典论文下载,这份深度学习论文阅读路线图不容错过
作者 | Floodsung翻译 | 黄海广来源 | 机器学习初学者(ID:ai-start-com)【导读】如果你是深度学习领域的新手,那么你可能会遇到的第一个问题是“我应该从哪篇论文开始阅读?”本文就是一篇深度学习论文的阅读路线图!该…

c/c++面试
1. static在c,c中有什么不同点2. 堆和栈的区别3. 纯虚函数4. 指针和引用的区别5. 如果构造函数出错,如何处理?6. 对设计模式是否熟悉,用过哪些?7. c如何使用c中的函数,为什么?整理:1…