新战场路在何方——详解360金融数据中台之旅
作者 |360金融架构总监黄建庭
出品 | AI科技大本营(ID:rgznai100)
本文为CSDN即将推出的《新战场:决胜中台》专刊的第 4 篇文章。
自阿里巴巴引入中台概念后,市场对中台的关注度持续“高烧”不退。作为企业的基础平台,数据中台贯彻了整个数据生命周期。然而究其根本,数据中台不是一门技术,而是一种数据治理的方式,是把原来分散在业务系统中的各种数据进行集中管控,统一分发,从而真正的将组织积累的数据变成流动资产,进而变数据为生产力。
当平台遇上中台
说起数据中台,很多人会问跟数据平台有什么区别?简单来说,数据中台是数据平台发展的演进结果,二者在业务思维和价值导向上存在根本区别。
如果说数据中台的标签是业务导向,那么与之相对的则是数据平台的工具导向。在中台凭借业务需求驱动,为前台业务创造数据产品能力,完成数据的业务价值化的过程中,平台主要建立了一个与实际业务无关的系统。从价值导向来看,数据中台以终为始,基于前台业务系统或BI分析的数据需求,实现寻找和创造数据价值的服务能力,而数据平台则更注重基于现有数据寻找业务价值场景。
拆解系统框架不难发现,传统数据中台可以分为数据存储、数据治理、数据开发、数据服务四个部分,通过各环节的有机结合,更好地理解和挖掘数据价值。
对于以上框架,我们不妨从功能角度进行解读。数据存储主要具备汇集、存储企业所有业务数据的能力,通过对全域数据收集,完成业务数据化;数据治理提供数据资产化管理能力,主要功能聚焦对数据的规划与治理;数据开发提供数字资产向业务转化的能力,基于数字资产协作与共享进行业务价值的探索,从而实现数据业务化目标;数据服务则提供数据服务化能力,旨在为各业务线提供数据产品的出口,如:BI展示、API接口等。
在360金融技术团队看来,数据中台是数据平台发展到一定阶段的必然产物,也是企业级数据能力泛化的服务体系,其最现实的价值之一,是为企业各业务线提供快速复制的数据能力。数据中台的开发与应用,利用对数据的分析与探索,实现了开发多元化数据服务的目的,从而解决了业务的‘烟囱式’建设,带来的数据孤岛及数据价值无法共生协同的问题。这也是360金融涉足数据中台领域的初衷。
从平台到中台的质变
既然中台化是平台发展到一定阶段的必然过程,那么面临业务向多元化、国际化进行战略调整的360金融,如何将大数据风控能力通过搭建数据中台快速复制到其他业务线?
数据中台是360金融中台化的首个中台建设项目,期望通过快速的数据开发和复制能力,支持业务快速创新,具有从0到1的里程碑意义。
业务数据化、数据资产化、数据业务化是360金融数据中台建设的3个目标,从期望实现的功能来看,3个目标彼此支撑并最终实现业务转化。
业务数据化:各种业务数据化沉淀和收集,对数据进行加工、清洗、转换,实现业务数据化。
数据资产化:对各种业务数据资产化规划与治理,建立ODS操作数据层、DWD/DWS主题域数据聚合层、ODS数据服务层。通过资产大盘,数据地图等形式展现数字资产。
数据业务化:基于业务的数据需求,各业务线数据共享,通过对数字资产进行探索与分析,借助AI技术发挥数据价值,最终反哺业务,为在线业务提供数据服务,将数据能力快速复制。通过BI平台为业务运营、战略制定提供科学决策的依据。
以上目标落实到具体实施中,大致可将360金融数据中台建设分为三个阶段,即强化数据开发阶段、数据资产化管理阶段和数据服务多元化阶段。在此过程中,360金融技术团队引入精益创业的MVP原则,即验证最小可行产品,集中力量分阶段重点解决不同的问题。
阶段一:强化数据开发
强化数据开发阶段的重点是解决数据开发效率问题。如果说利用AI技术进行数据挖掘是360金融的法宝,那么数据中台如何提升AI数据挖掘的效率以及如何提升AI数据挖掘到应用的效率?“工欲善其事,必先利其器”,从数据探索到AI能力上线整个闭环的效能提升,360金融数据中台团队研发了360金融PAI平台和AI应用全链路闭环。
360金融PAI是360金融自主研发的AI建模平台,平台功能包含数据探索、AI建模、部署执行等重要模块,这是数据中台的基石。
1、360金融PAI
数据探索是360金融PAI平台最重要的一个工具,功能利用数据字典、即席查询、数据抽取等模块,实现了从发现数据到数据分析、加工的作用。以即席查询(如下图所示)为例,即席查询通过友好、便利的操作界面,支持SQL提示、多查询引擎、函数查询、权限控制等功能,并向数据抽取环节输出相关结果,数据抽取通过定时执行SQL,将数据抽取到特征表,从而达到支持DAG流式数据抽取的目的。
区别于数据探索的基建功能,AI建模更注重提升工具的效率与易用性。在工具使用方面,360金融更注重在引用的同时,进行结合平台特征的优化改造,如对JupyterHub多租户方案的采用过程中,在常规设置每个用户固定的实例资源配置的同时,数据中台团队还对其采用了以下几个优化:
JupyterHub On YARN:使用JupyterHub多租户方案,并运行在YARN上,所有用户共享集群资源,启动JupyterLab时向YARN提交任务创建实例,使用完后释放资源,使集群资源合理利用。
动态设定实例资源配置:默认实例配置统一设置,多用户不同需求下比较浪费资源。每次用户打开JupyterLab开启一个实例时,根据不同需求自主选择实例的资源配置,大部分使用低配置的服务即可,少量用户需要在JupyterLab上做大数据模型训练,可以选择高配置,达到集群服务资源利用最大化。
HDFS与本地双向同步更新:hdfscm插件默认读写hdfs远程文件,用户需要在JupyterLab页面读写操作本地文件,通过修改插件,建立双向同步更新机制,确保远程与本地文件一致,对用户使用方式透明。
扩展认证机制:扩展认证机制支持内部系统认证。
2、AI应用全链路闭环
AI应用全链路闭环优化关键在于特征工程,特征工程平台准实时产生特征数据,模型引擎从特征工程平台获取数据执行,结果准实时同步到加密仓库,在PAI平台进行模型效果验证,验证通过后,一键发布到生产环境。极大缩短模型从产生到生产应用的周期,从原来的周级到天级,甚至是小时级。
阶段二:数据资产化
数据资产化阶段重点解决数字资产规划、资产展示等问题,将杂乱的数据通过规划转换为有价值的数字资产,通过资产大盘界面化的方式呈现出来,可以帮助所有数据业务场景更快找到合适的数据,也可以通过结构化资产衍生出新的业务场景。
数据是数据中台的核心要素,数据能力建设的根本之源,做好数字资产规划有利于开发出更多的数据产品服务。寻找数据是这个阶段一个重要任务,深入各个业务环节,将所有业务数据化,输入到中台,形成化学反应,变为数字资产;基于资产规划,寻找缺失数据,创造业务场景,反向推动业务发展。
阶段三:数据服务多元化
数据服务多元化阶段重点解决多元化数据产品能力开发问题,数据中台的核心价值是提供具有业务价值的数据服务,解决数据孤岛问题,将企业所有数据集中形成协同效应,产生更多有价值的数据产品。
这个阶段重点需要挖掘新的业务数据需求,以业务价值为导向,业务思维驱动,中台人员深入各业务线调研交流,了解业务场景、业务数据需求,将需求转换为数据服务能力。
企业数据的局限性会影响到数据能力的发挥,跨企业的数据协同也是这个阶段要去尝试的一些事情,目前业界在尝试联邦机器学习、可信计算、区块链技术来解决跨企业数据孤岛问题,让数据安全流动起来,形成协同效应,创造更大价值,创造新的商业模式。
数据中台全景架构
360金融数据中台是从数据平台到中台的演进结果,思路是依据前文所述数据中台概要架构为指导,分多阶段解决不同的问题,在数据平台的基础上不断丰富完善,全景架构如下图所示。
数据开发:将数字资产转换为数据产品服务的平台,具备数据的业务价值探索与分析能力。
资产管理:通过资产规划、数据治理等手段将数据转换为数字资产,建立数据的安全保障机制,全库加密脱敏,细粒度权限控制。
采集层:制定数据采集标准,全域采集各业务线数据。
计算层:水平可扩展的计算能力,实时流计算与离线计算,界面配置化管理。
垂直领域层:也称为数据湖,汇集各业务领域同构数据,经过加工、转换存储,数据从源头到仓库全生命周期加密存储。
主题域层:数据的衍生,根据不同的主题域,将同一实体的各种数据集中在一起,数据的共享与协作,基于此可以产生更大的业务价值。
服务层:提供三大服务,为业务产品提供业务数据化的数据资产化服务;为经营决策提供数据智能展示服务;为业务中台或前台业务系统提供数据产品服务,也可以进一步开放,为外部生态提供数据服务。
数据中台三大实践理念
360金融数据中台建设经历了从0到1的质变产出,目前已实现了AI技术应用全链路闭环,并在业务应用中不断进化强大。数据中台的1.0建设,实现了AI技术应用效率的提升,其业务表现从周级缩短至天级,成为里程碑级的成果。
与此同时,360金融数据中台团队在实践过程中,对数据中台的理解又进一步加深:数据中台是数据平台进化的产物,是数据平台的一次自我革命。在市场过热的背景下,确保数据中台建设以实际业务为切入点落地,才能避免纸上谈兵的现象。
其一,确保优势业务先行。企业如何自然进化为中台?过程来说,应从最强势业务出发,逐步建设好能力,再拓展到其他的业务,甚至赋能行业。360借条是360金融的核心业务,对数据价值能力的诉求最强烈;对于创新业务,将借条的互联网风控能力复制到其他产品线,更是降本增效、降低试错率的最佳途径。因此在定义实施路径的过程中,采用了优先考虑360借条的诉求,兼顾其他产品线需求的策略。
其二,组建虚拟组织。中台化建设的核心就是技术业务一体化,对外提供业务价值能力。然而在实际操作中,业务、技术往往属于两个不同的职能部门,无法达成目标的一致性,是中台建设面临的最大难题。360金融组建虚拟团队解决了中台建设过程中的统一组织问题,KPI一致化,数据分析、算法、技术形成一个数据中台组织群,为了共同的目标努力,适合项目制运作。事实证明,虚拟组织形式可以是一种试错模式,其最大价值在于反应的敏捷快速。
其三,确保业务价值驱动。中台跟平台最大的差别是输出符合业务场景的数据能力,能力产生过程对业务中台或前台应用透明。业务价值驱动要求中台人员根据业务场景找数据、建设能力,以满足业务需求。在资源投入上更加有针对性,聚集资源解决关键问题。在360金融数据中台的建设过程中,团队优先满足AI能力应用效率优化,并基于业务价值的实现需求,去建设能力,寻找数据,在最短的时间内发挥出数据中台的价值。
数据中台未来演进目标
数据中台未来会演变成什么还不得而知。但从360金融数据中台这一案例的演进可知,数据中台建设一定是基于企业战略,并通过实际业务反复锤炼方可成形。从当前中台建设的情况,以及对未来趋势的判断,360数据中台未来重点会在深入AI化、数据产品多元化两个方面继续发力,实现快速复制数据能力,支持业务快速创新的愿景。
AI大规模应用伴随着计算机硬件技术的发展以及大数据的产生,AI是数据挖掘的最佳技术,如何更深入利用AI挖掘数据的业务价值是重中之重。360金融数据中台将在联邦机器学习和迁移学习方面持续投入,一方面在利用联邦机器学习技术解决跨机构之间数据安全共享问题的同时,充分提升边缘计算解决移动端AI建模、计算解决数据安全使用问题的能力;另一方面,利用迁移学习辅助成果的复用效率,衍生其他的AI能力。同时,AutoML也将作为重点领域,全面提升技术自动化学习效率,无监督、无干预的实现机器学习到合适的参数和配置而无需人工。
技术的价值在于应用,做“有梦想的数据中台”决定了产品多样化落地的终极目标。360金融数据中台将通过不断完善服务形式,加深BI挖掘,从而为业务决策、战略决策提供更好的支持。数据中台本质上是方法论,通用的方法论并不存在。360金融数据中台的未来目标是定制化的数据服务支持,希望借助中台更好释放数据价值。
《新战场:决胜中台》专刊已发布文章链接:
平安科技智能认知的“中台战事”
易观的大数据中台之路
知识图谱,下一代数据中台的核心技术
(*本文为AI科技大本营约稿文章,转载请微信联系1092722531)
◆
精彩推荐
◆
推荐阅读
阿里达摩院2020趋势第一弹:感知智能的“天花板”和认知智能的“野望”
基于强化学习的自动交易系统研究与发展综述
如何写出让同事膜拜的漂亮代码?
AMD或推出64核128线程HEDT平台;地平线即将推出新一代自动计算平台;阿里达摩院公布2020十大科技趋势……
2019最烂密码榜单出炉,教你设置神级密码!
腾讯回应“暴力裁员”;小米否认常程与联想签有竞业禁止条款;NumPy 1.16.6 发布 | 极客头条
GitHub Action 有风险?!
骗了马云 10 亿被骂 4 年后,院士王坚留下 4 条人生启示
万字长文回望2019:影响区块链行业发展的9大事件
你点的每个“在看”,我都认真当成了AI
相关文章:

oracle中的exists 和not exists 用法详解
有两个简单例子,以说明 “exists”和“in”的效率问题 1) select * from T1 where exists(select 1 from T2 where T1.aT2.a) ; T1数据量小而T2数据量非常大时,T1<<T2 时,1) 的查询效率高。 2) select * from T1 where T1.a in (select…

现代内存编号解读(转)
现代SDRAM、DDR SDRAM、DDR2 SDRAM三种主流内存颗粒的编号一、DDR SDRAM:HYNIX DDR SDRAM颗粒编号:HY XX X XX XX X X X X X X X — XX X1 2 3 4 5 6 7 8 9 10 11 12 — 13 14整个DDR SDRAM颗粒的编号,一共是由14…
被追捧为“圣杯”的深度强化学习已走进死胡同
作者 | 朱仲光编译 | 夕颜出品 | AI科技大本营(ID:rgznai1100)【导读】近年来,深度强化学习成为一个被业界和学术界追捧的热门技术,社区甚至将它视为金光闪闪的通向 AGI 的圣杯,大多数人都看好它未来发展的巨大潜力。但…
一种清除windows通知区域“僵尸”图标的方案——问题分析
通知区域名称有趣的历史 假如说到windows通知区域,可能很多人还是不清楚它是什么。如果改称Tray区域,可能有人就懂了。如果再白话点,叫它“托盘”或者“系统托盘”,可能会有更多的人猜到它是windows什么部位。现在我们揭开…

Apache2.4+Tomcat7集群搭建
一、安装jdk、Tomcat、Apache1.安装jdk1.7cd /home/java/software #把软件下载到/home/java/software目录下,将应用安装到/home/java目录下。 wget http://download.oracle.com/otn/java/jdk/7u80-b15/jdk-7u80-linux-x64.tar.gz tar -zxvf jdk-7u80-linux-x64.tar…
一种清除windows通知区域“僵尸”图标的方案——XP系统解决方案
XP下“僵尸”图标的解决方案 从《一种清除windows通知区域“僵尸”图标的方案——问题分析》(以后简称《问题分析》)一文中分析的通知区域结构可以看出,XP的通知区域结构是相对简单的。如果我们解决了XP下的问题,那么Win7上的问题…

《评人工智能如何走向新阶段》后记(再续12)
由AI科技大本营下载自视觉中国151. 新一代人工智能研究方向: (1)研究新一代人工智能基础理论(机理、模型和算法);(2)研发面向需求的共性技术(以神经网络和算法为核心、数据和硬件为基…

正则表达式测试工具 Regex Tester 的使用方法
2019独角兽企业重金招聘Python工程师标准>>> 正则表达式测试工具“RegexTester”,下载地址:http://www.oschina.net/p/regextester 一、关于本文 今天的工作中遇到了一些正则表达式,我需要检验它们是否正确,不过我对自…
一种清除windows通知区域“僵尸”图标的方案——Windows7系统解决方案
Windows7下“僵尸”图标的解决方案 从《一种清除windows通知区域“僵尸”图标的方案——问题分析》(以后简称《问题分析》)一文中分析的通知区域结构可以看出,Windows7的通知区域比XP通知区域多出了一个“临时”系统通知区域(转载…

《评人工智能如何走向新阶段》后记(再续13)
由AI科技大本营下载自视觉中国161. 引自美国科技媒体TNW记者对美欧企业主管与AI专家的访谈录摘要,谈到2020年AI的八大趋势: ①人工智能将使医疗保健更准确、成本更低; ②可解释性和信托及AI伦理将受到更多关注; ③在人工智能领…

在特定情况下的简单SSO实现方案
最近需要实现类似单点登录的功能。情况是这样的,最初在做网站A,做着做着,要做网站B了,要求与网站A完全分开作为两个应用,但用户数据要求与网站A保持一致,也要求用户在网站A登录后,转到网站B时不…

为创业者保驾护航 “无安全 不创业” 安全狗全国路演北京站
2019独角兽企业重金招聘Python工程师标准>>> 2015年上半年,网络安全问题毫无疑问已经成为了互联网行业关注的重点。在短短一年多的时间里,网络安全问题就从隐患转而呈现出爆发之势,即使是网易、支付宝、携程这样的互联网行业巨头也…
一种将快捷方式从开始菜单“常用应用”的中去除的方法
当我们安装一款软件的时候,这款软件的一些快捷方式可能被设置到开始菜单的“常用应用”区域。但是,如果是“卸载”快捷方式被“钉”到该区域,就会造成非常不好的体验。毕竟把“卸载”接口暴露得如此醒目,如同把该款软件的地狱大门…

ISA---不能访问网址或是多次刷新才能访问的解决方法一则
当你安装ISA2006在WINDOWS 2003 SERVER上,并打上SP2补订时。遇SNAT客户端不能访问WEB,但能PING通,能TELNET通,也能访问QQ或是MSN的问题时可以利用以下方法解决。同时,如果你遇到在此环境下,客户端访问外部网…

《评人工智能如何走向新阶段》后记(深谈人工智能发展前沿)
由AI科技大本营下载自视觉中国来自国内外的跟贴留言 深谈人工智能发展前沿 自从我们发表《评人工智能如何走向新阶段》一文以来,至今约5个月,引来了中外专家、草根们的大量跟贴留言(也有人转录他人的公开言论作为跟贴来发表的)。…

URAL 2027 URCAPL, Episode 1 (模拟)
题意:给你一个HxW的矩阵,每个点是一个指令,根据指令进行一系列操作。 题解:模拟 #include<cstdio> #include<algorithm> using namespace std;const int maxn 101; char G[maxn][maxn];int dx[] {-1,0,1, 0}; int d…

使用WinHttp接口实现HTTP协议Get、Post和文件上传功能
我实现了一个最新版本的接口,详见《实现HTTP协议Get、Post和文件上传功能——使用WinHttp接口实现》。还有基于libcurl实现的版本《实现HTTP协议Get、Post和文件上传功能——使用libcurl接口实现》。以下是原博文: 我们在做项目开发时,往往会…
收藏 | 一文带你总览知识蒸馏,详解经典论文
「免费学习 60 节公开课:投票页面,点击讲师头像」作者:凉爽的安迪来源 | 深度传送门(ID:deep_deliver)【导读】这是一篇关于【知识蒸馏】简述的文章,目的是想对自己对于知识蒸馏学习的内容和问题…

[工具推荐]用了TrueCrypt 再无难掩之隐
缘起:混在网络n多年了,手头总有些东西不想被别人看到的东西,由于小弟人品好,相貌佳,总有很多朋友喜欢用我的电脑玩啊玩啊……。 近日,冠希、柏芝等前辈以身示法,为我等上了很好一堂关于隐私保护…

利用phpmailer类邮件发送
<?phprequire("class.phpmailer.php"); //下载的文件必须放在该文件所在目录$mail new PHPMailer(); //建立邮件发送类$address "接收方邮箱"; //接收方地址$mail->IsSMTP(); //使用SMTP方式发送$…
据说这是大多数人【减肥】的真实写照
有句诗说得好 “冬天不减肥,夏天徒伤悲” 在这个人人储存脂肪的季节绝对是你甩掉脂肪的好时机(毕竟这是一个拼颜值的时代颜值是天生的,可是身材绝不能输)但是 据说大多数人的减肥经历其实是这样的减肥第一步管住嘴,迈开…
PE文件和COFF文件格式分析——导出表的应用——一种摘掉Inline钩子(Unhook)的方法
在日常应用中,某些程序往往会被第三方程序下钩子(hook)。如果被下钩子的进程是我们的进程,并且第三方钩子严重影响了我们的逻辑和流程,我们就需要把这些钩子摘掉(Unhook)。本件讲述一种在32位系统上,如何摘掉API钩子的思路和方法。…

设置列表字段为主键
转贴:Sample event handler to set a field as a pr imary key (enforce no duplicates) Got this as a request from a reader- how to prevent users from adding items with same titles as ones that already exist in the list. Codeusing System;using System.Collectio…

谁登录了你的linux
最近有一台数据库服务器自动重启。查了一下相关登录信息:查看linux下的用户登录日志,包括用户登录时所用的主机的ip:more /var/log/secure who /var/log/wtmp干了些什么? root账户下输入su - username 切换到username下输入 histo…
一种使用GDI+对图片尺寸和质量的压缩方法
今天同事向我询问图片压缩的算法,我想起大概两三年前做过的一个项目。其中包含了尺寸和质量两种压缩算法,并且支持JPEG、bmp、PNG等格式。今天把这段逻辑贴出来,供大家参考。(转载请指明来源于breaksoftware的CSDN博客)…

.NET企业级应用架构设计系列之应用服务器
本文属spanzhang(张友邦)原创,发布地址为:http://blog.csdn.net/spanzhang。转载或引用请注明原文之出处,谢谢! .NET企业级应用架构设计系列之开场白 .NET企业级应用架构设计系列之技术选型 这里要说到的…
编程语言发展70年,用50种不同语言输出「Hello World」
「免费学习 60 节公开课,投票页面,点击讲师头像」作者 | Sylvain Saurel译者 | 风车云马责编 | 屠敏【导读】历经 70 年,不断出现的编程语言为开发者解决了哪些难题?其存在又有怎样的特性?本文将以「Hello World」为例…

函数循环的理解
2019独角兽企业重金招聘Python工程师标准>>> var ulObjdocument.getElementById("box"); var lisObjulObj.getElementsTagname("li"); for(var i0;i<lisObj.length;i) { lisObj[i].οnclickfunction()//循环时对应节点绑定事件,事…
从LeNet到GoogLeNet:逐层详解,看卷积神经网络的进化
「免费学习 60 节公开课:投票页面,点击讲师头像」作者 | MrCharles来源 | CSDN原力计划获奖作品(*点击阅读原文,查看作者更多文章)前言深度学习的兴起使卷积神经网络在计算机视觉方面大放异彩,本文将按时间…

Windows客户端C/C++编程规范“建议”——前言
前言 工作中接触了很多编程规范。其中最有意思的是,公司最近发布了一版C/C编程规范,然后我看到该规范的最后一段时,有这么一句:“该规范不适用于Windows平台开发”。看来这份规范是由做其他平台开发的同学制定的。那么做Windows开…