当前位置: 首页 > 编程日记 > 正文

我们需要什么样的数据架构?

作者 | Stephanie shen

编译 | 火火酱,责编丨Carol

出品 | AI科技大本营(ID:rgznai100)

在大数据和数据科学的新时代,对企业而言,一定要有与业务流程保持一致的中心化数据架构,该架构能随业务增长而扩展,并随技术进步而发展。

一个成功的数据架构可以使数据的各个方面清晰明了,从而使数据科学家能够高效地处理可信的数据并解决复杂的业务问题。

架构还能帮助组织做好必要的准备,以利用新兴技术迅速抓住新的商机,并通过管理整个企业中的复杂数据和信息交付来提高运营效率。

与信息架构、系统架构和软件架构相比,数据架构相对较新。数据架构师的角色也很模糊,落在了高级业务分析师,ETL开发人员和数据科学家的肩膀上。尽管如此,在本文中,作者将用“数据架构师”(Data Architect)来指代那些为组织设计数据架构的专业数据管理人员。

说到架构,我们经常会想到与建筑架构做类比。传统的建筑架构师会规划、设计和审查建筑物的建造。设计过程包括与客户充分沟通收集需求,了解当地的法律和环境限制,并与工程师、测量师及其他专家合作,以确保设计在预算之内可行。

这项工作的复杂性实际上与数据架构师的角色非常相似。但是,两个架构师角色之间存在一些基本差异:

  • 建筑物架构是自上而下的设计,而数据架构通常是将已存在的组件或系统集成。

  • 建筑设计师在建造建筑物之前必须了解全部建筑要求并规划建筑范围。数据架构的范围更为广泛且易更改。因此,成功的数据架构设计应该是灵活的且有预见性的。

  • 建筑架构师具有严格的教育和专业要求,并且应该在商业、艺术、结构物理和建筑材料方面有深入研究。而大多数数据架构师来自IT背景,在几家公司或行业中具有专业经验,并且对业务的接触不多。因此,他们应该意识到自己的设计可能存在偏差,需要根据组织中业务和技术专家的反馈来调整设计

  • 建筑设计几乎都是针对从头开始建造的新建筑物的。因此,建筑架构师可以完全根据新要求和新材料进行规划和设计。数据架构师没有这种优势。他们很少能从头开始,但是在为未来进行设计时需要了解现有的平台和数据库。

虽然存在这些差异,但数据架构师仍然可以向建筑架构师学习,尤其是采用自上而下的方法来改进数据架构设计方面。很多机构都缺乏系统、集中的端到端的数据架构设计。下面列出了一些主要原因:

  • 一个公司有多个IT部门,他们各自使用各自的数据标准和架构工作。

  • 应用程序和流程是根据单个业务需求构建的,没有可遵循的数据架构标准。

  • 数据架构师的角色仅关注有限的技术领域,并且对数据业务知识的了解也有限。

  • 管理IT项目时,在设计阶段不考虑数据架构,数据科学家和工程师无需遵循一致的数据管理流程即可编写代码。

由于存在这些不足,所以我们经常会看到一家公司的数据系统脱节,并且团队和部门之间存在差距。这些差异导致系统性能低下,需要进行大量交接工作,在生产数据出现问题时要花很长时间才能排除故障,缺乏在整个系统中找到正确解决方案的责任感,并且缺乏评估产品变化影响的能力。

最后,在迁移脱节的系统或重新设计下一代平台时,可能要花费大量精力进行分析和研究。

考虑到所有这些因素,一个成功的企业需要具有以业务流程和运营设计为基础的自上而下一致的数据架构。特别是,就像建筑架构师所做的那样,企业数据架构师需要先在概念级和逻辑级构建蓝图,然后再将技术应用于详细的应用程序设计和实现。

基于业务流程和运营的概念级数据架构设计

在现代IT中,业务流程是由数据实体,数据流和应用于数据的业务规则共同支持和驱动的。因此,数据架构师需要具有深入的业务知识,其中包括财务、市场营销、产品以及业务流程(例如健康、保险、制造商和零售商)等特定行业的专业知识。

然后,他才能够通过设计代表每个业务域的数据实体和分类法以及业务流程下的数据流,从而构建正确的企业级数据蓝图。在此概念阶段尤其需要考虑和计划以下几个方面:

  • 核心数据实体和数据元素,例如关于客户、产品、销售的数据。

  • 客户和顾客所需的输出数据。

  • 要收集、转换或引用的源数据以生成输出数据。

  • 每个数据实体的所有权以及如何根据业务用例使用和分配它。

  • 要应用于每个数据实体的安全策略。

  • 数据实体之间的关系,例如参考完整性、业务规则、执行顺序。

  • 标准数据分类和分类法。

  • 数据质量、操作和服务水平协议(SLA)的标准。

设计的概念级别由支持每个业务功能的基础数据实体组成。蓝图对于成功设计和实施企业和系统架构及其未来的扩展或升级至关重要。

在很多机构中,这种概念设计通常被嵌入到由单个项目驱动的业务分析当中,而没有从企业端到端解决方案和标准的角度进行指导的方法。

逻辑级数据架构设计

由于要考虑使用哪种类型的数据库或数据格式,这种设计有时称为数据建模。它将业务需求与基础技术平台和系统联系到一起。但是,考虑到数据建模者的角色,大多数机构仅在特定数据库或系统中设计数据建模。

通过考虑适用于每个数据库或系统的标准以及这些数据系统之间的数据流,应采用集成方法开发成功的数据体系结构。特别是,以下五个领域需要以协同方式进行设计:

1、命名约定和数据完整性

数据实体和元素的命名约定应一致地应用于所有数据库。同样,如果相同数据须驻留在多个数据库中,则应加强数据源及其引用之间的完整性。最终,这些数据元素应属于数据架构中概念设计中的数据实体,然后可以根据业务需求协同准确地对其进行更新或修改。

2、数据归档/保留策略

如果在生产的最后阶段才经常考虑或建立数据归档和保留策略的话,将会导致资源浪费,不同数据库之间的数据状态不一致,以及数据查询和更新的表现不佳。为了加强数据完整性,数据架构师在以操作标准为基础的数据架构中定义数据归档和保留策略。

3、隐私和安全信息

隐私性和安全性成为了逻辑数据库设计的重要考虑因素。虽然概念设计已经定义了哪个数据成分属于敏感信息,但逻辑设计应在具有受限访问权限、受限数据复制、特定数据类型和安全数据流的数据库中保护机密信息,以保护信息安全。

4、资料复制

数据复制是要顾及三个目标的关键因素:

1)高可用性。

2)避免通过网络传输数据的性能。

3)低耦合性以最小化下游影响。

但是,过多的数据复制会导致混乱、数据质量差和性能下降的结果。任何数据复制都应由数据架构师检查,并应遵循一定原则和纪律。

5、数据流和管道

在此级别上,应明确定义数据在不同数据库系统和应用程序之间的流动方式。同样,此流程与业务流程和数据架构师概念级别中提到的流程一致。此外,应在逻辑设计的集成视图中考虑数据摄取的频率、流水线中的数据转换以及针对输出数据的数据访问模式。例如,如果上游数据源是实时的,而下游系统主要被用于具有重索引的聚合信息的数据访问(例如,对于频繁更新和插入来说成本很高),则需要在两者之间设计数据管道,以优化性能。

持续治理是数据架构成功的关键

由于数据架构反映并支持着业务流程,因此当业务流程发生更改时,数据架构就可能会发生改变。随着基础数据库系统的更改,数据架构也需要进行调整。因此,数据架构不是静态的,而是需要进行连续管理、增强和审核的。因此,应采用数据治理来确保在启动每个新项目时正确设计和实现企业数据架构。

结论

在成功的数据架构中,以业务流程为基础的概念设计是最关键的要素,其次是逻辑设计,该逻辑设计强调所有数据库和数据管道之间的一致性、完整性和效率。在建立起数据架构后,机构可以查看哪些数据驻留在何处,并确保数据的安全、有效存储和正确处理。

同样,当一个数据库或组件发生更改时,数据架构可以帮助机构快速评估影响并指导所有相关团队进行设计和实施。最后,数据架构是企业系统的实时文档,要保证它是最新的,并提供清晰的端到端图画。

综上所述,反映端到端业务流程和操作的整体数据架构对于保障公司在经历重大变化(如收购、数字转换或向下一代平台迁移)时快速高效地前进至关重要。

原文:

https://www.datasciencecentral.com/profiles/blogs/what-is-the-data-architecture-we-need

(*本文由 AI 科技大本营编译,转载请联系微信1092722531)

【end】

精彩推荐

CSDNx巨杉大学联合认证学习,免费开放!“分布式数据库集训营”帮助您从零开始学习分布式数据库、分布式架构知识,现在加入活动,完成课程还将专属礼品。快来参加吧~

了解详情:

http://www.sequoiadb.com/cn/university-camp


推荐阅读

  • 「数据科学家」必备的10种机器学习算法

  • NeurIPS 2020新变化:截稿日提前、早期拒稿、作者也是审稿人

  • RabbitMQ VS Kafka:消息队列与流处理平台之争

  • 耐克为何不接受加密货币付款?

  • 结束 Java、Python 之战,如何学习所有编程语言?

  • 隐身术?登顶 GitHub Top1:200 行 JS 代码让画面人物瞬间消失!

  • 你点的每个“在看”,我都认真当成了AI

相关文章:

Windows Server 2008 R2 之二十九故障转移群集(一)(

关于Windows Server 2008故障转移群集见http://technet.microsoft.com/zh-cn/library/cc732488(WS.10).aspx实验环境:两台已安装好Windows Server 2008 R2的计算机R2DC01、R2DC02,均为DC、DNS,域名为HBYCRSJ.COM,均有两块网卡。分别为心跳网络和本地连接…

基于多核DSP处理器DM8168的视频处理方法

摘要:随着1080P高清视频以及4K超高清晰视频的普及和应用,基于传统单核DSP处理器的视频信息处理已有些力不从心。为此TI公司推出了一款专门用于高清视频处理的多核DSP处理器,它拥有4个不同类型的处理器,使得视频处理达到了一个更高…

AWS攻略——使用CodeBuild进行自动化构建和部署Lambda(Python)

Aws Lambda是Amazon推出的“无服务架构”服务。我们只需要简单的上传代码,做些简单的配置,便可以使用。而且它是按运行时间收费,这对于低频访问的服务来说很划算。具体的介绍可以常见aws lambda的官网。(转载请指明出于breaksoftw…

vmware 添加 磁盘 空间

VMware安装linux的时候默认分配的空间是4GB,可能会不够,这个时候可以通过增加一块虚拟硬盘,将/usr或其他内容拷贝过去解决这个问题:创建虚拟硬盘1、关闭VM中正在运行的虚拟系统;2、在虚拟系统名称上点右键-…

Python爬取考研数据:所有985高校、六成211高校均可调剂

又到了一年一度的考研出分时间啦,近期有不少朋友让笔者帮他们分析如何提前做好调剂。复试与调剂总是密不可分。今天,给大家分享一些调剂的重要知识点,希望你在调剂的时候,能明白调剂的趋势与规则。也许,大家对于调剂的…

iOS审核秘籍】提审资源检查大法

iOS审核秘籍】提审资源检查大法 2015/11/27阅读(752)评论(1)收藏(6)加入人人都是产品经理【起点学院】产品经理实战训练营,BAT产品总监手把手带你学产品点此查看详情! 本篇主要是提审…

谈一次单元测试驱动代码重构

目前团队并没有QA岗,而且在很长一段时间内,可能也不会设立QA岗,所以我们需要RD保证代码的质量。而鉴于人类天生的“惰性”,很多时候质量完全依赖于作者的能力以及职业素质。于是我在团队内推动单元测试,并要求提升测试…

新机会在广州拓波

公司简介广州拓波软件科技有限公司的前身为 Turbomail工作室,由广州华工信息软件(集团)有限公司于2002 年成立,是一家专业研发电子邮件系统、企业即时通信和企业短信的开发组织,2005年TurboMail工作室正式发布1.0.2版本…

关于正则表达式,这篇都讲清楚了

作者 | 猪哥来源 | 裸睡的猪(ID:rgznai100)目前越来越多的网站、编辑器、编程语言都已支持一种叫“正则表达式”的字符串查找“公式”,有过编程经验的同学都应该了解正则表达式(Regular Expression 简写regex)是什么东…

MJExtension简介

MJExtension简介 前言:关于MJExtension更多的使用,可以到github网站上根据详述学习。 字典转模型比较流行的第三方框架 Mantle所有模型都必须继承自MTModel JSONModel所有模型都必须继承自JSONModel MJExtension不需要强制继承任何其他类 框架需要考虑的…

Discuz!常用函数解析(续)

/*** 产生随机码* param $length - 要多长* param $numberic - 数字还是字符串* return 返回字符串*/function random($length, $numeric 0) {PHP_VERSION < 4.2.0 && mt_srand((double)microtime() * 1000000);if($numeric) {$hash sprintf(%0.$length.d, mt_ran…

基于新型忆阻器的存内计算原理、研究和挑战

作者 | 林钰登、高滨、王小虎、钱鹤、吴华强来源 | 《微纳电子与智能制造》期刊引言过去半个世纪以来 &#xff0c;芯片计算性能的提高主要依赖于场效应晶体管尺寸的缩小。随着特征尺寸的减小 &#xff0c;器件的制备成本和制造工艺难度不断增加 &#xff0c;芯 片性能的提升愈…

3、JPA一些常用的注解

常用注解有下面这些&#xff1a; ①&#xff1a;Entity、Table、Id、GeneratedValue、Column、Basic ②&#xff1a;Transient 用于忽略某个属性&#xff0c;而不对该属性进行持久化操作 ③&#xff1a;Temporal 一、第①组注解 Entity 标注用于实体类声明语句之前&#xff0c…

实战域树部署,Active Directory系列之十九

实战子域部署<?xml:namespace prefix o ns "urn:schemas-microsoft-com:office:office" />域树是Active Directory针对NT4的传统域模型所进行的重要改进。在NT4时代的域模型中&#xff0c;每个域都要使用没有层次结构的NETBIOS名称&#xff0c;而且域和域之…

黑科技抗疫,Python开发者大集结!

2020年初&#xff0c;突如其来的新型冠状病毒肺炎打乱了所有人的节奏&#xff0c;但社会各界迅速团结起来&#xff0c;为抗击疫情贡献出自己的力量。除了捐款捐物外&#xff0c;很多科技公司运用5G、大数据、AI、云计算等新互联网技术&#xff0c;以科技的手段助力抗疫&#xf…

Inplayable技术分享

Inplayable技术分享运维设计模式Web安全工具语言python运维 《aws lambda 通过codebuild上线踩坑指南之 lambda 进程被占用 status error 255》《google pay 配置sub/pub回调》《AWS攻略——使用CodeCommit托管代码》《AWS攻略——使用S3托管静态网页》《AWS攻略——使用CodeB…

将数组A中的内容和数组B中的内容进行交换(数组一样大)

#include <stdio.h>int main() {int arr1[10]{1,2,3,4,5,11,14,16,17,12};int arr2[10]{0,6,7,8,9,15,21,18,19,13};int arr3[10];int i0;for(i0;i<sizeof(arr1)/sizeof(arr1[0]);i){arr3[i]arr1[i];arr1[i]arr2[i];arr2[i]arr3[i];//不定义第三个变量的两种种方法&am…

***必备工具

***必备工具一、扫描工具 X-scan 3.1 焦点出的扫描器&#xff0c;国内最优秀的安全扫描软件之一!非常专业的一个扫描器! X-way 2.5 这也上一个非常不错的扫描器哦!功能非常多!使用也不难,***必备工具! SuperScan 3.0 强大的TCP 端口扫描器、Ping 和域名解析器! Namp 3.5 这个就…

通过评估假设行为来学习人类目标

来源| deepmind编译| 武明利&#xff0c;责编| Carol出品 | AI科技大本营&#xff08;ID&#xff1a;rgznai100&#xff09;当我们在现实世界中训练强化学习&#xff08;RL&#xff09;代理时&#xff0c;我们不会希望它们探索不安全的状态&#xff0c;例如将一个移动机器人开进…

ReactiveCocoa入门-part2

ReactiveCocoa是一个框架&#xff0c;它能让你在iOS应用中使用函数响应式编程&#xff08;FRP&#xff09;技术。在本系列教程的第一部分中&#xff0c;你学到了如何将标准的动作与事件处理逻辑替换为发送事件流的信号。你还学到了如何转换、分割和聚合这些信号。 在本系列教程…

VirtualBox虚拟机安装RedHat7.3编译Linux0.01内核

引子 由于需要编译linux0.01内核&#xff0c;而目前的linux版本太高需要降低gcc版本等等&#xff0c;需要做不少调整非常不方便。 所以&#xff0c;直接安装RedHat7.3&#xff0c;这样就好编译linux0.01的内核了。 但是&#xff0c;安装RedHat7.3需要注意一些问题。 下载老…

远程办公是巨头游戏?十倍扩容,他们如何做到百万级并发流量

疫情发生后&#xff0c;除了Zoom这样深耕视频会议多年的软件&#xff0c;钉钉、企业微信、飞书等一大批互联网巨头也开通了免费服务&#xff0c;凭借着自身庞大的资源四处招揽用户。 据说&#xff0c;远程办公工具是2020年的第一个风口。 疫情发生后&#xff0c;除了Zoom这样深…

linux下使用sort命令升序、降序、随机及组合方式排序方法

示例文件&#xff1a;####################################################序号 优先级 字段1 字段21 5 abc def2 5 ae3 wff6 4 l…

mysql数据库备份、恢复文档

说明:为了加强线上数据库安全&#xff0c;避免研发人员误操作造成数据的丢失&#xff0c;制作本文档。一线运维人员可以参考!一、数据备份&#xff1a;专用数据库备份服务器&#xff0c;定时对数据库进行热备、冷备&#xff0c;即主从设置、mysqldump冷备、mysql-bin-log日志备…

Linux环境ddd安装与使用

ddd是一个优秀的调试器&#xff0c;安装ddd破费周折 必须安装x开发环境 1.下载 http://ftp.gnu.org/gnu/ddd/&#xff0c;下载最新的ddd-3.3.12.tar.gz # wget http://ftp.gnu.org/gnu/ddd/ddd-3.3.12.tar.gz # tar zxvf ddd-3.3.12.tar.gz # cd ddd-3.3.12/ 2.配置 # ./…

华为诺亚、北大提出GhostNet​,使用线性变换生成特征图,准确率超MobileNet v3 | CVPR 2020...

作者 | Kai Han, Yunhe Wang等编译 | Conv出品 | AI科技大本营&#xff08;rgznai100&#xff09;受限于内存空间和计算资源&#xff0c;将卷积神经网络部署到嵌入式设备中会比较困难。CNNs中特征图的冗余性是保证其成功的关键&#xff0c;但是在神经网络的结构设计中却鲜有研究…

pap和chap交叉认证

pap和chap交叉认证&#xff1a;R1启动pap&#xff0c;R2启动chap。R1上的配置&#xff1a;Router>enRouter#config tRouter(config)#enable s ciacoRouter(config)#line c 0Router(config-line)#pass ciacoRouter(config-line)#loginRouter(config-line)#logging syRouter(c…

如何在App中实现朋友圈功能之二快速实现用户信息的自定义——箭扣科技Arrownock...

如何在App中实现朋友圈功能之二快速实现用户信息的自定义自我关联社交元素&#xff1a;anSocial中很多的社交元素API&#xff0c;如帖子&#xff08;Post&#xff09;、相册&#xff08;Album&#xff09;、文件&#xff08;File&#xff09;等&#xff0c;这些API的可选参数中…

使用cat /proc/进程id/maps 查看进程内存映射

proc/<PID>/maps 查看进程的虚拟地址空间是如何使用的。 该文件有6列&#xff0c;分别为&#xff1a; 地址&#xff1a;库在进程里地址范围 权限&#xff1a;虚拟内存的权限&#xff0c;r读&#xff0c;w写,x,s共享,p私有&#xff1b; 偏移量&#xff1a;库在进程里地址范…

两成开发者月薪超 1.7 万、算法工程师最紧缺! | 中国开发者年度报告

整理 | 郭芮 责编 | 唐小引 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; “求知若饥&#xff0c;虚心若愚”——这个原本出自《全球概览》的俳句&#xff0c;因为乔布斯在斯坦福大学毕业演讲中的引用而备受推崇&#xff0c;流传成为 IT 界的至理名言之一。在…