当前位置: 首页 > 编程日记 > 正文

大数据架构和模式(一)——大数据分类和架构简介

概述

大数据可通过许多方式来存储、获取、处理和分析。每个大数据来源都有不同的特征,包括数据的频率、量、速度、类型和真实性。处理并存储大数据时,会涉及到更多维度,比如治理、安全性和策略。选择一种架构并构建合适的大数据解决方案极具挑战,因为需要考虑非常多的因素。

这个 “大数据架构和模式” 系列提供了一种结构化和基于模式的方法来简化定义完整的大数据架构的任务。因为评估一个业务场景是否存在大数据问题很重要,所以我们包含了一些线索来帮助确定哪些业务问题适合采用大数据解决方案。

从分类大数据到选择大数据解决方案

如果您花时间研究过大数据解决方案,那么您一定知道它不是一个简单的任务。本系列将介绍查找满足您需求的大数据解决方案所涉及的主要步骤。

我们首先介绍术语 “大数据” 所描述的数据类型。为了简化各种大数据类型的复杂性,我们依据各种参数对大数据进行了分类,为任何大数据解决方案中涉及的各层和高级组件提供一个逻辑架构。接下来,我们通过定义原子和复合分类模式,提出一种结构来分类大数据业务问题。这些模式有助于确定要应用的合适的解决方案模式。我们提供了来自各行各业的示例业务问题。最后,对于每个组件和模式,我们给出了提供了相关功能的产品。

第 1 部分将介绍如何对大数据进行分类。本系列的后续文章将介绍以下主题:

  • 定义大数据解决方案的各层和组件的逻辑架构
  • 理解大数据解决方案的原子模式
  • 理解用于大数据解决方案的复合(或混合)模式
  • 为大数据解决方案选择一种解决方案模式
  • 确定使用一个大数据解决方案解决一个业务问题的可行性
  • 选择正确的产品来实现大数据解决方案

依据大数据类型对业务问题进行分类

业务问题可分类为不同的大数据问题类型。以后,我们将使用此类型确定合适的分类模式(原子或复合)和合适的大数据解决方案。但第一步是将业务问题映射到它的大数据类型。下表列出了常见的业务问题并为每个问题分配了一种大数据类型。

表 1. 不同类型的大数据业务问题
业务问题大数据问题描述
公用事业:预测功耗机器生成的数据

公用事业公司推出了智慧仪表,按每小时或更短的间隔定期测量水、天然气和电力的消耗。这些智慧仪表生成了需要分析的大量间隔数据。

公用事业公司还运行着昂贵而又复杂的大型系统来发电。每个电网包含监视电压、电流、频率和其他重要操作特征的复杂传感器。

要提高操作效率,该公司必须监视传感器所传送的数据。大数据解决方案可以使用智慧仪表分析发电(供应)和电力消耗(需求)数据。

电信:客户流失分析Web 和社交数据

交易数据

电信运营商需要构建详细的客户流失模型(包含社交媒体和交易数据,比如 CDR),以跟上竞争形势。

流失模型的值取决于客户属性的质量(客户主数据,比如生日、性别、位置和收入)和客户的社交行为。

实现预测分析战略的电信提供商可通过分析用户的呼叫模式来管理和预测流失。

市场营销:情绪分析Web 和社交数据

营销部门使用 Twitter 源来执行情绪分析,以便确定用户对公司及其产品或服务的评价,尤其是在一个新产品或版本发布之后。

客户情绪必须与客户概要数据相集成,才能得到有意义的结果。依据客户的人口统计特征,客户反馈可能有所不同。

客户服务:呼叫监视人类生成的

IT 部门正在依靠大数据解决方案来分析应用程序日志,以便获取可提高系统性能的洞察。来自各种应用程序供应商的日志文件具有不同的格式;必须将它们标准化,然后 IT 部门才能使用它们。

零售:基于面部识别和社交媒体的个性化消息Web 和社交数据

生物识别

零售商可结合使用面部识别技术和来自社交媒体的照片,根据购买行为和位置向客户提供个性化的营销信息。

此功能对零售商忠诚度计划具有很大的影响,但它具有严格的隐私限制。零售商需要在实现这些应用程序之前进行适当的隐私披露。

零售和营销:移动数据和基于位置的目标机器生成的数据

交易数据

零售商可根据位置数据为客户提供特定的促销活动和优惠券。解决方案通常旨在在用户进入一个店铺时检测用户的位置,或者通过 GPS 检测用户的位置。

位置数据与来自社交网络的客户偏好数据相结合,使零售商能够根据购买历史记录针对性地开展在线和店内营销活动。通知是通过移动应用程序、SMS 和电子邮件提供的。

FSS、医疗保健:欺诈检测机器生成的数据

交易数据

人类生成的

欺诈管理可预测给定交易或客户帐户遇到欺诈的可能性。解决方案可实时分析事务,生成建议的立即执行的措施,这对阻止第三方欺诈、第一方欺诈和对帐户特权的蓄意滥用至关重要。

解决方案通常旨在检测和阻止多个行业的众多欺诈和风险类型,其中包括:

  • 信用卡和借记卡欺诈
  • 存款帐户欺诈
  • 技术欺诈
  • 坏账
  • 医疗欺诈
  • 医疗补助计划和医疗保险欺诈
  • 财产和灾害保险欺诈
  • 工伤赔偿欺诈
  • 保险欺诈
  • 电信欺诈

按类型对大数据问题分类,更容易看到每种数据的特征。这些特征可帮助我们了解如何获取数据,如何将它处理为合适的格式,以及新数据出现的频率。来自不同来源的数据具有不同的特征;例如,社交媒体数据包含不断传入的视频、图像和非结构化文本(比如博客文章)。

我们依据这些常见特征来评估数据,下一节将详细介绍这些特征:

  • 内容的格式
  • 数据的类型(例如,交易数据、历史数据或主数据)
  • 将提供该数据的频率
  • 意图:数据需要如何处理(例如对数据的临时查询)
  • 处理是否必须实时、近实时还是按批次执行。

使用大数据类型对大数据特征进行分类

按特定方向分析大数据的特征会有所帮助,例如以下特征:数据如何收集、分析和处理。对数据进行分类后,就可以将它与合适的大数据模式匹配:

  • 分析类型 — 对数据执行实时分析还是批量分析。请仔细考虑分析类型的选择,因为这会影响一些有关产品、工具、硬件、数据源和预期的数据频率的其他决策。一些用例可能需要混合使用两种类型:
    • 欺诈检测;分析必须实时或近实时地完成。
    • 针对战略性业务决策的趋势分析;分析可采用批量模式。
  • 处理方法 — 要应用来处理数据的技术类型(比如预测、分析、临时查询和报告)。业务需求确定了合适的处理方法。可结合使用各种技术。处理方法的选择,有助于识别要在您的大数据解决方案中使用的合适的工具和技术。
  • 数据频率和大小 — 预计有多少数据和数据到达的频率多高。知道频率和大小,有助于确定存储机制、存储格式和所需的预处理工具。数据频率和大小依赖于数据源:
    • 按需分析,与社交媒体数据一样
    • 实时、持续提供(天气数据、交易数据)
    • 时序(基于时间的数据)
  • 数据类型 — 要处理数据类型 — 交易、历史、主数据等。知道数据类型,有助于将数据隔离在存储中。
  • 内容格式(传入数据的格式)结构化(例如 RDMBS)、非结构化(例如音频、视频和图像)或半结构化。格式确定了需要如何处理传入的数据,这是选择工具、技术以及从业务角度定义解决方案的关键。
  • 数据源 — 数据的来源(生成数据的地方),比如 Web 和社交媒体、机器生成、人类生成等。识别所有数据源有助于从业务角度识别数据范围。该图显示了使用最广泛的数据源。
  • 数据使用者 — 处理的数据的所有可能使用者的列表:
    • 业务流程
    • 业务用户
    • 企业应用程序
    • 各种业务角色中的各个人员
    • 部分处理流程
    • 其他数据存储库或企业应用程序
  • 硬件 — 将在其上实现大数据解决方案的硬件类型,包括商用硬件或最先进的硬件。理解硬件的限制,有助于指导大数据解决方案的选择。

图 1 描绘用于分类大数据的各种类别。定义大数据模式的关键类别已识别并在蓝色方框中突出显示。大数据模式(将在下一篇文章中定义)来自这些类别的组合。

图 1. 大数据分类

大数据分类

结束语和致谢

在本系列剩余部分中,我们将介绍大数据解决方案的逻辑架构和各层,从访问到使用大数据。我们将提供数据源的完整列表,介绍专注于大数据解决方案的每个重要方面的原子模式。我们还将介绍复合模式,解释可如何结合使用原子模式来解决特定的大数据用例。本系列最后将提供一些解决方案模式,在广泛使用的用例与各个产品之间建立对应关系。

相关文章:

Windows 7 开发新特性

10月25日在西安举行的Windows 7 社区发布活动中我讲了Session1 -- Windows 7 概览。参会的人员达到62人,这个参加人数超过了我的预期,非常开心. 主要讲了一下内容: 一 构建于稳固的基础平台 1 . 改进的基础平台 兼容性: 兼容基于Windows Vista构建的应用程序与设备 …

GitHub 的 AI 编程工具漏洞高达 40% ,再次陷入争议……

整理 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 在近日发表的一篇论文中,研究人员对 GitHub Copilot 人工智能编程辅助工具进行了深入调查。结果发现,仍处于测试预览阶段的 Copilot 具有高达 40% 的错误代码率,意味…

centos中mysql重置密码

1 . 用空密码方式使用root用户登录 MySQL; mysql -u root 2. 修改root用户的密码; mysql> update mysql.user set passwordPASSWORD(’新密码’) where User’root’; mysql> flush privileges; mysql> quit 3. 重新启动MySQL&#xff…

Centos 内存占满 释放内存

2019独角兽企业重金招聘Python工程师标准>>> 一台服务器,今天用 free -m 查看,发现内存跑满了。 再 top,然后按下shiftm,也就是按内存占用百分比排序,发现排在第一的进程,才占用0.9%&#xff0c…

Android开发实践:为什么要继承onMeasure()

首先,我们写一个自定义View,直接调用系统默认的onMeasure函数,看看会是怎样的现象: 12345678910111213141516171819202122package com.titcktick.customview; import android.content.Context; import android.util.AttributeSet;…

Android_CodeWiki_01

记录常用代码片,以备不时之需..wkakak,开始: 1、 精确获取屏幕尺寸(例如:3.5、4.0、5.0寸屏幕) 1 public static double getScreenPhysicalSize(Activity ctx) { 2 DisplayMetrics dm new Displ…

centos vnc配置笔记

1.首先查询是否安装VNC Serverrpm -qa |grep vnc如果有类似于:vnc-server-的值返回说明已经安装了vnc-server如果没有安装采用yum安装yum -y install vnc2.配置VNC用户如果以root登录的话,输入vncpasswd Password:Verify:设置root用户的VNC登录用户名和密…

普通大学生和大厂的距离有多长?

随着夏季的离去,金九银十招聘季已经悄然而至,现在正处于大厂招聘高峰期,是找工作的好时机。对于程序员这个行业来说,进大厂意味着高工资、高福利以及巨大的晋升空间,这是普通公司无法提供的,因此&#xff0…

ovirt官方安装文档 附录F

附录F:在单独的机器上安装Websocket代理 websocket代理允许用户通过noVNC和SPICE HTML5控制台连接到虚拟机。noVNC客户端使用websocket传递VNC数据。但是,QEMU中的VNC服务器不提供websocket支持,因此必须在客户端和VNC服务器之间放置一个webs…

CentOS重启启动Apache,VNC

centos 重启 apache #service httpd restart 重启 VNC #service vncserver restart 重启mysql # /etc/init.d/mysqld start 重启nginx #/usr/local/nginx/sbin/nginx -c /usr/local/nginx/conf/nginx.conf

调侃 -- 刚入职时的单纯

借个漫画调侃下刚入职时傻傻的想法当然也不是说排斥加班,既然选择了这个行业,也做好了加班的准备还好现在的公司不怎么加班,相比某些企业简直不能算是加班对于哪些上班好几年的老员工,下班后仍能坚持在工位上做下去,我…

AI市场扩大催生多样化标注需求

爱数智慧创始人兼CEO张晴晴在服贸会论坛上做主题分享 9月3日,由中国信通院云计算与大数据研究所,亚太工程组织联合会主办的《2021中国智能产业论坛》在2021服贸会上成功举办,论坛现场,北京爱数智慧创始人兼CEO张晴晴做《多模态标…

五、DNS与bind

DNS服务可以为用户提供域名和IP之间的自动转换。通过DNS,用户只需输入机器的域名即可访问相关的服务,而无需使用那些难以记忆的IP地址。DNS帮助用户在互联网上寻找路径,在互联网上的每一个计算机都拥有一个唯一的地址,称作IP地址。…

Nutch 二次开发之parse正文内容

关于nutch的基础知识能够參考lemo的专栏 nutch支持二次开发,为了满足搜索的准确率的问题,考虑只将网页正文的内容提取出来作为索引的内容,相应的是parse_text的数据。我使用的事nutch1.4 版本号,在cygwin下运行crawl命令进行爬取。…

翼方健数曹华:构建数据和计算互联网的必由之路

智能时代,数据无疑是最活跃的生产要素,它将决定未来的生产力和生产关系。其中,共享和保护数据,促进数据流通,并最大化数据价值是业内技术发展所关注的焦点。 诞生在这一背景下的隐私计算技术正在蓬勃发展,…

vi常用命令以及 冒号输入

按i进入输入模式 输入: 按ESC结束输入 按:w保存退出 pageup上翻页 pagedown下翻页 :w保存 :q!不保存 :wq保存离开 i o a编辑模式 ESC一般模式 dd 删除光标所在整行 yy 复制光标所在整行

Zabbix(六):项目实战之--自动发现nginx调度器及后端web服务集群、自定义参数监控...

项目: 1.自动发现nginx调度器及后端apache构建的web服务集群; 2.使用自定义参数监控调度器上nginx服务的相关统计数据及速率数据; 3.使用自定义参数监控后端apache服务的相关统计数据及速率数据;(选做) 4.制定出nginx调度器及后端…

ONNX 浅析:如何加速深度学习算法工程化?

AlphaGo击败围棋世界冠军李世石以来,关于人工智能和深度学习的研究呈现井喷之势。各种新的算法和网络模型层出不穷,令人眼花缭乱。与之相随的,深度学习的训练和推理框架也在不断的推陈出新,比较著名的有:微软的CNTK、G…

如何在OS X中打印到PDF文件

如何在OS X中打印文件到PDF文件?其实不需要安装任何其他软件,OS X本身支持打印到PDF文件这个功能。具体操作详见下面文章:Want to save a document or web page as a PDF file, but you don’t own Adobe Acrobat? No problem, you can prin…

Joomla和Drupal简介

Joomla!是一套在国外相当知名的内容管理系统。Joomla!是使用PHP语言加上MySQL数据库所开发的软件系统,可以在Linux、 Windows、MacOSX等各种不同的平台上执行。目前是由Open Source Matters(见扩展阅读)这个开放源码组织进行开发与支持&#…

AD RMS高可用(三)部署RMS根群集服务器

1) 在rms服务器上点击“添加角色和功能”,开始rms组件的添加 2) 选择“基于角色或基于功能安装”,点击”下一步“。 3) 选择第一台rms服务,点击”下一步“。 4) 勾选”ADRMS”角色,同时会添加iis服务。点击”下一步“。 5) 保持默…

AI 复活「她」! GPT-3 帮美国小哥复刻逝去未婚妻,但又夺走她……

整理 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 今年 7 月,一名33岁的美国小哥 Joshua Barbeau 在未婚妻去世后,根据她在 Facebook 和 twitter 上的文本在另一名开发人员的帮助下成功在 GPT-3 上微调,能够复刻出未…

centOS怎样强制卸载PHP以及自定义安装PHP

这个是原创的,当然也是在前人的基础上,自己留个拷贝,其他人也不用再摸索了。 转载请保留版权信息谢谢:http://blog.csdn.net/21aspnet/ 很无语,centOS居然php版本才5.1.6,很多开源的CMS无法安装。 查看ph…

深入掌握JMS(一):JMS基础

2019独角兽企业重金招聘Python工程师标准>>> 1. JMS基本概念 JMS(Java Message Service) 即Java消息服务。它提供标准的产生、发送、接收消息的接口简化企业 应用的开发。它支持两种消息通信模型:点到点(point-to-point)&a…

浏览器前进后退对下拉框数据的丢失(省市联动实现和例子)

浏览器前进后退对下拉框数据的丢失的问题,典型的为省市下拉框联动时城市数据的丢失。省市联动一般的实现为城市在省份的选择后js加载。 那么每次城市的改变只需要重新加载新的城市数据并更新下拉框即可: 下拉函数 function ReloadCities() { var $ddlCit…

Linux(centOS)手动安装Apache+MySQL+PHP+Memcached+Nginx原创无错版

最后更新时间:2012.3.21 第一步:Apache安装(已更新到2.2.22) 下载 去 http://www.apache.org 自己找新的 http://httpd.apache.org/ 国内有很多镜像点例如"人人"和"163" http://labs.renren.com/ 注意要找httpd,因为a…

首届“陇剑杯”网络安全大赛线上赛圆满结束

9月14日,集结了各行业领域3020支战队、11135名网络安全精英的首届“陇剑杯”网络安全大赛线上赛圆满结束,成功拉开将于9月25日在甘肃兰州新区举行的总决赛战幕。届时,涵盖网络配置、数据分析和漏洞修复等真实数字化业务场景的网络防御赛道和R…

与流氓软件的一次艰苦“奋战”

不知道大家有么有过这样的经历,英语不好,但有些时候找东西,还只有英文网站上有,但英文网站上下载东西,有时候不小心就会下错,稍有不慎,电脑就中标了;这不我昨天就遇到了,…

mysql5.6基于GTID主从复制设置

1.主库和从库都必须要开启binlog2.主库和从库server-id不相同3.建立主从辅助用户grant replication slave on . to rep192.168.200.% identified by oldboy;[mysqld]server-id1log-binmysql.binbinlog_formatrowgtid_modeONenforce_gtid_consistencylog_slave_updatesrelay_log…

Python 解一道江苏 小升初 数学题,如此变态,看不起来谁?

作者:小小明【江湖人称"明佬"】链接:blog.csdn.net/as604049322/article/details/118388505注明:本文经过作者小小明授权发布,可戳原文链接关注原文作者!本文简介大家好,我是黄同学????前段时…