当前位置: 首页 > 编程日记 > 正文

如何学习大数据?

想要都进入大数据行业的第一步,是先搞清楚大数据究竟有哪些就业方向。

大数据就业岗位

随着大数据技术在企业界如火如荼的实践,企业对组建大数据团队的迫切程度也也来越高,对与大数据相关高端人才的需求也越来越紧迫,但企业对大数据团队的组建和角色分配方面缺一直有不小的困惑,到底大数据团队里应该拥有哪些几类角色,如何设置岗位?同一类别的角色的专业方向又有哪些分化,不同专业的岗位对技能应该有哪些要求?如何管理大数据团队成员的职业发展路径?为此,ChinaHadoop花费了一年时间调研了先进企业内部设立的大数据部门或团队的组织结构和职能划分,在此基础上,首次提出了企业大数据团队的岗位划分,专业分类及定义,以及每个岗位所需的技能及培训,技能考核对应的能力级别,我们将之统称为”企业大数据人才岗位技能认证体系“。

通过对企业大数据人才岗位进行专业细分,岗位技能认证等级与企业现有技术专业通道形成对应关系,打通员工的职业发展通道,帮助企业逐步完善大数据团队的组织结构,不断提高团队技能,为各岗位及时储备人才。

大数据团队的角色分类企业大数据团队的角色分类主要有三个大类别:大数据开发工程师、大数据运维工程师、大数据架构师。总体而言,我们大数据人才划分为三个大类:

一、 大数据开发工程师:围绕大数据系平台系统级的研发人员, 熟练Hadoop、Spark、Storm等主流大数据平台的核心框架。深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算,并能够使用Hadoop提供的通用算法,

熟练掌握Hadoop整个生态系统的组件如: Yarn,HBase、Hive、Pig等重要组件,能够实现对平台监控、辅助运维系统的开发。通过学习一系列面向开发者的Hadoop、Spark等大数据平台开发技术,掌握设计开发大数据系统或平台的工具和技能,能够从事分布式计算框架如Hadoop、Spark群集环境的部署、开发和管理工作,如性能改进、功能扩展、故障分析等。

二、 大数据运维工程师:了解Hadoop、Spark、Storm等主流大数据平台的核心框架,熟悉Hadoop的核心组件:HDFS、MapReduce、Yarn;具备大数据集群环境的资源配置,如网络要求、硬件配置、系统搭建。熟悉各种大数据平台的部署方式,集群搭建,故障诊断、日常维护、性能优化,同时负责平台上的数据采集、数据清洗、数据存储,数据维护及优化。熟练使用Flume、Sqoop等工具将外部数据加载进入大数据平台,通过管理工具分配集群资源实现多用户协同使用集群资源。

三、 大数据架构师:这一角色的要求是综合型的,对各种开源和商用的大数据系统平台和产品的特点非常熟悉,能基于Hadoop、Spark、 NoSQL、 Storm流式计算、分布式存储等主流大数据技术进行平台架构设计,负责企业选用软件产品的技术选型,具体项目中的数据库设计及实现工作,协助开发人员完成数据库部分的程序 ,能解决公司软件产品或者项目开发和运维中与数据库相关的问题; 及时解决项目开发或产品研发中的技术难题,对设计系统的最终性能和稳定性负责。 岗位能力级别定义:1. 初级:具备基本的大数据技术的基础知识,可以将其视为大数据认证的初学或者入门等级。2. 高级:大数据认证的高级或者熟练等级,表明该人才具备大数据某一专业方向的基本知识和熟练技能。3. 专家:具有业界公认的专业大数据技术知识和丰富工作经验。 这里简单介绍几种我认为用的比较多的技术

一、Hadoop 可以说,hadoop几乎已经是大数据代名词。无论是是否赞成,hadoop已经是大部分企业的大数据标准。得益于Hadoop生态圈,从现在来看,还没有什么技术能够动摇hadoop的地位。

这一块可以按照一下内容来学习:

1、Hadoop产生背景 2、Hadoop在大数据、云计算中的位置和关系 3、国内外Hadoop应用案例介绍 4、国内Hadoop的就业情况分析及课程大纲介绍 5、分布式系统概述 6、Hadoop生态圈以及各组成部分的简介

二、分布式文件系统HDFS HDFS全称 Hadoop Distributed File System ,它是一个高度容错性的系统,适合部署在廉价的机器上,同时能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。为了实现流式读取文件系统数据的目的,HDFS放宽了一部分POSIX约束。

1、分布式文件系统HDFS简介 2、HDFS的系统组成介绍 3、HDFS的组成部分详解 4、副本存放策略及路由规则 5、NameNode Federation 6、命令行接口 7、Java接口 8、客户端与HDFS的数据流讲解 9、HDFS的可用性(HA) 三、初级MapReduce 这是你成为Hadoop开发人员的基础课程。

MapReduce提供了以下的主要功能:

1)数据划分和计算任务调度:

2)数据/代码互定位:

3)系统优化:

4)出错检测和恢复:

这种编程模型主要用于大规模数据集(大于1TB)的并行运算。

1、如何理解map、reduce计算模型 2、剖析伪分布式下MapReduce作业的执行过程 3、Yarn模型 4、序列化 5、MapReduce的类型与格式 6、MapReduce开发环境搭建 7、MapReduce应用开发 8、熟悉MapReduce算法原理 四、高级MapReduce 这一块主要是高级Hadoop开发的技能,都是MapReduce为什么我要分开写呢?因为我真的不觉得谁能直接上手就把MapReduce搞得清清楚楚。

1、使用压缩分隔减少输入规模 2、利用Combiner减少中间数据 3、编写Partitioner优化负载均衡 4、如何自定义排序规则 5、如何自定义分组规则 6、MapReduce优化 五、Hadoop集群与管理 这里会涉及到一些比较高级的数据库管理知识,乍看之下都是操作性的内容,但是做成容易,做好非常难。

1、Hadoop集群的搭建 2、Hadoop集群的监控 3、Hadoop集群的管理 4、集群下运行MapReduce程序 六、ZooKeeper基础知识 ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

1、ZooKeeper体现结构 2、ZooKeeper集群的安装 3、操作ZooKeeper 七、HBase基础知识 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

与FUJITSU Cliq等商用大数据产品不同,HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable利用 Chubby作为协同服务,HBase利用Zookeeper作为对应。

1、HBase定义 2、HBase与RDBMS的对比 3、数据模型 4、系统架构 5、HBase上的MapReduce 6、表的设计 八、HBase集群及其管理 1、集群的搭建过程 2、集群的监控 3、集群的管理 十、Pig基础知识 Pig是进行Hadoop计算的另一种框架,是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。

1、Pig概述 2、安装Pig 3、使用Pig完成手机流量统计业务 十一、Hive hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用。

1、数据仓库基础知识 2、Hive定义 3、Hive体系结构简介 4、Hive集群 5、客户端简介 6、HiveQL定义 7、HiveQL与SQL的比较 8、数据类型 9、表与表分区概念 10、表的操作与CLI客户端 11、数据导入与CLI客户端 12、查询数据与CLI客户端 13、数据的连接与CLI客户端 14、用户自定义函数(UDF) 十二、Sqoop Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

1、配置Sqoop 2、使用Sqoop把数据从MySQL导入到HDFS中 3、使用Sqoop把数据从HDFS导出到MySQL中 十三、Storm Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于“连续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。

1、Storm基础知识:包括Storm的基本概念和Storm应用 场景,体系结构与基本原理,Storm和Hadoop的对比 2、Storm集群搭建:详细讲述Storm集群的安装和安装时常见问题 3、Storm组件介绍: spout、bolt、stream groupings等 4、Storm消息可靠性:消息失败的重发 5、Hadoop 2.0和Storm的整合:Storm on YARN 6、Storm编程实战

转载于:https://juejin.im/post/5a2664cd51882531ea6521e2

相关文章:

软件测试培训分享:Bug的作用有多大?

软件测试人员在工作中遇到最常见的是就是bug,那么bug经常出现是对是错呢?Bug的作用有多大?本期小编为大家介绍的软件测试培训教程就是关于这方面的内容的,来看看下面的详细介绍吧。 软件测试培训分享:Bug的作用有多大?主要有以下几点&…

(转)Linux进程调度时机

转自:http://oss.org.cn/kernel-book/ch05/5.3.2.htm 调度程序虽然特别重要,但它不过是一个存在于内核空间中的函数而已,并不神秘。Linux的调度程序是一个叫Schedule()的函数,这个函数被调用的频率很高&…

python 字符编码问题

字符编码 一、字符编码的演进 ASCIIGB2312 GBK1.0 GB18030Unicode编码:国际标准字符集,它将世界各种语言的每个字符定义一个唯一的编码,以满足跨语言、跨平台的文本信息转换。Unicode(统一码、万国码)规定所有的…

谢文睿:西瓜书 + 南瓜书 吃瓜系列 6. 神经网络

Datawhale南瓜书是经典机器学习教材《机器学习》(西瓜书)的公式推导解析指南,旨在让在学习西瓜书的过程中,再也没有难推的公式,学好机器学习。 以往内容: 西瓜书公式推导讲解来了!0. 导学1. 一…

Python培训常识:Python面试中常被问到的几种设计模式要知道

学习Python技术大家都是为了日后能够找到适合自己的工作岗位,那么除了要学习好Python技术外,对于面试环节的问题也要有所了解,本期小编为大家介绍的Python培训教程就算关于Python面试中常被问到的几种设计模式,希望能够给带来帮助…

ThinkPHP 框架学习

学习内容全部参考开发手册 建议收藏网页 https://www.kancloud.cn/manual/thinkphp/1696 一、几个概念 应用:基于同一个入口文件访问的项目称之为一个应用 模块:一个应用下面可以包含多个模块。每个模块在应用目录下面都是一个独立的子目录 控制器&…

【青少年编程】【三级】克隆猫游戏

「青少年编程竞赛交流群」已成立(适合6至18周岁的青少年),公众号后台回复【Scratch】或【Python】,即可进入。如果加入了之前的社群不需要重复加入。 微信后台回复“资料下载”可获取以往学习的材料(视频、代码、文档&…

想转行学软件测试要注意哪些问题

软件测试的快速发展,让很多人都红了眼,大家都想转行学软件测试,那么想转行学软件测试要注意哪些问题呢?大家是否考虑过自己是否合适呢?那么我们来看看下面的介绍吧。 想转行学软件测试要注意哪些问题?据数据显示,今年毕业生首选…

SpringMVC学习二

使用POJO作为参数 web.xml <?xml version"1.0" encoding"UTF-8"?> <web-app version"3.0" xmlns"http://java.sun.com/xml/ns/javaee" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocatio…

使用CInternetSession和CHttpFile读取网页内容

参考网址&#xff1a;http://www.398588.com/Article/T9/78.aspx读取网页的内容可以类比本地的文件一下&#xff0c;代码如下&#xff1a;#include <afxinet.h> CString url; GetDlgItemText(IDC_EDIT1,url); CInternetSession Sess; CHttpFile*cFile (CHttp…

谢文睿:西瓜书 + 南瓜书 吃瓜系列 7. 支持向量机

Datawhale南瓜书是经典机器学习教材《机器学习》&#xff08;西瓜书&#xff09;的公式推导解析指南&#xff0c;旨在让在学习西瓜书的过程中&#xff0c;再也没有难推的公式&#xff0c;学好机器学习。 以往内容&#xff1a; 西瓜书公式推导讲解来了&#xff01;0. 导学1. 一…

Python培训分享:Python发展前景怎么样?

最近学习Python技术的同学越来越多&#xff0c;大家对于Python技术比较关注的两个点&#xff0c;就是Python技术好不好学&#xff0c;Python就业前景好不好&#xff0c;那么本文针对Python发展前景怎么样这个问题为大家做下详细的介绍。 Python培训分享&#xff1a;Python发展前…

处理器拦截器(HandlerInterceptor)详解

处理器拦截器&#xff08;HandlerInterceptor&#xff09;详解 编程界的小学生 关注 2017.04.06 15:19* 字数 881 阅读 657评论 0喜欢 4简介SpringWebMVC的处理器拦截器&#xff0c;类似于Servlet开发中的过滤器Filter&#xff0c;用于处理器进行预处理和后处理。 应用场景1、日…

Datawhale组队学习周报(第018周)

文章目录本周结营的开源内容即将结营的开源内容正在进行的开源内容七月排期的开源内容希望排期的开源内容每周号外Whalepaper 招新公告本周&#xff08;06月14日~06月20日&#xff09;&#xff0c;第 25 期组队学习一共有 3 门开源课程&#xff0c;共组建了 3 个学习群&#xf…

【原创】多台电脑如何公用一个键盘鼠标进行操作 - Mouse with Borders 软件

搞程序开发的同事经常会碰到类似的情况&#xff0c;桌子有多台设备&#xff0c;笔记本&#xff0c;台式机了&#xff0c;经常需要来回切换操作&#xff0c;桌子上摆满了键盘和鼠标&#xff0c;如果要是用同一个键盘或者鼠标&#xff0c;操作这些设备那就很便利了。 给大家推荐一…

Python培训教程分享:如何实现pygame的初始化和退出操作?

本期小编为大家介绍的Python培训教程是关于“如何实现pygame的初始化和退出操作?”的内容&#xff0c;pygame模块针对不同的开发需求提供了不同的子模块&#xff0c;例如显示模块、字体模块、混音器模块等&#xff0c;一些子模块在使用之前必须进行初始化&#xff0c;比如字体…

PLSQL的 dynamic sql小例子

开始 SET serveroutput ON;DECLAREp_tab_name varchar2(20);cursor_name INTEGER;p_rows_del INTEGER; BEGINp_tab_name : EMP_CPY;cursor_name : DBMS_SQL.OPEN_CURSOR;DBMS_SQL.PARSE(cursor_name, DELETE FROM ||p_tab_name, DBMS_SQL.NATIVE);DBMS_OUTPUT.PUT_LINE(p_tab_n…

【青少年编程】陈晓光:打靶游戏

「青少年编程竞赛交流群」已成立&#xff08;适合6至18周岁的青少年&#xff09;&#xff0c;公众号后台回复【Scratch】或【Python】&#xff0c;即可进入。如果加入了之前的社群不需要重复加入。 微信后台回复“资料下载”可获取以往学习的材料&#xff08;视频、代码、文档&…

Phpcms V9手机门户设置教程:怎么用PC V9做手机网站

一、在PHPcms V9管理后台设置手机门户 1.1、开启手机网站。位置&#xff1a;模块 》手机门户 》 添加手机站点&#xff0c;具体设置可参照截图&#xff1a; 填写站点名和LOGO文件相对位置&#xff0c;绑定用于手机网站的二级域名m.cmsyou.com&#xff0c;域名以http://开头。 1…

参加软件测试培训需要学习哪些知识

软件测试在互联网行业的发展前景非常好&#xff0c;很多人都想学习软件测试&#xff0c;其中有很多都是零基础学员&#xff0c;那么参加软件测试培训需要学习哪些知识?零基础是否能学会呢?来看看下面的详细介绍吧。 参加软件测试培训需要学习哪些知识?下面给大家简单说下软件…

C#用XmlDocument操作XML

1.加载xml文件 string xmlPath AppDomain.CurrentDomain.BaseDirectory"xml/test.xml"; XmlDocument xmlDoc new XmlDocument(); xmlDoc.Load(xmlPath);//这里是xml文件的路径 string xmlString"<books><book>test</book></books>…

【第20周复盘】转换思路,让更多的小朋友们参与进来!

「青少年编程竞赛交流群」已成立&#xff08;适合6至18周岁的青少年&#xff09;&#xff0c;公众号后台回复【Scratch】或【Python】&#xff0c;即可进入。如果加入了之前的社群不需要重复加入。 微信后台回复“资料下载”可获取以往学习的材料&#xff08;视频、代码、文档&…

篇三:XPath--解析Html

篇三&#xff1a;XPath--解析Html

Python培训教程:什么是Python全局解释器锁(GIL)?

本期Python培训教程小编为大家带来的是关于“什么是Python全局解释器锁(GIL)?”的问题&#xff0c;全局解释器锁是计算机程序设计语言解释器用于同步线程的工具&#xff0c;使得在同一进程内任何时刻仅有一个线程在执行&#xff0c;常见的有CPython、Ruby MRI。 Python培训教程…

Datawhale组队学习周报(第019周)

本周&#xff08;06月21日~06月27日&#xff09;&#xff0c;第 25 期组队学习一共有 3 门开源课程&#xff0c;共组建了 3 个学习群&#xff0c;参与的学习者有 292 人&#xff0c;其中 web开发入门教程、数据挖掘实战&#xff08;异常检测&#xff09; 已经结营&#xff0c;另…

git ingore添加忽略文件无较的解决方法

一、启动Git Bash并切换到项目目录下 二、执行下列语句&#xff1a; git rm -r --cached . git add . git commit -m update .gitignore 三、OK。

01、WPF 中 URI 解析

WebBrowser 控件导航到包中的 html 文件,首先把该文件 (bland.html) 的属性设置为 "Resource"、“始终复制”&#xff0c; 然后在 C# 页面可以导航到该文件。 webView.Navigate(new Uri(System.Environment.CurrentDirectory "/Assets/bland.html", UriK…

现在参加软件测试培训就业难度大不大?

软件测试对于IT行业来说&#xff0c;入门是相对比较简单的&#xff0c;所以学习起来是非常快的&#xff0c;零基础也可以在短时间内学会&#xff0c;那么现在参加软件测试培训就业难度大不大呢?看出来大家主要关心的是就业问题&#xff0c;来看看下面小编的详细介绍就知道了。…

ABP理论学习之数据传输对象(DTO)

本篇目录 为何需要DTO 领域层抽象数据隐藏序列化和懒加载问题DTO惯例和验证 DTO和实体的自动映射 使用特性和扩展方法进行映射帮助接口DTO用于应用层和 展现层间的数据传输。 展现层调用具有DTO参数的应用服务方法&#xff0c;然后应用服务使用领域对象来执行一些特定的业务逻辑…

Linux如何查看当前目录下文件的个数

查看当前目录下文件的个数 ls -l | grep "^-" | wc -l 查看当前目录下文件的个数&#xff0c;包括子目录里的。 ls -lR| grep "^-" | wc -l 查看某目录下文件夹&#xff08;目录&#xff09;的个数&#xff0c;包括子目录里的。 ls -lR| grep "^d&quo…