当前位置: 首页 > 编程日记 > 正文

9.spark core之共享变量

简介

spark执行操作时,可以使用驱动器程序Driver中定义的变量,但有时这种默认的使用方式却并不理想。

  • 集群中运行的每个任务都会连接驱动器获取变量。如果获取的变量比较大,执行效率会非常低下。
  • 每个任务都会得到这些变量的一份新的副本,更新这些副本的值不会影响驱动器中的对应变量。如果驱动器需要获取变量的结果值,这种方式是不可行的。

spark为了解决这两个问题,提供了两种类型的共享变量:广播变量(broadcast variable)和累加器(accumulator)。

  • 广播变量用于高效分发较大的对象。会在每个执行器本地缓存一份大对象,而避免每次都连接驱动器获取。
  • 累加器用于在驱动器中对数据结果进行聚合。

广播变量

原理

广播变量.png

  • 广播变量只能在Driver端定义,不能在Executor端定义。
  • 在Driver端可以修改广播变量的值,在Executor端无法修改广播变量的值。
  • 如果不使用广播变量在Executor有多少task就有多少Driver端的变量副本;如果使用广播变量在每个Executor中只有一份Driver端的变量副本。

用法

  • 通过对一个类型T的对象调用SparkContext.broadcast创建出一个BroadCast[T]对象,任何可序列化的类型都可以这么实现。
  • 通过value属性访问该对象的值
  • 变量只会被发到各个节点一次,应作为只读值处理。(修改这个值不会影响到别的节点)

    实例

    查询每个国家的呼号个数

    python

# 将呼号前缀(国家代码)作为广播变量
signPrefixes = sc.broadcast(loadCallSignTable())def processSignCount(sign_count, signPrefixes):country = lookupCountry(sign_count[0], signPrefixes.value)count = sign_count[1]return (country, count)countryContactCounts = (contactCounts.map(processSignCount).reduceByKey((lambda x, y: x+y)))countryContactCounts.saveAsTextFile(outputDir + "/countries.txt")

scala

// 将呼号前缀(国家代码)作为广播变量
val signPrefixes = sc.broadcast(loadCallSignTable())def processSignCount(sign_count, signPrefixes):country = lookupCountry(sign_count[0], signPrefixes.value)count = sign_count[1]return (country, count)val countryContactCounts = contactCounts.map{case (sign, count) => {val country = lookupInArray(sign, signPrefixes.value)(country, count)}}.reduceByKey((x, y) => x+y)countryContactCounts.saveAsTextFile(outputDir + "/countries.txt")

java

// 将呼号前缀(国家代码)作为广播变量
final Broadcast<String[]> signPrefixes = sc.broadcast(loadCallSignTable());JavaPairRDD<String, Integer> countryContactCounts = contactCounts.mapToPair(new PairFunction<Tuple2<String, Integer>, String, Integer>() {public Tuple2<String, Integer> call(Tuple2<String, Integer> callSignCount) {String sign = callSignCount._1();String country = lookupCountry(sign, signPrefixes.value());return new Tuple2(country, callSignCount._2()); }
}).reduceByKey(new SumInts());countryContactCounts.saveAsTextFile(outputDir + "/countries.txt");

累加器

原理

累加器.png

  • 累加器在Driver端定义赋初始值。
  • 累加器只能在Driver端读取最后的值,在Excutor端更新。

用法

  • 通过调用sc.accumulator(initivalValue)方法,创建出存有初始值的累加器。返回值为org.apache.spark.Accumulator[T]对象,其中T是初始值initialValue的类型。
  • Spark闭包里的执行器代码可以使用累加器的+=方法增加累加器的值
  • 驱动器程序可以调用累加器的value属性来访问累加器的值

实例

累加空行

python

file = sc.textFile(inputFile)
# 创建Accumulator[Int]并初始化为0
blankLines = sc.accumulator(0)def extractCallSigns(line):global blankLines # 访问全局变量if (line == ""):blankLines += 1return line.split(" ")callSigns = file.flatMap(extractCallSigns)
callSigns.saveAsTextFile(outputDir + "/callsigns")
print "Blank lines: %d" % blankLines.value

scala

val file = sc.textFile("file.txt")
val blankLines = sc.accumulator(0) //创建Accumulator[Int]并初始化为0val callSigns = file.flatMap(line => {if (line == "") {blankLines += 1 //累加器加1}line.split(" ")
})callSigns.saveAsTextFile("output.txt")
println("Blank lines:" + blankLines.value)

java

JavaRDD<String> rdd = sc.textFile(args[1]);final Accumulator<Integer> blankLines = sc.accumulator(0);JavaRDD<String> callSigns = rdd.flatMap(new FlatMapFunction<String, String>() {public Iterable<String> call(String line) {if ("".equals(line)) {blankLines.add(1);}return Arrays.asList(line.split(" "));}
});callSigns.saveAsTextFile("output.text");
System.out.println("Blank lines:" + blankLines.value());

忠于技术,热爱分享。欢迎关注公众号:java大数据编程,了解更多技术内容。

这里写图片描述

转载于:https://blog.51cto.com/12967015/2172863

相关文章:

【CSDN2012年度博客之星】需要您的一票,感谢大家的支持

从2004年9月&#xff0c;本人一直将自己工作和学习经验写成博文分享给大家&#xff0c;本人有幸被选为&#xff12;&#xff10;&#xff11;&#xff12;年&#xff18;&#xff18;位候选博客之星&#xff0c;如果各位IT‘er喜欢我的博文&#xff0c;请投我一票&#xff0c;做…

双绞线和同轴电缆

线缆作为连接器件&#xff0c;相当于不同系统之间沟通的“桥梁”&#xff0c;选择线缆类型的好坏&#xff0c;也决定着传输信号的质量&#xff0c;影响着整个系统的稳定性。 &#xff08;1&#xff09;特性阻抗 先说一下关于线缆在传输过程中的特性阻抗问题。 特性阻抗是指电缆…

keras训练完以后怎么预测_使用Keras建立Wide Deep神经网络,通过描述预测葡萄酒价格...

你能通过“优雅的单宁香”、“成熟的黑醋栗香气”或“浓郁的酒香”这样的描述&#xff0c;预测葡萄酒的价格吗&#xff1f;事实证明&#xff0c;机器学习模型可以。在这篇文章中&#xff0c;我将解释我是如何利用Keras(tf.keras)建立一个Wide & Deep神经网络&#xff0c;并…

如何发布自己的NPM包(模块)?

1.注册NPM 账号 注册地址&#xff1a;https://www.npmjs.com/。 2.初始化自己要发布的项目 搭建本地环境&#xff1a;安装node.js&#xff0c;包含了npm命令。新建目录&#xff0c;在该目录下&#xff0c;初始化项目&#xff1a;npm init。按照提示填写初始化信息&#xff0c;我…

PHP对于浮点型的数据需要用不同的方法去解决

Php: BCMathbc是Binary Calculator的缩写。bc*函数的参数都是操作数加上一个可选的 [int scale]&#xff0c;比如string bcadd(string $left_operand, string $right_operand[, int $scale])&#xff0c;如果scale没有提供&#xff0c;就用bcscale的缺省值。这里大数直接用一个…

mysql提示符详解_MySQL字符集使用详解

查看字符集相关变量mysql> show variables like character%;————————–——————————-| Variable_name | Value |————————–——————————-| character_set_client | latin1 || character_set_connection | latin1 || character_set_database…

Apache漏洞修复

今天受同事的委托&#xff0c;修复一台服务器的Apache漏洞&#xff0c;主要集中在以下几点&#xff1a; 1.Apache httpd remote denial of service&#xff08;中危&#xff09; 修复建议&#xff1a;将Apache HTTP Sever升级到2.2.20或更高版本。 解决方法&#xff1a;升级HTT…

Java遍历Map对象的四种方式

关于java中遍历map具体哪四种方式&#xff0c;请看下文详解吧。 方式一 这是最常见的并且在大多数情况下也是最可取的遍历方式。在键值都需要时使用。 1 2 3 4 Map<Integer, Integer> map new HashMap<Integer, Integer>(); for (Map.Entry<Integer, Intege…

Tokyo Cabinet 安装

tokyocabinet :一个key-value的DBM数据库&#xff0c;但是没有提供网络接口&#xff0c;以下称TC。 tokyotyrant :是为TC写的网络接口&#xff0c;他支持memcache协议&#xff0c;也可以通过HTTP操作&#xff0c;以下称TT。 Tokyo Cabinet 是一款 DBM 数据库&#xff0c;Tokyo …

Packagist / Composer 中国全量镜像

Packagist 镜像 请各位使用本镜像的同学注意&#xff1a; 本镜像已经依照 composer 官方的数据源安全策略完全升级并支持 https 协议&#xff01;请各位同学 按照下面所示的两个方法将 http://packagist.phpcomposer.com 修改为 https://packagist.phpcomposer.com 还没安装 co…

centos yum mysql-devel 5.5_CentOS 6.5下yum安装 MySQL-5.5全过程图文教程

在linux安装mysql是一个困难的事情&#xff0c;yum安装一般是安装的mysql5.1&#xff0c;现在经过自己不懈努力终于能用yum安装mysql5.5了。下面通过两种方法给大家介绍CentOS 6.5下yum安装 MySQL-5.5全过程&#xff0c;一起学习吧。方法一&#xff1a;具体方法和步骤如下所示&…

py 的 第 31 天

1.osi 7层模型 5层&#xff1a; 应用层 应用层 表示层 会话层 传输层 网络层 数据链路层 物理层 4层&#xff1a; 应用层 应用层 表示层 会话层 传输层 网络层 物理层 数据链路层 物理层 注意&#xff1a;7层背会。 2.tcp的三次握手&…

mysql实训报告_mysql数据库技术》实验报告.doc

mysql数据库技术》实验报告MySQL数据库技术实验报告系 别班 级学 号姓 名地点地点机房课程名称MySQL数据库技术实验名称实验1 MySQL的使用实 验 过 程目的要求&#xff1a;(1)掌握MySQL服务器安装方法(2)掌握MySQL Administrator的基本使用方法(3)基本了解数据库及其对象实验准…

PHP中魔术方法的用法

PHP中魔术方法的用法 /** PHP把所有以__&#xff08;两个下划线&#xff09;开头的类方法当成魔术方法。所以你定义自己的类方法时&#xff0c;不要以 __为前缀。 * */// __toString、__set、__get__isset()、__unset() /*The __toString method allows a class to decide how …

“互联网+”的时代,易佳互联也随着时代步伐前进着

一谈到互联网&#xff0c;我想大家的心里都不陌生&#xff0c;咱们总理工作报告中提出&#xff0c;制定“互联网”行动计划&#xff0c;推动移动互联网、云计算、大数据、物联网等与现代制造业结合&#xff0c;促进电子商务、工业互联网和互联网金融健康发展&#xff0c;引导互…

PHP 获取数组最后一个值

<?PHP$array array(1,2,4,6,8);echo end($array);?> <?PHP$array array(1,2,4,6,8);echo array_pop($array);?> <?PHP$array array(1,2,4,6,8);$k array_slice($array,-1,1);print_r($k); //结果是一维数组?>

解决nginx 502 bad gateway--团队的力量

nginx 502 bad gateway可以采取客户端强制刷新的方法&#xff0c;但是真正的解决要么改配置或者放CDN上。遇到这个问题&#xff0c;首先是有人发现可以加index.html访问&#xff0c;因为我们是线上网站&#xff0c;没有太多时间去研究&#xff0c;所以先临时这样&#xff1b;然…

MYSQL企业常用架构与调优经验分享

小道消息&#xff1a;2016爱维Linux高薪实战运维提高班全新登场,课程大纲&#xff1a;http://www.iivey.com/666-2一、选择Percona Server、MariaDB还是MYSQL1、Mysql三种存储引擎MySQL提供了两种存储引擎&#xff1a;MyISAM和 InnoDB&#xff0c;MySQL4和5使用默认的MyISAM存储…

mysql 5.x 安装_mysql 5.5.x zip直接解压版安装方法

到官网下载mysql-5.5.10-win32.zip&#xff0c;然后将mysql解压到任意路径&#xff0c;如&#xff1a;C:\mysql-5.5.10-win32打开计算机->属性->高级系统设置->环境变量&#xff0c;新建一个环境变量&#xff0c;变量名为&#xff1a;MYSQL_HOME&#xff0c;变量值为你…

阿里云移动数据分析服务使用教程

阿里云大学课程&#xff1a;阿里云移动数据分析服务使用教程课程介绍&#xff1a;移动数据分析 (Mobile Analytics) 是阿里云推出的一款移动App数据统计分析产品&#xff0c;为开发者提供一站式数据化运营服务&#xff1a;通用的多维度用户行为分析、数据开放并支持自定义分析、…

Apache的服务端包含--SSI

SSI定义&#xff1a; SSI&#xff08;服务器端包含&#xff09;提供了一种对现有HTML文档增加动态内容的方法。 作用&#xff1a; 一般出于效率的考虑&#xff0c;网站都会把内容尽可能的静态化成HTML文件&#xff0c;但是网站页面的布局往往比较复杂&#xff0c;各个部分的更新…

mysql校对规则_MySQL中的校对规则

详解MySQL中的校对规则Welcome to the MySQL monitor. Commands end with ; or \g.Your MySQL connection id is 7Server version: 5.6.14 MySQL Community Server (GPL)Copyright (c) 2000, 2013, Oracle and/or its affiliates. All rights reserved.Oracle is a registered…

c#操作oracle的通用类

using System;using System.Collections;using System.Collections.Generic;using System.Data;using System.Linq;using System.Text;using DDTek.Oracle;using System.Configuration;namespace Common{ <summary> /// OracleHelper 的摘要说明。 /// </summary> …

react es6+ 代码优化之路-1

这里集合了一些代码优化的小技巧 在初步接触 es6 和 react 的时候总结的一些让代码跟加简化和可读性更高的写法大部分知识点是自己在平时项目中还不知道总结的&#xff0c;一致的很多优化的点没有写出来&#xff0c;逐步增加中,目的是使用最少的代码&#xff0c;高效的解决问题…

反向ajax实现

英文原文&#xff1a; Reverse Ajax, Part 1: Introduction to Comet在过去的几年中&#xff0c;web开发已经发生了很大的变化。现如今&#xff0c;我们期望的是能够通过web快速、动态地访问应用。在这一新的文章系列中&#xff0c;我们学习如何使用反向Ajax&#xff08;Revers…

ef关联多实体查询_Mybatis基本知识十二:关联关系查询之延迟加载:侵入式延迟加载...

上一篇文章&#xff1a;《Mybatis基本知识十一&#xff1a;关联关系查询之延迟加载策略&#xff1a;直接加载》若文中有纰漏,请多多指正&#xff01;&#xff01;&#xff01;1.前言延续上一章节&#xff0c;本章节主要讲解和演示在关联关系查询中侵入式延迟加载是怎么回事。与…

Java高危漏洞被再度利用 可攻击最新版本服务器

2019独角兽企业重金招聘Python工程师标准>>> 安全研究人员警告称&#xff0c;甲骨文在2013年发布的一个关键 Java 漏洞更新是无效的&#xff0c;黑客可以轻松绕过。这使得此Java高危漏洞可以被再度利用&#xff0c;击运行最新版本 Java 的个人计算机及服务器。甲骨文…

不断演进的 Chrome 安全标识

文 / Chrome Security 产品经理 Emily Schechter 此前&#xff0c;我们曾发布一项提议&#xff0c;建议将所有 HTTP 网页标记为确定 “不安全” 并移除 HTTPS 网页的安全标识。自从我们在 Chrome 中引入安全标识以来&#xff0c;网络上的 HTTPS 使用量迅速增加。今年晚些时候&a…

gcc -E 选项

-E 只激活预处理,这个不生成文件,你需要把它重定向到一个输出文件里面.例子用法:gcc -E hello.c > pianoapan.txtgcc -E hello.c | more慢慢看吧,一个hello word 也要与处理成800行的代码 -E选项&#xff0c;表示让gcc只进行“预处理”就行了。 所谓的预处理&#xff0c;就是…

剑指offer青蛙跳台阶问题

&#xff08;1&#xff09;一只青蛙一次可以跳上 1 级台阶&#xff0c;也可以跳上2 级。求该青蛙跳上一个n 级的台阶总共有多少种跳法。//递归方式 public static int f(int n) { //参数合法性验证 if (n < 1) { System.out.println("参数必须大于1&#xff01;&quo…