当前位置：首页 > 编程日记 > 正文

spark- PySparkSQL之PySpark解析Json集合数据

编程日记 2024-08-26 07:20:00

PySparkSQL之PySpark解析Json集合数据

数据样本

12341234123412342|asefr-3423|[{"name":"spark","score":"65"},{"name":"airlow","score":"70"},{"name":"flume","score":"55"},{"name":"python","score":"33"},{"name":"scala","score":"44"},{"name":"java","score":"70"},{"name":"hdfs","score":"66"},{"name":"hbase","score":"77"},{"name":"qq","score":"70"},{"name":"sun","score":"88"},{"name":"mysql","score":"96"},{"name":"php","score":"88"},{"name":"hive","score":"97"},{"name":"oozie","score":"45"},{"name":"meizu","score":"70"},{"name":"hw","score":"32"},{"name":"sql","score":"75"},{"name":"r","score":"64"},{"name":"mr","score":"83"},{"name":"kafka","score":"64"},{"name":"mo","score":"75"},{"name":"apple","score":"70"},{"name":"jquery","score":"86"},{"name":"js","score":"95"},{"name":"pig","score":"70"}]

正菜：

#-*- coding:utf-8 –*-
from __future__ import print_function
from pyspark import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql.types import Row, StructField, StructType, StringType, IntegerType
import sys
reload(sys)
import jsonif __name__ == "__main__":sc = SparkContext(appName="PythonSQL")sqlContext = SQLContext(sc)fileName = sys.argv[1]lines = sc.textFile(fileName)sc.setLogLevel("WARN")def parse_line(line):fields=line.split("|",-1)keyword=fields[2]return keyworddef parse_json(keyword):return keyword.replace("[","").replace("]","").replace("},{","}|{")keywordRDD = lines.map(parse_line)#print(keywordRDD.take(1))#print("---------------")
jsonlistRDD = keywordRDD.map(parse_json)#print(jsonlistRDD.take(1))
jsonRDD = jsonlistRDD.flatMap(lambda jsonlist:jsonlist.split("|"))schema = StructType([StructField("name", StringType()),StructField("score", IntegerType())])df = sqlContext.read.schema(schema).json(jsonRDD)# df.printSchema()# df.show()
df.registerTempTable("json")df_result = sqlContext.sql("SELECT name,score FROM json WHERE score > 70")df_result.coalesce(1).write.json(sys.argv[2])sc.stop()

提交作业

spark-submit .\demo2.py "C:\\Users\\txdyl\\Desktop\\test.txt" "c:\\users\\txdyl\\Desktop\\output"

数据结果

转载于:https://www.cnblogs.com/RzCong/p/11094784.html

https://www.dkcj.cn/info/15921.html

cmd库的导入Java,在cmd命令窗口导入第三方jar包来运行java文件

在cmd命令窗口导入第三方jar包来运行java文件，以下测试都是基于window环境，Linux环境没有测试。1、编译使用命令javac -cp或者javac -classpath本机测试：如下图所示，java文件路径为D:\workspace\demo,StringUtilsTest.java依赖了第…

编程日记2024/08/26 07:10:00

JQuery 动态创建表单，并自动提交

前言：写这个是为了实现使用cookie进行自动登录的功能， 下面的代码是一个元素一个元素进行创建和赋值的， (可以尝试下将所有的html代码(form、input）全部拼好以后放到${ } 中，再进行提交。) submit的时候注意下写法&…

编程日记2024/08/26 07:00:00

（转）利用ArcScene进行三维地形模拟

本文摘自：http://www.sunzx.net/archive/1109.html 在ArcGIS Desktop中，可用于三维场景展示的程序为ArcGlobe和ArcScene，由于两者的差别，在三维场景展示中适用的情况有所不同。ArcScene是一个适合于展示三维透视场景的平台&#x…

编程日记2024/08/26 06:50:00

Android使用自定义View时：Error inflating class错误的原因。

当在布局文件里使用自定义的View的时候，出现Error inflating class错误的原因： 1、没有定义inflate需要的默认构造函数； eg:自定义View为TestView,需要定义TestView(Context context),TestView(Context context,AttributeSet set); 2、这是个…

编程日记2024/08/26 06:40:00

1)nested loopnested loop，指的是两个表连接时, 通过两层嵌套循环来进行依次的匹配, 最后得到返回结果集的表连接方法.select t1.owner,t1.object_name,t2.OBJECT_IDfrom test_tab1 t1,test_tab2 t2where t1.OBJECT_ID t2.OBJECT_IDand ROWNUM select *from test_t…

编程日记2024/08/26 06:30:00

Ajax 完整教程 (转)

Ajax 完整教程第 1 页 Ajax 简介Ajax 由 HTML、JavaScript™ 技术、DHTML 和 DOM 组成，这一杰出的方法可以将笨拙的 Web 界面转化成交互性的 Ajax 应用程序。本文的作者是一位 Ajax 专家，他演示了这些技术如何协同工作 —— 从总体概述到细节的讨论 ——…

编程日记2024/08/26 06:20:00

.Net中如何操作IIS(源代码)

http://www.daima.com.cn/Info/3/Info20453/转载于:https://www.cnblogs.com/luoyuan/archive/2005/09/17/238986.html

编程日记2024/08/26 06:10:00

Enterprise Library Configuration DAAB的使用

1.要试用DAAB,首先要引用两个类库第一个是Enterprise Library Shared Library 这个类库是所有Enterprist Library都必须引用的类库,它提供所需的结构类型. 第二个是Enterprist Library Data Access Application Block 这个就是daab的核心类库. 2试用DAAB的第一个步骤就是配置a…

编程日记2024/08/26 06:00:00

安装oracle后在cmd,在WINDOWS上安装ORACLE RAC的注意事项

在WINDOWS上安装ORACLE RAC的注意事项1、检查防火墙和杀毒软件如果不关掉防火墙，在安装CRS时，在"Oracle Clusterware Configuration Assistant"界面会提示(1)OUI-25031错误(2)dddb1 service OracleCSService in improper PENDING state, err(9…

编程日记2024/08/26 05:50:00

Tessellation (曲面细分) Displacement Mapping (贴图置换)

DirectX 11 Tessellation (曲面细分)—什么是 Tessellation (曲面细分) ?它为什么可以起到如此关键的数据?随着近期人们对 DirectX 11 的议论纷纷，你可能已经听说了有关 DirectX 11 最大新特性 Tessellation (曲面细分) 的大量介绍。作为一个概念。 Tessellation …

编程日记2024/08/26 05:40:00

java 第12课

/*Java是面向对象的程序设计语言.面向对象的思想是将客观事物都作为实体,而对象通过实体抽象得到.所谓实体抽象,就是对实体的某些特征进行概括,使其数字化、符号化;比如:李四同学,就是一个实体,我们关心他的这些特征:姓名、性别、年龄、身高、体重等特征,就会有李四、男、21、1…

编程日记2024/08/26 05:30:00

鸽巢原理(The Pigeonhole Principle)（抽屉原理）

简单形式：若n1个物体放进n个盒子，那么至少有一个盒子包含两个或更多的物体。应用：给定m个整数A1,A2,...,Am,存在整数k和l， 0 < k < l < m,使得Ak1 Ak2 ＋ ... Al能够被m整除。即在A1，A2&…

编程日记2024/08/26 05:20:00

oracle10g删除asm组,Oracle 10G RAC 删除已有节点

如果现在在RAC集群中有三个节点c1、c2、c3：如果想要卸载c3节点。1、在c1或者c2上删除c3实例运行dbca然后选择Oracle Real Application Clusters database选择Instance Management选择Delete an instance选择实例，填写用户名密码，Next选择c3: …

编程日记2024/08/26 05:10:00

嵌入式linux学习笔记1—内存管理MMU之虚拟地址到物理地址的转化

一.内存管理基本知识 1.S3C2440最多会用到两级页表：以段的方式进行转换时只用到一级页表，以页的方式进行转换时用到两级页表。页的大小有三种：大页（64KB），小页（4KB），极小…

编程日记2024/08/26 05:00:00

C# 最快的逐一打印斐波那契结果数列的算法

用这种方法就无需将数列中的每一个元素都计算一遍了！ 说多无谓，直接上代码吧！ private void button5_Click(object sender, EventArgs e) { FiBoNaQi f new FiBoNaQi(); f.numberToCount (Int16)numericUpDown1.Value; f.DoFiB…

编程日记2024/08/26 04:50:00

WSS 代码执行的权限提升

WSS 代码执行的权限提升概述: WSS 默认使用身份模拟执行代码，也就是说用当前登录的用户身份执行Web Part或者自定义应用程序的代码访问。在大多数情况下，这种机制能够准确并严格地控制了标准权限的用户他对特定网站资源和敏感数据的访问，这也…

编程日记2024/08/26 04:40:00

Oracle数据库联邦,使用联邦数据库将oracle表迁移到DB2(9.7)中的脚本说明

由于兄弟项目组要测试，需要将oracle中的表迁移到db2中，操作步骤如下：#1 在windows数据库中建联邦数据库服务器\用户映射connect to sampleCREATE WRAPPER DRDA LIBRARY db2drda.dll;--创建DB2包装器CREATE WRAPPER NET8 LIBRARY db2net8.dll;…

编程日记2024/08/26 04:30:00

HDU 5047 Sawtooth 高精度

题意： 给出一个$n(0 \leq n \leq 10^{12})$，问$n$个$M$形的折线最多可以把平面分成几部分。分析： 很容易猜出来这种公式一定的关于$n$的一个二次多项式。不妨设$f(n)an^2bnc$。结合样例我们可以列出$3$个方程：\(f(…

编程日记2024/08/26 04:20:00

poj1129Channel Allocation

http://poj.org/problem?id1129 四色定理最多有四色从1到四搜 View Code 1 #include <iostream>2 #include<cstdio>3 #include<cstring>4 #include<stdlib.h>5 using namespace std;6 int n,w[100][100],co[100],mi,flag;7 void dfs(int x,int v)…

编程日记2024/08/26 04:10:00

WCF 第二章契约

在原子和金钱世界中，契约是两个或多个组织以一个已知的价格提供商品和服务的合同。在比特和服务的世界中，契约有类似的功能:它是两个或多个组织之间确定消息交换和消息条款及条件的合同。契约是由服务终结点发送或接收的消息的描述。每一个终结点都由AB…

编程日记2024/08/26 04:00:00

织梦新建 php arclist,织梦arclist按照自定义字段来调用相关文章

织梦arclist按照自定义字段来调用相关文章，这对于想要在首页调用某个自定义字段的文章的同学来讲，非常不错，接下来看教程打开 include aglibrclist.lib.php 找到：//时间限制(用于调用最近热门文章、热门评论之类)，这里…

编程日记2024/08/26 03:50:00

提高php编程效率的小结

1.如果将类的方法定义为：static,它的执行效率将提升为近4倍 2.php中数组的元素调用，使用关联数组优于索引数组 3.使用each快于print. 4.尽量使用foreach()替代for(). 5.销毁那些不用的变量尤其是大数组，如：unset().以便释放内存 6…

编程日记2024/08/26 03:40:00

摄像机的几个重要的技术指标

(1)清晰度清晰度是一个摄像机的最重要指标，在监控系统中对图像的清晰度有很高的要求，如在交通监控中,对车辆要能看清车牌号码，对行人要能看清脸部特征，如果这些都看不清楚，那么监控将失去意义。线数的多少决定着清晰度…

编程日记2024/08/26 03:30:00

Docker容器入门-基本命令的使用

目前容器技术使用相当广泛不会或者没有使用过容器感觉都不像是个搞技术的所以，我也就docker相关内容做一个整理只有不断的学习，才能保持自己的竞争力什么是容器？ 容器是一种轻量级、可移植、自包含的软件打包技术，使应用程序可…

编程日记2024/08/26 03:20:00

卸载linux系统装win,如何在计算机上删除 Linux 并安装 Windows

多个 IDE 驱动器Device Boot Start End Blocks Id System/dev/hda1 * 1 500 4016218 83 Linux native (IDE hard drive 1, partition 1)/dev/hda2 501 522 176715 82 Linux swap (IDE hard drive 1, partition 2)/dev/hdb1 1 500 4016218 83 Linux native (IDE hard drive 2, p…

编程日记2024/08/26 03:10:00