当前位置：首页 > 编程日记 > 正文

hadoop程序MapReduce之SingletonTableJoin

编程日记 2024-08-21 11:10:00

需求：单表关联问题。从文件中孩子和父母的关系挖掘出孙子和爷奶关系

样板：child-parent.txt

xiaoming daxiong

daxiong alice

daxiong jack

输出：xiaoming alice

xiaoming jack

分析设计：

mapper部分设计：

1、<k1,k1>k1代表：一行数据的编号位置，v1代表：一行数据。

2、左表：<k2,v2>k2代表：parent名字，v2代表：(1,child名字)，此处1：代表左表标志。

3、右表：<k3,v3>k3代表：child名字，v3代表：(2，parent名字)，此处2：代表右表标志。

reduce部分设计：

4、<k4,v4>k4代表：相同的key,v4代表：list<String>

5、求笛卡尔积<k5,v5>:k5代表：grandChild名字，v5代表：grandParent名字。

程序部分：

SingletonTableJoinMapper类

package com.cn.singletonTableJoin;import java.io.IOException;
import java.util.StringTokenizer;import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;public class SingletonTableJoinMapper extends Mapper<Object, Text, Text, Text> {@Overrideprotected void map(Object key, Text value, Mapper<Object, Text, Text, Text>.Context context)throws IOException, InterruptedException {String childName = new String();String parentName = new String();String relationType = new String();String[] values=new String[2]; int i = 0;StringTokenizer itr = new StringTokenizer(value.toString());while(itr.hasMoreElements()){values[i] = itr.nextToken();i++;}if(values[0].compareTo("child") != 0){childName  = values[0];parentName = values[1];relationType = "1";context.write(new Text(parentName), new Text(relationType+" "+childName));relationType = "2";context.write(new Text(childName), new Text(relationType+" "+parentName));}} 
}

SingletonTableJoinReduce类：

package com.cn.singletonTableJoin;import java.io.IOException;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;public class SingletonTableJoinReduce extends Reducer<Text, Text, Text, Text> {@Overrideprotected void reduce(Text key, Iterable<Text> values, Reducer<Text, Text, Text, Text>.Context context)throws IOException, InterruptedException {List<String> grandChild = new ArrayList<String>();List<String> grandParent = new ArrayList<String>();Iterator<Text> itr = values.iterator();while(itr.hasNext()){String[] record = itr.next().toString().split(" ");if(0 == record[0].length()){continue;}if("1".equals(record[0])){grandChild.add(record[1]);}else if("2".equals(record[0])){grandParent.add(record[1]);}}if(0 != grandChild.size() && 0 != grandParent.size()){for(String grandchild : grandChild){for(String grandparent : grandParent){context.write(new Text(grandchild), new Text(grandparent));}}}}
}

SingletonTableJoin类

package com.cn.singletonTableJoin;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;/*** 单表关联* @author root**/
public class SingletonTableJoin {public static void main(String[] args) throws Exception {Configuration conf = new Configuration();String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();if (otherArgs.length != 2) {System.err.println("Usage: SingletonTableJoin  ");System.exit(2);}//创建一个jobJob job = new Job(conf, "SingletonTableJoin");job.setJarByClass(SingletonTableJoin.class);//设置文件的输入输出路径FileInputFormat.addInputPath(job, new Path(otherArgs[0]));FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));//设置mapper和reduce处理类job.setMapperClass(SingletonTableJoinMapper.class);job.setReducerClass(SingletonTableJoinReduce.class);//设置输出key-value数据类型job.setOutputKeyClass(Text.class);job.setOutputValueClass(Text.class);//提交作业并等待它完成System.exit(job.waitForCompletion(true) ? 0 : 1);}
}

把总结当成一种习惯。

转载于:https://www.cnblogs.com/xubiao/p/5759422.html

https://www.dkcj.cn/info/15224.html

Android网络框架Volley的快速使用

一.基本使用之前做Android开发都是使用学长自己封装好的网络请求框架，第三方网络框架也很多，网上搜索了一下，大多数人推荐使用 android-async-httpokhttpVolley 其中Volley是Google推出了官方的针对Android平台上的网络通信库，能…

编程日记2024/08/21 11:00:00

浏览器版本过低

http://study.163.com/common/errors/notSupported.htm <div class"wb f-cb"> <a href"http://www.google.cn/intl/zh-CN/chrome/browser/" class"g f-hide" target"_blank">谷歌浏览器</a> <a href"http:/…

编程日记2024/08/21 10:50:00

Spark的基础应用

目的要求搭建Spark集群环境；Spark集群的启动、浏览与关闭；使用Eclipse编写Spark应用程序包；如何运行Spark任务； 实验环境 Java jdk 1.7；apache-maven-3.6.0；Eclipse；Apache_Hadoop集群&#…

编程日记2024/08/21 10:40:00

HDU-2084 数塔经典dp，水

1、HDU-2084 数塔 2、链接：http://acm.hdu.edu.cn/showproblem.php?pid2084 3、总结：从下往上推，最后归于顶点。方程为 dp[i][j] max(dp[i1][j],dp[i1][j1])a[i][j] #include<iostream> #include<cstring> #include<…

编程日记2024/08/21 10:30:00

[16] 螺旋面(Spire)图形的生成算法

顶点数据的生成 1 bool YfBuildSpireVertices2 (3 Yreal radius, 4 Yreal assistRadius, 5 Yreal height, 6 Yuint slices,7 Yuint s…

编程日记2024/08/21 10:20:00

iOS的页面跳转

1.通过NavigationController跳转这个方式适用于根视图为NavigationController的控制器，首先，在storyboard中给跳转的目标控制器视图设置Identifier，名字自定，我这里直接使用Controller对应的名字，如图1：需…

编程日记2024/08/21 10:10:00

脚本:sh.sh 1 #!/bin/zsh2 #安装rpmfusion源3 dnf config-manager --add-repohttp://repo.fdzh.org/FZUG/FZUG.repo4 #安装一下有用的一些软件包5 yum -y install yum-fastestmirror 6 yum -y install unrar7 yum -y install thunderbird8 yum -y install emacs9 yum -y instal…

编程日记2024/08/21 09:50:00

【Android】FragmentTabHost实现底部Tab菜单选项

以前实现类似微博底部菜单使用的是TabHostActivity来实现，但是使用的时候提醒已经被弃用，现在我们可以通过FragmentTabHostFragment来实现。下面就是demo： 1.main_activity.xml 主布局文件。 <LinearLayout xmlns:android"http://sc…

编程日记2024/08/21 09:40:00

mysql远程访问，修改root密码

mysql -uroot -p #input password use mysql; update user set host% where userroot; flush privileges; #ok 密码root密码也可以改： 先停止正在运行的mysql实例，在配置文件/etc/my.cnf里面加入 skip-grant-tables， 重新启动Mysql 或者使用…

编程日记2024/08/21 09:30:00

java面试题2019 答案

Java 面试随着时间的改变而改变。在过去的日子里，当你知道 String 和 StringBuilder 的区别（String 类型和 StringBuffer 类型的主要性能区别其实在于 String 是不可变的对象。因此在每次对 String 类型进行改变的时候其实都等同于生成了一个新的 String…

编程日记2024/08/21 09:20:00

android layout analyze

adapterapientityhandleruiuntilwidgetappContent.java *************************************图片：drawable：存放各种位图文件，(.png，.jpg，.9png，.gif等)除此之外可能是一些其他的drawable类型的XML文件m…

编程日记2024/08/21 09:10:00

【转】iOS开发学习计划

转自：简书一、C语言基础基本数据类型、基本运算、函数、数组、字符串、指针、结构体、预处理指令、枚举、文件操作、内存管理二、Objective-C 1、Objective-C基本语法数据类型、表达式、变量、循环结构、选择结构 2、Objective-C面向对象类、对象、继承、自省…

编程日记2024/08/21 09:00:00

[置顶] 单例模式lua实现

--[[优点一、实例控制单例模式会阻止其他对象实例化其自己的单例对象的副本，从而确保所有对象都访问唯一实例。二、灵活性因为类控制了实例化过程，所以类可以灵活更改实例化过程。缺点一、开销虽然数量很少，但如果每次对象请求引用时都要检查…

编程日记2024/08/21 08:50:00

我在CSDN的第一个1024

1024程序员节日历史 2002年，俄罗斯程序员Valentin Balt收集签名，向俄罗斯联邦政府请愿将9月13日设定为程序员节。 2009年9月11日，俄罗斯总统梅德韦杰夫在节日安排方案上签了名，“程序员节”从此成为了俄罗斯的一个正式节日。除了俄…

编程日记2024/08/21 08:40:00

【转】判断UIViewController是否正在显示

最近做一个项目，要判断某个ViewController是否正在与用户交互、显示，百度了一下，这篇文章解决了我的问题，故转之：http://edsioon.me/if-uiviewcontroller-is-display/ 某些情况下，需判断当前ViewController…

编程日记2024/08/21 08:30:00

c#中如何跨线程调用windows窗体控件？

我们在做winform应用的时候，大部分情况下都会碰到使用多线程控制界面上控件信息的问题。然而我们并不能用传统方法来做这个问题，下面我将详细的介绍。首先来看传统方法： public partial class Form1 : Form{public Form1(){InitializeCompone…

编程日记2024/08/21 08:20:00

poj 1964 Cow Cycling（dp）

/* 一开始想的二维的只维护第几只牛还有圈数后来发现每只牛的能量是跟随每个状态的所以再加一维 f[i][j][k]表示第i只牛领跑的j全已经消耗了k体力转移的话分两类 1.换一只牛领跑那么就从f[i][j][k]转移到f[i1][j][j] 2.不换那就枚举i领跑几圈l f[i][j-l][k-l*l]转移到…

编程日记2024/08/21 08:10:00

高级网络配置《 bond team桥接》的建立

bond 资料详情一、链路聚合：以太网链路聚合简称链路聚合，它通过将多条以太网物理链路捆绑在一起成为一条逻辑链路，从而实现增加链路带宽的目的。同时，这些捆绑在一起的链路通过相互间的动态备份，可以有效地提高链路…

编程日记2024/08/21 08:00:00

iOS通过CAShapeLayer和UIBezierPath画环形进度条

UIBezierPath可以绘制矢量路径，而CAShapeLayer是Layer的子类，可以在屏幕进行绘制，本文主要思想是：CAShapeLayer按照UIBezierPath的矢量路径进行绘制。效果图如图： 方法如下： interface ViewController ()…

编程日记2024/08/21 07:50:00

这些云计算技术你了解过哪几种

新霸哥发现目前信息量高速增长的今天，IT行业正在面临着空间和成本等资源的巨大压力，但是随着这些需求的日益增长，在行业中出现了一类全新的解决方案，通过云计算技术对数据中心进行改造。要获得云计算的优势，必须在it基…

编程日记2024/08/21 07:40:00

Tomcat官方文档关于数据源配置的内容

虽然有网上有网友自己总结的文章，但说明得总是不够清晰，还是参考官方文档理解得比较透彻： http://tomcat.apache.org/tomcat-7.0-doc/jdbc-pool.html http://tomcat.apache.org/tomcat-7.0-doc/jndi-datasource-examples-howto.html 转载于:h…

编程日记2024/08/21 07:30:00

利用kickstart自动安装虚拟机

虚拟机的手动安装下载dhcp服务 systemctl stop firewalld getenforce setenforce 0 关闭防火墙图中最后面添加一个 } yum install systemctl-4.05-8.el7.x86_64 rpm -ql syslinux rpm -ql tftp-server 在挂载…

编程日记2024/08/21 07:20:00