当前位置：首页 > 编程日记 > 正文

Java接口对Hadoop集群的操作

编程日记 2025-01-05 06:00:00

Java接口对Hadoop集群的操作

首先要有一个配置好的Hadoop集群
这里是我在SSM框架搭建的项目的测试类中实现的

一、windows下配置环境变量

下载文件并解压到C盘或者其他目录。

链接：http://pan.baidu.com/s/1jHHPElg 密码：aufd

配置环境变量

1.配置HADOOP_HOME

2.配置PATH

在PATH中添加

%HADOOP_HOME%\bin

3.配置HADOOP_USER_NAME

这是Hadoop集群的用户名

HADOOP_USER_NAME root

二、Maven处理依赖jar包

    <!--hadoop依赖--><dependency><groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.7.4</version> </dependency> <dependency> <groupId>commons-io</groupId> <artifactId>commons-io</artifactId> <version>2.4</version> </dependency>

三、创建测试类

package com.mavenssmlr.hadoop;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IOUtils; import org.junit.Test; import org.junit.runner.RunWith; import org.slf4j.Logger; import org.slf4j.LoggerFactory; import org.springframework.test.context.ContextConfiguration; import org.springframework.test.context.junit4.SpringJUnit4ClassRunner; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.InputStream; import java.io.OutputStream; /** * java接口对Hadoop进行操作 * 1.配置环境变量：HADOOP_HOME * HADOOP_USER_NAME * Created by shirukai on 2017/11/2. */ @RunWith(SpringJUnit4ClassRunner.class) //告诉junit spring配置文件 @ContextConfiguration({"classpath:spring/spring-dao.xml"}) public class TestHadoop { private Logger logger = LoggerFactory.getLogger(this.getClass()); /** * 连接Hadoop */ public FileSystem connectHadoop() { String nameNodeUrl = "hdfs://10.110.13.243:9000"; String nameNodeName = "fs.defaultFS"; FileSystem fs = null; Configuration configuration = new Configuration(); try { configuration.set(nameNodeName, nameNodeUrl); fs = FileSystem.get(configuration); logger.info("连接成功：Path={}", fs.getFileStatus(new Path("/"))); } catch (Exception e) { logger.error(e.getMessage(), e); } return fs; } /** * 创建目录 * * @throws Exception 异常 */ @Test public void mkdirFolder() throws Exception { FileSystem fs = connectHadoop(); String folderName = "/input"; fs.mkdirs(new Path(folderName)); } /** * 上传文件到Hadoop * * @throws Exception 异常 */ @Test public void uploadFile() throws Exception { FileSystem fs = connectHadoop(); //定义本地上传的文件路径 String localFilePath = "D://Hadoop//upload//"; //定义上传文件 String fileName = "user.xlsx"; //定义要上传到的文件夹 String uploadFolder = "/input/"; InputStream in = new FileInputStream(localFilePath + fileName); OutputStream out = fs.create(new Path(uploadFolder + fileName)); IOUtils.copyBytes(in, out, 4096, true); } /** * 从Hadoop获取文件 * * @throws Exception 异常 */ @Test public void getFileFromHadoop() throws Exception { FileSystem fs = connectHadoop(); //定义要下载路径 String downloadPath = www.meiwanyule.cn "/input/"; //定义要下载的文件名 String downloadFileName = "user.xlsx"; //定义要保存的路径 String savePath = "D://www.mhylpt.com Hadoop//download//" + downloadFileName; InputStream in = fs.open(new Path(downloadPath + downloadFileName)); OutputStream out = new FileOutputStream(savePath); IOUtils.copyBytes(in, out, 4096, true); } /** * 删除文件 * delete(path,boolean) * boolean如果为true，将进行递归删除，子目录及文件都会删除 * false 只删除当前 * * @throws Exception */ @Test public void deleteFile() throws Exception { FileSystem fs = connectHadoop(www.dongfan178.com); //要删除的文件路径 String deleteFilePath = "/inputuser.xlsx"; Boolean deleteResult = fs.delete(new Path(deleteFilePath), true); logger.info("删除文件：={}", deleteResult); } /** * 遍历指定目录下所有的文件 * @throws Exception 异常 */ @Test public void getAllFile()throws Exception{ FileSystem fs = connectHadoop(); //定义要获取的目录 String getPath = "/"; FileStatus[] statuses = fs.listStatus(new Path(getPath)); for (FileStatus file: statuses ) { logger.info("fileName={www.taohuayuan178.com}",file.getPath().getName()); } } @Test public void otherOption(www.yongshiyule178.com) throws Exception{ FileSystem fs = connectHadoop(); } }

https://www.dkcj.cn/info/34916.html

用对方法，开发与部署深度学习原来如此简单……

相信大部分人都会谈癌色变，正如我们所知的一样，晚期癌症患者的生存率低于 20%，而尽管早期患者可以被治愈，且治愈率高达 90% 以上，但因为大部分癌症早期起病隐匿，更重要的原因在于受限于现有医疗水平&#x…

编程日记2025/01/05 05:50:00

PL/SQL -- INSTEAD OF 触发器

为什么80%的码农都做不了架构师？>>> -- -- PL/SQL --> INSTEAD OF 触发器 -- INSTEAD OF 触发器常用于管理编写不可更新的视图，INSTEAD-OF触发器必须是行级的。可以用INSTEAD OF触发器来解释INSERT、UPDATE和DELETE语句，并用…

编程日记2025/01/05 05:40:00

开源！《AI 算法工程师手册》中文教程正式发布！

作者 | 红色石头转载自 AI有道（id：redstonewill)最近红色石头在浏览网页的时候，偶然发现一份非常不错的 AI 资源，就是这本《AI 算法工程师手册》。本文将给大家推荐这本优秀教材，并作详细的介绍。这本《AI 算法工程师…

编程日记2025/01/05 05:30:00

shell中的函数shell中的数组告警系统需求分析

2019独角兽企业重金招聘Python工程师标准>>> 20.16/20.17 shell中的函数函数的概念函数就是把一段代码整理到了一个小单元中，并给这个小单元起一个名字，当用到这段代码时直接调用这个小单元的名字即可。格式: 函数名称() {command} 注&am…

编程日记2025/01/05 05:20:00

【Live555】live555源码详解（一）：BasicUsageEnvironment、UsageEnvironment

【Live555】live555源码详解系列笔记类关系图 1、UsageEnvironment 详解 1.1 BasicUsageEnvironment BasicUsageEnvironment 继承自 BasicUsageEnvironment0，主要增加的功能，使用静态函数 createNew 来创建自己；重载“<<”操作符，用来向标准错误输出（stderr）打…

编程日记2025/01/05 05:10:00

Web前端开发人员和设计师必读文章推荐【系列七】

这篇文章主要收录了十二月份发布在梦想天空的优秀文章，特别推荐给Web开发人员和设计师阅读。梦天空博客关注前端开发技术，展示最新 HTML5 和 CSS3 技术应用，分享实用的 jQuery 插件，推荐优秀的网页设计案例，共享精美的…

编程日记2025/01/05 05:00:00

【Live555】live555源码详解（二）：BasicHashTable、DelayQueue、HandlerSet

【Live555】live555源码详解系列笔记 3、BasicHashTable 哈希表协作图： 3.1 BasicHashTable BasicHashTable 继承自 HashTable 重载 HashTable 接口 Add ：添加键值对 Remove ：删除键值 Lookup ：由“健”查找“值” numEntries ：键值对数量重载 HashTable 成员（…

编程日记2025/01/05 04:50:00

对标英伟达，依图发布AI芯片“求索”

作者 | 一一出品 | AI科技大本营（ID:rgznai100）依图成立 7 年，这次专为芯片召开了第一次产品发布会。5 月 9 日上午，依图科技在上海发布了其首款自研云端视觉推理 AI 芯片“求索”questcore™，以及基于该芯片构建的软硬…

编程日记2025/01/05 04:40:00

根据修改的数据类型，可以将JUC包中的原子操作类可以分为4类。1. 基本类型: AtomicInteger, AtomicLong, AtomicBoolean ; 2. 数组类型: AtomicIntegerArray, AtomicLongArray, AtomicReferenceArray ; 3. 引用类型: AtomicReference, AtomicStampedRerence, AtomicM…

编程日记2025/01/05 04:30:00

使用ROW_NUMBER 和partition by 解决报表中的查询问题

在报表中遇到一个查询问题： 原始数据如下: Id cust_id call_date call_result 1 1 2012-03-15 09:00:00 fail 2 1 2012-03-15 09:05:00 number error 3 1 2012-03-15 09:10:00 fail 4 1 2012-03-15 09:15:00 success 5 2 2012-03-15 09:01:00 fail …

编程日记2025/01/05 04:20:00

中国AI开发者真实现状：写代码这条路，会走多久？

2016 年起，人工智能成为中国开发者重点关注的技术领域，以深度学习驱动的计算机视觉、自然语言处理、语音相关技术成为渗透最广的三个 AI 技术领域。然而，在这样的背景下，AI 仍是一个非常前沿的学科，对于中国开发者而言…

编程日记2025/01/05 04:10:00

linux学习-awk工具

awk是基于列的文本处理工具，它的工作方式是按行读取文本并视为一条记录，每条记录以字段分割成若干字段，然后输出个字段的值，事实上，awk是一种编程语言。awk认为文件都是结构化的，也就是说由单词和各种空白字…

编程日记2025/01/05 04:00:00

【Live555】live555源码详解（四）：Medium媒体基础类

【Live555】live555源码详解系列笔记 7、Media Medai所依赖关系图依赖Medai关系图 Media和UsageEnvironment关联图

编程日记2025/01/05 03:50:00

linux中普通文件和块设备文件的区别

1，概述一直都搞不明白普通文件跟块文件的区别，总觉得一个普通的文件是存放在磁盘块上，那它既属于普通文件又属于块设备文件。刚好下午睡了一个大头觉，比较清醒，集中学习了下普通文件和块设备文件的区别和联系。本文从…

编程日记2025/01/05 03:40:00

我的vim配置

我的vim配置 1.通用配置 vimrc 2.自己配置 1.新建.c,.h,.sh,.java文件，自动插入文件头 vim ~/.vim_runtime/my_configs.vim 输入一下内容 """""""""""""""""""&qu…

编程日记2025/01/05 03:30:00

【Live555】live555源码详解（五）：MediaSource、MediaSink、MediaSession、MediaSubsession

【Live555】live555源码详解系列笔记继承协作关系图下面红色表示本博客将要介绍的四个类所在的位置： MediaSource、MediaSink、MediaSession、MediaSubsession 8、MediaSource MediaSource 继承自 Medium，下面是MediaSource的协作图关于 MediaSource 类的继承关系 …

编程日记2025/01/05 03:20:00

BAT携手清华、复旦、上交齐聚杭州, 和500名开发者干点啥？

编程日记2025/01/05 03:10:00

MOS2010开发基础和集几种开发模型

基础基本的部署结构图类似如下创建新的Web Application的原因： One key reason to create a new web application is to isolate content. Every time a new web application is created, SharePoint creates a new content database. All the data in the sites …

编程日记2025/01/05 03:00:00

还在用Matplotlib? 又一可视化神器Altair登场 | 技术头条

作者 | Fernando Irarrzaval 翻译 | Monanfei责编 | Jane出品 | Python 大本营（id：pythonnews）【导语】如何将我们的数据以更好的形势呈现出来？擅长不同编程语言的程序员会选择各自技术范畴内成熟、好用的工具包，比如 …

编程日记2025/01/05 02:50:00

【Live555】live555源码详解（六）：FramedSource、RTPSource、RTPSink

【Live555】live555源码详解系列笔记继承协作关系图下面红色表示本博客将要介绍的三个类所在的位置： FramedSource、RTPSource、RTPSink 11、FramedSource FramedSource 继承自 MediaSource，下面是实现 FramedSource 的依赖关系图使用 FramedSource 的关系图

编程日记2025/01/05 02:40:00

maven在idea的配置

首先去官网下载如图： 下载之后解压打开如图： 配置：1、打开conf文件夹下的settings.xml（我用的notepad） 第55行左右加上图上的第150行左右在标签下面写上如图（阿里提供的存架包的仓库） 2、配置id…

编程日记2025/01/05 02:30:00

Apache下实现禁止目录浏览

当我们访问某个网站时，在后面增加相应的目录，就可以浏览到目录，对于网站来说，是很不安全的。解决办法：1、编辑httpd.conf文件vi ./conf/httpd.conf找到如下内容：......<Directory "C:/Program Fi…

编程日记2025/01/05 02:20:00

【Live555】live555源码详解（七）：GenericMediaServer、RTSPServer、RTSPClient

【Live555】live555源码详解系列笔记继承协作关系图下面红色表示本博客将要介绍的三个类所在的位置： GenericMediaServer、RTSPServer、RTSPClient 14、GenericMediaServer GenericMediaServer 继承自 Medium，依赖关系图如下：使用 GenericMediaServer 的关系图：

编程日记2025/01/05 02:10:00

200万？程序员刚拿下华为Offer，这些技巧你必须知道！

最近，有华为员工在匿名社交网站上，曝光自己年收入已突破200万！消息一出，不知酸了多少中国程序员！但是，在羡慕之余，我们不如利用起碎片时间，从点滴做起，背水一战&#xff…

编程日记2025/01/05 02:00:00

有效快速的学习微信小程序

微信小程序实现了应用“触手可及”的梦想，用户扫一扫或搜一下即可打开应用。不用安装，即开即用，用完就走。省流量，省安装时间，不占用桌面。对用户使用上来说，确实方便，没有繁琐的注册&#xff…

编程日记2025/01/05 01:50:00

Delphi开发的IOCP测试Demo以及使用说明。

Delphi开发的IOCP，此为压力测试Demo和使用说明。

编程日记2025/01/05 01:40:00

【Live555】live555源码详解（八）：testRTSPClient

【Live555】live555源码详解系列笔记继承协作关系图下面红色表示本博客将要介绍的testRTSPClient实现的三个类所在的位置： ourRTSPClient、StreamClientState、DummySink 1、流程分析 1.1 设置使用环境创建任务调度器和使用环境 TaskScheduler* scheduler = BasicTask…

编程日记2025/01/05 01:30:00

ICML 2019：序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS | 技术头条...

来源 | 微软研究院AI头条（id：MSRAsia）责编 | Jane编者按：从2018年开始，预训练（pre-train） 毫无疑问成为NLP领域最热的研究方向。借助于BERT和GPT等预训练模型，人类在多个自然语言理解…

编程日记2025/01/05 01:20:00

linux 命令详解二十七

4. 循环语句: Bash Shell中主要提供了三种循环方式：for、while和until。 for循环声明格式： for variable in word_list do command done 见如下示例脚本： /> cat > test7.sh for score in math engl…

编程日记2025/01/05 01:10:00

【Live555】live555源码详解系列笔记

【Live555】liveMedia下载、配置、编译、安装、基本概念【Live555】live555源码详解（一）：BasicUsageEnvironment、UsageEnvironment 【Live555】live555源码详解（二）：BasicHashTable、DelayQueue、HandlerSet 【Live555】live555源码详解（三）：Groupsock 【Live555】l…

编程日记2025/01/05 01:00:00

Java接口对Hadoop集群的操作

Java接口对Hadoop集群的操作

一、windows下配置环境变量

下载文件并解压到C盘或者其他目录。

配置环境变量

1.配置HADOOP_HOME

2.配置PATH

3.配置HADOOP_USER_NAME

二、Maven处理依赖jar包

相关文章：

用对方法，开发与部署深度学习原来如此简单……

PL/SQL -- INSTEAD OF 触发器

开源！《AI 算法工程师手册》中文教程正式发布！

shell中的函数shell中的数组告警系统需求分析

【Live555】live555源码详解（一）：BasicUsageEnvironment、UsageEnvironment

Web前端开发人员和设计师必读文章推荐【系列七】

【Live555】live555源码详解（二）：BasicHashTable、DelayQueue、HandlerSet

对标英伟达，依图发布AI芯片“求索”

JUC原子类 1

使用ROW_NUMBER 和partition by 解决报表中的查询问题

中国AI开发者真实现状：写代码这条路，会走多久？

linux学习-awk工具

【Live555】live555源码详解（四）：Medium媒体基础类

linux中普通文件和块设备文件的区别

我的vim配置

【Live555】live555源码详解（五）：MediaSource、MediaSink、MediaSession、MediaSubsession

BAT携手清华、复旦、上交齐聚杭州, 和500名开发者干点啥？

MOS2010开发基础和集几种开发模型

还在用Matplotlib? 又一可视化神器Altair登场 | 技术头条

【Live555】live555源码详解（六）：FramedSource、RTPSource、RTPSink

maven在idea的配置

Apache下实现禁止目录浏览

【Live555】live555源码详解（七）：GenericMediaServer、RTSPServer、RTSPClient

200万？程序员刚拿下华为Offer，这些技巧你必须知道！

有效快速的学习微信小程序

Delphi开发的IOCP测试Demo以及使用说明。

【Live555】live555源码详解（八）：testRTSPClient

ICML 2019：序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS | 技术头条...

linux 命令详解二十七

【Live555】live555源码详解系列笔记