当前位置: 首页 > 编程日记 > 正文

hive的基本命令

创建表

CREATE TABLE pokes (foo INT, bar STRING);

创建表并创建索引字段ds

CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING);

显示所有表

SHOW TABLES;

按正条件(正则表达式)显示表,

SHOW TABLES '.*s';

表添加一列

ALTER TABLE pokes ADD COLUMNS (new_col INT);

添加一列并增加列字段注释

ALTER TABLE invites ADD COLUMNS (new_col2 INT COMMENT 'a comment');

更改表名

ALTER TABLE events RENAME TO 3koobecaf;

删除列

DROP TABLE pokes;

元数据存储

将文件中的数据加载到表中

LOAD DATA LOCAL INPATH './examples/files/kv1.txt' OVERWRITE INTO TABLE pokes;

加载本地数据,同时给定分区信息

LOAD DATA LOCAL INPATH './examples/files/kv2.txt' OVERWRITE INTO TABLE invites PARTITION (ds='2008-08-15');

加载DFS数据 ,同时给定分区信息

LOAD DATA INPATH '/user/myname/kv2.txt' OVERWRITE INTO TABLE invites PARTITION (ds='2008-08-15');

SQL 操作

按先件查询

SELECT a.foo FROM invites a WHERE a.ds='<DATE>';

将查询数据输出至目录

INSERT OVERWRITE DIRECTORY '/tmp/hdfs_out' SELECT a.* FROM invites a WHERE a.ds='<DATE>';

将查询结果输出至本地目录

INSERT OVERWRITE LOCAL DIRECTORY '/tmp/local_out' SELECT a.* FROM pokes a;

选择所有列到本地目录

INSERT OVERWRITE TABLE events SELECT a.* FROM profiles a;

INSERT OVERWRITE TABLE events SELECT a.* FROM profiles a WHERE a.key < 100;

INSERT OVERWRITE LOCAL DIRECTORY '/tmp/reg_3' SELECT a.* FROM events a;

INSERT OVERWRITE DIRECTORY '/tmp/reg_4' select a.invites, a.pokes FROM profiles a;

INSERT OVERWRITE DIRECTORY '/tmp/reg_5' SELECT COUNT(1) FROM invites a WHERE a.ds='<DATE>';

INSERT OVERWRITE DIRECTORY '/tmp/reg_5' SELECT a.foo, a.bar FROM invites a;

INSERT OVERWRITE LOCAL DIRECTORY '/tmp/sum' SELECT SUM(a.pc) FROM pc1 a;

将一个表的统计结果插入另一个表中

FROM invites a INSERT OVERWRITE TABLE events SELECT a.bar, count(1) WHERE a.foo > 0 GROUP BY a.bar;

INSERT OVERWRITE TABLE events SELECT a.bar, count(1) FROM invites a WHERE a.foo > 0 GROUP BY a.bar;

JOIN的使用

FROM pokes t1 JOIN invites t2 ON (t1.bar = t2.bar) INSERT OVERWRITE TABLE events SELECT t1.bar, t1.foo, t2.foo;

将多表数据插入到同一表中

FROM src

INSERT OVERWRITE TABLE dest1 SELECT src.* WHERE src.key < 100

INSERT OVERWRITE TABLE dest2 SELECT src.key, src.value WHERE src.key >= 100 and src.key < 200

INSERT OVERWRITE TABLE dest3 PARTITION(ds='2008-04-08', hr='12') SELECT src.key WHERE src.key >= 200 and src.key < 300

INSERT OVERWRITE LOCAL DIRECTORY '/tmp/dest4.out' SELECT src.value WHERE src.key >= 300;

将文件流直接插入文件

FROM invites a INSERT OVERWRITE TABLE events SELECT TRANSFORM(a.foo, a.bar) AS (oof, rab) USING '/bin/cat' WHERE a.ds > '2008-08-09';

实际示例

创建一个表

CREATE TABLE u_data (

userid INT,

movieid INT,

rating INT,

unixtime STRING)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\t'

STORED AS TEXTFILE;

下载示例数据文件,并解压缩

wget http://www.grouplens.org/system/files/ml-data.tar__0.gz

tar xvzf ml-data.tar__0.gz

加载数据到表中

LOAD DATA LOCAL INPATH 'ml-data/u.data'

OVERWRITE INTO TABLE u_data;

统计数据总量

SELECT COUNT(1) FROM u_data;

现在做一些复杂的数据分析

创建一个 weekday_mapper.py: 文件,作为数据按周进行分割

import sys

import datetime

for line in sys.stdin:

line = line.strip()

userid, movieid, rating, unixtime = line.split('\t')

生成数据的周信息

weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday()

print '\t'.join([userid, movieid, rating, str(weekday)])

使用映射脚本

//创建表,按分割符分割行中的字段值

CREATE TABLE u_data_new (

userid INT,

movieid INT,

rating INT,

weekday INT)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\t';

//将python文件加载到系统

add FILE weekday_mapper.py;

将数据按周进行分割

INSERT OVERWRITE TABLE u_data_new

SELECT

TRANSFORM (userid, movieid, rating, unixtime)

USING 'python weekday_mapper.py'

AS (userid, movieid, rating, weekday)

FROM u_data;

SELECT weekday, COUNT(1)

FROM u_data_new

GROUP BY weekday;

转载于:https://www.cnblogs.com/seeyouseeme/p/3772262.html

相关文章:

MMSE(Minimum Mean Square Error)

MMSE是一种最小化接收数据的MSE(均方误差)的模型。关于这句话&#xff0c;你的脑海里就会出现很多问题: 什么是均方误差? “最小化MSE”的物理意义是什么? 让我们从一个我们现在非常熟悉的信道模型开始. MMSE作为一种均衡器&#xff0c;是一种后处理算法&#xff0c;它帮助…

java控制台两个字符串_java控制台输入字符串

实验要求: 1/7 1.掌握 JDK 的安装及参数配置方法,能在控制台界面使用 Java 命令进行 Java 程序的编译及运行。 2.掌握 Eclipse 软件安装方法。3.掌握在 ......习题1. 数据类型转换应用【案例简介】下例说明了整型、浮点型、字符串型之间的相互转换。 【案例目的】掌握 Java 中两…

lua单链表实现

List {}--创建一个节点function List.new(val)return {pnext nil, value val}end--往一个节点后添加一个节点function List.addNode(nodeParent, nodeChild)nodeChild.pnext nodeParent.pnextnodeParent.pnext nodeChildreturn nodeChildend--输出链表function List.print…

Java语言的基础知识9

第十一章(线程)1、通过String nameThread.currentThread().getName();来获取当前线程的名称。2、多次启动一个线程或者启动一个已经运行的线程是非法的,会抛出IllegalThreadStateException异常对象。Thread.sleep((int)Math.random()*10000);3、java提供了Runnable接口使继承了…

Android Parcelable的介绍与使用

Parcelable使用的一个地方就是在进程间传递一个自定义的较为复杂的对象&#xff0c;对Parcelable学习了一下写下自己的观点。 将一个对象比如说一个名字为Cartoon的自定义类&#xff0c;由一个activity传递到另外一个activity去&#xff0c;这个时候就要用到Parcelable了。首先…

LTE PUCCH F2 TX/RX汇总

TX TX端的公式如下(下图来自sharetechnote)&#xff1a; 发送端在36.212/36.211中有详细的描述&#xff0c;就是一系列的数学运算&#xff0c;过程概括如下&#xff1a; 编码、加扰、调制的过程暂不介绍&#xff0c;主要介绍下上图中乘以r_uv的过程&#xff0c;公式如下&#…

面试题:查询连续出现的数字

难度&#xff1a;中等 写一段SQL查询至少连续出现3次的数字。 --------- | Id | Num | --------- | 1 | 1 | | 2 | 1 | | 3 | 1 | | 4 | 2 | | 5 | 1 | | 6 | 2 | | 7 | 2 | --------- 例如&#xff1a;上图表 Logs&#xff0c; 1 是唯一一个连续出现3次的…

php的数组排序方法,PHP数组排序函数

在使用 PHP 进行编程时&#xff0c;有时需要对数组进行排序&#xff0c;通常我们使用的对数组进行排序的方法有冒泡排序、快速排序等等。我们除了可以自定义一些数组排序的函数外&#xff0c;PHP 还内置了多种对数组进行排序的函数&#xff0c;这些函数允许用户在数组内部对元素…

介绍并扩展Fitnesse的测试模块化机制:Scenario

2019独角兽企业重金招聘Python工程师标准>>> 首先普及一下概念&#xff0c;什么是Fitnesse&#xff0c;听一听.NET版Cucumber的创始人Aslak Hellesy谈Fitnesse与Cucumber对比&#xff1a; FIT/Fitnesse和Cucumber都执行高级语言编写的验收测试。FIT仅识别HTML&#…

cmake, This may result in binaries being created in the wrong place

现象&#xff1a; CMake Error: The current CMakeCache.txt directory /home/etouch/minigui-64/minigui/libmgeff-1.0.0/CMakeCache.txt is different than the directory /home/weiym/devel/minigui/rel-3-0/libmgeff-1.0 where CMakeCache.txt was created. This may resul…

GDB调试技巧

1. GDB 调试程序 1.Run a program without any argument. gdb program 2. Run a program with arguments gdb --args program arg1 arg2 ... argN or gdb program (gdb) r arg1 arg2 ... argN 3. start with both an executable program and a core file specified gdb…

php 进程管理,php如何管理进程

进程管理-防止进程成为僵尸进程创建好了进程&#xff0c;那么怎么对子进程进行管理呢&#xff1f;使用信号&#xff0c;对子进程的管理&#xff0c;一般有两种情况&#xff1a;(推荐学习&#xff1a;PHP编程从入门到精通)posix_kill()&#xff1a;此函数并不能顾名思义&#xf…

Linux分区的认识

有时候为了便于管理硬盘或允许在一块硬盘上使用多个文件系统或操作系统&#xff0c;需要对硬盘进行分区操作。硬盘的分区分为3种&#xff1a;主分区、扩展分区、逻辑分区。通常因为计算机BIOS和MBR的限制&#xff0c;一块硬盘最多只能有4个分区&#xff0c;其中一个主分区可用扩…

求小数的小数点的第n位是什么

链接&#xff1a;https://ac.nowcoder.com/acm/contest/548/B来源&#xff1a;牛客网 时间限制&#xff1a;C/C 1秒&#xff0c;其他语言2秒空间限制&#xff1a;C/C 262144K&#xff0c;其他语言524288K64bit IO Format: %lld题目描述 立华奏在学习初中数学的时候遇到了这样一…

Git 简介1-常用术语

常用术语 1. origin origin是对项目最初克隆(clone)的远程仓库的缩写。 更准确地说&#xff0c;origin 是用来代替原始(original)远程仓库的URL, 从而使在git 命令中使用原始仓库更加容易。 2. master master 是分支的命名约定。 从远程服务器克隆后&#xff0c;生成的本…

要过一遍的博客列表

面向GC的Java编程 (finish) java程序员也应该知道的系统知识系列 (finish) 一致性哈希算法及其在分布式系统中的应用(finish) NoSQL数据库的分布式算法 深入理解java内存模型系列文章 转载于:https://www.cnblogs.com/dongxiao-yang/p/4767179.html

b站弹幕 xml php 乱码,B站弹幕Python爬行XML响应中的代码转换问题,python,之,取,b,xml,时,转码...

在学习过程中&#xff0c;可以发现&#xff0c;对于xml类型的响应&#xff0c;了解到的方式lxml和bs解析器。frombs4importBeautifulSoup #主要使用BeautifulSoup类事实上可以认为&#xff1a;HTML文档和标签树&#xff0c;BeautifulSoup类是等价的Beautiful Soup库解析器&…

java.io包和杯子测楼

1 java.io 字符流&#xff1a;Reader 字节流&#xff1a;InputStream 2 杯子测楼 一种杯子&#xff0c;若在第N层被摔破&#xff0c;则在任何比N高的楼层均会破&#xff0c;若在第M层不破&#xff0c;则在任何比M低的楼层均不会破&#xff0c;给你两个这样的杯子&#xff0c;让…

JUnit测试类完成后事务是默认 回滚的。只能查询数据,不能增删改。

JUnit测试类完成后事务是默认 回滚的。只能查询数据&#xff0c;不能增删改。 在测试类或者测试方法上面加上注解 Rollback(false) 表示事物不回滚&#xff0c;这样数据就可以提交到数据库中了。 转载于:https://www.cnblogs.com/zhangcheng1/p/11156389.html

gcc 编译选项

下载gcc文档&#xff0c;第三章有详细的build options的介绍。 最近我用到2个关键的option 来定位问题&#xff0c;简单介绍一下&#xff1a; 1. -E: 只是进行预编译&#xff0c;不会编译和link。用于检查宏在代码中的展开是否符合预期&#xff1b; 2.--verbose: 开启verbos…

ionic中的后退方法

1&#xff09;$ionicHistory.goBack();2&#xff09;$ionicNavBarDelegate.back(); 个人感觉&#xff1a; 1&#xff09;$ionicHistory.goBack()会按照html历史来后退 2&#xff09;$ionicNavBarDelegate.back()会按照ion-nav-view的层级来跳转&#xff1b;但是&#xff0c;调用…

php 生成非对称密钥,php实现非对称加密

使用非对称加密主要是借助openssl的公钥和私钥&#xff0c;用公钥加密私钥解密&#xff0c;或者私钥加密公钥解密。1.安装openssl和PHP的openssl扩展2.生成私钥&#xff1a;openssl genrsa用于生成rsa私钥文件&#xff0c;生成是可以指定私钥长度和密码保护1. openssl genrsa -…

HDU 4951 Multiplication table(2014 Multi-University Training Contest 8)

思路 如果进制为p 那么当x<p时 &#xff08;p-1&#xff09;*&#xff08;p-x&#xff09;(p-&#xff08;x1&#xff09;) *p x 因为x<p 所以没有进位 所以高位上的数字为 p-&#xff08;x1&#xff09;。 根据上面所述。 只要我们能找出 p-1 那么我们…

H3C 静态默认路由配置

转载于:https://www.cnblogs.com/fanweisheng/p/11156783.html

malloc为什么会报错:memory corruption

最近遇到一个问题&#xff0c;很有意思&#xff0c;在此记录下&#xff0c;以备后续参考。 程序运行异常&#xff0c;报错&#xff1a;malloc: memory corruption. 用gdb 调试程序&#xff0c;bt 如下&#xff0c;程序在申请344 bytes内存时失败。 疑问&#xff1a;344bytes内…

php 静态类内存,php面向对象中static静态属性与方法的内存位置分析

本文实例分析了php面向对象中static静态属性与方法的内存位置。分享给大家供大家参考。具体如下&#xff1a;static静态属性的内存位置——>类&#xff0c;而不是对象。下面做测试来证明一下header("content-type:text/html;charsetutf-8");class Human{static pu…

Android中实现为TextView添加多个可点击的文本

这篇文章主要介绍了Android中实现为TextView添加多个可点击的文本,可实现类似Android社交软件显示点赞用户并通过用户名称进入该用户主页的功能,是非常实用的技巧,需要的朋友可以参考下。具体如下&#xff1a; 很多时候我们在使用社交软件的过程中多多少少会为别人的帖子点赞&a…

Set和存储顺序深入探讨、SortedSet排序的示例

2019独角兽企业重金招聘Python工程师标准>>> Set和存储顺序深入探讨、SortedSet排序的示例 package org.rui.collection2.set;import java.util.HashSet; import java.util.LinkedHashSet; import java.util.Set; import java.util.TreeSet;//TypesForSets.java /**…

设计模式七大原则(C++描述)

前言 最近在学习一些基本的设计模式,发现很多博客都是写了六个原则,但我认为有7个原则,并且我认为在编码中思想还是挺重要,所以写下一篇博客来总结下 之后有机会会写下一些设计模式的博客(咕咕咕........ 设计模式的七大原则 1.单一职责原则 2.开放-封闭原则 3.依赖倒置原则 4.…

gdb高级调试技巧

1. 反向调试 gdb支持程序反向执行。 record 让程序开始记录反向调试所必要的信息 rn : reverse next rc: reverse continue &#xff0c;Continue program being debugged but run it in reverse record stop: 停止记录 2. 格式化&#xff08;pretty print&#xff09;打…