Linux命令:文本处理工具awk详解
awk命令简介:
awk是一个强大的文本分析工具,通常,awk是以文件的每一行,为处理单位的。awk每接收文件的一行,然后执行相应的命令,来处理文本。
1.命令格式:
awk 'pattern {action}'{filenames}
其中 pattern 表示 AWK 在数据中查找的内容,而 action 是在找到匹配内容时所
执行的一系列命令。花括号({})不需要在程序中始终出现,但它们用于根据特定的
模式对一系列指令进行分组。 pattern就是要表示的正则表达式,用斜杠括起来。
调用awk有几种方式:
命令行方式:
awk [-Ffield-separator] 'commands' input-file(s)
其中,commands 是awk的处理命令,-F 表示区域分隔符是可选项。input-file(s)
是需要处理的文本文件。在awk中,文件的每一行中,由区域分隔符分开的每一项称为
一个区域。通常,在不指定-F区域分隔符的情况下,默认的区域分隔符是空格。
shell脚本方式:
将所有的awk命令插入一个文件,并使用awk程序可执行,然后awk命令解释器作为
脚本的首行,以便通过键入脚本名称来调用。相当于shell脚本首行的:#!/bin/bash可以
换成:#!/bin/awk3.将所有的awk命令插入一个单独文件,然后调用:
awk -fawk-script-file input-file(s) 其中,-f选项:加载awk-script-file中的awk脚本,
input-file(s):是需要处理的文本文件.
2.命令功能:
awk是一个强大的文本分析工具,行编辑器,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。
3.命令参数:
· -F fs or --field-separator fs
指定输入文件折分隔符,fs是一个字符串或者是一个正则表达式,如-F:。
· -v var=value or --asign var=value
赋值一个用户定义变量。
· -f scripfile or --file scriptfile
从脚本文件中读取awk命令。
· -mf nnn and -mr nnn
对nnn值设置内在限制,-mf选项限制分配给nnn的最大块数目;-mr选项限制记录的最大数目。这两个功能是Bell实验室版awk的扩展功能,在标准awk中不适用。
· -W compact or --compat, -W traditional or --traditional
在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样,所有的awk扩展都被忽略。
· -W copyleft or --copyleft, -W copyright or --copyright
打印简短的版权信息。
· -W help or --help, -W usage or --usage
打印全部awk选项和每个选项的简短说明。
· -W lint or --lint
打印不能向传统unix平台移植的结构的警告。
· -W lint-old or --lint-old
打印关于不能向传统unix平台移植的结构的警告。
· -W posix
打开兼容模式。但有以下限制,不识别:/x、函数关键字、func、换码序列以及当fs是一个空格时,将新行作为一个域分隔符;操作符**和**=不能代替^和^=;fflush无效。
· -W re-interval or --re-inerval
允许间隔正则表达式的使用,参考(grep中的Posix字符类),如括号表达式[[:alpha:]]。
· -W source program-text or --source program-text
使用program-text作为源代码,可与-f命令混用。
· -W version or --version
打印bug报告信息的版本。
·
4.awk的输出
一、print
print的使用格式:
print item1,item2,....
要点:
1、各项目之间使用逗号隔开,而输出时则以空白字符分隔;
2、输出的item可以为字符串或数值、当前记录的字段(如$1)、变量或awk的表达式;
数值会先转换成字符串,而后再输出;
3、print命令后面的item可以省略,此时其功能相当于print $0 ($0显示所有字段),因此,
如果想输出空白行,则需要使用print"";
例子:
awk 'BEGIN {print "line one\nline two\nline three"}'
awk -F: '{ print $1,$2 }' /etc/passwd -F指定分隔符为:
二、awk变量
2.1 awk内置变量之记录变量;
FS: field separator,指定读取文本时,所使用字段分隔符,默认是空白字符;
RS: Record separator;指定输入文本信息所使用的换行符,默认是换行符;
OFS: Output Filed separator;指定输出字段分隔符;
ORS: Output Row Separator; 指定输出行分隔符;
2.2 awk内置变量之数据变量;
NR:awk命令所处理的行数;如果有多个文件,则会统计显示每一个文件所处理的行数;
NF:统计当前处理的行的字段个数
FNR:与NR不同的是,FNR用于记录正处理的行是当前这一文件中被总共处理的行数,仅针对正在处 理的文件,NR是针对所有处理过的文件。
ARGV:数组,保存命令行本身这个字符串,如awk '{print $0}'a.txt b.txt 这个命令中,
ARGV[0]保存awk,ARGV[1]保存a.txt
ARGC:awk命令所处理的文件的名称;
ENVIRON:当前shell环境变量及其值的关联数组;
如:awk 'BEGIN{printENVIRON["PATH"]}'
2.3 用户自定义变量
awk允许用户自定义自己的变量以便在程序代码中使用,变量名命名规则与大多数编程
语言相通,只能使用字母、数字和下划线,且不能以数字开头,awk变量名称区分字符大小写。
2.3.1 在脚本中赋值变量
在awk中给变量赋值使用赋值语句进行;例如:
awk 'BEGIN{var="variable testing"; print var}'
[root@mail~]# awk'BEGIN{var="variable testing"; print var}'
variabletesting
2.3.2 在命令行中使用赋值变量
awk命令也可以在“脚本”外为变量赋值,并在脚本中进行引用,例如,上述的例子
还可以改写为 awk -v var="variabletesting" 'BEGIN{print var}'
[root@mail~]# awk -v var="variable testing" 'BEGIN{print var}'
variabletesting
三、printf
printf命令的使用格式:
printf format, item1,item2,...
要点:
1、其与print命令的最大不同是,printf需要制定format(格式);
2、format用于指定后面的每个item的输出格式;
3、printf语句不会自动打印换行符;\n
format格式的指示符都是以%开头,后跟一个字符;如下:
%c: 显示字符的ASCII码;
%d,%i:十进制整数;
%e,%E:科学计数法显示数值;
%f:显示浮点数;
%g,%G:以科学计数法的格式或浮点数的格式显示数值;
%s:显示字符串;
%u:无符号整数;
%%:显示%自身;
修饰符:
N:显示宽度;(N为数字,表示字符间的间距多宽)
-:左对齐(默认不加-表示右对齐)
+:显示数值符号;
例子:
awk-F: '{printf "%-15s %i\n",$1,$3}' /etc/passwd
[root@mail~]# awk -F: '{printf "%-15s %i\n",$1,$3}' /etc/passwd
root 0
bin 1
daemon 2
adm 3
四、输出重定向
print items > output_file
print items >> output_file
print items | command
特殊文件描述符:
/dev/stdin:标准输入
/dev/sdtout:标准输出
/dev/stderr:错误输出
/dev/fd/N:某特定文件描述符,如/dev/stdin就相当于/dev/fd/0;
例子:
awk -F: '{printf"%-15s %i\n",$1,$3 > "/dev/stderr" }' /etc/passwd
[root@mail~]# awk -F: '{printf"%-15s %i\n",$1,$3 > "/dev/stderr" }' /etc/passwd
root 0
bin 1
daemon 2
adm 3
lp 4
五、awk的操作符:
5.1 算术操作符;
-x:负值
+x:转换为数值;
x^y和x**y:表示x的y次方
x*y:乘法
x/y:除法
x+y:加法
x-y:减法
x%y:取余
5.2 字符串操作符:
只有一个,而且不用写出来,用于实现字符串连接;
5.3 赋值操作符;
= += -= *= /= %= ^= **= ++ --
需要注意的是,如果某模式为=号,此时使用/=/可能会有语法错误,应以/[=]/替代;
5.4 布尔值
awk中,任何非0值或非空字符串都为真,反之就为假;
5.5 比较操作符:
x < y true if x is less than y
x <= y true if x is less than or equal to y.
x > y true if x is greater than y.
x >= y true if x is greater than or equal to y.
x == y true if x is equal to y.
x != y true if x is not equal to y.
x ~ y true if the string x matches the regexp denoted by y.(x为字符,y为匹配模式,
如果x字符能被y匹配到,就返回真)
x !~ y true (x为字符,y为匹配模式,如果x字符不能被y匹配到,就返回真)
5.6表达式间的逻辑关系符:
&& 逻辑与 || 逻辑或
5.7 条件表达式:
if selector; then
if-true-exp
else
if-false-exp
fi
5.8 函数调用:
function_name (para1,para2)
六、awk的模式
awk 'program' input-file1 input-file2 ...
其中的program为:
pattern { action }
pattern { action }
...
6.1 常见的模式类型:
1、regexp:正则表达式,格式为/regular expression/
2、expression:表达式,其值非0或为非空字符时满足条件,如:$1 ~ /foo/ 或
$1 == "magedu",用运算符~(匹配)和!~(不匹配)
3、Ranges:指定的匹配范围,格式为pat1,pat2
4、BEGIN/END:特殊模式,仅在awk命令执行前运行一次或结束前运行一次
5、Empty(空模式):匹配任意输入行;
实例:
awk -F: '/^r/{print $1}' /etc/passwd 显示/etc/passwd文件中首字母为r的行的第一个字段
awk -F: '$3>=500{print $1,$3}' /etc/passwd 显示/etc/passwd文件中第三个字段的值大于
等于500的行的第1和第三个字段
awk -F: '$7~"bash$"{print $1,$7}' /etc/passwd 显示/etc/passwd文件中第9个字段匹配到
行尾是bash的行的第一和第7个字段
awk -F:'$3==0,$7~"nologin" {print $1,$3,$7}' /etc/passwd 显示/etc/passwd文件中,
第一次$3的值等于0到$7匹配到nologin范围内的行的第1,3,7字段。
[root@mail~]# awk -F: '$3==0,$7~"nologin" {print $1,$3,$7}' /etc/passwd
root0 /bin/bash
bin1 /sbin/nologin
[root@mail~]# awk -F: 'BEGIN{print "Usename ID Shell"}$3==0,$7~"nologin"{printf"%-10s%-10s%-20s\n",$1,$3,$7}' /etc/passwd #在打印显示前先打印显示BEGIN的内容
Usename ID Shell
root 0 /bin/bash
bin 1 /sbin/nologin
[root@mail~]# awk -F: 'BEGIN{print "Usename ID Shell"}$3==0,$7~"nologin"{printf"%-10s%-10s%-20s\n",$1,$3,$7}END {print "End of report"}'/etc/passwd #在打印显示前先打印显示BEGIN的内容且在打印显示结束后显示END的内容
Usename ID Shell
root 0 /bin/bash
bin 1 /sbin/nologin
End ofreport
6.2 常见的Action
1、Expressions 表达式
2、Control statements 控制状态
3、Compound statements 混合状态
4、Input statements 输入状态
5、Output statements 输出状态
/正则表达式/:使用通配符的扩展集:
关系表达式:可以用下面运算符表中的关系运算符进行操作,可以是字符串或数字的比较,
如$2>$1选择算二个字段比第一个字段长的行。
模式匹配表达式:
模式:指定一个行的范围,该语法不能包括BEGIN和END模式。
BEGIN:让用户指定在第一条输入记录被处理之前所发生的动作,通常可在这里设置全局变量。
END:让用户在最后一条输入记录被读取之后发生的动作。
七、控制语句:
7.1 if-else
语法: if (condition) {then-body} else {[else-body]}
例子:
1、awk -F: '{if ($1=="root") print $1, "Admin";elseprint $1,"Common User"}' /etc/passwd
2、awk -F:'{if($1=="root") printf "%-15s: %s\n",$1,"Admin";else printf "%-15s:
%s\n",$1,"CommonUser" }' /etc/passwd
3、awk -F: -v sum=0 '{if ($3>=500) sum++}END{print sum}'/etc/passwd
7.2 while
语法:while (condition) {statement1; statement2; ...}
awk -F:'{i=1;while (i<=3) {print $i; i++}}' /etc/passwd
awk -F: '{i=1;while (i<=NF) {if (length($i)>=4){print $i};i++}}'/etc/passwd
7.3 do-while
语法:do{statement1,statement2,...} while (condition)
awk -F: '{i=1;do {print $i;i++}while(i<=3)}' /etc/passwd
7.4 for
语法:for (variable assignment;condition; iteration process)
{statement1,statement2,...}
awk -F: '{for(i=1;i<=3;i++) print $i}' /etc/passwd
for循环还可以用来遍历数组元素:
语法:for (i in array){statement1,statement2,...}
awk -F: '$NF!~/^$/{BASH[$NF]++}END{for(A in BASH){printf"%15s:%i\n",A,
BASH[A]}}' /etc/passwd
7.5 case
语法:switch (expression) {caseVALUE or /REGEXP/:
statement1,statement2,...default:statement1,...}
7.6 break 和 continue
常用于循环或case语句中
7.7 next
提前结束对本行文本的处理,并接着处理下一行;例如,下面的命令将显示其ID号为奇数的用户;
awk -F:'{if($3%2==0) next; print$1,$3}' /etc/passwd
八、 awk中使用数组
8.1 数组
array[index-expression]
index-expression可以使用任意字符串;需要注意的是,如果某数据组元素事先不存在,那么
在引用其时,awk会自动创建此元素并初始化为空串;因此,要判断某数据组中是否存在某
元素,需要使用index in array的方式;
要遍历数组中的没一个元素,需要使用如下的特殊结构:
for (var in array){statement1,...}
其中,var用于引用数组下标,而不是元素值;
例子:
netstat -ant | awk '/^tcp/ {STATE[$NF]++} END {for(S in STATE)
{print S,STATE[S]}}'
每出现被/^tcp/模式匹配到的行,数组STATE[$NF]就加1,NF为当前匹配到的行的最后一个字段,此处用其值作为数组STATE的元素索引;
awk '{counts[$1]++}END {for(url in counts)print counts[url],url}'
/var/log/httpd/access_log
用法与上一个例子相同,用于统计某日志文件中IP地址的访问量。
8.2 删除数组变量
从关系数组中删除数组索引需要使用delete命令,使用格式为:
delete array[index]
本文转自wang650108151CTO博客,原文链接:http://blog.51cto.com/woyaoxuelinux/1945750 ,如需转载请自行联系原作者
相关文章:

ForefrontTMG关于单一的网络适配器限制
来自于ISA2008的帮助文件.Microsoft Forefront Threat Management Gateway 可以安装在具有单一网络适配器的计算机上。 通常,当 Forefront TMG 位于公司内部网络或位于外围网络而网络边缘有另一防火墙时使用此配置,防止公司资源受到来自 Internet 的***。…

ajax的auto是true,一个AJAX自动完成功能的js封装源码[支持中文]
ScreenshotsPaginationInternationalizationRich formatText selection源码下载有个问题,等高手解决,就是怎么搞都不能支持中文,不知道要改哪个地方!期待比如 new CAPXOUS.AutoComplete("wiki", function() {return "autocomplete3.asp?typing" …

非计算机专业如何转行AI,找到算法offer?
作者 | Nick-Atom 责编 | 琥珀 【AI科技大本营导读】目前,各行业都在尝试着用机器学习/深度学习来解决自身行业的需求。在这个过程中,最为稀缺的也是高质量人工智能人才。 这一年我们见证了不断有非计算机专业学生转行人工智能的现象,每个想…

Swing布局管理器介绍
当选择使用JPanel和顶层容器的content pane时,需要考虑布局管理。JPanel缺省是初始化一个FlowLayout,而content pane缺省是初始化一个BorderLayout。下面将分别介绍几种最常用的布局管理器:FlowLayout、BorderLayout、BoxLayout、CardLayout、…

圣诞节!教你用Python画棵圣诞树
作者 | 糖甜甜甜,985高校经管研二,擅长用 Python、R、tableau 等工具结合统计学和机器学习模型做数据分析。来源 | 经管人学数据分析(ID:DAT-2017)如何用Python画一个圣诞树呢?最简单:1height 523stars 1…

给动态生成的按钮添加ajax,Ajax/Javascript动态创建按钮的问题
你没有指定一个事件处理程序,您调用它。函数createButtons马上被调用,并且它返回的任何东西都被赋值给window.onload。window.onload createButtons();必须window.onload createButtons;你必须是你正在使用domready中和的onload另一个问题。两个不同的…

Android进阶笔记:Messenger源码详解
Messenger可以理解为一个是用于发送消息的一个类用法也很多,这里主要分析一下再跨进程的情况下Messenger的实现流程与源码分析。相信结合前面两篇关于aidl解析文章能够更好的对aidl有一个认识。(Android进阶笔记:AIDL内部实现详解 ࿰…

程序员春运抢票的正确姿势!
作者 | 屠敏出品 | CSDN资讯「有钱没钱,回家过年。」转瞬间,2018 年余额已严重不足,而 2019 年还正在赶来的路上:根据国家法定假日规定,距离 2019 年春节( 2019 年 2 月 5 日)的到来还有 45 天&…

centos 6.8 编译安装git 2.11.0
系统环境:CentOS release 6.8 (Final) 默认Git :1.7.1 需求git :2.11 卸载centos自带的git:yum remove git -y 下载git-2.11.0.tar.gz 上传至服务器,下载链接:http://distfiles.macports.org/git/ 解压安装…

小黑盒不显示服务器,steam上买的游戏小黑盒不显示 | 手游网游页游攻略大全
发布时间:2018-04-18贪吃蛇遇上打方块是一款最近非常热门的休闲小游戏,游戏将贪吃蛇和打方块合而为一吸引了很多玩家!但是好多小伙们都不知道该怎么玩,下面小编来教你一个快速入门的小技巧吧!~ 小技巧: 1.通过吃游戏带数字的黄色圆点,增加自己的长 ...标签ÿ…

基于架构的上网行为管理产品界面对比
当前上网行为管理产品风靡市场,对用户的网络管理的能力有很大的提高,给用户带来便利的同时也给用户带来很多困惑。目前市场上的上网行为管理产品在功能点上基本相同,于是一些设备的厂商开始关注设备的其它附加功能,比如网络管理人…

AI in 美团:吃喝玩乐背后的黑科技
作者 | 杨丽出品 | AI科技大本营(rgznai100)很多人都会发现日常生活已经越来越离不开美团了,这个互联网平台涵盖了吃、住、行、游、购、娱……能帮我们做很多事情,非常接地气。黄色的美团外卖骑手,橙色的摩拜单车&…

手机贷服务器维护升级,手机贷服务器升级
手机贷服务器升级 内容精选换一换本章节介绍如何创建告警规则。用户可自定义监控目标与通知策略,及时了解云手机服务器、云手机、磁盘以及GPU卡的状况,从而起到预警作用。登录管理控制台。在管理控制台左上角,选择待创建告警规则的区域。在服…

Windows Server 2008 R2 Beta VHD镜像文件发布
微软刚刚发布了一个VHD格式的Windows Server 2008 R2 Beta镜像文件,它可以用于Hyper-V环境下作评估. 您需要事先安装Windows Server 2008 (64bit edition) 或 Windows Server 2008 R2 Beta,需要更多信息请参阅Hyper-V主页.下载:Windows Server 2008 R2 Beta .uation Virtual Ha…
linux下的usb抓包方法【转】
转自:http://blog.chinaunix.net/uid-11848011-id-4508834.html 1、配置内核使能usb monitor: make menuconfig Device Drivers --> USB Support --> USB M…

中小学AI教育靠谱吗?50%教师教学经验不足1年
作者 | 琥珀出品 | AI科技大本营(rgznai100)近日,一份《中小学阶段人工智能普及教育现状调研报告》的发布让我们不禁汗颜当下中国中小学人工智能教育普及程度、教师教育水平所存在的问题。链接:http://www.cacsi.org.cn/Uploads/a…
你,保持童心;我,帮你保持童颜
在周星驰的《美人鱼》里有这样一句: 童话是存在的,只不过不是幻想的,而是自己去搭建的儿童节到了 感觉自己又小了一岁 越来越年轻了呢! 望遍朋友圈, 都是一群该当妈的在过六一 大龄儿童这么凑热闹是不是不太好呢&#…

java程序通过命令行运行之Path和ClassPath的注意点
习惯用IDE的朋友可能早就不用cmd,想当初我们刚学java的时候还记得对着黑屏幕敲的,哈哈。让我们再来重温旧梦。 我们在现在有这样一个文件HelloWorld.java,它的路径是这样的E:\javaTest\HelloWorld.java public class HelloWorld { public…

美通信与动力公司向WIN-T军事通信计划提供支持
美通信与动力公司向WIN-T军事通信计划提供支持[据美国军事与航宇电子网2009年2月17日报道]日前,通信与动力工业公司(CPI)从通用动力卫星通信技术公司获得一项价值大约为1300万美元的后续合同,向美国陆军士兵信息网络战术ÿ…

看动画轻松理解“递归”与“动态规划”
作者 | 程序员小吴来源 | 五分钟学算法在学习「数据结构和算法」的过程中,因为人习惯了平铺直叙的思维方式,所以「递归」与「动态规划」这种带循环概念(绕来绕去)的往往是相对比较难以理解的两个抽象知识点。程序员小吴打算使用动…
毕业季:理想很丰满,现实也可以很丰满!
六月,原本不是一个适合离开的季节,不是烈日,就是暴雨,让人不得不走走停停,频频回望。然而,哪个季节又适合离开呢?六月,确实得离开了。大学几年的时光终将逝去,而之后各位…

php扩展模块安装-lamp
php扩展模块安装 PECL 的全称是 The PHP Extension Community Library ,是一个开放的并通过 PEAR(PHP Extension and Application Repository,PHP 扩展和应用仓库)打包格式来打包安装的 PHP扩展库仓库。通过 PEAR 的 Package Manager 的安装管理方式&…

一文搞懂K近邻算法(KNN),附带多个实现案例
简介:本文作者为 CSDN 博客作者董安勇,江苏泰州人,现就读于昆明理工大学电子与通信工程专业硕士,目前主要学习机器学习,深度学习以及大数据,主要使用python、Java编程语言。平时喜欢看书,打篮球…
致那些还在创业之路上孤独前行的青年大学生们!
彩虹,在大雨后出现 腊梅,在风雪中吐蕊 雄鹰,在险峰上空盘旋 人,在困境中弥坚 在这个创业的浪潮中 你是否也是其中之一 当所有事情都将有你一个人来完成 你是否有信心和能力把它做好 成功不是回首,不是寄望,…

MS DTC 无法正确处理 DC 升级/降级事件的解决
当Windows 2003安装AD后,经常出现以下警告信息的解决方法:MS DTC 无法正确处理 DC 升级/降级事件。MS DTC 将继续运行并将使用现有的安全设置。错误说明: %1, 打开管理工具的组件服务管理控制台,打开组件服务,计算机。右击我的电…

UML图的分类
作为一种建模语言,UML的定义包括UML语义和UML表示法两个部分。 (1) UML语义 描述基于UML的精确元模型定义。元模型为UML的所有元素在语法和语义上提供了简单、一致、通用的定义性说明,使开发者能在语义上取得一致,消除了因人而异的最佳表达方法所造成的影响。此外UML还支持对元…
告诫那些有创业梦的大学生,切记千万不要盲目创业!
如果你打算创业,那么最好具备两点: 一是有一定的经济实力或行业经验和人脉, 二是没有太多后顾之忧。 有一部分创业者是前期赚了一些钱,能确保基本生活的质量!所以可以全身心投入到创业中,提高成功的概率。然…

春运渡劫!Python给我抢回家的火车票
简介:本文首发于个人公众号「视学算法」,作者阿广,一个专注于大数据、人工智能和算法的学习平台,也是一个保送中科院软件研究所直博生的自留地。人生苦短,我愿做您最忠实的技术支持伙伴!一起用代码改变世界…

首次成功实施 XSS 攻击,盗取目标网站大量 VIP 帐号
前言 之前做网站时有做代码防御 XSS(Cross Site Script) 攻击,但是却只处于了解的阶段,并不知道其中具体的原理,更别说使用了。最近有朋友要求我帮助他 Hack 一个网站,达到一定的目的。思考来思考去,最后想了一套方案&…

oracle取得表中总记录数最快的方法
查询表中的记录总数的语法就是SELECT COUNT(*) FROM TABLE_NAME。这可能是最经常使用的一类SQL语句。 本文讨论怎样才能最快的得到这个记录数。本文纯粹主要是理论上的讨论,文章中很多内容(如常数索引)对实际的指导意义不大。 在具体描述之前…