Linux4-文本处理三驾马车：grep, sed, awk_投稿

Linux基础课程系列：

grep：一种强大的文本搜索工具，它能使用正则表达式匹配模式搜索文本，并把匹配的行打印出来

格式： grep [options] pattern file ([]内的部分可以省略)

sed：流编辑器，一般用来对文本进行 增删改查 （sed是以行为单位来处理的）。

用法： sed [-options] 'script' file(s)

[!] 表示否定，取反（相当于grep -v）

awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其 对数据分析并生成报告 时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk，未作特别说明，一般指gawk。gawk 是 AWK 的 GNU 版本。

用法： awk [options] '' file 。

基础结构: ' '

匹配结构: ' /pattern/ '

扩展结构: 'BEGIN END'

awk 在读取一行文本时，会用预定义的字段分隔符划分每个数据字段，并分配给一个变量。

$0 代表整个文本行；

$1 代表文本行中的第1个数据字段；

……

$NF 代表文本行中的最后一个数据字段

awk 默认的字段分隔符是任意空白字符（如：空格or 制表符），也可以用-F 参数自定义分隔符

（自己）常用的文本文件的行处理命令

示例文件：test.vcf

1、head -n 10 test.vcf

head : 默认是提取文件的前10行，-n 参数可以设定选择文件的前n行

2、tial -n 10 test.vcf

tail : 默认是提取文件的末尾10行， -n 参数可以设定选择文件末尾的n行

3、sed -n '10,20p' test.vcf

sed -n ：随意选择需要查看的行

sed命令是一个面向行处理的编辑器，可以和正则表达式配合使用，附上较全面的sed命令使用教程。

https://man.linuxde.net/sed

4、awk 截取行的指定长度字符串

less test.gz |awk '{if(NR%2==1){print}else{print substr($1,1,75)}}' | gzip -c >test.part.gz

说明：对test.gz文件指定行截取75bp，原来是150bp

5、对n行的第三列求和，求平均值

grep -v ‘#’ test.vcf |sed -n '20,35p' |awk -F '\t' '{sum+=$3n++}END{print sum,sum/n}'

(linux 一行命令计算速度比Python快，简单计算喜欢用linux命令)

记得随时整理使用过的命令，没学过linux，靠着各种帖子，随时需要随时补给，有点懒。

当大家看到标题时脑中闪过的大概是铺天盖地baidu, google出来的冗余的各类使用介绍，老生常谈希望能让大家对这三个文本工具有新的理解。

grep不做过多的介绍，打印出匹配的行，着重点在于输出结果并不对文本本身做修改。

有个关于grep的小故事，从sed和grep能追溯到最初的unix行编辑器ed而grep的命名代表 g(全局)/re(正则表达式)/p(打印)正是ed中全局打印行匹配的语法. grep自身的劣势在于无法实现多行匹配, 这时sed和awk相继出现弥补了grep的不足。

在进入sed的相关讨论之前，先就sed跟awk之间进行简单的比较。

可使用指定的脚本文件对相应文本进行编辑。

sed -f 'script filename' or stdin

awk -f 'script filename' or stdin

默认全局匹配并且拥有自身的主输入循环。

除去影响控制流的命令或语句(sed中: t，bawk中continue，break等)默认对文本的每一读取的行依次执行相应的命令或语句。

awk相较于文本编辑工具更像是一门语言，awk条件、循环、判断语句有显性的标识(if，while，for...)；而sed只存在单一的判断逻辑(参考b label，t label)。

取出upstream awk_test对应的配置块:

Solution1：

Solution2：

相较之下Solution 2不需要复杂的判断，只需通过寻址来匹配并打印相应的文本；Solution 1更适合于进行多行匹配并替换。另一方面，Solution 1中sed通过创建多行空间模式并输出，而awk通过修改记录分隔符来实现多行匹配的不同。

awk拥有系统变量(FS，RS，OFS，ORS...)、内置函数、数组数据结构、传参(-v var=value)、引用系统命令(通过system() getline() close()函数)等。

awk除去主输入循环还存在BEGIN和END过程，用于某些在处理输入之前或者处理输入完成之后的 *** 作。

sed也有过人之处，如果对sed的工作模式进行深入了解，会发现有一个叫做保持空间(hold space)的东西，下图大体描述了sed的工作模式，并且阐述了模式空间(pattern space)跟保持空间(hold space)之间的联系。模式空间跟保持空间中的内容可进行删除，交换等。

sed的指令集都是单一的字母，并且有option可直接修改文件。而awk可能需要指定内置变量的值，或是通过输出重定向保存为新的文件。

综上所述：

grep适用于单行匹配打印的场景；

sed适用于多行模式的替换的场景；

awk适合更多的逻辑表达式并输出的场景。

但三个命令都需要文本格式统一化的大前提，对于一个文本中的多种格式，可以先将同一种格式的内容整理到文件中，再将其他格式再分别整理到新的文件中。

统一文本格式固然重要，能准确匹配意图的正则表达式也必不可少，这也是大家头疼的部分。如若有机会，我会再跟大家介绍文本匹配中磨人的小妖精——正则表达式。它在不同的命令中、语言中支持不同的标准，更易于与Unix-like系统的file globbing混淆，常常让人咬牙切齿，欲罢不能。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://www.outofmemory.cn/tougao/5860137.html

Linux4-文本处理三驾马车：grep, sed, awk

发表评论

评论列表（0条）