概述
sed
是stream editor
的简称,也就是流编辑器。它一次处理一行内容,处理时,把当前处理的行存储在临时缓冲区中,称为"pattern space"
,接着用sed
命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有 改变,除非你使用重定向存储输出。
语法
命令格式
sed [option] 'command' input_file
常用选项
-n
使用安静silent
模式。在一般sed
的用法中,所有来自stdin
的内容一般都会被列出到屏幕上。但如果加上-n
参数后,则只有经过sed
特殊处理的那一行(或者动作)才会被列出来-e
直接在指令列模式上进行sed
的动作编辑-f
直接将sed
的动作写在一个文件内,-f filename
则可以执行filename
内的sed
命令-r
让sed
命令支持扩展的正则表达式(默认是基础正则表达式)-i
直接修改读取的文件内容,而不是由屏幕输出-l
指定行的长度
常用命令
a\
:追加行,a\
的后面跟上字符串s
(多行字符串可以用\n
分隔),则会在当前选择的行的后面都加上字符串s
c\
:替换行,c\
后面跟上字符串s
(多行字符串可以用\n
分隔),则会将当前选中的行替换成字符串s
i\
:插入行,i\
后面跟上字符串s
(多行字符串可以用\n
分隔),则会在当前选中的行的前面都插入字符串s
d
:删除行delete
,该命令会将当前选中的行删除p
:打印print
,该命令会打印当前选择的行到屏幕上y
:替换字符,通常y
命令的用法是这样的:y/Source-chars/Dest-chars/
,分割字符/
可以用任意单字符代替,用Dest-chars
中对应位置的字符替换掉Soutce-chars
中对应位置的字符s
:替换字符串,通常s
命令的用法是这样的:1,$s/Regexp/Replacement/Flags
,分隔字符/
可以用其他任意单字符代替,用Replacement
替换掉匹配字符串
替换选项
\digit
:Replacement
中可含有后向引用中的\digit
(digit
是1
至9
),引用前面定义的子表达&
:代表模版空间中的整个匹配部分\L
:将在其后的替换部分转换成小写字母,直到发现一个\U
或\E
,GNU
扩展功能\l
:将下一个字符转换成小写字母,GNU
扩展功能\U
:将在其后的替换部分转换成大写字母,直到发现一个\L
或\E
,GNU
扩展功能\u
:将下一个字符转换成大写字母,GNU
扩展功能\E
:停止由\L
或\U
指示开始的大小写转换,GNU
扩展功能
标志选项
- g:将用Replacement替换模版空间中所有匹配Regexp的部分,则不仅仅是第一个匹配部分
- digit:只用Replacement替换模版空间中第digit(digit是1至9)个匹配Regexp的部分
- p:若发生了替换操作,指示显示模版空间中新的数据
- w file-name:若发生了替换操作,指示将模版空间中新的数据写入指定的文件file-name中
- i:表示进行Regexp匹配时,是不区分大小写字母的
示例
a
命令
sed '1,$a\add one' test.txt
从第一行到最后一行所有行后追加"add one"
字符串行sed '/first/a\add one' test.txt
在匹配到first
行追加"add one"
字符串行
i
命令
与a
命令类似,只不过在匹配的行前面插入字符串行,不举例了。
c
命令
sed '1,$c\add one' test.txt
从第一行到最后一行所有行替换为"add one"
字符串行sed '/first/c\add one' test.txt
将匹配到first
行替换为"add one"
字符串行
d
命令
sed '4,$d' test.txt
从第四行到最后一行全部删除
p
命令
sed -n '/^first.*end$/p' test.txt
以first
开头end
结尾的所有行全部打印
s
命令
sed 's/line/text/g' test.txt
将所有行的line
替换为text
,g
代表全局选项,没有g
只替换所有行的第一个匹配项sed '/^first.*end$/s/line/text/g' test.txt
匹配以first
开头end
结尾的所有行,然后将line
全部替换为text
sed 's/\(.*\)line$/\1/g' test.txt
本例中的\(\)
中包裹的内容表示正则表达式的第n
部分,.*
表示任意字符串,所以此例相当于删除所有行末的line
基本正则表达式
BRE
元字符表
元字符 | 说明 |
---|---|
* | 将* 前面的正则表达式匹配的结果重复任意次(含0 次)。 |
\+ | 与星号(* )相同,只是至少重复1 次,GNU 的扩展功能。 |
\? | 与星号(* )相同,只是最多重复1 次,GNU 的扩展功能。 |
\{i\} | 与星号(* )相同,只是重复指定的i 次。 |
\{i,j\} | 与星号(* )相同,只是重复i 至j 次。 |
\{i, \} | 与星号(* )相同,只是至少重复i 次。 |
\(regexp\) | 将regexp 看作一个整体,用于后向引用,与\digit 配合使用。 |
. | 匹配任意单个字符。 |
^ | 匹配模版空间开始处的NULL 字符串。 |
$ | 匹配的是模版空间结束处的NULL 字符串。 |
[list] | 匹配方括号中的字符列表中的任意一个。 |
[^list] | 否定匹配方括号中的字符列表中的任意一个。 |
regexp1\¦regexp2 | 用在相邻的正则表达式之间,表示匹配这些正则表达式中任一个都可以。匹配是从左向右开始的,一旦匹配成功就停止匹配。 |
regexp1regexp2 | 匹配regexp1 和regexp2 的连接结果。 |
\digit | 匹配正则表达式前半部分定义的后向引用的第digit 个子表达式。digit 为1 至9 的数字, 1 为从左开始。 |
\n | 匹配换行符。 |
\meta | 将元字符meta 转换成普通字符,以便匹配该字符本身,有$ 、 * 、 . 、 [ 、 \ 和 ^ 。 |
扩展正则表达式
扩展正则表达式除了以下元字符与基本正则表达式不同外,其余相似。
BRE
与ERE
元字符对应表
基本正则表达式 | 扩展正则表达式 |
---|---|
\? | ? |
\+ | + |
\¦ | ¦ |
\{ \} | { } |
\( \) | ( ) |
常用转义字符
转义字符表
转义字符 | 说明 |
---|---|
\a | 匹配一个BEL 字符。 |
\f | 匹配一个换页字符。 |
\n | 匹配一个换行字符。 |
\r | 匹配一个回车字符。 |
\t | 匹配一个水平Tab 字符。 |
\v | 匹配一个垂直Tab 字符。 |
\cX | 匹配Control+X ,X 是任意字符。 |
\dXXX | 匹配一个ASCII 码是十进制XXX 的字符。 |
\oXXX | 匹配一个ASCII 码是八进制XXX 的字符。 |
\xXX | 匹配一个ASCII 码是十六进制XX 的字符。 |
\w | 匹配任意一个单词字符(字母、数字和下划线)。 |
\W | 匹配任意一个非单词字符。 |
\b | 匹配一个单词的边界符:字符的左边是一个单词字符,并且右边是一个非单词字符,反之亦然。 |
\B | 匹配除单词边界符外所有字符:字符的左边和右边同时是单词字符或非单词字符。 |
应用场景
sed命令比较适用于大的文本文件,用普通文本编辑器难以胜任的情况。下面分别介绍直接打印、插入、删除、替换等编辑操作。
实验用文件内容
#===================test1.txt====================== letitia mail uuencode 1003605091 01566
(1)行打印,输出缓冲区内容,使用sed的p子命令
sed '1,3 p' test1.txt echo "=====================" sed -n '1,3 p' test1.txt #输出结果 letitia letitia mail mail uuencode uuencode 1003605091 01566 ===================== letitia mail uuencode
p子命令代表print,可以打印出sed缓冲区内的内容。
sed命令中,直接采用数字代表某个特定的文本行:'1 p'
代表打印第一行;'1,3 p'
代表打印1到3行;特别的,最后一行的行号为$。
观察输出结果,不使用-n选项时,sed命令把1到3行输出了两次。这是因为不使用-n时,sed首先读取一行,并默认将缓冲区内的文本输出出来,之后p子命令再次输出。使用-n时,默认输出取消,只有p子命令的输出结果。
sed -n '/^ma/,5 p' test1.txt #输出结果 mail uuencode 1003605091 01566
sed命令支持正则表达式定位。语法为/re/
,re表示正则表达式。
本例表示打印出从匹配正则表达式的地方到第5行,也就是从匹配以ma开头的文本行处开始。
sed -n '1~2 p' test1.txt #输出结果 letitia uuencode 01566
1~2
表示从第一行开始,行号递增2输出,即输出奇数行。语法格式为first~step
。
(2)插入文本行,追加文本行
这两种情况很类似。插入文本使用i子命令
,表示在指定位置前面插入文本;追加文本使用a子命令
,表示在指定位置之后插入文本。观察一下两个的区别:
sed -n -e '2 i insert' -e '1,4 p' test1.txt #-e选项表示多个子命令,本例执行i子命令之后执行了p子命令 #输出结果 letitia insert mail uuencode 1003605091
sed -n -e '2 a insert' -e '1,4 p' test1.txt #输出结果 letitia mail insert uuencode 1003605091
(3)删除文本行,使用d子命令
sed -n -e '2 d' -e '1,$ p' test1.txt #输出结果 letitia uuencode 1003605091 01566
(4)替换文本行,使用c子命令
sed -n -e '2 c newmail' -e '1,$ p' test1.txt #输出结果 letitia newmail uuencode 1003605091 01566
【注】以上均未使用-i选项,所以更改的只是副本。
(5)替换指定文本,使用s子命令
这一个命令实用性很广,并且灵活。语法也比之上面特别一些:
sed '位置参数 s/pattern/replaced/[flag]'
pattern为要替换的文本,支持正则表达式,replaced表示用来替换的一般字符串(不支持正则表达式)。
flag是替换标志,用来影响匹配替换的规则:
flag | 用法 |
---|---|
g | 全局匹配,会替换文本行中所有匹配的字符串 |
十进制n | 替换文本行中第n个匹配的字符串 |
p | 替换第一个匹配的字符串,并且将缓冲区输出到标准输出 |
w | 替换第一个匹配的字符串,并且将改动的行输出到磁盘文件中 |
缺省 | 替换第一个匹配的字符串 |
sed -n -e 's/[0-9]\{10\}/miss letitia/g' -e '1,$ p' test1.txt #{}要转义,因为此处使用的不是扩展正则表达式 #输出结果 letitia mail uuencode miss letitia 01566
sed -n -e '1,/^ma/ s/l/L/g' -e '1,$ p' test1.txt #输出结果 Letitia maiL uuencode miss letitia 01566 #可以看到,本例将前两行里的l替换为L。
sed -n '1,3{ s/l/L/g s/e/E/g 2 i tyrone p }' test1.txt #输出结果 LEtitia tyrone maiL uuEncodE
最后这个例子比较复杂。使用大括号,表示对1到3行做了一组操作。