您的位置:首页技术文章
文章详情页

UNIX 新手指南,第 3 部分:正则表达式

【字号: 日期:2024-06-12 16:01:07浏览:3作者:猪猪

开始之前

了解本教程中包含的内容以及如何最好地利用本教程。

关于本系列

这个包括四个部分的系列教程从头开始介绍 Unix®。对于很久没有使用类 UNIX 操作系统的用户来说,这个初始的教程是个很好的温习。对于具有 Windows® 使用经验的新的 UNIX 用户来说,它也很有价值,因为其中参考了 Windows,并将两者进行了比较。第二个教程重点讲述 vi 文本编辑器,该编辑器是功能最强大(也最神秘)的可用 UNIX 实用程序之一。本教程向您讲授有关使用正则表达式的 UNIX 命令行过滤器的知识,包括 grep、sed 和 awk。

关于本教程

要发挥 UNIX 命令行过滤器(如 grep、sed 和 awk)背后的强大功能,您需要非常熟悉正则表达式。本教程向新用户讲授其中每个实用程序的功能和如何使用正则表达式来操作文本。您将首先使用一个简单和好玩的 grep 示例,然后继续研究 sed 和 awk 的实际示例。

目标

本教程的目标是使 UNIX 和 Linux® 用户习惯于使用这三个可用于快速和高效地搜索和更改数据的强大命令行工具。本教程开头将解释许多 UNIX 实用程序(及编程语言)基本框架中使用的正则表达式。随后的各个部分将给出与 grep、sed 和 awk 一起使用的正则表达式的示例。

先决条件

对于本教程,您需要对命令行有基本的了解。对于本教程的某些部分,了解如何在 UNIX 中使用 stdin、stdout 和 pipe 来处理输入和输出是有所帮助的。

系统要求

在任何运行类 UNIX 操作系统的计算机上拥有您自己的帐户,这是完成本教程所需的要求。类 UNIX 操作系统包括 IBM AIX® 操作系统、Linux®、Berkeley Software Distribution (BSD)、Mac OS® X(通过终端来访问命令行),以及其他许多系统。

正则表达式

正则表达式是一个字符串,旨在用于搜索或替换另一个字符串。初看起来,这似乎是一个相当基本的功能。大多数用户都熟悉几乎每个图形文本编辑器或字处理应用程序中都有的搜索和替换功能。如果将这个基本的搜索和替换功能比作计算器,则正则表达式可比作全功能的计算机。将正则表达式用于搜索条件的强大功能不应被低估。

使用正则表达式的过滤器

一些基于 Unix 的最强大命令行工具使用了正则表达式,包括 grep、sed 和 awk(以及包括 Perl 在内的一些编程语言)。在从基础 UNIX 命令行用户转变为真正的超级用户时,学习如何使用正则表达式是一个必需步骤。存在一些不同版本的正则表达式语法和多个版本的 grep、sed 和 awk,因此本教程将集中于每种实现中都具有的非常标准的最常见构造。不要忘了参考您系统的 man 页,以获得有关语法和命令行选项的细节。

基础

在探索使用正则表达式的 UNIX 应用程序之前,了解基础知识是非常重要的。在本部分中,您只需继续往下阅读。稍后您将在 grep 中尝试一些示例。

基本搜索

正则表达式由一些普通字符和特殊字符组成,其中的特殊字符指示搜索条件。 在大多数基本情况下,正则表达式中也许根本就没有使用特殊字符。例如,如果您只是希望使用词条 golf 作为搜索条件,则可以输入以下命令:

golf

这就是一个正则表达式!它搜索单词 golf 的所有实例。正则表达式区分大小写,因此这将搜索 golf 的所有实例,但是不会查找 Golf 的实例。

使用方括号

若要同时搜索 golf 和 Golf,您可以使用方括号(它们是正则表达式中的特殊字符),并列出一串要搜索的各个字符。这类似于搜索中的搜索(这就是正则表达式背后的神奇之处)。

[Gg]olf

同样的概念也适用于任何字符列表——而不只是用于区分大小写。例如,您可能希望搜索 golf 和 gelf(您虚构的一种新体育运动):

g[oe]lf

句点

现在假设您有第三种体育运动 gilf,您也希望对其进行检查。使用您到目前为止已学到的知识,一种方法是在您的搜索条件中使用 o、e 和 i。但是随着您的搜索的逐步发展,您可能希望查找以 g 开头、以 lf 结尾并且其间具有一个字符的所有字符串。为此,您可以使用另一个特殊字符,即句点 (.)。

g.lf

这将查找以 g 开头和以 lf 结尾并且其间具有一个字符的所有字符串。若要将您的搜索扩展到以 g 开头和以 f 结尾并且其间具有两个字符的所有字符串,您可以使用两个句点:

g..f

使用 grep 来搜索文件

现在您已经对正则表达式背后的概念有了基本的了解,您可以开始使用实际的示例,以便能够看到它们的实际运用。您将试验的第一个命令行应用程序是 grep。grep 的名称实际上就来自于正则表达式:g/RE/p。grep 用于在一个或多个文件中搜索特定字符串的实例。缺省情况下,grep 输出其中出现了您的搜索字符串的每一行(而不是仅输出搜索字符串)。如果您在多个文件中执行搜索,则 grep 还会输出在其中找到该行的文件名。

使用以下文本创建一个名为 grep.txt 的文件:

I like golf.Golf is played on grass.I created gilf.

grep 的基本语法如下:

grep REGULAREXPRESSION FILENAME(S)

基本搜索

现在,返回到前面的第一个正则表达式示例:单独的单词 golf。若要与 grep 一起使用这个表达式,可输入:

grep golf grep.txt

此命令在 grep.txt 文件中搜索字符串 golf 的所有实例,并输出包含该字符串的行。您的输出应该类似如下:

I like golf.

使用方括号

下一步,试验一些上面讨论过的特殊字符。您可以使用方括号(方括号表达式)来指示您想要搜索 golf 和 Golf:

grep [gG]olf grep.txt

输出应该类似如下:

I like golf.Golf is played on grass.

句点

若要搜索 golf 和 gilf,您同样可以使用方括号。取而代之的是,可以尝试使用一个句点来指示您想要搜索 g 和 lf 之间的任何字符:

$grep g.lf grep.txt

输出应该类似如下:

I like golf.I created gilf.

搜索 golf、Golf 和 gilf

您现在已经找到了获得每种 golf 变体的方法,但是还没有哪个搜索返回了所有三个实例:golf、Golf 和 gilf。花点时间考虑一下如何搜索所有三个实例。这可以通过多种方法来实现。下面是两个示例:

grep ..lf grep.txtgrep [gG][oi]lf grep.txt

这两种方法都返回所有三行:

I like golf.Golf is played on grass.I created gilf.

短横线

您是否能够想出更多的方法来完成此任务呢?到目前为止,您仅学习了两个在正则表达式中使用的特殊字符。这只是开始!有些特殊字符在其他特殊字符之内使用。例如,当您将一组字符包括在方括号中时,您可以使用短横线 (-) 来搜索一系列字符。将以下行添加到您的文本文件:

What is g2lf?

使用您到目前为止已学到的知识,您知道如果使用类似于 g.lf 或 g[oi2]lf 的正则表达式,则这一行将包括在搜索结果中。使用句点将返回在该位置具有任何字符的结果;使用 [oi2] 将返回仅在该位置具有 o i 或 2 的结果。通过使用一个短横线,您可以实现第三种方法,其中不只包括少数字符,但并不是包括每个字符:

grep g[a-z]lf

此方法产生以下输出:

I like golf.I created gilf.

从输出中可以看到,此方法搜索落在 a 和 z 之间的任何字符(按字母顺序)。这排除了在 g 和 lf 之间具有数字或符号的字符串,这些字符串不是真正的单词,可能不属于您所需的搜索条件。

方括号中的短横线

通过在方括号中包括附加集合,您还可以搜索多个字符序列。例如,若要搜索 a-z 和 A-Z,可以使用以下搜索:

grep g[a-zA-Z]lf

脱字号 (^)

当您的字符序列列表变得更长时,可能发现通过避免某些字符而不是指定想要查找的字符来进行搜索会更容易。这可以通过在搜索序列前在方括号中使用脱字符 (^) 来实现。这说起来挺复杂的,但是通过观察一个示例,应该是很容易理解的。通过使用以下 grep 命令来更改您的搜索,以避免数字但是包括所有其他字符:

grep g[^0-9]lf

此搜索类似于前面查找所有字母字符的搜索,但是此搜索还返回诸如数字符号 (#) 和美元符号 ($) 等不属于字母并且也不在您排除的数字序列中的字符。

星号

要试验的下一个特殊字符是星号 (*),它是若干个重复操作符之一。大多数人都非常熟悉在命令行上使用星号作为文件名搜索条件(通配符),但是在正则表达式中使用星号还是相当新鲜的。星号指示搜索项(前一个字符或方括号表达式)可以出现零次、一次或多次。若要对此进行尝试,请将以下行添加到您已经在使用的 grep.txt 文件:

This time the o is missing in glf.Some people might say goolf.But they would not say goilf.

现在整个文件应该类似如下:

I like golf.Golf is played on grass.I created gilf.What is g2lf?This time the o is missing in glf.Some people might say goolf.But they would not say goilf.

尝试在 golf 中的 o 后面使用星号:

grep go*lf grep.txt

您的搜索将返回具有单词 golf、glf 和 goolf 的行:

I like golf.This time the o is missing in glf.Some people might say goolf.

问号

另一个重复操作符是问号 (?)。问号的功能与星号类似,只不过搜索项可以出现零次或一次。多个实例将不匹配。使用问号取代星号来尝试您刚才执行的搜索:

grep go?lf grep.txt

可以看到,这次作为匹配结果返回了 golf 和 glf,但是没有返回 goolf,因为其中存在问号前的搜索项 o 的多个实例:

I like golf.This time the o is missing in glf.

加号

最后一个常规重复操作符是加号 (+)。加号将查找某个搜索项出现一次或多次的情况。与星号不同,必须至少找到一个实例才会匹配。请尝试以下示例:

grep go+lf grep.txt

这次,该搜索返回 golf 和 goolf,但它不返回 glf,因为没有找到 o:

I like golf.Some people might say goolf.

行首和行尾定位点

在转向 sed 之前,最后要学习的特殊字符是行首定位点(使用脱字符来实现)和行尾定位点(使用美元符号来实现)。您可能记得,您在本教程的前面使用过脱字符来对方括号表达式取反。当在方括号之外使用脱字符时,它执行完全不同的功能。将脱字符放在正则表达式开头将告诉该搜索仅操作行的开头。换句话说,正则表达式中的第一个字符(脱字符之后)必须与新行上的第一个字符匹配才能匹配该行。类似地,将美元符号放在正则表达式的结尾以指示您仅希望返回与行尾匹配的结果。换句话说,正则表达式中的最后一个字符(美元符号之前)必须与某行上的最后一个字符匹配才能匹配该行。若要对此进行测试,请将以下两行添加到 grep.txt:

golf has been a fine examplelet's talk about something besides golf

请注意,对于此测试,您不应该对 golf 进行大写或加标点,因为它将演示一个针对同一单词的搜索,此搜索使用定位点在行尾或行首以不同的方式操作。若要测试行首定位点,请输入以下命令:

grep ^golf grep.txt

输出应该类似如下:

golf has been a fine example

若要测试行尾定位点,请使用同一个搜索,但是删除脱字符并在 golf 之后添加一个美元符号。

grep golf$ grep.txt

使用行尾定位点的输出类似如下:

let's talk about something besides golf

小结

现在您已经通过在命令行上使用 grep 来学习了正则表达式的基础知识。下一步,您将学习使用 sed,此实用程序不仅搜索文本,而且还对搜索结果进行替换。首先,下面是对您到目前为止已学习过的内容的小结:

.  句点表示任何单个字符[] 方括号包括一个字符序列-  短横线在字符之间使用以创建一个序列(在 [] 内)^  脱字符用于对序列(在 [] 内)取反*  星号搜索某个搜索项的零个、一个或多个实例?  问号搜索某个搜索项的零个或一个实例+  加号搜索某个搜索项的一个或多个实例$  美元符号搜索行尾^  脱字符搜索行首  特殊字符前的反斜杠使该字符成为普通字符(请参见下一部分。)

使用 sed 来编辑文件

sed 是流编辑器 (stream editor) 的简写。文本编辑器的传统、现代定义是可用于创建和编辑文本文件的交互式应用程序。sed 也是一个文本编辑器,但它是一个命令行实用程序而不是交互式实用程序,从而使之成为一个极其强大的批处理编辑工具。sed 通常在 Unix Shell 脚本中用于过滤较大的文本文件集。在本教程的第一部分中,您使用了一个讨论 golf 的小型测试文件。为了演示 sed 编辑器的高级功能,您将使用一个很小的代码片段,开发人员可能希望在批处理过程中更改该代码片段。

请将以下文本复制并粘贴到一个名为 sed.txt 的文件中:

system "echo 'project:$project' >> logfile";system "echo 'version:$version' >> logfile";system "echo 'optionalid:$optionalid' >> logfile";system "echo 'nodes:$nodes' >> logfile";system "echo 'threads:$threads' >> logfile";

正斜杠

前面解释过的用于 grep 的所有特殊字符在 sed 中也有效。然而,若要使用 sed,您必须了解一些附加语法。sed 中的基本表达式由四个部分组成,各个部分之间用正斜杠 (/) 分隔。以下是用于基本 sed 命令的常见语法:

sed s/REGULAREXPRESSION/REPLACEMENTSTRING/flags INPUT_FILE

s——搜索和替换

s 指示您希望执行搜索和替换。正斜杠用于绑定 sed 中的正则表达式。例如,如果您只希望将词条 logfile 替换为 logfile.txt,则可以运行以下命令:

sed s/logfile/logfile.txt/ sed.txt

输出应该类似如下:

system "echo 'project:$project' >> logfile.txt";system "echo 'version:$version' >> logfile.txt";system "echo 'optionalid:$optionalid' >> logfile.txt";system "echo 'nodes:$nodes' >> logfile.txt";system "echo 'threads:$threads' >> logfile.txt";

在此情况下要注意的一个要点在于,sed 不会实际更改 sed.txt 的内容。相反,它将输出发送到标准输出设备。对于这些示例,您将把输出发送到标准输出设备,以便能够立即看到操作结果。

为便于将来参考,可以捕获输出或将其发送到某个新文件。例如,若要将输出发送到 sed_new.txt,可以运行以下命令:

sed s/logfile/logfile.txt/ sed.txt > sed_new.txt

反斜杠

在学习使用斜杠的同时,还有另一个非常重要的特殊字符需要学习。反斜杠 () 称为转义字符,因为它对正则表达式解释中的下一个字符进行转义。更简单的是,将一个反斜杠放在特殊字符前,将使该字符成为普通项而不是命令项。这非常重要,因为许多文件(尤其是在编写代码的时候)广泛利用了与用于执行正则表达式的字符相同的字符。在您的 sed.txt 文件中,您会注意到美元符号的使用。如果您希望替换 $project 而不替换 project,则需要在搜索和替换中使用转义字符:

sed s/$project/$project_name/ sed.txt

您可以在输出中看到 $project 被更改了,但是 project 没有被更改。

system "echo 'project:$project_name' >> logfile";system "echo 'version:$version' >> logfile";system "echo 'optionalid:$optionalid' >> logfile";system "echo 'nodes:$nodes' >> logfile";system "echo 'threads:$threads' >> logfile";

更改某个项的多个实例

这引入了 sed 中的另一个重要功能。如果您希望同时更改 project 的两个实例,该怎么办呢?通过到目前为止已学到的知识,合理的回答是只需使用 project 作为正则表达式,但是此回答并不是非常正确。下面将继续并进行尝试,以便能够演示和解释该过程:

sed s/project/project_name/ sed.txt

在输出中可以看到,project 的第一个实例被更改为 project_name:

system "echo 'project_name:$project' >> logfile";system "echo 'version:$version' >> logfile";system "echo 'optionalid:$optionalid' >> logfile";system "echo 'nodes:$nodes' >> logfile";system "echo 'threads:$threads' >> logfile";

然而,第二个实例未更改,尽管它肯定匹配您的正则表达式。您从第一个示例中知道,sed 似乎更改其输入中的每个匹配字符串,而不是仅更改第一个匹配字符串,因为它更改 logfile 的每个实例。

区别在于,logfile 的每个实例在单独的行上,而同一行上却有两个 project 实例。这为什么非常重要?因为 sed 被实现为一个行编辑器。它一次将一个单独的行放到内存中,并将其作为单个单元来操作。在运行 sed 时务必记住这点,因为所有命令行选项都是按这个设计原则来设计的(从而使大多数 sed 实现不会受到与系统内存有关的文件大小限制)。缺省情况下,每一行都视为 sed 命令的一次新的执行。尽管在第一个示例中似乎不是这样,但是其中 sed 命令仅替换匹配字符串的第一个实例。然而,您可以简单地使用一个 g 标志来改变此行为。

g 标志

执行同样的 sed 命令,但这次在结尾附加一个 g:

sed s/project/project_name/g sed.txt

这次,第一行上的两个 project 实例都被更改为 project_name:

system "echo 'project_name:$project_name' >> logfile";system "echo 'version:$version' >> logfile";system "echo 'optionalid:$optionalid' >> logfile";system "echo 'nodes:$nodes' >> logfile";system "echo 'threads:$threads' >> logfile";

标签: Unix系统
相关文章: