论文部分内容阅读
在编辑与编务工作中,如果能灵活运用各种软件,就会显著提高效率。下面介绍一下grep软件在这方面的应用。
grep本是UNIX/Linux中的命令行程序(类似于DOS程序),现在有多个Windows版本。它能够利用称为“正则表达式”的技术,输出文件中具有某种规律(或称模式)的文本行。这种规律可以是一个简单的字符串,如“111”或 “computer”表示含有“111”或“computer”的行;也可以是复杂的字符串,如“1.3”可以匹配含有113,123,1_3(即在1和3之间有任意一个字符)的行,因为“.”表示匹配任意单个字符;而“12*3”可以匹配含有13,123,1223,12223(即在1和3之间有任意个2)的行,此处“*”表示“零个或多个前面的单个字符或字符组合”。
一、快速剔除书目中的三级标题
有一批教材(70多本)的目录保存在同一个纯文本文件C:contents.txt中,现在要利用该文件制作一份书目。图书目录一般都有三级标题,而在制作书目时,只需要一级和二级标题。该文件中,标题前面没有空行。三级标题序号的形式有三种,第一种形如“1.1.1”,即数字之间有一个英文句号;第二种形式如“1 1 1”,即数字之间有一个很宽的空格;第三种形式如“1.2.1”,即数字之间有一个英文句号紧跟一个空格。章号和节号最多可能为两位数,高位均不为零,而小节号只有一位数,不可能为零。如果删掉以这三种形式开头的文本行,也就完成了剔除三级标题的工作。
这个工作很难用Word完成,手工处理又相当耗时。而使用grep软件就可以快速达到目的。
上述三级标题序号的第一种形式可以表示为“一个或两个数字之后紧跟一个英文句号再紧跟一个或两个数字再紧跟一个英文句号再紧跟一个数字”。而经过分析,第二种形式中的“很宽的空格”与第三种形式中的“一个英文句号紧跟一个空格”实际上都是两个“不可打印的”字符,因此后两种形式可以用同一种模式表示,即“一个或两个数字之后紧跟两个不可打印的字符再紧跟一个或两个数字再紧跟两个不可打印的字符再紧跟一个数字”。而每个标题各占一行,便于使用grep软件。了解了这些信息,就可以使用grep软件剔除三级标题了。
首先要下载grep。grep包含在名为CygwinPortable的软件包中,可以在浏览器中输入以下链接下载该软件:
http://cdnetworks-kr-1.dl.sourceforge.net/project/cygwinportable/cygwinportable/CygwinPortable 0.2/CygwinPortable-0.2.zip
解压后进入其文件夹,双击其中的CygwinPortable.exe图标,会出现一个类似于DOS窗口的界面,在其中可以输入很多命令,包括grep。
grep的命令格式如下:
$ grep'匹配模式'原始文件
匹配模式前后均有空格,并且要加上单引号。模式内部不能有空格(除非要匹配空格)。匹配后的结果将输出到屏幕上。“$”是显示在屏幕上的提示符,不必输入。原始文件的内容不受影响。
例如,书目中每本书的书号都是一个五位的数字,且单独放在一行,前面没有空格。要输出这些书号,则可以输入以下命令:
$ grep'^[0-9]{5}'contents.txt
按下回车键,屏幕上将输出所有书号,每行一个。“^”出现在匹配模式的开头,表示从文本行的开头进行模式匹配。如果漏掉这个符号,则会输出所有包括五位数字的行(如某行文字中含有“80486”,则该行也会输出)。方括号表示匹配字符列表中的任意一个字符,如[0-9]表示匹配任意一个阿拉伯数字,而[a-zA-Z]表示匹配任意一个大写或小写英文字母。{n}表示欲匹配字符的个数,此处为5。
若不希望输出匹配某个模式的文本行,例如要删除所有书号,则可在模式前加入-v选项,即:
$ grep -v'^[0-9]{5}'contents.txt
将输出不带书号的目录。
通常,输出结果需要进一步处理,因此应将其用“>”保存在文件中,命令格式如下:
$ grep'匹配模式'原始文件 > 结果文件
例如
$ grep'^[0-9]{5}'contents.txt > result.txt
即可将所有书号保存在result.txt文件中,每个书号一行。若result.txt已经存在,则以前的内容将全被删掉。结果文件名称前如不加路径,则表示保存在当前路径。
下面只要用两步操作就可以完成书目处理。
(1)执行如下命令:
$ cd c:
$ grep -v'^[1-9][0-9]*[^[:print:]]{2}[1-9][0-9]*
[^[:print:]]{2}[1-9]'contents.txt > step1.txt
若“^”是方括号中的第一个字符,则不再表示匹配文本行的开头,而是对其后面的模式取相反结果。[:print:]表示可打印字符。因此[^[:print:]]{2}表示匹配两个不可打印字符。注意单引号括住的部分没有空格。
打开step1.txt,可以看到,序号形如“1 1 1”和“1. 1. 1”的三级标题都被删掉了。
(2) 执行如下命令:
$ grep -v'^[1-9][0-9]*.[1-9][0-9]*.[1-9][0-9]*'step1.txt > step2.txt
此处,用“.”匹配英文句号,因为单个“.”可以匹配任意字符,而前面加上反斜线(称为转义符)后,就只能匹配英文句号。
打开step2.txt,可以看到,序号形如“1.1.1”的三级标题也都被删掉了,任务完成。
二、查找稿件中的不规范术语
grep还可以从一个文件中获取欲匹配的模式,并且一次搜索多个文件。命令如下:
$ grep –f 含匹配模式的文件原始文件
例如,某位作者为其编写的C 图书提供了随书源文件。部分文件的代码注释中使用了不规范的术语,如,把“面向对象”写成了“物件导向”,把“内存”写成了“记忆体”。现在要确定哪些文件含有不规范术语。如果逐一查找,比较费时。此时可以把不规范的术语写在一个名为jargons.txt的文件中,每行一个。将文件放在源文件所在目录,假设是C:source。然后执行如下命令:
$ cd c:
$ cd source
$ grep –f jargons.txt *.cpp
屏幕上就会输出所有含有不规范术语的源文件名。
请注意:在进行以上输入时,要在英文状态下进行,并区分大小写(文中涉及操作均为小写)。而且grep只能操作纯文本文件。由于版式限制,一些操作排成了两行(实际上均应为一行)。
参考文献:
[1]陈向群,等译. Brian W Kernighan, Rob Pike. UNIX编程环境 [M].北京:机械工业出版社,1999.
(作者单位:机械工业出版社计算机分社)
grep本是UNIX/Linux中的命令行程序(类似于DOS程序),现在有多个Windows版本。它能够利用称为“正则表达式”的技术,输出文件中具有某种规律(或称模式)的文本行。这种规律可以是一个简单的字符串,如“111”或 “computer”表示含有“111”或“computer”的行;也可以是复杂的字符串,如“1.3”可以匹配含有113,123,1_3(即在1和3之间有任意一个字符)的行,因为“.”表示匹配任意单个字符;而“12*3”可以匹配含有13,123,1223,12223(即在1和3之间有任意个2)的行,此处“*”表示“零个或多个前面的单个字符或字符组合”。
一、快速剔除书目中的三级标题
有一批教材(70多本)的目录保存在同一个纯文本文件C:contents.txt中,现在要利用该文件制作一份书目。图书目录一般都有三级标题,而在制作书目时,只需要一级和二级标题。该文件中,标题前面没有空行。三级标题序号的形式有三种,第一种形如“1.1.1”,即数字之间有一个英文句号;第二种形式如“1 1 1”,即数字之间有一个很宽的空格;第三种形式如“1.2.1”,即数字之间有一个英文句号紧跟一个空格。章号和节号最多可能为两位数,高位均不为零,而小节号只有一位数,不可能为零。如果删掉以这三种形式开头的文本行,也就完成了剔除三级标题的工作。
这个工作很难用Word完成,手工处理又相当耗时。而使用grep软件就可以快速达到目的。
上述三级标题序号的第一种形式可以表示为“一个或两个数字之后紧跟一个英文句号再紧跟一个或两个数字再紧跟一个英文句号再紧跟一个数字”。而经过分析,第二种形式中的“很宽的空格”与第三种形式中的“一个英文句号紧跟一个空格”实际上都是两个“不可打印的”字符,因此后两种形式可以用同一种模式表示,即“一个或两个数字之后紧跟两个不可打印的字符再紧跟一个或两个数字再紧跟两个不可打印的字符再紧跟一个数字”。而每个标题各占一行,便于使用grep软件。了解了这些信息,就可以使用grep软件剔除三级标题了。
首先要下载grep。grep包含在名为CygwinPortable的软件包中,可以在浏览器中输入以下链接下载该软件:
http://cdnetworks-kr-1.dl.sourceforge.net/project/cygwinportable/cygwinportable/CygwinPortable 0.2/CygwinPortable-0.2.zip
解压后进入其文件夹,双击其中的CygwinPortable.exe图标,会出现一个类似于DOS窗口的界面,在其中可以输入很多命令,包括grep。
grep的命令格式如下:
$ grep'匹配模式'原始文件
匹配模式前后均有空格,并且要加上单引号。模式内部不能有空格(除非要匹配空格)。匹配后的结果将输出到屏幕上。“$”是显示在屏幕上的提示符,不必输入。原始文件的内容不受影响。
例如,书目中每本书的书号都是一个五位的数字,且单独放在一行,前面没有空格。要输出这些书号,则可以输入以下命令:
$ grep'^[0-9]{5}'contents.txt
按下回车键,屏幕上将输出所有书号,每行一个。“^”出现在匹配模式的开头,表示从文本行的开头进行模式匹配。如果漏掉这个符号,则会输出所有包括五位数字的行(如某行文字中含有“80486”,则该行也会输出)。方括号表示匹配字符列表中的任意一个字符,如[0-9]表示匹配任意一个阿拉伯数字,而[a-zA-Z]表示匹配任意一个大写或小写英文字母。{n}表示欲匹配字符的个数,此处为5。
若不希望输出匹配某个模式的文本行,例如要删除所有书号,则可在模式前加入-v选项,即:
$ grep -v'^[0-9]{5}'contents.txt
将输出不带书号的目录。
通常,输出结果需要进一步处理,因此应将其用“>”保存在文件中,命令格式如下:
$ grep'匹配模式'原始文件 > 结果文件
例如
$ grep'^[0-9]{5}'contents.txt > result.txt
即可将所有书号保存在result.txt文件中,每个书号一行。若result.txt已经存在,则以前的内容将全被删掉。结果文件名称前如不加路径,则表示保存在当前路径。
下面只要用两步操作就可以完成书目处理。
(1)执行如下命令:
$ cd c:
$ grep -v'^[1-9][0-9]*[^[:print:]]{2}[1-9][0-9]*
[^[:print:]]{2}[1-9]'contents.txt > step1.txt
若“^”是方括号中的第一个字符,则不再表示匹配文本行的开头,而是对其后面的模式取相反结果。[:print:]表示可打印字符。因此[^[:print:]]{2}表示匹配两个不可打印字符。注意单引号括住的部分没有空格。
打开step1.txt,可以看到,序号形如“1 1 1”和“1. 1. 1”的三级标题都被删掉了。
(2) 执行如下命令:
$ grep -v'^[1-9][0-9]*.[1-9][0-9]*.[1-9][0-9]*'step1.txt > step2.txt
此处,用“.”匹配英文句号,因为单个“.”可以匹配任意字符,而前面加上反斜线(称为转义符)后,就只能匹配英文句号。
打开step2.txt,可以看到,序号形如“1.1.1”的三级标题也都被删掉了,任务完成。
二、查找稿件中的不规范术语
grep还可以从一个文件中获取欲匹配的模式,并且一次搜索多个文件。命令如下:
$ grep –f 含匹配模式的文件原始文件
例如,某位作者为其编写的C 图书提供了随书源文件。部分文件的代码注释中使用了不规范的术语,如,把“面向对象”写成了“物件导向”,把“内存”写成了“记忆体”。现在要确定哪些文件含有不规范术语。如果逐一查找,比较费时。此时可以把不规范的术语写在一个名为jargons.txt的文件中,每行一个。将文件放在源文件所在目录,假设是C:source。然后执行如下命令:
$ cd c:
$ cd source
$ grep –f jargons.txt *.cpp
屏幕上就会输出所有含有不规范术语的源文件名。
请注意:在进行以上输入时,要在英文状态下进行,并区分大小写(文中涉及操作均为小写)。而且grep只能操作纯文本文件。由于版式限制,一些操作排成了两行(实际上均应为一行)。
参考文献:
[1]陈向群,等译. Brian W Kernighan, Rob Pike. UNIX编程环境 [M].北京:机械工业出版社,1999.
(作者单位:机械工业出版社计算机分社)