perl中grep,sort,map用法总结

射门靴 · 发表于 2011-10-12 23:34:56

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

本帖最后由射门靴于 2011-10-12 23:48 编辑

（注，内容源自bbs.chinaunix.net)

map
http://bbs.eetop.cn/redirect.php?goto=findpost&ptid=309625&pid=6438738&fromuid=414553

sort
http://bbs.eetop.cn/redirect.php?goto=findpost&ptid=309625&pid=6438742&fromuid=414553

grep
http://bbs.eetop.cn/redirect.php?goto=findpost&ptid=309625&pid=6438747&fromuid=414553

射门靴 · 发表于 2011-10-12 23:35:48

（一）map函数
map BLOCK LIST
map EXPR, LIST
map 函数对LIST里的每个元素按BLOCK或EXPR进行计算，遍历LIST时，临时将LIST里的每个元素赋值给$_变量。map对每次的计算返回一个结果列表，它在列表上下文里计算BLOCK或EXPR。每个LIST元素可能在输出列表里产生0个，1个，或多个元素。
（仙子注：上文是说遍历每个LIST元素时产生一个结果列表，而不是说总的map结果是个列表，不要搞混了哦。）
在标量上下文里，map返回结果列表的元素数量。在HASH上下文里，输出列表(a,b,c,d...)会变成这样的形式： ( a =>; b, c =>; d, ... )。假如输出列表的元素数量非对称，那么最后的hash元素的值就是undef了。
避免在BLOCK或EXPR里修改$_，因为这会修改LIST里的元素。另外，避免使用map返回的的列表作为左值，因为这也会修改LIST里的元素。（所谓左值，就是在某个表达式左边的变量。）
（二）Map vs. grep vs. foreach
map跟grep一样，从数组里选择元素。下列2句是一样的：
@selected = grep EXPR, @input;
@selected = map { if (EXPR) { $_ } } @input;
另外，map也是foreach陈述的特殊形式。假如@transformed数组当前未定义或为空，那么下列2句亦相等：
foreach (@input) { push @transformed, EXPR; }
@transformed = map EXPR, @input;
通常，用grep来从数组里选择元素，用map来从数组里转换元素。当然，数组处理也能使用标准的循环语句来完成(foreach, for, while, until, do while, do until, redo)。
（三）map用法示例
1. 转换文件名为文件大小
@sizes = map { -s $_ } @file_names;
-s是个文件测试操作符，它返回某个文件的size。所以上面这句就返回@file_names数组里每个文件的大小，结果也是个数组。
2. 转换数组到hash：找到某个数组值的索引
代替重复的搜索数组，我们可以用map来转换数组到hash，并通过hash关键字来进行直接查找。如下的map用法相对于重复的数组搜索，更简单高效。
@teams = qw(Miami Oregon Florida Tennessee Texas
Oklahoma Nebraska LSU Colorado Maryland);
%rank = map { $teams[$_], $_ + 1 } 0 .. $#teams;
print "Colorado: $rank{Colorado}\n";
print "Texas: $rank{Texas} (hook 'em, Horns!)\n";
打印结果是：
Colorado: 9
Texas: 5 (hook 'em, Horns!)
上述code容易理解哦，0 ..$#teams 是个列表，$#teams代表@teams最后一个元素的下标值（这里是9），所以这个列表就是0-9这几个数了。map遍历上述列表，将每个列表元素临时设置为$_，并对$_在中间的{}里进行计算；{ $teams[$_], $_ + 1 }，这里每次计算后返回一个2元素的列表，列表结果是某个数组值和对应的数组下标加1，明白了呀？
由于对每个LIST元素进行计算时，都产生一个2元素的列表，所以总的map结果就可看作一个hash了。hash关键字就是数组元素，hash值是对应的数组下标加1。
3. 转换数组到hash：查找拼错单词
转换数组到hash是map的最普遍用法。在本示例里，hash的值是无关紧要的，我们仅检查hash关键字是否存在。
%dictionary = map { $_, 1 } qw(cat dog man woman hat glove);
@words = qw(dog kat wimen hat man gloove);
foreach $word (@words) {
if (not $dictionary{$word}) {
print "

ossible misspelled word: $word\n";
}
}
打印结果是：
Possible misspelled word: kat
Possible misspelled word: wimen
Possible misspelled word: gloove
看看第1句的map用法，它跟前面示例里的差不多哦。qw()这里是个列表，map对这个列表里的每个元素进行{ $_, 1 }计算，每次计算的结果返回一个2元素的列表，换句话说，就是%dictionary的key和value呀。所以map最终的结果就是一个hash了，关键字是qw()里的元素，值总是1，无关紧要的。
然后下面的foreach语句就容易了哦，如果@words里的元素不构成%dictionary的关键字的话，就打印一条出错消息。如果把%dictionary看成标准字典的话，那么就可用它来检验你自己的@words字库里是否有错字了呀。
4. 转换数组到hash：存储选中的CGI参数
hash通常是存储传递给程序或子函数的参数的最便利的方法，而map通常是创建这个hash的最便利的方法。
use CGI qw(param);
%params = map { $_, ( param($_) )[0] }
grep { lc($_) ne 'submit' } param();
这里你可能要了解一下CGI模块的基本知识哦。param()调用返回CGI参数名的列表；param($_)调用返回指定的CGI参数名的值。假如 param($_)返回某个CGI参数的多个值，那么( param($_) )[0]只取第一个值，以便hash仍被良好定义。
上述 code的意思是，将param()的结果作为输入列表，它的元素是多个CGI参数名，然后从这些参数名里grep出参数名不等于'submit'的，结果是一个临时列表，map的{ $_, ( param($_) )[0] }语句再次遍历这个临时列表，并获取到参数名，和对应的参数值，将结果赋给%params。所以%params里就存储了页面提交过来的，除了 submit外的其他CGI参数名和参数值（只取第1个）。
很巧妙的用法，是不是？它结合用了map和grep，使code显得很简洁。
（话外一句：偶在Cornell读书时，偶的师兄们很喜欢这种用法，他们往往在中间多次使用map,grep,sort进行堆叠，结果产生的code也许高效，但不容易看懂。读这样的code时，你要从右往左读，因为右边表达式产生的临时列表，是左边表达式的输入条件。）
5. 产生随机密码
@a = (0 .. 9, 'a' .. 'z');
$password = join '', map { $a[int rand @a] } 0 .. 7;
print "$password\n";
每次运行它会得到不同的结果，但长度总是8位，由0 .. 7这个决定。如下是可能的输出：
y2ti3dal
它是个随机值，也许你能用它来做密码。
这里，需要先明白几个函数，rand产生一个随机值，它后面的@a其实是个标量哦，表示@a数组的长度，rand @a的结果可能是个小数，所以再用int函数来取整。int rand @a的结果是个整数，它>;=0但小于@a的长度。所以$a[int rand @a]就表示从@a数组里随机取出一个字符了。0..7表示总共取8次，返回的结果再用join连接起来，就构成一个8位随机密码了呀。
当然，(0 .. 9, 'a' .. 'z')数组元素太少了，你可以修改它，使其包含大小写字符，数字和标点符号，这样密码强度就高些。
6. 从数组元素里剥离数字
已经说了哦，不要在EXPR里修改LIST值。如下做法是不好的：
@digitless = map { tr/0-9//d; $_ } @array;
它虽然从数组元素里剥离了数字，但同样破坏了该数组，

如下做法是good:
@digitless = map { ($x = $_) =~ tr/0-9//d;
         $x;
      } @array;
它将tr的结果赋给临时变量$x，并返回$x的值，这样就保护数组了呀。
7. 打印"just another perl hacker"，让你晕到家
print map( { chr }
   ('10611711511603209711011111610410111' .
   '4032112101114108032104097099107101114')
   =~ /.../g
   ), "\n";
打印的结果是：
just another perl hacker
chr函数将单个数字转换到相应的ASCII字符。()=~/.../g语法以3个数字长度为单位，分割数字串到新的串列表。
比较无聊的用法，还不如用pack()和unpack()，

8. 转置矩阵
@matrix = ( [1, 2, 3], [4, 5, 6], [7, 8, 9] );
foreach $xyz (@matrix) {
print "$xyz->;[0] $xyz->;[1] $xyz->;[2]\n";
}
@transposed =
map { $x = $_;
[ map { $matrix[$_][$x] } 0 .. $#matrix ];
} 0 .. $#{$matrix[0]};
print "\n";
foreach $xyz (@transposed) {
print "$xyz->;[0] $xyz->;[1] $xyz->;[2]\n";
打印结果是：
1 2 3
4 5 6
7 8 9
1 4 7
2 5 8
3 6 9
这里稍微有点复杂哦，让我们分2步看看。
@matrix = ( [1, 2, 3], [4, 5, 6], [7, 8, 9] );
foreach $xyz (@matrix) {
print "$xyz->;[0] $xyz->;[1] $xyz->;[2]\n";
}
这里不难明白，( [1, 2, 3], [4, 5, 6], [7, 8, 9] ) 是个数组，它的每个元素又是个匿名数组，这样在$xyz遍历数组时，$xyz->;[0],$xyz->;[1],$xyz->; [2]就可以访问到匿名数组里的元素了。所以会打印出：
1 2 3
4 5 6
7 8 9
@transposed =
map { $x = $_;
[ map { $matrix[$_][$x] } 0 .. $#matrix ];
} 0 .. $#{$matrix[0]};
这里复杂点，0 .. $#{$matrix[0]}是个列表，$#{$matrix[0]}表示$matrix[0]这个匿名数组的最大下标值，0 .. $#{$matrix[0]}表示矩阵的横向。$x = $_;这里将$_的值赋给$x，为什么呢？因为它后面又有个map嘛，$_的值会改变的，所以要先存储起来。外围的map返回的值是[]里的map计算出来的一个列表，以[]匿名数组形式返回。[]里面的map是这样的，它的输入LIST是0 .. $#matrix，表示矩阵的纵向了。$matrix[$_][$x]这里先纵再横，就把矩阵值置换了一下。所以返回的结果列表@transposed就包含置换后的矩阵了哦。
是否有点糊涂？那举例看看。这样看可能好点：
[1, 2, 3],
[4, 5, 6],
[7, 8, 9]
外围的map遍历时，先是横向下标遍历，停留在横向0位。然后第二个map，就是纵向下标遍历了，它要遍历所有纵向下标，这样在横向0位，就先返回[1,4,7]的列表了，然后在横向1位，又返回[2,5,8]的列表，最后在横向2位，返回[3,6,9]的列表。
还不明白呀？那偶也讲不清了，自己多想想，

9. 查找质数：警示用法
foreach $num (1 .. 1000) {
@expr = map { '$_ % ' . $_ . ' &&' } 2 .. int sqrt $num;
if (eval "grep { @expr 1 } $num") { print "$num " }
}
打印结果是：
1 2 3 5 7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 ...
该code能工作，但它如此麻烦，违背了程序最基本的明晰法则。用如下直观的code代替它就可以了呀：
CANDIDATE: foreach $num (1 .. 1000) {
foreach $factor (2 .. int sqrt $num) {
unless ($num % $factor) { next CANDIDATE }
}
print "$num ";
}
记住，让你的Code简洁哦~~
"For the things we have to learn before we can do them, we learn by doing them." Aristotle

射门靴 · 发表于 2011-10-12 23:36:56

（一） sort函数
sort LIST
sort BLOCK LIST
sort SUBNAME LIST
sort 的用法有如上3种形式。它对LIST进行排序，并返回排序后的列表。假如忽略了SUBNAME或BLOCK，sort按标准字串比较顺序来进行（例如 ASCII顺序）。如果指定了SUBNAME，它实际上是个子函数的名字，该子函数对比2个列表元素，并返回一个小于，等于，或大于0的整数，这依赖于元素以何种顺序来sort（升序，恒等，或降序）。也可提供一个BLOCK作为匿名子函数来代替SUBNAME，效果是一样的。
被比较的2个元素，会被临时赋值给变量$a和$b。它们以引用传递，所以不要修改$a或$b。假如使用子函数，它不能是递归函数。
（二）用法示例
1. 以数字顺序sort
@array = (8, 2, 32, 1, 4, 16);
print join(' ', sort { $a <=>; $b } @array), "\n";
打印结果是：
1 2 4 8 16 32
与之一样的是：
sub numerically { $a <=>; $b };
print join(' ', sort numerically @array), "\n";
这个很容易理解哦，它只是按自然数的顺序进行sort，偶就不细讲了。
2.1 以ASCII顺序（非字典顺序）进行sort
@languages = qw(fortran lisp c c++ Perl python java);
print join(' ', sort @languages), "\n";
打印结果：
Perl c c++ fortran java lisp python
这等同于：
print join(' ', sort { $a cmp $b } @languages), "\n";
按ASCII的顺序进行排序，也没什么说的哦。
注意，如果对数字按ASCII顺序进行sort的话，结果可能与你想的不同：
print join(' ', sort 1 .. 11), "\n";
1 10 11 2 3 4 5 6 7 8 9
2.2 以字典顺序sort
use locale;
@array = qw(ASCII ascap at_large atlarge A ARP arp);
@sorted = sort { ($da = lc $a) =~ s/[\W_]+//g;
      ($db = lc $b) =~ s/[\W_]+//g;
      $da cmp $db;
      } @array;
print "@sorted\n";
打印结果是：
A ARP arp ascap ASCII atlarge at_large
use locale是可选的--它让code兼容性更好，假如原始数据包含国际字符的话。use locale影响了cmp,lt,le,ge,gt和其他一些函数的操作属性--更多细节见perllocale的man page。
注意atlarge和at_large的顺序在输出时颠倒了，尽管它们的sort顺序是一样的（sort中间的子函数删掉了at_large中间的下划线）。这点会发生，是因为该示例运行在perl 5.005_02上。在perl版本5.6前，sort函数不会保护有一样values的keys的先后顺序。perl版本5.6和更高的版本，会保护这个顺序。
注意哦，不管是map,grep还是sort，都要保护这个临时变量$_（sort里是$a和$b）的值，不要去修改它。在该code里，在对$a或$b进行替换操作s/[\W_]+//g前，先将它们重新赋值给$da和$db，这样替换操作就不会修改原始元素哦。
3. 以降序sort
降序sort比较简单，把cmp或<=>;前后的操作数调换下位置就可以了。
sort { $b <=>; $a } @array;
或者改变中间的块或子函数的返回值的标记：
sort { -($a <=>; $b) } @array;
或使用reverse函数（这有点低效，但也许易读点）：
reverse sort { $a <=>; $b } @array;
4. 使用多个keys进行sort
要以多个keys来sort，将所有以or连接起来的比较操作，放在一个子函数里即可。将主要的比较操作放在前面，次要的放在后面。
# An array of references to anonymous hashes
@employees = (
{ FIRST =>; 'Bill', LAST =>; 'Gates',
SALARY =>; 600000, AGE =>; 45 },
{ FIRST =>; 'George', LAST =>; 'Tester'
SALARY =>; 55000, AGE =>; 29 },
{ FIRST =>; 'Steve', LAST =>; 'Ballmer',
SALARY =>; 600000, AGE =>; 41 }
{ FIRST =>; 'Sally', LAST =>; 'Developer',
SALARY =>; 55000, AGE =>; 29 },
{ FIRST =>; 'Joe', LAST =>; 'Tester',
SALARY =>; 55000, AGE =>; 29 },
);
sub seniority {
$b->;{SALARY} <=>; $a->;{SALARY}
or $b->;{AGE} <=>; $a->;{AGE}
or $a->;{LAST} cmp $b->;{LAST}
or $a->;{FIRST} cmp $b->;{FIRST}
}
@ranked = sort seniority @employees;
foreach $emp (@ranked) {
print "$emp->;{SALARY}\t$emp->;{AGE}\t$emp->;{FIRST}
$emp->;{LAST}\n";
}
打印结果是：
600000 45    Bill Gates
600000 41    Steve Ballmer
55000 29    Sally Developer
55000 29    George Tester
55000 29    Joe Tester
上述code看起来很复杂，实际上很容易理解哦。@employees数组的元素是匿名hash。匿名hash实际上是个引用，可使用->;操作符来访问其值，例如$employees[0]->;{SALARY}可访问到第一个匿名hash里SALARY对应的值。所以上述各项比较就很清楚了，先比较SALARY的值，再比较AGE的值，再比较LAST的值，最后比较FIRST的值。注意前2项比较是降序的，后2项是升序的，不要搞混了哦。
5. sort出新数组
@x = qw(matt elroy jane sally);
@rank[sort { $x[$a] cmp $x[$b] } 0 .. $#x] = 0 .. $#x;
print "@rank\n";
打印结果是：
2 0 1 3
这里是否有点糊涂呀？仔细看就清楚了。0 .. $#x是个列表，它的值是@x数组的下标，这里就是0 1 2 3。$x[$a] cmp $x[$b] 就是将@x里的各个元素，按ASCII顺序进行比较。所以sort的结果返回对@x的下标进行排序的列表，排序的标准就是该下标对应的@x元素的 ASCII顺序。
还不明白sort返回什么？让我们先打印出@x里元素的ASCII顺序：
@x = qw(matt elroy jane sally);
print join ' ',sort { $a cmp $b } @x;
打印结果是：elroy jane matt sally
它们在@x里对应的下标是1 2 0 3，所以上述sort返回的结果就是1 2 0 3这个列表了。@rank[1 2 0 3] = 0 .. $#x 只是个简单的数组赋值操作，所以@rank的结果就是(2 0 1 3)了。
6. 按keys对hash进行sort
%hash = (Donald =>; Knuth, Alan =>; Turing, John =>; Neumann);
@sorted = map { { ($_ =>; $hash{$_}) } } sort keys %hash;
foreach $hashref (@sorted) {
($key, $value) = each %$hashref;
print "$key =>; $value\n";
}
打印结果是：
Alan =>; Turing
Donald =>; Knuth
John =>; Neumann
上述code不难明白哦。sort keys %hash按%hash的keys的ASCII顺序返回一个列表，然后用map进行计算，注意map这里用了双重{{}}，里面的{}是个匿名hash哦，也就是说map的结果是个匿名hash列表，明白了呀？
所以@sorted数组里的元素就是各个匿名hash，通过%$hashref进行反引用，就可以访问到它们的key/value值了。
7. 按values对hash进行sort
%hash = ( Elliot =>; Babbage,
   Charles =>; Babbage,
   Grace =>; Hopper,
   Herman =>; Hollerith
);
@sorted = map { { ($_ =>; $hash{$_}) } }
      sort { $hash{$a} cmp $hash{$b}
            or $a cmp $b
         } keys %hash;
foreach $hashref (@sorted) {
($key, $value) = each %$hashref;
print "$key =>; $value\n";
}
打印结果是：
Charles =>; Babbage
Elliot =>; Babbage
Herman =>; Hollerith
Grace =>; Hopper
本文作者如是说，偶觉得很重要：
与hash keys不同，我们不能保证hash values的唯一性。假如你仅根据values来sort hash，那么当你增或删其他values时，有着相同value的2个元素的sort顺序可能会改变。为了求得稳定的结果，应该对value进行主 sort，对key进行从sort。
这里{ $hash{$a} cmp $hash{$b} or $a cmp $b } 就先按value再按key进行了2次sort哦，sort返回的结果是排序后的keys列表，然后这个列表再交给map进行计算，返回一个匿名hash 列表。访问方法与前面的相同，偶就不详叙了。
8. 对文件里的单词进行sort，并去除重复的
perl -0777ane '$, = "\n"; \
@uniq{@F} = (); print sort keys %uniq' file
大家试试这种用法，偶也不是很明白的说，

@uniq{@F} = ()使用了hash slice来创建一个hash，它的keys是文件里的唯一单词；该用法在语意上等同于$uniq{ $F[0], $F[1], ... $F[$#F] } = ()。
各选项说明如下：
-0777 - 读入整个文件，而不是单行
-a    - 自动分割模式，将行分割到@F数组
-e    - 从命令行读取和运行脚本
-n    - 逐行遍历文件：while (<>;) { ... }
$,    - print函数的输出域分割符
file - 文件名
9. 高效sorting: Orcish算法和Schwartzian转换
对每个key，sort的子函数通常被调用多次。假如非常在意sort的运行时间，可使用Orcish算法或Schwartzian转换，以便每个key仅被计算1次。
考虑如下示例，它根据文件修改日期来sort文件列表。
# 强迫算法--对每个文件要多次访问磁盘
@sorted = sort { -M $a <=>; -M $b } @filenames;
# Orcish算法--在hash里创建keys
@sorted = sort { ($modtimes{$a} ||= -M $a) <=>;
      ($modtimes{$b} ||= -M $b)
      } @filenames;
很巧妙的算法，是不是？因为文件的修改日期在脚本运行期间是基本不变的，所以-M运算一次后，把它存起来就可以了呀。偶就经常这么用的，:p
如下是Schwartzian转换的用法：
@sorted = map( { $_->;[0] }
      sort( { $a->;[1] <=>; $b->;[1] }
            map({ [$_, -M] } @filenames)
         )
      );
这个code结合用了map,sort分了好几层，记住偶以前提过的方法，从后往前看。map({ [$_, -M] } @filenames)返回一个列表，列表元素是匿名数组，匿名数组的第一个值是文件名，第二个值是文件的修改日期。
sort( { $a->;[1] <=>; $b->;[1] }...再对上述产生的匿名数组列表进行sort，它根据文件的修改日期进行sort。sort返回的结果是经过排序后的匿名数组。
最外围的map( { $_->;[0] }...就简单了，它从上述sort产生的匿名数组里提取出文件名。这个文件名就是根据修改日期进行sort过的呀，并且每个文件只运行了一次-M。
这就是著名的Schwartzian转换，这种用法在国外perl用户里很流行。记住仙子告诉你的Schwartzian概念哦，下次就不会被老外laugh at了，:p
本文作者说：
Orcish算法通常更难于编码，并且不如Schwartzian转换文雅。我推荐你使用Schwartzian转换作为可选择的方法。
也请记住基本的优化code的规则：(1)不写code；(2)在使code快速之前，先保证其正确；(3)在使code快速之前，先让它清楚。
10. 根据最后一列来对行进行sort（Schwartzian转换）
假如$str的值如下（每行以\n终结）：
eir 11 9 2 6 3 1 1 81% 63% 13
oos 10 6 4 3 3 0 4 60% 70% 25
hrh 10 6 4 5 1 2 2 60% 70% 15
spp 10 6 4 3 3 1 3 60% 60% 14
按最后1个域的大小进行sort
$str = join "\n",
      map { $_->;[0] }
      sort { $a->;[1] <=>; $b->;[1] }
            map { [ $_, (split)[-1] ] }
            split /\n/, $str;
打印结果是：
eir 11 9 2 6 3 1 1 81% 63% 13
spp 10 6 4 3 3 1 3 60% 60% 14
hrh 10 6 4 5 1 2 2 60% 70% 15
oos 10 6 4 3 3 0 4 60% 70% 25
让我们从后往前，一步一步看上述code：
split /\n/, $str; 这里返回一个列表，列表元素就是各个行了。
map { [ $_, (split)[-1] ] } 这里的map求得一个匿名数组列表，匿名数组的值分别是整行，和该行的最后一列。使用Schwartzian转换时，这步是关键哦，记着用map来构造你自己的匿名数组列表，匿名数组的第1个元素是最终需要的值，第2个元素是用于比较的值。
sort { $a->;[1] <=>; $b->;[1] } 对上1步中产生的匿名数组，按第2个元素进行sort，它返回sort后的匿名数组列表。
map { $_->;[0] } 对上1步中sort后的匿名数组，提取出第1个元素，也就是整行哦。
$str = join "\n", 把上步中的各行用"\n"连接起来，并赋值给$str。
也许你会说：“怎么这么麻烦呀？偶不想用这种方式。”那么，可用CPAN上的现成模块来代替：
use Sort::Fields;
@sorted = fieldsort [ 6, '2n', '-3n' ] @lines;
CPAN的模块文档很详细的，自己看看呀。
11. 重访高效sorting: Guttman-Rosler转换
考虑如下示例：
@dates = qw(2001/1/1 2001/07/04 1999/12/25);
你想按日期升序对它们进行排序，哪种方法最有效呢？
最直观的Schwartzian转换可以这样写：
@sorted = map { $_->;[0] }
   sort { $a->;[1] <=>; $b->;[1]
      or $a->;[2] <=>; $b->;[2]
      or $a->;[3] <=>; $b->;[3]
      }
   map { [ $_, split m</>; $_, 3 ] } @dates;
然而，更高效的Guttman-Rosler转换(GRT)这样写：
@sorted = map { substr $_, 10 }
   sort
   map { m|(\d\d\d\d)/(\d+)/(\d+)|;
      sprintf "%d-%02d-%02d%s", $1, $2, $3, $_
      } @dates;
本文作者说：
GRT 方法难于编码，并且比Schwartzian转换更难阅读，所以我推荐仅在极端环境下使用GRT。使用大的数据源，perl 5.005_03和linux 2.2.14进行测试，GRT比Schwartzian转换快1.7倍。用perl 5.005_02和windows NT 4.0 SP6进行测试，GRT比Schwartzian快2.5倍。
另外，perl 5.6及更高版本的sort使用Mergesort算法，而5.6之前的sort使用Quicksort算法，前者显然快于后者，所以，要想求速度，也要升级你的perl版本哦。
（三）CPAN上关于sort的一些模块

File::Sort - Sort one or more text files by lines
Sort::Fields - Sort lines using one or more columns as the sort key(s)
Sort::ArbBiLex - Construct sort functions for arbitrary sort orders
Text::BibTeX::BibSort - Generate sort keys for bibliographic entries.
"For the things we have to learn before we can do them, we learn by doing them."
Aristotle

射门靴 · 发表于 2011-10-12 23:38:57

（一） Grep函数
grep有2种表达方式：
grep BLOCK LIST
grep EXPR, LIST
BLOCK表示一个code块，通常用{}表示；EXPR表示一个表达式，通常是正则表达式。原文说EXPR可是任何东西，包括一个或多个变量，操作符，文字，函数，或子函数调用。
LIST是要匹配的列表。
grep对列表里的每个元素进行BLOCK或EXPR匹配，它遍历列表，并临时设置元素为$_。在列表上下文里，grep返回匹配命中的所有元素，结果也是个列表。在标量上下文里，grep返回匹配命中的元素个数。
（二） Grep vs. loops
open FILE "<myfile" or die "Can't open myfile: $!";
print grep /terrorism|nuclear/i, <FILE>;;
这里打开一个文件myfile，然后查找包含terrorism或nuclear的行。<FILE>;返回一个列表，它包含了文件的完整内容。
可能你已发现，如果文件很大的话，这种方式很耗费内存，因为文件的所有内容都拷贝到内存里了。
代替的方式是使用loop（循环）来完成：
while ($line = <FILE>;) {
if ($line =~ /terrorism|nuclear/i) { print $line }
}
上述code显示，loop可以完成grep能做的任何事情。那为什么还要用grep呢？答案是grep更具perl风格，而loop是C风格的。
更好的解释是：（1）grep让读者更显然的知道，你在从列表里选择某元素；（2）grep比loop简洁。
一点建议：如果你是perl新手，那就规矩的使用loop比较好；等你熟悉perl了，就可使用grep这个有力的工具。
（三）几个grep的示例
1. 统计匹配表达式的列表元素个数
$num_apple = grep /^apple$/i, @fruits;
在标量上下文里，grep返回匹配中的元素个数；在列表上下文里，grep返回匹配中的元素的一个列表。
所以，上述code返回apple单词在@fruits数组中存在的个数。因为$num_apple是个标量，它强迫grep结果位于标量上下文里。
2. 从列表里抽取唯一元素
@unique = grep { ++$count{$_} < 2 }
      qw(a b a c d d e f g f h h);
print "@unique\n";
上述code运行后会返回：a b c d e f g h
即qw(a b a c d d e f g f h h)这个列表里的唯一元素被返回了。为什么会这样呀？让我们看看：
%count 是个hash结构，它的key是遍历qw()列表时，逐个抽取的列表元素。++$count{$_}表示$_对应的hash值自增。在这个比较上下文里， ++$count{$_}与$count{$_}++的意义是不一样的哦，前者表示在比较之前，就将自身值自增1；后者表示在比较之后，才将自身值自增 1。所以，++$count{$_} < 2 表示将$count{$_}加1，然后与2进行比较。$count{$_}值默认是undef或0。所以当某个元素a第一次被当作hash的关键字时，它自增后对应的hash值就是1，当它第二次当作hash关键字时，对应的hash值就变成2了。变成2后，就不满足比较条件了，所以a不会第2次出现。
所以上述code就能从列表里唯一1次的抽取元素了。
2. 抽取列表里精确出现2次的元素
@crops = qw(wheat corn barley rice corn soybean hay
      alfalfa rice hay beets corn hay);
@duplicates = grep { $count{$_} == 2 }
      grep { ++$count{$_} >; 1 } @crops;
print "@duplicates\n";
运行结果是：rice
这里grep了2次哦，顺序是从右至左。首先grep { ++$count{$_} >; 1 } @crops;返回一个列表，列表的结果是@crops里出现次数大于1的元素。
然后再对产生的临时列表进行grep { $count{$_} == 2 }计算，这里的意思你也该明白了，就是临时列表里，元素出现次数等于2的被返回。
所以上述code就返回rice了，rice出现次数大于1，并且精确等于2，明白了吧？ :-)
3. 在当前目录里列出文本文件
@files = grep { -f and -T } glob '* .*';
print "@files\n";
这个就很容易理解哦。glob返回一个列表，它的内容是当前目录里的任何文件，除了以'.'开头的。{}是个code块，它包含了匹配它后面的列表的条件。这只是grep的另一种用法，其实与 grep EXPR,LIST 这种用法差不多了。-f and -T 匹配列表里的元素，首先它必须是个普通文件，接着它必须是个文本文件。据说这样写效率高点哦，因为-T开销更大，所以在判断-T前，先判断-f了。
4. 选择数组元素并消除重复
@array = qw(To be or not to be that is the question);
@found_words =
grep { $_ =~ /b|o/i and ++$counts{$_} < 2; } @array;
print "@found_words\n";
运行结果是：To be or not to question
{}里的意思就是，对@array里的每个元素，先匹配它是否包含b或o字符（不分大小写），然后每个元素出现的次数，必须小于2（也就是1次啦）。
grep返回一个列表，包含了@array里满足上述2个条件的元素。
5. 从二维数组里选择元素，并且x<y
# An array of references to anonymous arrays
@data_points = ( [ 5, 12 ], [ 20, -3 ],
      [ 2, 2 ], [ 13, 20 ] );
@y_gt_x = grep { $_->;[0] < $_->;[1] } @data_points;
foreach $xy (@y_gt_x) { print "$xy->;[0], $xy->;[1]\n" }
运行结果是：
5, 12
13, 20
这里，你应该理解匿名数组哦，[]是个匿名数组，它实际上是个数组的引用（类似于C里面的指针）。
@data_points的元素就是匿名数组。例如：
foreach (@data_points){
print $_->;[0];}
这样访问到匿名数组里的第1个元素，把0替换成1就是第2个元素了。
所以{ $_->;[0] < $_->;[1] }就很明白了哦，它表示每个匿名数组的第一个元素的值，小于第二个元素的值。
而grep { $_->;[0] < $_->;[1] } @data_points; 就会返回满足上述条件的匿名数组列表。
所以，就得到你要的结果啦！
6. 简单数据库查询
grep的{}复杂程度如何，取决于program可用虚拟内存的数量。如下是个复杂的{}示例，它模拟了一个数据库查询：
# @database is array of references to anonymous hashes
@database = (
{ name    =>; "Wild Ginger",
city    =>; "Seattle",
cuisine =>; "Asian Thai Chinese Korean Japanese",
expense =>; 4,
music =>; "\0",
meals =>; "lunch dinner",
view    =>; "\0",
smoking =>; "\0",
parking =>; "validated",
rating =>; 4,
payment =>; "MC VISA AMEX",
},
# { ... }, etc.
);
sub findRestaurants {
my ($database, $query) = @_;
return grep {
$query->;{city} ?
      lc($query->;{city}) eq lc($_->;{city}) : 1
and $query->;{cuisine} ?
      $_->;{cuisine} =~ /$query->;{cuisine}/i : 1
and $query->;{min_expense} ?
   $_->;{expense} >;= $query->;{min_expense} : 1
and $query->;{max_expense} ?
   $_->;{expense} <= $query->;{max_expense} : 1
and $query->;{music} ? $_->;{music} : 1
and $query->;{music_type} ?
   $_->;{music} =~ /$query->;{music_type}/i : 1
and $query->;{meals} ?
   $_->;{meals} =~ /$query->;{meals}/i : 1
and $query->;{view} ? $_->;{view} : 1
and $query->;{smoking} ? $_->;{smoking} : 1
and $query->;{parking} ? $_->;{parking} : 1
and $query->;{min_rating} ?
   $_->;{rating} >;= $query->;{min_rating} : 1
and $query->;{max_rating} ?
   $_->;{rating} <= $query->;{max_rating} : 1
and $query->;{payment} ?
   $_->;{payment} =~ /$query->;{payment}/i : 1
} @$database;
}
%query = ( city =>; 'Seattle', cuisine =>; 'Asian|Thai' );
@restaurants = findRestaurants(\@database, \%query);
print "$restaurants[0]->;{name}\n";
运行结果是：Wild Ginger
上述code不难看懂，但仙子不推荐使用这样的code，一是消耗内存，二是难于维护了。

hiky · 发表于 2012-2-15 18:09:46

学些了

l2002924700 · 发表于 2012-3-21 10:19:26

好贴，感谢楼主！

bibisweetie · 发表于 2012-9-28 15:15:30

感谢楼主! 这个还是免费的

dmdxwy · 发表于 2012-10-5 22:03:54

回复 1# 射门靴

相当的经典，推荐推荐啊

tomzhuo · 发表于 2012-12-23 22:39:59

我来这里支持一下

sjtusonic · 发表于 2012-12-25 13:51:01

顶一个

[转贴] perl中grep,sort,map用法总结

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

相关帖子

站长推荐 /1

账号		自动登录	找回密码
密码			注册