Landscape トップページ | < 前の日 2003-07-13 2003-07-14 次の日 2003-07-15 >

Landscape - エンジニアのメモ 2003-07-14

複数行を単位としたログを grep する perl one liner


* 複数行を単位としたログを grep する perl one liner

この記事の直リンクURL: Permlink | この記事が属するカテゴリ: [Perl]

ログというのは行単位が基本。しかし、一部には複数行にまたがって出力されるものもある。そんなときにどう grep するかを考えた。JM で grep の man を見てみたが、良さそうなオプションは無かった。こんなときは perl で one liner を書くと楽だ。

- 複数行にわたるログの例。

架空のものだけど。
Date: 11/Jul/2003:09:05:21 +0900
Protocol: HTTP/1.1
User-Agent: Mozilla/5.0 (X11; U; Linux i686; ja-JP; rv:1.4b)
Status: 200
--------
Date: 11/Jul/2003:09:05:30 +0900
Protocol: HTTP/1.1
User-Agent: Mozilla/5.0 (X11; U; Linux i686; ja-JP; rv:1.4b)
Status: 304
--------
Date: 11/Jul/2003:09:06:00 +0900
Protocol: HTTP/1.1
User-Agent: Mozilla/5.0 (X11; U; Linux i686; ja-JP; rv:1.4b)
Status: 304

- デリミタ(区切り文字)で split する

明確な区切り文字があれば、そこで分割してから grep してやればいい。以下、デリミタが -------- で、linux という文字列が入ってるブロックを grep する例。
grep したいファイルが単数の場合
$ perl -0777 -ne 'print grep(/linux/i, split("--------", $_));' log.2003.07.10

grep したいファイルが複数の場合
$ perl -0777 -ne 'print grep(/linux/i, split("--------", $_));' log.2003.07*

- デリミタが改行2つの場合 \n\n

\n\n\ は、http リクエストやレスポンスにおいてヘッダとボディを分ける時にも使われる。
$ perl -0777 -ne 'print grep(/linux/i, split("\n\n", $_));' < log.2003.07.10.2lf_delimiter

デリミタが改行2つなので split() したら改行が消えて行が繋がってしまって残念な思いをするのを回避したい場合。なんか世話が焼きすぎな気もするが、以下のようにさらに \n\n で join() してやればいい。

$ perl -0777 -ne 'print join("\n\n", grep(/linux/i, split("\n\n", $_)));' < /cygdrive/n/pfexport.txt

- 解説

-n で全行を標準入力から取得している。
-0777 で セパレータを無効にしている。すなわちファイル全体が一つになる。

-n と -e だけだと、-e で指定したスクリプトが標準入力から一行読み込まれる度に実行される。一方、-0777 と -n を組み合わせると、とりあえず標準入力から全行を読み込み、$_ に格納し、一度だけスクリプトが実行される、という動きをするようだ。
$ perl -ne 'print "enjoy perl!"' < /cygdrive/n/pfexport.txt
としたとき、enjoy perl! は行数分 print されたが、
$ perl -0777 -ne 'print "enjoy perl!"' < /cygdrive/n/pfexport.txt
だと一度だけしか print されなかった。

あとは全体を指定したデリミタで split() して、配列に格納。配列を grep() してマッチした要素だけを取得して print してる。

一度にファイルを読み込んでしまうなど、効率の面ではあまり良くないけど、気にするな。

すべての記事の見出し (全1029件)
全カテゴリの一覧と記事の数
カテゴリごとに記事をまとめ読みできます。記事の表題だけを見たい場合は、すべての記事の見出し (カテゴリ別表示) へ。

直近30日分の記事
2007-04-23 (Mon)
2007-03-07 (Wed)
2007-02-27 (Tue)
2007-01-17 (Wed)
2007-01-15 (Mon)
2007-01-14 (Sun)
2007-01-08 (Mon)
2006-12-01 (Fri)
2006-11-22 (Wed)
2006-11-20 (Mon)
2006-11-19 (Sun)
2006-09-30 (Sat)
2006-08-29 (Tue)
2006-08-04 (Fri)
2006-07-27 (Thu)
2006-07-23 (Sun)
2006-07-17 (Mon)
2006-07-10 (Mon)
2006-07-06 (Thu)
2006-07-03 (Mon)
2006-06-29 (Thu)
2006-06-28 (Wed)
2006-06-27 (Tue)
2006-06-25 (Sun)
2006-06-19 (Mon)
2006-06-18 (Sun)
2006-06-15 (Thu)
2006-06-11 (Sun)
2006-06-01 (Thu)
2006-05-30 (Tue)
プロファイル
斎藤 宏明。エンジニアです。宇都宮市に住んでいます。
リンク
RSS
スポンサードリンク
Powered by
さくらインターネット

© 斎藤 宏明 Saito Hiroaki Gmail Address
Landscape - エンジニアのメモ http://sonic64.com/
Landscape はランドスケープと読みます。
ひらがなだと らんどすけーぷ です。