# ngmerge.pl の出力をExcelで読みやすく加工するためのscript # perl5.6でこのスクリプトを動かす場合、以下の一行を入れる。 # perl5.8の場合は不要。 use utf8; # 先頭から順に一行ずつ読み込み while () { # ここから置換開始 # 各区切りの半角空白をタブに置換 tr/ /\t/; # 半角のパーレン(丸括弧)を削除 s/[()]//g; # nの後ろに半角の数値が一つ以上続き、半角のセミコロンで終わるデータを削除 s/n[0-9]+://g; # 連続する二つ以上のタブを一つにまとめる s/\t\t+/\t/g; # 段落等の区切りとして段落先頭に■を入れてあるデータを対象にN-gram統計を取ってある場合、 # ■を含んだデータが不要な場合は、これを一行丸ごと削除する。 # もし■を含んだデータが必要ならば、この行の先頭に#を付けてコメントアウトする事 s/^.*■.+\n//g; # 最後尾の[タブ+改行]を[改行]のみに置換 s/\t\n/\n/g; # 加工済みの行を出力 print; }