睡人亭トップ >> 授業用 >> N-gramモデルを利用したテキスト分析 >> morogramを使う前に Perlとモジュールの組み込み
最終更新日:
参照

morogramを使う前に

実際にmorogramを使ってみよう

sortlで並び替え

ngmergeで比較しよう

batファイルで楽をしよう

NGSMデータを加工しよう―その1―

NGSMデータを加工しよう―その2―

N-gramインデックス

N-gramモデルを利用したテキスト分析

morogramを使う前に Perlとモジュールの組み込み

Perlの実行環境とモジュールを組み込む

  1. Perl 5.8以降
  2. (Windows以外の人は)Cコンパイラ
  1. 文字単位のNグラム分析が可能(単語単位などは不可能)
  2. Nagao and Mori [1994]のアルゴリズムで高速(のはずだが)
  • Nagao and Mori [1994]については、(http://www-lab25.kuee.kyoto-u.ac.jp/member/mori/postscript/Coling94.ps) にPostScript形式の印刷用ファイルが公開されています。
  1. ほとんどすべてディスク上で行うので(そこそこ)省メモリ
  2. 0〜16面のUnicodeに対応(入出力はUTF-8のみ)
  3. 実体参照形式&Mnnnnnn;(1≦nnnnn≦131,072)を一文字として扱うことが可能。
  4. 4,294,967,296文字まで対応
  5. 1〜4,294,967,296グラムに対応
  6. 頻度1〜4,294,967,296に対応

ページ先頭

Perlの実行環境とモジュールを組み込む

  1. [スタートメニュー]→[プログラム]→[アクセサリ]→[コマンドプロンプト]を選択してください。
コマンドプロンプト起動
  1. コマンドプロンプトのウィンドウが表示されたら、以下の画面のように[perl -v]と入力して[Enter]キーを押してください。
C:\ コマンドプロンプト
E:\>perl -v
  1. Perlがコマンドプロンプト上で直ちに実行できるようになっていれば(「Passが通る」と言います)、以下の画面が表示されるはずです。
C:\ コマンドプロンプト
  

E:\>perl -v
  
  This is perl, v5.8.0 built for cygwin-multi-64int
  
  Copyright 1987-2002, Larry Wall
  
  Perl may be copied only under the terms of either the Artistic License or the
  GNU General Public License, which may be found in the Perl 5 source kit.
  
  Complete documentation for Perl, including FAQ lists, should be found on
  this system using `man perl' or `perldoc perl'. If you have access to the
  Internet, point your browser at http://www.perl.com/, the Perl Home Page.

  1. ActivePerl5.8の場合、[Windows用Unicode::String]モジュールがActivePerl側で提供されていませんので、CPANからモジュールのソースをソースを持ってきて自分でコンパイルする必要があります。
  1. CygwinのPerl5.8でも、同様に[Unicode::String]モジュールを別途インストールする必要があります。
  1. Perl実行環境とUnicode::Stringモジュールさえ組み込めば、morogramを実行する事が可能です。

ページ先頭


睡人亭謹製