睡人亭トップ >> 授業用 >> N-gramモデルを利用したテキスト分析 >> インデックスページ
最終更新日:2007年04月24日
参照

morogramを使う前に

実際にmorogramを使ってみよう

sortlで並び替え

ngmergeで比較しよう

batファイルで楽をしよう

NGSMデータを加工しよう―その1―

NGSMデータを加工しよう―その2―

N-gramインデックス

N-gramモデルを利用したテキスト分析

インデックスページ

N-gramモデルとは?共起関係と共起頻度N-gramモデルを利用した事例人文学的へのN-gramモデル導入漢字情報処理研究会のN-gram特集号N-gram統計をとるテキストについて参考文献(本文中で紹介したもの以外)

ページ先頭

N-gramモデルとは?

0頻度(スパースネス)問題

サンプルに起因する問題

↑ ページ先頭

共起関係と共起頻度

共起関係の例

1(uni)-gram 「あ」「a」「亜」
2(bi)-gram 「あい」「ab」「亜居」
3(tri)-gram 「あいう」「abc」「亜居禹」

共起頻度の例

共起頻度 4 3 2 2 1 1 1 1 1 1 1 1 1
文字列
共起頻度 1 1 1 1 1 1 1 1 1 1 1 1
文字列

↑ ページ先頭

N-gramモデルを利用した事例

↑ ページ先頭

人文学的へのN-gramモデル導入

近藤みゆき氏の研究―和歌の使用文字におけるジェンダー性の発見―

↑ ページ先頭

漢字文献情報処理研究会のN-gram特集号

↑ ページ先頭

N-gram統計をとるテキストについて

テキストの性質について

  1. 同一テキスト中に旧字・旧かな・新字・新かな・各種異体字が混在していたりするような場合は、テキストの性質に従って用字・仮名遣い等を統一しておく必要があります。
  1. また、既存の文字集合に収まりきらない文字は、morogramでは実態参照形式を利用して処理する事が可能ですが、その際には同じ文字を複数の番号に割り当てたり、複数の文字を同じ番号にする事は厳禁です。「文字集合とコードポイントが一対一の関係を持たなければならない」という文字コードの基本概念の通りに、番号を割り振ってください。
  1. 後述するmorogramは、段落間を跨いでN-gram統計を取りますが、段落のまとまりを統計上の情報として加味したい場合には、各段落の頭に適当な記号類(必ず本文の他の箇所で使われていない記号である事。筆者はよく■を使う)を入れておくと便利だと思います。
  1. 「テキストのレベル」とは、電子テキストが「学術的に信頼できるレベルの原本を元に作成され」ており、なおかつ「電子テキスト自体にも誤字脱字が少ない」という 事を意味します。
  1. また、青空文庫の一部のテキストのように、JIS未収録字を特殊な表記で示されるような場合には、(大体がUnicodeのCJK統合漢字で足りますので)出来るだけUnicodeの当該文字に置き換えて、余計な情報は削除しましょう。また、《ルビ》が不必要な場合は、それも合わせて削除しておきましょう。

↑ ページ先頭

参考文献(本文中で紹介したもの以外)

ページ先頭


睡人亭謹製