※上記の広告は60日以上更新のないWIKIに表示されています。更新することで広告が下部へ移動します。

プラグイン名

形態素解析がらみいろいろ

このライブラリ(?)でできること

  1. 日本語の自然文章を解析して、分かち書きしたり、単語を取り出したり、品詞を取り出したり、読み方を推定したりできる
  2. 取り出した単語を集計していろいろ統計情報がとれる
  3. 読み方が正しければ発声できる可能性がある(これはまだまだかなぁ)

対象バージョン

1.2系?

インストール方法

DebianとかMacOSXならパッケージシステムにあったのでそのまま入れた。
sudo port install mecab (うろおぼえ)
Windowsなら本家からセットアップファイルをダウンロードするみたい。
あと、rubyで使うためにバインディング用のパッケージも必要。
sudo port install rb-mecab (完全うろ覚え)
まぁ、本家にもある。


ちょー簡単な使い方

まずはテスト。ターミナルから
$ echo "おすおら悟空" | mecab
おす	感動詞,*,*,*,*,*,おす,オス,オス
おら	名詞,代名詞,一般,*,*,*,おら,オラ,オラ
悟	名詞,固有名詞,人名,名,*,*,悟,サトル,サトル
空	名詞,一般,*,*,*,*,空,ソラ,ソラ
EOS
ちょと感動。

続いてirbかscript/consoleで
>> require "MeCab"
=> true
>> m = MeCab::Tagger.new("")
=> #<MeCab::Tagger:0x69d82c>
>> puts m.parse("おっすオラ悟空")
おっ	感動詞,*,*,*,*,*,おっ,オッ,オッ
す	接頭詞,名詞接続,*,*,*,*,す,ス,ス
オラ	名詞,一般,*,*,*,*,*
悟	名詞,固有名詞,人名,名,*,*,悟,サトル,サトル
空	名詞,一般,*,*,*,*,空,ソラ,ソラ
EOS
=> nil
いいね。

でも、基本的にMeCab以外はインストールしてすぐ使える類のものではない。
学問的に勉強してから、自分でカスタマイズしなきゃね。


日本語解説ページ(主要な情報源)



外国語解説ページ

  • 日本語特有の解析なので、外国後文献はないかも。


のうはう

※TF/IDFの計算? 単語出現比率の計算? 文章の特徴付け? 
※個人的にはこのへん興味あり


コメント

名前: