プラグイン名
形態素解析がらみいろいろ
このライブラリ(?)でできること
- 日本語の自然文章を解析して、分かち書きしたり、単語を取り出したり、品詞を取り出したり、読み方を推定したりできる
- 取り出した単語を集計していろいろ統計情報がとれる
- 読み方が正しければ発声できる可能性がある(これはまだまだかなぁ)
対象バージョン
1.2系?
インストール方法
DebianとかMacOSXならパッケージシステムにあったのでそのまま入れた。
sudo port install mecab (うろおぼえ)
Windowsなら本家からセットアップファイルをダウンロードするみたい。
あと、rubyで使うためにバインディング用のパッケージも必要。
sudo port install rb-mecab (完全うろ覚え)
ちょー簡単な使い方
まずはテスト。ターミナルから
$ echo "おすおら悟空" | mecab
おす 感動詞,*,*,*,*,*,おす,オス,オス
おら 名詞,代名詞,一般,*,*,*,おら,オラ,オラ
悟 名詞,固有名詞,人名,名,*,*,悟,サトル,サトル
空 名詞,一般,*,*,*,*,空,ソラ,ソラ
EOS
ちょと感動。
続いてirbかscript/consoleで
>> require "MeCab"
=> true
>> m = MeCab::Tagger.new("")
=> #<MeCab::Tagger:0x69d82c>
>> puts m.parse("おっすオラ悟空")
おっ 感動詞,*,*,*,*,*,おっ,オッ,オッ
す 接頭詞,名詞接続,*,*,*,*,す,ス,ス
オラ 名詞,一般,*,*,*,*,*
悟 名詞,固有名詞,人名,名,*,*,悟,サトル,サトル
空 名詞,一般,*,*,*,*,空,ソラ,ソラ
EOS
=> nil
いいね。
でも、基本的にMeCab以外はインストールしてすぐ使える類のものではない。
学問的に勉強してから、自分でカスタマイズしなきゃね。
日本語解説ページ(主要な情報源)
外国語解説ページ
のうはう
※TF/IDFの計算? 単語出現比率の計算? 文章の特徴付け?
※個人的にはこのへん興味あり
コメント
最終更新:2008年02月20日 00:51