「形態素解析」の編集履歴(バックアップ)一覧はこちら
「形態素解析」(2008/02/20 (水) 00:51:38) の最新版変更点
追加された行は緑色になります。
削除された行は赤色になります。
**プラグイン名
形態素解析がらみいろいろ
**このライブラリ(?)でできること
+日本語の自然文章を解析して、単語を取り出したり、品詞を取り出したり、読み方を推定したりできる
+取り出した単語を集計していろいろ統計情報がとれる
+読み方が正しければ発声できる可能性がある(これはまだまだかなぁ)
**対象バージョン
1.2系?
**インストール方法
DebianとかMacOSXならパッケージシステムにあったのでそのまま入れた。
> sudo port install mecab (うろおぼえ)
Windowsなら本家からセットアップファイルをダウンロードするみたい。
あと、rubyで使うためにバインディング用のパッケージも必要。
> sudo port install rb-mecab (完全うろ覚え)
まぁ、[[本家>>http://sourceforge.net/project/showfiles.php?group_id=177856]]にもある。
**ちょー簡単な使い方
まずはテスト。ターミナルから
>$ echo "おすおら悟空" | mecab
> おす 感動詞,*,*,*,*,*,おす,オス,オス
> おら 名詞,代名詞,一般,*,*,*,おら,オラ,オラ
> 悟 名詞,固有名詞,人名,名,*,*,悟,サトル,サトル
> 空 名詞,一般,*,*,*,*,空,ソラ,ソラ
> EOS
ちょと感動。
続いてirbかscript/consoleで
> >> require "MeCab"
> => true
> >> m = MeCab::Tagger.new("")
> => #<MeCab::Tagger:0x69d82c>
> >> puts m.parse("おっすオラ悟空")
> おっ 感動詞,*,*,*,*,*,おっ,オッ,オッ
> す 接頭詞,名詞接続,*,*,*,*,す,ス,ス
> オラ 名詞,一般,*,*,*,*,*
> 悟 名詞,固有名詞,人名,名,*,*,悟,サトル,サトル
> 空 名詞,一般,*,*,*,*,空,ソラ,ソラ
> EOS
> => nil
いいね。
でも、基本的にMeCab以外はインストールしてすぐ使える類のものではない。
学問的に勉強してから、自分でカスタマイズしなきゃね。
**日本語解説ページ(主要な情報源)
-[[MeCab>>http://mecab.sourceforge.net/]]
-[[MeCabの各種言語バインディング>>http://mecab.sourceforge.net/bindings.html]]
**外国語解説ページ
-日本語特有の解析なので、外国後文献はないかも。
**のうはう
-[[Rubyで簡単に形態素解析結果を使う>>http://ujihisa.nowa.jp/entry/6234048a1f]]
-[[Ruby de TF・IDF>>http://blog.fulltext-search.biz/articles/2007/09/08/tf-idf-by-ruby]]
-[[TF/IDFとは何か?>>http://wanthac.blogspot.com/2007/10/tfidf.html]]
※TF/IDFの計算? 単語出現比率の計算? 文章の特徴付け?
※個人的にはこのへん興味あり
***コメント
#pcomment(reply)
**プラグイン名
形態素解析がらみいろいろ
**このライブラリ(?)でできること
+日本語の自然文章を解析して、分かち書きしたり、単語を取り出したり、品詞を取り出したり、読み方を推定したりできる
+取り出した単語を集計していろいろ統計情報がとれる
+読み方が正しければ発声できる可能性がある(これはまだまだかなぁ)
**対象バージョン
1.2系?
**インストール方法
DebianとかMacOSXならパッケージシステムにあったのでそのまま入れた。
> sudo port install mecab (うろおぼえ)
Windowsなら本家からセットアップファイルをダウンロードするみたい。
あと、rubyで使うためにバインディング用のパッケージも必要。
> sudo port install rb-mecab (完全うろ覚え)
まぁ、[[本家>>http://sourceforge.net/project/showfiles.php?group_id=177856]]にもある。
**ちょー簡単な使い方
まずはテスト。ターミナルから
>$ echo "おすおら悟空" | mecab
> おす 感動詞,*,*,*,*,*,おす,オス,オス
> おら 名詞,代名詞,一般,*,*,*,おら,オラ,オラ
> 悟 名詞,固有名詞,人名,名,*,*,悟,サトル,サトル
> 空 名詞,一般,*,*,*,*,空,ソラ,ソラ
> EOS
ちょと感動。
続いてirbかscript/consoleで
> >> require "MeCab"
> => true
> >> m = MeCab::Tagger.new("")
> => #<MeCab::Tagger:0x69d82c>
> >> puts m.parse("おっすオラ悟空")
> おっ 感動詞,*,*,*,*,*,おっ,オッ,オッ
> す 接頭詞,名詞接続,*,*,*,*,す,ス,ス
> オラ 名詞,一般,*,*,*,*,*
> 悟 名詞,固有名詞,人名,名,*,*,悟,サトル,サトル
> 空 名詞,一般,*,*,*,*,空,ソラ,ソラ
> EOS
> => nil
いいね。
でも、基本的にMeCab以外はインストールしてすぐ使える類のものではない。
学問的に勉強してから、自分でカスタマイズしなきゃね。
**日本語解説ページ(主要な情報源)
-[[MeCab>>http://mecab.sourceforge.net/]]
-[[MeCabの各種言語バインディング>>http://mecab.sourceforge.net/bindings.html]]
**外国語解説ページ
-日本語特有の解析なので、外国後文献はないかも。
**のうはう
-[[Rubyで簡単に形態素解析結果を使う>>http://ujihisa.nowa.jp/entry/6234048a1f]]
-[[Ruby de TF・IDF>>http://blog.fulltext-search.biz/articles/2007/09/08/tf-idf-by-ruby]]
-[[TF/IDFとは何か?>>http://wanthac.blogspot.com/2007/10/tfidf.html]]
※TF/IDFの計算? 単語出現比率の計算? 文章の特徴付け?
※個人的にはこのへん興味あり
***コメント
#pcomment(reply)