「形態素解析」の編集履歴(バックアップ)一覧はこちら

形態素解析」(2008/02/20 (水) 00:51:38) の最新版変更点

追加された行は緑色になります。

削除された行は赤色になります。

**プラグイン名 形態素解析がらみいろいろ **このライブラリ(?)でできること +日本語の自然文章を解析して、単語を取り出したり、品詞を取り出したり、読み方を推定したりできる +取り出した単語を集計していろいろ統計情報がとれる +読み方が正しければ発声できる可能性がある(これはまだまだかなぁ) **対象バージョン 1.2系? **インストール方法 DebianとかMacOSXならパッケージシステムにあったのでそのまま入れた。 > sudo port install mecab (うろおぼえ) Windowsなら本家からセットアップファイルをダウンロードするみたい。 あと、rubyで使うためにバインディング用のパッケージも必要。 > sudo port install rb-mecab (完全うろ覚え) まぁ、[[本家>>http://sourceforge.net/project/showfiles.php?group_id=177856]]にもある。 **ちょー簡単な使い方 まずはテスト。ターミナルから >$ echo "おすおら悟空" | mecab > おす 感動詞,*,*,*,*,*,おす,オス,オス > おら 名詞,代名詞,一般,*,*,*,おら,オラ,オラ > 悟 名詞,固有名詞,人名,名,*,*,悟,サトル,サトル > 空 名詞,一般,*,*,*,*,空,ソラ,ソラ > EOS ちょと感動。 続いてirbかscript/consoleで > >> require "MeCab" > => true > >> m = MeCab::Tagger.new("") > => #<MeCab::Tagger:0x69d82c> > >> puts m.parse("おっすオラ悟空") > おっ 感動詞,*,*,*,*,*,おっ,オッ,オッ > す 接頭詞,名詞接続,*,*,*,*,す,ス,ス > オラ 名詞,一般,*,*,*,*,* > 悟 名詞,固有名詞,人名,名,*,*,悟,サトル,サトル > 空 名詞,一般,*,*,*,*,空,ソラ,ソラ > EOS > => nil いいね。 でも、基本的にMeCab以外はインストールしてすぐ使える類のものではない。 学問的に勉強してから、自分でカスタマイズしなきゃね。 **日本語解説ページ(主要な情報源) -[[MeCab>>http://mecab.sourceforge.net/]] -[[MeCabの各種言語バインディング>>http://mecab.sourceforge.net/bindings.html]] **外国語解説ページ -日本語特有の解析なので、外国後文献はないかも。 **のうはう -[[Rubyで簡単に形態素解析結果を使う>>http://ujihisa.nowa.jp/entry/6234048a1f]] -[[Ruby de TF・IDF>>http://blog.fulltext-search.biz/articles/2007/09/08/tf-idf-by-ruby]] -[[TF/IDFとは何か?>>http://wanthac.blogspot.com/2007/10/tfidf.html]] ※TF/IDFの計算? 単語出現比率の計算? 文章の特徴付け?  ※個人的にはこのへん興味あり ***コメント #pcomment(reply)
**プラグイン名 形態素解析がらみいろいろ **このライブラリ(?)でできること +日本語の自然文章を解析して、分かち書きしたり、単語を取り出したり、品詞を取り出したり、読み方を推定したりできる +取り出した単語を集計していろいろ統計情報がとれる +読み方が正しければ発声できる可能性がある(これはまだまだかなぁ) **対象バージョン 1.2系? **インストール方法 DebianとかMacOSXならパッケージシステムにあったのでそのまま入れた。 > sudo port install mecab (うろおぼえ) Windowsなら本家からセットアップファイルをダウンロードするみたい。 あと、rubyで使うためにバインディング用のパッケージも必要。 > sudo port install rb-mecab (完全うろ覚え) まぁ、[[本家>>http://sourceforge.net/project/showfiles.php?group_id=177856]]にもある。 **ちょー簡単な使い方 まずはテスト。ターミナルから >$ echo "おすおら悟空" | mecab > おす 感動詞,*,*,*,*,*,おす,オス,オス > おら 名詞,代名詞,一般,*,*,*,おら,オラ,オラ > 悟 名詞,固有名詞,人名,名,*,*,悟,サトル,サトル > 空 名詞,一般,*,*,*,*,空,ソラ,ソラ > EOS ちょと感動。 続いてirbかscript/consoleで > >> require "MeCab" > => true > >> m = MeCab::Tagger.new("") > => #<MeCab::Tagger:0x69d82c> > >> puts m.parse("おっすオラ悟空") > おっ 感動詞,*,*,*,*,*,おっ,オッ,オッ > す 接頭詞,名詞接続,*,*,*,*,す,ス,ス > オラ 名詞,一般,*,*,*,*,* > 悟 名詞,固有名詞,人名,名,*,*,悟,サトル,サトル > 空 名詞,一般,*,*,*,*,空,ソラ,ソラ > EOS > => nil いいね。 でも、基本的にMeCab以外はインストールしてすぐ使える類のものではない。 学問的に勉強してから、自分でカスタマイズしなきゃね。 **日本語解説ページ(主要な情報源) -[[MeCab>>http://mecab.sourceforge.net/]] -[[MeCabの各種言語バインディング>>http://mecab.sourceforge.net/bindings.html]] **外国語解説ページ -日本語特有の解析なので、外国後文献はないかも。 **のうはう -[[Rubyで簡単に形態素解析結果を使う>>http://ujihisa.nowa.jp/entry/6234048a1f]] -[[Ruby de TF・IDF>>http://blog.fulltext-search.biz/articles/2007/09/08/tf-idf-by-ruby]] -[[TF/IDFとは何か?>>http://wanthac.blogspot.com/2007/10/tfidf.html]] ※TF/IDFの計算? 単語出現比率の計算? 文章の特徴付け?  ※個人的にはこのへん興味あり ***コメント #pcomment(reply)

表示オプション

横に並べて表示:
変化行の前後のみ表示: