お勉強日記: MACでRMeCab

テキストマイニングを試しにやってみたい！
…ということで，とりあえず，RMeCabを使える様にしました．

RMeCabのインストール方法はこちらを参考にさせていただきました．
凄く分かりやすかったです！
http://rmecab.jp/wiki/index.php?RMeCab

使い方や解析についての簡単な知識はこちらを参考にさせていただきました．
①
http://rmecab.jp/wiki/index.php?plugin=attach&refer=SoftArchive&openfile=manual081108.pdf
②
http://homepage2.nifty.com/nandemoarchive/toukei_hosoku/TextAnalysis.htm
③
http://cse.naro.affrc.go.jp/takezawa/r-tips/r/04.html

それと，たまたま訪問した「教えてgoo!」のページに，データマイニングの凄く初歩的な活用法が分かりやすく説明されていたので載せておきます．
http://oshiete.goo.ne.jp/plus/q/105192/

……話を戻しまして，何かやってみよう！ということで．
まずは，一番簡単な「頻度分析」を行ないました．

とりあえず，＠コスメでランキング1位の化粧水

ヘレナルビンスタインプロディジー P.C. ローション

のクチコミを分析してみることに！

(＠コスメhttp://www.cosme.net/product/product_id/10039108/review/50253480)

……ということで，まずは＠コスメのクチコミデータを収集せねばなりません．

いきなり多くのデータを扱うのも何なので，とりあえず

(1)評価を高くつけた3名の口コミ(＠コスメのソート機能で上から3つ)

(2)評価を低くつけた3名の口コミ(＠コスメのソート機能で下から3つ)

この2つのテキストを分析してみました．

※まずはクローラなど使用せず，コピペで．．

結果！〜上位35の単語を並べた(term，info1，info2，freqの順)〜

(1)length = 315

、記号読点 35

です助動詞 * 27

。記号句点 23

た助動詞 * 21

だ助動詞 * 21

が助詞格助詞 21

の助詞連体化 21

は助詞係助詞 19

で助詞格助詞 16

て助詞接続助詞 14

と助詞格助詞 13

も助詞係助詞 12

に助詞格助詞 12

・記号一般 12

する動詞自立 11

が助詞接続助詞 10

を助詞格助詞 9

ローション名詞一般 9

！記号一般 9

ある動詞自立 8

香り名詞一般 8

の名詞非自立 8

ます助動詞 * 7

ない助動詞 * 6

か助詞副助詞／並立助詞／終助詞 6

いる動詞非自立 6

肌名詞一般 6

これ名詞代名詞 6

液名詞接尾 6

？記号一般 6

の助詞格助詞 5

使う動詞自立 5

♪ 名詞サ変接続 5

浸透名詞サ変接続 5

クリーム名詞一般 5

(2)length = 140

た助動詞 * 18

、記号読点 16

。記号句点 13

が助詞格助詞 9

です助動詞 * 7

ます助動詞 * 7

する動詞自立 7

て助詞接続助詞 6

で助詞格助詞 6

の助詞連体化 6

は助詞係助詞 5

が助詞接続助詞 5

に助詞格助詞 5

を助詞格助詞 5

使う動詞自立 5

の名詞非自立 5

も助詞係助詞 4

サンプル名詞一般 4

ない形容詞自立 4

ない助動詞 * 3

と助詞並立助詞 3

に助詞副詞化 3

と助詞格助詞 3

効果名詞一般 3

・記号一般 3

だ助動詞 * 2

ぬ助動詞 * 2

か助詞副助詞／並立助詞／終助詞 2

し助詞接続助詞 2

ので助詞接続助詞 2

合う動詞自立 2

思う動詞自立 2

試す動詞自立 2

てる動詞非自立 2

化粧名詞サ変接続 2

ざっと見た感想は

■良い評価だと！や♪などの記号が多い

■悪い評価の方が「ですます調」？

という感じ．

前々から

■良い評価の場合は口コミが長くて，悪い評価の場合は短い

■良い評価の場合は♪などの記号が入っている場合が多い
■口調(？)が良い評価の時はあたたかい
という特徴がある気がしていたのですが．やっぱり！という結果です(といってもたった3件の口コミ分析ですが)．

けれど，口調や♪は人それぞれの癖かもしれないですよね…．

「口コミだけでなく，口コミを投稿した人の特徴まで掴んで分析する」

ことが大事な気がしました．
まあ，まずは全部の口コミを分析出来るようにしなければいけないのだけれど(精度を高めるのはその後の後の後ですから…)！

で，次のステップとしてクローリングをやろうと試みました．
フリーのもので色々検索して，以下が一番いいのではないかと．(pythonですし)

★Webstemmer (http://www.unixuser.org/~euske/python/webstemmer/index-j.html)
→ニュースサイトから記事本文と記事のタイトルをプレインテキスト形式で自動的に抽出するソフトウェア
→プログラムはpythonで書かれている．日本製．
→次の５つのプログラムから成っている．(Webクローラ，レイアウト分析プログラム，テキスト抽出プログラム，URLDB操作プログラム，簡単なテキスト抽出）
→動作原理：一度ページのレイアウトを学習（画像の貼られる位置と文書部分を見分け，どの位置に文書が来るか学習）し，それ以降は文書部分を読みこんでくれる

とりあえず，ダウンロード！
……しかし，上手くいかない．．
結構粘りましたが…今日はここまで！！目が悪くなってしまいますしね．

他にも上手くいかない人がいるようです
→http://d.hatena.ne.jp/ir_takt/?of=4

色々検索している内に良いブログも発見したので貼らせていただこうと思います．
↓
ブログにのみ使えるように応用した人のブログ
http://d.hatena.ne.jp/gamella/20090503/1241334881

お勉強日記

2012年8月8日水曜日

MACでRMeCab

0 件のコメント:

コメントを投稿