2012年8月8日水曜日

MACでRMeCab

テキストマイニングを試しにやってみたい!
…ということで,とりあえず,RMeCabを使える様にしました.

RMeCabのインストール方法はこちらを参考にさせていただきました.
凄く分かりやすかったです!
http://rmecab.jp/wiki/index.php?RMeCab

使い方や解析についての簡単な知識はこちらを参考にさせていただきました.

http://rmecab.jp/wiki/index.php?plugin=attach&refer=SoftArchive&openfile=manual081108.pdf

http://homepage2.nifty.com/nandemoarchive/toukei_hosoku/TextAnalysis.htm

http://cse.naro.affrc.go.jp/takezawa/r-tips/r/04.html

それと,たまたま訪問した「教えてgoo!」のページに,データマイニングの凄く初歩的な活用法が分かりやすく説明されていたので載せておきます.
http://oshiete.goo.ne.jp/plus/q/105192/


……話を戻しまして,何かやってみよう!ということで.
まずは,一番簡単な「頻度分析」を行ないました.


とりあえず,@コスメでランキング1位の化粧水
ヘレナ ルビンスタイン プロディジー P.C. ローション
のクチコミを分析してみることに!

……ということで,まずは@コスメのクチコミデータを収集せねばなりません.
いきなり多くのデータを扱うのも何なので,とりあえず

(1)評価を高くつけた3名の口コミ(@コスメのソート機能で上から3つ)
(2)評価を低くつけた3名の口コミ(@コスメのソート機能で下から3つ)

この2つのテキストを分析してみました.
※まずはクローラなど使用せず,コピペで..

結果!〜上位35の単語を並べた(term,info1,info2,freqの順)〜

(1)length = 315 
記号 読点 35
です 助動詞 * 27
記号 句点 23
助動詞 * 21
助動詞 * 21
助詞 格助詞 21
助詞 連体化 21
助詞 係助詞 19
助詞 格助詞 16
助詞 接続助詞 14
助詞 格助詞 13
助詞 係助詞 12
助詞 格助詞 12
記号 一般 12
する 動詞 自立 11
助詞 接続助詞 10
助詞 格助詞 9
ローション 名詞 一般 9
記号 一般 9
ある 動詞 自立 8
香り 名詞 一般 8
名詞 非自立 8
ます 助動詞 * 7
ない 助動詞 * 6
助詞 副助詞/並立助詞/終助詞 6
いる 動詞 非自立 6
名詞 一般 6
これ 名詞 代名詞 6
名詞 接尾 6
記号 一般 6
助詞 格助詞 5
使う 動詞 自立 5
名詞 サ変接続 5
浸透 名詞 サ変接続 5
クリーム 名詞 一般 5
(2)length = 140 
助動詞 * 18
記号 読点 16
記号 句点 13
助詞 格助詞 9
です 助動詞 * 7
ます 助動詞 * 7
する 動詞 自立 7
助詞 接続助詞 6
助詞 格助詞 6
助詞 連体化 6
助詞 係助詞 5
助詞 接続助詞 5
助詞 格助詞 5
助詞 格助詞 5
使う 動詞 自立 5
名詞 非自立 5
助詞 係助詞 4
サンプル 名詞 一般 4
ない 形容詞 自立 4
ない 助動詞 * 3
助詞 並立助詞 3
助詞 副詞化 3
助詞 格助詞 3
効果 名詞 一般 3
記号 一般 3
助動詞 * 2
助動詞 * 2
助詞 副助詞/並立助詞/終助詞 2
助詞 接続助詞 2
ので 助詞 接続助詞 2
合う 動詞 自立 2
思う 動詞 自立 2
試す 動詞 自立 2
てる 動詞 非自立 2
化粧 名詞 サ変接続 2

ざっと見た感想は
■良い評価だと!や♪などの記号が多い
■悪い評価の方が「ですます調」?
という感じ.

前々から
■良い評価の場合は口コミが長くて,悪い評価の場合は短い
■良い評価の場合は♪などの記号が入っている場合が多い
■口調(?)が良い評価の時はあたたかい
という特徴がある気がしていたのですが.やっぱり!という結果です(といってもたった3件の口コミ分析ですが).

けれど,口調や♪は人それぞれの癖かもしれないですよね….

「口コミだけでなく,口コミを投稿した人の特徴まで掴んで分析する」

ことが大事な気がしました.
まあ,まずは全部の口コミを分析出来るようにしなければいけないのだけれど(精度を高めるのはその後の後の後ですから…)!

で,次のステップとしてクローリングをやろうと試みました.
フリーのもので色々検索して,以下が一番いいのではないかと.(pythonですし)

★Webstemmer (http://www.unixuser.org/~euske/python/webstemmer/index-j.html)
→ニュースサイトから記事本文と記事のタイトルをプレインテキスト形式で自動的に抽出するソフトウェア
→プログラムはpythonで書かれている.日本製.
→次の5つのプログラムから成っている.(Webクローラ,レイアウト分析プログラム,テキスト抽出プログラム,URLDB操作プログラム,簡単なテキスト抽出)
→動作原理:一度ページのレイアウトを学習(画像の貼られる位置と文書部分を見分け,どの位置に文書が来るか学習)し,それ以降は文書部分を読みこんでくれる


とりあえず,ダウンロード!
……しかし,上手くいかない..
結構粘りましたが…今日はここまで!!目が悪くなってしまいますしね.


他にも上手くいかない人がいるようです
http://d.hatena.ne.jp/ir_takt/?of=4

色々検索している内に良いブログも発見したので貼らせていただこうと思います.

ブログにのみ使えるように応用した人のブログ
http://d.hatena.ne.jp/gamella/20090503/1241334881






0 件のコメント:

コメントを投稿