2012年8月23日木曜日

やさしい統計学

図書館にあった本紹介.

(結構前だが)こんな本を読んだ.

内容は簡単でわかりやすい.
統計学を一から学びたい場合,まず始めにさくっと読むのに適していると思う.
共分散,回帰直線などの基礎中の基礎が分からない人には向いていると思う.

おもしろい記事メモ(マーケ)


あなたの名前がググられた時の検索結果をコントロールする方法が、地味にクリエイティブな件。


↑ちょっとした工夫で資金がなくても結果を出せる!ウェブマーケの世界って面白い.

↓こちらの記事もメモ!

2012年8月22日水曜日

プログラムの書き方メモ

言語はpython!

【良い例】
for i in r2:
for k in r2[i]:
for w in buyitem2[i]:
dic[(i,k)] = r2[i][k]
dic2[(i,w)] = buyitem2[i][w]

【悪い例】
for i in r2:
for k in r2[i]:
for w in buyitem2[i]:
dic[(i,k)] = r2[i][k] ; dic2[(i,w)] = buyitem2[i][w]

理由は…
デバッグする時に,違う行に書けばどちらが間違えているかすぐ分かるため.
同様に,
for w in buyitem2[i]: dic[(i,k)] = r2[i][k]
よりも
for w in buyitem2[i]:
dic[(i,k)] = r2[i][k]
の方が良い.

(一般的には.完璧なものを作れる自信があるならなんでもよい.)

2012年8月19日日曜日

Rで主成分分析メモ

Rでの分かりやすいやり方及び,
簡単に主成分分析を行えるツールを自作している方のブログ

http://d.hatena.ne.jp/hoxo_m/20120106/p1

メモ!

主成分分析についてのスライド
http://www.statistics.co.jp/reference/R/statR_9_principal.pdf

2012年8月16日木曜日

組合せ最適化

結構前に読んだ本.


組合せ最適化問題に関する話題が集めてある本です.
凄く分かりやすい(簡単な?)問題ばかりなので,2時間ぐらいで読めました.

目次は
1.オイラー閉鎖と中国郵便配達人問題
2.最短路問題
3.割当問題
4.クラス編成問題
5.ナップサック問題
6.スケジューリング問題
7.巡回セールスマン問題
8.メタヒューリスティクス
9.最大クリーク問題
10.施設配置問題
11.nクイーン問題

書いてあることは基礎の基礎だと思うのですが,基礎を知っているだけでも人の研究内容がちょっとだけ理解出来たりするもんだなーと思いました!

多変量解析事例集(乳液の効能評価データの解析)

大学の図書館の本って誰が購入しようって決めるのだろう…
今日も大学の図書館で見つけた本を読んだ(ちょっとだけ)

これ!
多変量解析事例集〈第1集〉

私が読んだ箇所は
「乳液の効能評価データの解析」
について.

内容は,

***********************************************************
【官能評価と肌測定による乳液の分類】
〈実験概要〉
オイリー肌1名・ノーマル肌2名・ドライ肌1名の専門パネルが乳液の使用・評価を行い,肌測定の被験者となった.
試した乳液は22サンプルで,1サンプルあたり2回使用した.
肌測定は水分量,油分量の測定を
(1)塗布前:水分・油分,(2)30分後:水分,(3)1時間後:水分・油分
と3回行った.※(2)と(3)の測定値は(1)の塗布前の値との差をとり補正した.

〈データと事前検討〉
変数は13.
その内,アンケート項目(官能評価項目)は10で,内容は
{膜厚感,ベトつき,乾き,しっとり感,さっぱり感,肌の柔軟性,さっぱり感(1時間後),しっとり感(1時間後),肌の柔軟性(1時間後),総合評価}
となっている.
残りの3つは測定値で
{水分測定量(30分後),水分測定量(1時間後),油分測定量(1時間後)}
である.

元データを[パネル×使用回数]を繰り返しとみなして官能値の中央値および測定値の平均をとり,[22ケース×13変数]のデータ行列に変換DATA1.基本統計量(相関係数行列)から
”各官能特性からの総合指標の導出と,製品分類が可能であると推測される.一方,塗布1時間後の肌測定値については総合評価値と0.4〜0.5の相関がある程度で,官能値を単独の物理量で説明は出来ない.”ということが分かった.

〈主成分分析〉
データについて,相関係数からの主成分分析により解析した.
因子負荷量の検討結果より,
第1主成分ー官能特性,第2主成分ー効能特性(油水分バランス)と解釈できた.
寄与率は第1主成分が53%で,第2主成分が18%で2つの因子でタイプ分けが可能であると考えられる.以上の解析より,乳液は2つの主成分によって,以下の4タイプに分類できる.
A: 官能:リッチ,効能:水分型(第1+,第2+)
B: 官能:リッチ,効能:油分型(第1+,第2ー)
C: 官能:ライト,効能:水分型(第1ー,第2+)
D: 官能:ライト,効能:油分型(第1ー,第2ー)

主成分スコアによる各サンプルの位置づけをみると,
ドライ肌用乳液は効能水分型と効能油分型に分類出来た.
ノーマル〜オイリー肌用乳液は全体的にさっぱりした使用感になっており,第2主成分の絶対値は低く,効能は適度に抑えられたということが分かった.


【肌質別評価結果の解析】
〈データと事前検討〉
元データを[サンプル×パネル×使用回数]をケースとみなし,各肌質毎にそれぞれ以下のデータ行列に変換し,検討を行った.
(1)DATA2:ドライ肌1名のデータ,56ケース×13変数
(2)DATA3:ノーマル肌2名のデータ,72ケース×13変数
(3)DATA4:オイリー肌1名のデータ,40ケース×13変数

〈主成分分析〉
データ毎の固有値と因子負荷量のプロットを挙げた.肌質別の評価構造の特徴は以下のようにまとめられた.
(1)DATA2
各官能特性間の関連が高いが,水分と官能特性は独立している.総合指標の寄与率は高く,官能特性による分類に適している.
(2)DATA3
水分量としっとり感・肌の柔軟性,油分量と膜厚感・べとつき等の官能値が関連しており,肌効果を水分・油分として判断する能力がある.効能効果の評価に適している.
(3)DATA4
1時間後のさっぱり感が他の項目と独立している等,他の2タイプの肌とは評価構造がやや異なる.

以上より,ノーマル肌の評価結果が比較的効能を分析するのに適しているという傾向がみられた.

【官能値と物理量(肌測定)の対応】
〈データと事前検討〉
乳液の効能を説明するのによく使われるしっとり感は,適度な水分と油分のバランスと関連が深いと言われている.ここでは肌測定との対応を検討.
DATA1より1時間後のしっとり感を解析するために,一部を抽出,変換し,データ行列DATA5を作成.
変数は
{水分測定量,油分測定量,油水分バランス,しっとり感}
の4つ.
〈重回帰分析〉
DATA5をしっとり感を目的変数,物理量を説明変数として,重回帰分析により解析した.回帰式は

y = 2.495 + 2.919x1+ 1.011x2 + 0.000 (水分タイプの人)
y = 2.495 + 2.919x1+ 1.011x+ 0.961 (油分タイプの人)

となった.しかし,説明率は0.629と十分高いとはいえない.
各説明変数の標準偏回帰係数をみると,水分量x1が0.986で,しっとり感を感じるには主な原因として水分が必要であることが分かった.さらに回帰式からもわかるように,油分と油水分のバランスが関係していることがわかった.
***********************************************************
長くなってしまった..そして,ブログを書くのって時間がかかる.
内容はほぼ引用したので参考文献をもう一度明記→(多変量解析事例集〈第1集〉)

題材が乳液だからとても興味を持って読めた!

自分の肌の油水分量を測定したら,自身に丁度良い乳液を解析によって見つけられるかもしれない!もしそれできちんとした結果を出せたら,「あらゆる乳液試す必要なくなる!お得!」解析を勉強している女性の特権!


参考文献にあった著者の
化粧品のタイプ分けに関する研究-乳液の物性と官能の対応化についての新知見
も読んでみようと思ったのですが,研究室のプリンターが壊れているので今度コピーして読もうと思う.

マルコフ過程と確率統計

こんな本を読みました!


全部で8章の書籍なんですが,5章から読めば十分でした.
高校数学ⅢCがわからなくても読める内容だったので,専門的ではないです.



今私は,とりあえずマーケティングに少しでも関係する分野の基礎をさらっと知ろうと思っています.今は「広く浅い勉強」をしている感じ.その中で面白いと思うものがあったら突っ込んで勉強出来たらな〜〜….

多変量解析の基礎

何日か前に多変量解析についての分かりやすい説明サイトを記載したが,今回は書籍を2冊.

①読んだ本はこれ!
エクセルの多変量解析ソフトを利用して例を示してあります.データ例は身近なものを題材にしているのでとっつきやすい!
…ただ,ざっくりなので本質的なことを知りたい場合には不向き(数式などはほぼ載っていません.例えば,重回帰式の偏回帰係数の算出方法などは載っていません.エクセルでこのボタン押せばOK!みたいな説明になっています).
ただ,用語の意味を知りたいって人にはぴったり.


②読んだ本はこれ!
主にSPSSの使用例だが,①にはない内容(決定木や曲線推定など)がのっている.
①を読んだ上でさらっと読むのにはちょうど良いと思いました!



……ふう.
さきほど2冊の本の内容についてもしっかり書いたんです.
で,「公開」にしたのに,消えていた..
今度からはしっかりとバックアップをとって書こうと思いました..

2012年8月12日日曜日

Rで簡単な重回帰分析

http://ayaka-beauty.blogspot.jp/2012/08/jill.html

@コスメを見てて欲しい商品がありました.
そこで,以下のような分析を行なってみました.

*************************************

@コスメで欲しい商品のクチコミをRMeCabで分かち書き(形態素に分割)し,
「”特定の単語と数・総単語数”を説明変数,”★の数(評価)”を披説明変数」とするデータセットとして回帰モデルの選択を行う.
(つまり,どの変数の組み合せが一番当てはまりの良いデータとなるかを調べた)
そして,回帰式を求める!

★データは最新クチコミ10人分から抽出した.
★特定の単語…全てのユーザが使用している単語はなかったので,自身が好感を抱いている単語9個をデータとした.
★データセットは以下


評価 単語1 単語2 単語3 単語4 単語5 単語6 単語7 単語8 単語9 総単語数
1〜7 女の子 フルーティ 甘い 幸せ 見た目 かわいい(可愛い) 好き(大好き) ロールオン(ロールオンタイプ) NUM



【結果】
①まず,全ての変数の相関関係を見てみた

> round(cor(jill),2)
          hyouka tango1 tango2 tango3 tango4 tango5 tango6 tango7 tango8 tango9 all_tango
hyouka      1.00   0.45   0.34  -0.09  -0.35  -0.09   0.34   0.33   0.45  -0.23      0.22
tango1      0.45   1.00   0.19  -0.19   0.00  -0.19   0.19   0.35   0.65   0.00      0.51
tango2      0.34   0.19   1.00  -0.25   0.00  -0.25   0.00  -0.23   0.29   0.45      0.29
tango3     -0.09  -0.19  -0.25   1.00   0.00  -0.12  -0.25   0.23  -0.43   0.00     -0.20
tango4     -0.35   0.00   0.00   0.00   1.00  -0.34  -0.22   0.00  -0.26   0.30      0.73
tango5     -0.09  -0.19  -0.25  -0.12  -0.34   1.00   0.50   0.23   0.00   0.34     -0.19
tango6      0.34   0.19   0.00  -0.25  -0.22   0.50   1.00   0.80   0.29  -0.22      0.00
tango7      0.33   0.35  -0.23   0.23   0.00   0.23   0.80   1.00   0.20  -0.31      0.16
tango8      0.45   0.65   0.29  -0.43  -0.26   0.00   0.29   0.20   1.00   0.00      0.30
tango9     -0.23   0.00   0.45   0.00   0.30   0.34  -0.22  -0.31   0.00   1.00      0.44
all_tango   0.22   0.51   0.29  -0.20   0.73  -0.19   0.00   0.16   0.30   0.44      1.00

単語6(見た目)と単語7(かわいい),単語4(甘い)と総単語数に強い相関が見られる.

②非線形の関係をマクロ的に考察するため対散布図を作成

> pairs(jill,panel=panel.smooth,jill)
※対散布図を作成する際,関数 pairs に引数 panel=panel.smooth を用いると散布図の点の傾向を示す曲線が描かれる


単語6(見た目)と単語7(かわいい),単語4(甘い)と総単語数との相関関係は線形的である


③まず 評価(hyouka)を被説明変数と残りに全ての変数を説明変数とした回帰分析の情報
を求めてみる

> jill.lm1 <- lm(hyouka ~.,data = jill)
> summary(jill.lm1)

Call:
lm(formula = hyouka ~ ., data = jill)

Residuals:
ALL 9 residuals are 0: no residual degrees of freedom!

Coefficients: (2 not defined because of singularities)
            Estimate Std. Error t value Pr(>|t|)
(Intercept)        9         NA      NA       NA
tango1            -6         NA      NA       NA
tango2             7         NA      NA       NA
tango3           -22         NA      NA       NA
tango4            -3         NA      NA       NA
tango5             6         NA      NA       NA
tango6           -29         NA      NA       NA
tango7            21         NA      NA       NA
tango8            -2         NA      NA       NA
tango9            NA         NA      NA       NA
all_tango         NA         NA      NA       NA

Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared:     1, Adjusted R-squared:   NaN 
F-statistic:   NaN on 8 and 0 DF,  p-value: NA 


※NA(Not Available):利用できないという意味
つまり全て必要(逆にいうと,全てダメ)ということ.

④一応stepを使って変数の選択をしてみる

※R のパッケージ stats には変数を選択する関数 step が用意されている.関数 step では,モデルの選択は AIC を基準としている.

> jill.lm2 <-step(jill.lm1)
Start:  AIC=-Inf
hyouka ~ tango1 + tango2 + tango3 + tango4 + tango5 + tango6 + 
    tango7 + tango8 + tango9 + all_tango


Step:  AIC=-Inf
hyouka ~ tango1 + tango2 + tango3 + tango4 + tango5 + tango6 + 
    tango7 + tango8 + tango9
 警告メッセージ: 
 完全なフィットに対するモデル選択は意味がありません  


…意味のない選択

⑤けれど一応,回帰分析の要約を出力する

> summary(jill.lm2)

Call:
lm(formula = hyouka ~ tango1 + tango2 + tango3 + tango4 + tango5 + 
    tango6 + tango7 + tango8 + tango9, data = jill)

Residuals:
ALL 9 residuals are 0: no residual degrees of freedom!

Coefficients: (1 not defined because of singularities)
            Estimate Std. Error t value Pr(>|t|)
(Intercept)        9         NA      NA       NA
tango1            -6         NA      NA       NA
tango2             7         NA      NA       NA
tango3           -22         NA      NA       NA
tango4            -3         NA      NA       NA
tango5             6         NA      NA       NA
tango6           -29         NA      NA       NA
tango7            21         NA      NA       NA
tango8            -2         NA      NA       NA
tango9            NA         NA      NA       NA

Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared:     1, Adjusted R-squared:   NaN 
F-statistic:   NaN on 8 and 0 DF,  p-value: NA 


つまり,今回の回帰式は
hyouka = 9 +  tango1*(-6) + tango2 *(7)+ tango3*(-22) + tango4*(-3) + tango5 *(6)+ tango6 *(-29)+ tango7 *(21)+ tango8 *(-2)+ tango9*(NA)

…ようは今回のデータはダメってこと.
原因は
■被っている単語が少なすぎる
■サンプル数が少なすぎる
ということだと思います.


(参考http://mjin.doshisha.ac.jp/R/14.pdf)


【Rメモ】
> library(RMeCab) #始めるときにうつコマンド

txres <- RMeCabFreq("herenalove.txt") #herenalove.txtをtxresに代入
>txres #txresを表示

>read.csv("jill_data.csv") #"jill_data.csv"データを読み込む
> jill <- read.csv("jill_data.csv") #"jill_data.csv"をjillに入れる


多変量解析について,ざっくりと.

★多変量解析とは何なのか1分でざっくり理解出来るサイトがあったので貼っておく.
数式は一切書いていないので誰でも理解出来ると思う.
多変量解析の中でも有名な手法である重回帰分析についてもざくっと説明がある.
http://www.datamining.jp/choko/tahen.htm

★重回帰分析をエクセルで行う方法を説明している資料も貼っておく.
やり方だけでなく,数値の意味も説明してあるので分かりやすい.
http://www.educ.kyoto-u.ac.jp/cogpsy/personal/Kusumi/datasem09/MR.pdf

★Rを使った重回帰分析の説明はこちら
http://mjin.doshisha.ac.jp/R/14.pdf

★重回帰分析,判別分析,主成分分析,因子分析,数量化理論
について,データやグラフとともに簡単に説明してある.
http://www.kogures.com/hitoshi/webtext/stat-tahenryo-kaiseki/index.html

★多変量解析はマーケティング分野でよく使われる.
〈多変量解析諸手法〉
■回帰分析:因果関係のモデル,変数の影響の推測
■判別分析:事前に与えられているグループを判別するための基準を得る手法
■主成分分析,因子分析:多変量を少数の成分に集約する手法
■コレスポンデンス分析:サンプルと変量の反応のパターンからサンプル間もしくは変量間の類似について分析
■クラスター分析:変量のパターンから同等と考えられるグループを作成
(引用http://www.orsj.or.jp/chubu/wp-content/uploads/2009/03/orc071215.pdf)

2012年8月10日金曜日

英語勉強向けのメモ

英会話の勉強法が載っているサイト
http://whatever-free.net/

読もうと思う本をメモ!
心理学の本.大学入試レベルの英語力で読めるらしいので!

見ようと思う映画をメモ!字幕を消して見る!
http://www.roman-holiday.jp/index.htm

人脈

ちょっとしたきっかけで出会った方が,とある中小企業の女性社長さんとお話する機会を作って下さり,先日お会いしてきました.

とあるニッチ産業向けの商品販売の他,本当に様々な商品を開発・販売している企業さんでした.で,その女性社長さんが最近力を入れているのがWebマーケティングだということで,現場の様子をお聞きしたかったのですが……..
ん〜〜〜……という感じ.「SEO対策」という言葉すら知らないという……..

けれど,ITやネットについてのお話以外はためになりました.
特に,日本企業の現場の声について色々お聞き出来たのは良かった.とある有名食品企業の雇用事情(35歳の人が最後の新卒採用者で,それより下は全部派遣でまかなっている)についてとか,とある大企業の部長クラスの人とMBAをとっているけれど仕事に満足していないだとか…….

新しいビジネスの話が入ってくるのも,上記のようなお話を聞けるのも,「人脈があるから」だとはっきり言えるのは凄いなと思いました.

正直,”人脈”って言葉は”上辺だけの人と人の繋がり”って感じがしちゃってあんまり好きではないのですが….寅さんの時代じゃあるまいし,そんな綺麗事言っていたら今の時代生きていけないな,と.”ビジネスを成功させるために利用し合う関係”って大事だなと.

割り切る関係に罪悪感を抱かないようにしようと思います.



2012年8月8日水曜日

ゲーム理論入門:戦略形ゲームの基礎


ゲーム理論を基礎から学ぶため読んでいる本があります.
これ!!



「数式が得意ではない人」も中学数学ぐらいの知識があれば理解出来ます!
ゲーム理論って面白いな〜って思って読んでいます!!
(ちょこちょこと読んでいるので,まだ読み終わっていません…読み終わったらまとめようかな.)



気になった記事(女性誌のマーケティング)

宝島社のマーケティング力についての記事.
http://www.toyokeizai.net/business/strategy/detail/AC/e788377b51906203a59ff86b49c603f2/page/1/)

宝島社の成功の秘訣
■企画や記事を作ることに力を注ぐのはもちろん,プロモーションを上手くやった(つまり,他出版社より雑誌を”1商品”として捉えてマーケティングした)
全社でのマーケティング活動
一番誌戦略
ブランドアイテムの導入
毎号異なった価格を設定



「凝り固まった経営方針を刷新し,消費者のニーズをきちんとキャッチする」
私がもしマーケティングのお仕事に携われるようになったら,会社の雰囲気に飲まれずに世間をちゃんと見ていたいと思いました.


MACでRMeCab

テキストマイニングを試しにやってみたい!
…ということで,とりあえず,RMeCabを使える様にしました.

RMeCabのインストール方法はこちらを参考にさせていただきました.
凄く分かりやすかったです!
http://rmecab.jp/wiki/index.php?RMeCab

使い方や解析についての簡単な知識はこちらを参考にさせていただきました.

http://rmecab.jp/wiki/index.php?plugin=attach&refer=SoftArchive&openfile=manual081108.pdf

http://homepage2.nifty.com/nandemoarchive/toukei_hosoku/TextAnalysis.htm

http://cse.naro.affrc.go.jp/takezawa/r-tips/r/04.html

それと,たまたま訪問した「教えてgoo!」のページに,データマイニングの凄く初歩的な活用法が分かりやすく説明されていたので載せておきます.
http://oshiete.goo.ne.jp/plus/q/105192/


……話を戻しまして,何かやってみよう!ということで.
まずは,一番簡単な「頻度分析」を行ないました.


とりあえず,@コスメでランキング1位の化粧水
ヘレナ ルビンスタイン プロディジー P.C. ローション
のクチコミを分析してみることに!

……ということで,まずは@コスメのクチコミデータを収集せねばなりません.
いきなり多くのデータを扱うのも何なので,とりあえず

(1)評価を高くつけた3名の口コミ(@コスメのソート機能で上から3つ)
(2)評価を低くつけた3名の口コミ(@コスメのソート機能で下から3つ)

この2つのテキストを分析してみました.
※まずはクローラなど使用せず,コピペで..

結果!〜上位35の単語を並べた(term,info1,info2,freqの順)〜

(1)length = 315 
記号 読点 35
です 助動詞 * 27
記号 句点 23
助動詞 * 21
助動詞 * 21
助詞 格助詞 21
助詞 連体化 21
助詞 係助詞 19
助詞 格助詞 16
助詞 接続助詞 14
助詞 格助詞 13
助詞 係助詞 12
助詞 格助詞 12
記号 一般 12
する 動詞 自立 11
助詞 接続助詞 10
助詞 格助詞 9
ローション 名詞 一般 9
記号 一般 9
ある 動詞 自立 8
香り 名詞 一般 8
名詞 非自立 8
ます 助動詞 * 7
ない 助動詞 * 6
助詞 副助詞/並立助詞/終助詞 6
いる 動詞 非自立 6
名詞 一般 6
これ 名詞 代名詞 6
名詞 接尾 6
記号 一般 6
助詞 格助詞 5
使う 動詞 自立 5
名詞 サ変接続 5
浸透 名詞 サ変接続 5
クリーム 名詞 一般 5
(2)length = 140 
助動詞 * 18
記号 読点 16
記号 句点 13
助詞 格助詞 9
です 助動詞 * 7
ます 助動詞 * 7
する 動詞 自立 7
助詞 接続助詞 6
助詞 格助詞 6
助詞 連体化 6
助詞 係助詞 5
助詞 接続助詞 5
助詞 格助詞 5
助詞 格助詞 5
使う 動詞 自立 5
名詞 非自立 5
助詞 係助詞 4
サンプル 名詞 一般 4
ない 形容詞 自立 4
ない 助動詞 * 3
助詞 並立助詞 3
助詞 副詞化 3
助詞 格助詞 3
効果 名詞 一般 3
記号 一般 3
助動詞 * 2
助動詞 * 2
助詞 副助詞/並立助詞/終助詞 2
助詞 接続助詞 2
ので 助詞 接続助詞 2
合う 動詞 自立 2
思う 動詞 自立 2
試す 動詞 自立 2
てる 動詞 非自立 2
化粧 名詞 サ変接続 2

ざっと見た感想は
■良い評価だと!や♪などの記号が多い
■悪い評価の方が「ですます調」?
という感じ.

前々から
■良い評価の場合は口コミが長くて,悪い評価の場合は短い
■良い評価の場合は♪などの記号が入っている場合が多い
■口調(?)が良い評価の時はあたたかい
という特徴がある気がしていたのですが.やっぱり!という結果です(といってもたった3件の口コミ分析ですが).

けれど,口調や♪は人それぞれの癖かもしれないですよね….

「口コミだけでなく,口コミを投稿した人の特徴まで掴んで分析する」

ことが大事な気がしました.
まあ,まずは全部の口コミを分析出来るようにしなければいけないのだけれど(精度を高めるのはその後の後の後ですから…)!

で,次のステップとしてクローリングをやろうと試みました.
フリーのもので色々検索して,以下が一番いいのではないかと.(pythonですし)

★Webstemmer (http://www.unixuser.org/~euske/python/webstemmer/index-j.html)
→ニュースサイトから記事本文と記事のタイトルをプレインテキスト形式で自動的に抽出するソフトウェア
→プログラムはpythonで書かれている.日本製.
→次の5つのプログラムから成っている.(Webクローラ,レイアウト分析プログラム,テキスト抽出プログラム,URLDB操作プログラム,簡単なテキスト抽出)
→動作原理:一度ページのレイアウトを学習(画像の貼られる位置と文書部分を見分け,どの位置に文書が来るか学習)し,それ以降は文書部分を読みこんでくれる


とりあえず,ダウンロード!
……しかし,上手くいかない..
結構粘りましたが…今日はここまで!!目が悪くなってしまいますしね.


他にも上手くいかない人がいるようです
http://d.hatena.ne.jp/ir_takt/?of=4

色々検索している内に良いブログも発見したので貼らせていただこうと思います.

ブログにのみ使えるように応用した人のブログ
http://d.hatena.ne.jp/gamella/20090503/1241334881