雇い雇われデータマイニング作業メモ

理想

クロール

% exthtml -X '//a[contains(@href, "read.cgi")]/@href'\
-p '$v=~s|l50$||;$v' \
http://jbbs.livedoor.jp/bbs/subject.cgi/sports/8057/ > list.dat
% perl -ne 'chomp;m|(\d+)/$|;print`curl -o $1.html $_`' list.dat
% exthtml -X '//a[contains(@href, "storage")]/@href' \
-p 'chomp $v;`curl -O $v`'\
http://jbbs.livedoor.jp/sports/8057/storage/

雇い雇われテンプレートからデータ抽出

ソース

できたデータ

現実

自由に自分でデータをお作りください。

ToDo

正直データ読む事自体が面白すぎてこのあと何やってもどうでもいい感じ。

  • 生テキストが属性値になっている。何らかの抽象化が必要。
    • 報酬ぐらいは数値データにできそう。
    • 範囲(min〜max)、単位補完(k=1000円, null=10000円 or 円)
    • 片側が無限の範囲(min〜 or 〜max or 「min以上」)
    • 「お茶1k/時、抱っこ1.5k/時、耳舐め2k/時」…
  • 属性値からの特徴語抽出
    • 「耳」「ゴム」「ありあり」「(非)ピザ」「イチャ」
  • 抽象化できれば分析
    • 内容と相場の関連
    • 外れ値の観察
    • 地方間の差異、時系列での分析
    • 何かおもしろい目的がほしい、テンプレ以外からも情報取る方がいいかも
  • とりわすれ
    • 投稿時刻
    • 地方
    • スレタイ
changed October 28, 2010 delete history edit