雇い雇われデータマイニング作業メモ

クロール
% exthtml -X '//a[contains(@href, "read.cgi")]/@href'\ -p '$v=~s|l50$||;$v' \ http://jbbs.livedoor.jp/bbs/subject.cgi/sports/8057/ > list.dat % perl -ne 'chomp;m|(\d+)/$|;print`curl -o $1.html $_`' list.dat % exthtml -X '//a[contains(@href, "storage")]/@href' \ -p 'chomp $v;`curl -O $v`'\ http://jbbs.livedoor.jp/sports/8057/storage/
雇い雇われテンプレートからデータ抽出

自由に自分でデータをお作りください。
ToDo
正直データ読む事自体が面白すぎてこのあと何やってもどうでもいい感じ。
- 生テキストが属性値になっている。何らかの抽象化が必要。
- 報酬ぐらいは数値データにできそう。
- 範囲(min〜max)、単位補完(k=1000円, null=10000円 or 円)
- 片側が無限の範囲(min〜 or 〜max or 「min以上」)
- 「お茶1k/時、抱っこ1.5k/時、耳舐め2k/時」…
- 属性値からの特徴語抽出
- 「耳」「ゴム」「ありあり」「(非)ピザ」「イチャ」
- 抽象化できれば分析
- 内容と相場の関連
- 外れ値の観察
- 地方間の差異、時系列での分析
- 何かおもしろい目的がほしい、テンプレ以外からも情報取る方がいいかも
- とりわすれ
- 投稿時刻
- 地方
- スレタイ