クロールしてる
定期的に
Plaggerで
ふつうに
- 自分のTwitter friends_timeline
- 自分の管理してるページ
- オレオレピン
- マイミク新着日記
- とらのあな、メロンブックス通販新着
- 海外危険情報
Plaggerの出力は基本的にHyper Estraier、とら、メロンとマイミク新着日記はメールでも、海外危険情報は野良フィードに
Diffとって
非公開野良フィードにしてモリモリ読む
- はてなアンテナに登録してるページ
- きになる絵描きの人のサイト
- ノイズ多い、ルール拡張必要
不定期に
自前のクローラ、scraperで
- 新刊漫画情報
- ニコニコの動画情報
- 消えるサイト
- いろんなキャッシュから消えたページ復旧
クロールしたい
定期的に
- pixiv
- 材料はできたけど、画像をどう保存するか考え中
- オレオレ画像検索にそのままつっこむとタグが汚染されるので避けたい
- でもメタデータは失いたくない
- 二次裏
- サムネだけでもほしいけど躊躇
- 特撮@ふたば
- 荒らし対策必要できつそう
- 半角二次元
- スレ探知に手間かかりそう、釣りも多い
- danbooru
- ログイン必須でユーザトラッキングされてそうなのでうざい
- imepita
- アクセス制限うざいけどあんまり引っかからないから毎日取ればよゆうそう
- google: site:imepita.jp inurl:YYYYMMDD
- google: site:megalodon.jp imepita.jp -削除依頼
- Twitter
- API制限うざい
- followingのhome
- followingのfav