URL リストを基に WEB ページをダウンロードしてまわる Perl プログラムを模索する修行
URL リストを基に WEB ページをかたはしからダウンロードする要求がある。Perl で作りたい。軽快に並列動作するのが好ましい。できれば Windows 上で。
最初、並列にっていったら POE ベースの何かかな、と思った。POE 使ったことないし、ちょうどいいや、と。で、
を見たら Xango っていう POE ベースの WEB クローラーフレームワークが出てた。ので、POE の勉強をしつつ、Xango についても調べてみた。けど、ネット上に Xango の情報は少ない。流行ってないのかな、とさらに調べていたらGungho-0.09008 - Yet Another High Performance Web Crawler Framework - metacpan.orgに辿りついた。Gungho は Xango の後継で、しかも POE べったりじゃなくなったっぽい。http://digit.que.ne.jp/work/wiki.cgi?Perl%E3%83%A1%E3%83%A2%2FGungho。そう、Windows じゃ使えないかもしれないのか。POE 自体も Windows 版メンテされてないのか POE - multitasking and networking framework for perl - perldoc.jp。
そのうえ、404 Blog Not Found:perl - PoCo::Client::HTTP < LWP::UserAgent->new(keep_alive => 1)ということだし、どうしようかな。複数のサイトをなめていくからいちおう POE 向きってことではあるのか。
まずは LWP でちゃんと動くものを作ってからかな。