URL リストを基に WEB ページをダウンロードしてまわる Perl プログラムを模索する修行

URL リストを基に WEB ページをかたはしからダウンロードする要求がある。Perl で作りたい。軽快に並列動作するのが好ましい。できれば Windows 上で。

最初、並列にっていったら POE ベースの何かかな、と思った。POE 使ったことないし、ちょうどいいや、と。で、

まるごとPerl! Vol.1

まるごとPerl! Vol.1

を見たら Xango っていう POE ベースの WEB クローラーフレームワークが出てた。ので、POE の勉強をしつつ、Xango についても調べてみた。

けど、ネット上に Xango の情報は少ない。流行ってないのかな、とさらに調べていたらGungho-0.09008 - Yet Another High Performance Web Crawler Framework - metacpan.orgに辿りついた。Gungho は Xango の後継で、しかも POE べったりじゃなくなったっぽい。http://digit.que.ne.jp/work/wiki.cgi?Perl%E3%83%A1%E3%83%A2%2FGungho。そう、Windows じゃ使えないかもしれないのか。POE 自体も Windows 版メンテされてないのか POE - multitasking and networking framework for perl - perldoc.jp
そのうえ、404 Blog Not Found:perl - PoCo::Client::HTTP < LWP::UserAgent->new(keep_alive => 1)ということだし、どうしようかな。複数のサイトをなめていくからいちおう POE 向きってことではあるのか。

まずは LWP でちゃんと動くものを作ってからかな。