2006年07月19日

ブログをクロール

ライブドアブログとGooブログの新着記事一覧からブログリストを取得するようにして、記事を集めるプログラムを走らせてみた。
数時間で5000件ほどのブログが集まり、データは3Gほどになった。
う~ん・・・、5000件で3Gか・・・、一瞬でHDがパンクしそうだなぁ。圧縮して保存もできるけどCPUパワーを消費するのは避けたいし・・・。形態素解析もデータ取得時に同時に行って保存しているんだけど、そのデータが結構大きい。分かち書きの情報だけ持っておくか・・・いやそもそもUTF-8からEUC-JPにするだけでもデータ量が2/3になるからな。ふ~む。

全文検索にはJavaのオープンソース検索エンジンのLuceneを使ってみる。自作するよりはるかに高機能でいろいろ考えられてるライブラリなのでいい感じ。先ほどの3Gのデータにインデックス張るのが15分ほど。検索は一瞬。

あとはWebの検索用フロントエンドを作成すれば一応ブログ検索エンジンはできるわけだけど、なんかただ組み立てただけって感じでツマンナイな。とりあえずWebの部分作った後考えるか。いろいろアイデアはあるけど壮大すぎてどこから手をつけたらいいかわかんない。

まぁでも作ってるといろいろ必要な技術が多くて楽しくはある。次はServletの勉強だ~。

Trackback on "ブログをクロール"

このエントリーのトラックバックURL: 

"ブログをクロール"へのトラックバックはまだありません。

Comment on "ブログをクロール"

"ブログをクロール"へのコメントはまだありません。

Post a Comment

コメントする

コメント登録機能が設定されていますが、TypeKey トークンが設定されていません。