Webエンジニアの開発記

Webエンジニアの開発記録です。Java,SAStruts,jQuery,AmazonWebService,マッシュアップ。

ネット上からキーワードを自由に拾えるようになる

ということをアプリで実現するために何が必要か。

要はグーグルがやってるようなことをやらないといけないですね。

自動でリンクをたどってＨＰを収拾してくれたり、

キーワードだけを抽出するようなこと。

そういうのを、

ウェブスクレイピング（Web scraping）

ウェブ・クローラー(Web crawler) あるいはウェブ・スパイダー(Web spider)

と言うようです。

ほとんど、

で言ってることそのもの。

技術的には、JavaのHTTPClientを使って取得して、

それをDOM解析すればいいと思っている。