Webエンジニアの開発記

Webエンジニアの開発記録です。Java,SAStruts,jQuery,AmazonWebService,マッシュアップ。

ネット上からキーワードを自由に拾えるようになる を実現するために?

ネット上からキーワードを自由に拾えるようになる

ということをアプリで実現するために何が必要か。

 

要はグーグルがやってるようなことをやらないといけないですね。

自動でリンクをたどってHPを収拾してくれたり、

キーワードだけを抽出するようなこと。

 

そういうのを、

ウェブスクレイピングWeb scraping)

ウェブ・クローラー(Web crawler) あるいはウェブ・スパイダー(Web spider)

と言うようです。

 

ほとんど、

ウェブスクレイピング - Wikipedia

で言ってることそのもの。

 

技術的には、JavaのHTTPClientを使って取得して、

それをDOM解析すればいいと思っている。