Javaでウェブスクレイピングの調査
デジタルロジック: JAVAでスクレイピングを実現するための覚書 1
接続→取得→解析
というシンプルな流れで、実際に使えるソースが掲載されていました。
多分、すべての基本となる原理なので、
まずはココを見て簡単なスクレイピングをやってみよう。
bj リーグの個人成績を収集する Java プログラム、Java でウェブスクレイピング - 集中力なら売り切れたよ
こちらも自作でスクレイピングをやっています。
基本的なJavaの知識だけでやっています。
自分のやりたいことも上のサイトとこのサイトの知識の組み合わせで実現できそうです。
[Java]WebページをTree構造に基づいてスクレイピング | Share Technical Blogs
JTidyという解析ライブラリを紹介しています。
高度な解析ができるようになるかもしれません。