JTidyを使えばDOMが構築できるらしい。
DOMが構築できない問題。
SAXParseExceptionが投げられてしまう。
別のパーサーを見つけた。
JTidyっていうやつ。
最高の参考文献はIBMさん。
IBMさんの技術文献はどれも優れていますよね。
Javaの理論と実践: XQueryによるscreen-scraping
「ほとんどどんなWebページも、XML文書として処理することができ、お好みのデータ抽出用XMLツール(SAXであれXSLであれXPath、どれでも)を適用することができます。」
最新のJTidyのDLはこちらから。
DLしてライブラリに追加するだけ。
JTidy プロジェクト日本語トップページ - SourceForge.JP
IBMさんのやり方でyahoo!のaタグの内容出そうとしてみた。
すると、エラーで落ちることはなかったけど、
エラーらしきものは出ている。↓↓
惜しいところまで来ている気がする。
明日また試してみよう。