Webエンジニアの開発記

Webエンジニアの開発記録です。Java,SAStruts,jQuery,AmazonWebService,マッシュアップ。

JTidyを使えばDOMが構築できるらしい。

DOMが構築できない問題。

はてなブログやヤフーが厳密なXMLの形式に沿っていなくて、

SAXParseExceptionが投げられてしまう。

 

別のパーサーを見つけた。

JTidyっていうやつ。

 

最高の参考文献はIBMさん。

IBMさんの技術文献はどれも優れていますよね。

Javaの理論と実践: XQueryによるscreen-scraping

 

「ほとんどどんなWebページも、XML文書として処理することができ、お好みのデータ抽出用XMLツール(SAXであれXSLであれXPath、どれでも)を適用することができます。」

 

最新のJTidyのDLはこちらから。

DLしてライブラリに追加するだけ。

JTidy プロジェクト日本語トップページ - SourceForge.JP

 

IBMさんのやり方でyahoo!のaタグの内容出そうとしてみた。

すると、エラーで落ちることはなかったけど、

エラーらしきものは出ている。↓↓

f:id:tahkah0124:20131217001454j:plain

 

惜しいところまで来ている気がする。

明日また試してみよう。