ヤフーもDOM解析しようとしたら、SAXParseException。
あららです。
ヤフーさんでも、DOM解析に失敗してしまいます。
はてなブログさんだけならまだしも、ヤフーもダメってなると、
この↓↓自分のやり方がまずいんでしょうね。
DocumentBuilderFactory domFactory = DocumentBuilderFactory.newInstance();
domFactory.setNamespaceAware(true);
DocumentBuilder builder = domFactory.newDocumentBuilder();
Document doc = builder.parse(inputStream);
いろんな入門サイト見たらこの方法でやってるのですが、
どうも実用性は低いみたいです。
ウェブスクレイピングへの道はいきなり険しいです。