Webエンジニアの開発記

Webエンジニアの開発記録です。Java,SAStruts,jQuery,AmazonWebService,マッシュアップ。

2013-12-01から1ヶ月間の記事一覧

Product Advertising APIのTimestampとかSignatureとかは不要

前回の記事で、頑張って各パラメータについて調べました。 後はTimestampとSignatureだなって思っていたのですが、 それについて調べているうちに、Amazonが用意してくれている、 SignedRequestsHelperというクラスがあることが判明。 自分で面倒なことをし…

JavaでProduct Advertising APIのリクエストを作る

では、Signed Requests Helperではなく、 JavaでProduct Advertising APIのリクエストを作っていきましょうね。 アマゾンの本のジャンルから、 箱根駅伝というキーワードで商品を検索するリクエストは http://ecs.amazonaws.jp/onca/xml?AWSAccessKeyId=AKIA…

Product Advertising APIのItemSearchでキーワードをもとに商品検索

アフィリエイター向けのOperationと言えば、 まずはキーワードから商品を検索するItemSearchです。 丁寧な解説はこちら↓↓ 商品検索(ItemSearch) - Amazon Web サービス 覚えておきたいパラメータは2つ。 (必須)商品カテゴリーの指定→ SearchIndex (任意…

Product Advertising API(リンク作成用API)でアフィリコード取得 2日目

昨日の記事の最期に紹介したリンク先のさらにリンク先、 アマゾンの↓このヘルプサイトが役に立ちます。 Signed Requests Helper - Amazon Product Advertising API 必要なのは、下の画像でいうところの赤字の1~3。 1 と 2 は、AWSのアカウントを作成し…

Product Advertising API(リンク作成用API)でアフィリコード取得

昨日まででなんとか、あるサイトのHTMLを取得して、 DOM構築して特定のキーワードを抜き出すことができた。 次はそのキーワードを元に、 楽天やアマゾンのアフィリコードを取得したい。 とりあえずアマゾンかな? アマゾンのアフィリコード取得には、Product…

JavaでJTidy + XPathを使ってAタグのhref属性を取得してみた。

参考文献から。 ・まずはXPathクラスのAPI↓ javax.xml.xpath (Java Platform SE 6) ・↓↓IBMのXPathの解説 Java XPath API いかにXPathを使わないとなると、DOMの解析が面倒か分かる。 未だにうちの現場では面倒な方法でDOMの解析をしていた。 あーやれやれ。…

ヤフーよりも簡単なHTMLをJTidyでDOM解析。

ヤフーのHTMLははっきり言って読みにくいです。 なのでまずはJTidyに慣れるために、 動作確認の意味も込めて、もっと簡単なHTMLを解析しましょう。 HTML サンプル で検索してでてきたのが↓↓こちら。 http://www.html-cool.com/samples/tryhtml_basic.html 上…

JTidyはSAXじゃなくてDOM

前回SAXとDOMの違いを調べてみました。 昨日、JTidyでヤフーをDOM解析しようとしていたので、 JTidyはSAXとDOMのどちら?と思って調べたら、DOMでした。 JTidyの日本語サイトに書いてあること、 自分の直面している問題に対して、どストライクなんですよね。…

DOMとSAXは違う。

DOMとSAXが違うということは、薄々感づいていたのですが、 意識することなくいろんなサイトのソースをコピペして、 スクレイピングしようとしていました。 ですが、やはりDOMとSAXの違いというのは、 小さくなさそうなのでちょっと調べてみました。 ・技術者…

JTidyを使えばDOMが構築できるらしい。

DOMが構築できない問題。 はてなブログやヤフーが厳密なXMLの形式に沿っていなくて、 SAXParseExceptionが投げられてしまう。 別のパーサーを見つけた。 JTidyっていうやつ。 最高の参考文献はIBMさん。 IBMさんの技術文献はどれも優れていますよね。 Javaの…

ヤフーもDOM解析しようとしたら、SAXParseException。

あららです。 ヤフーさんでも、DOM解析に失敗してしまいます。 はてなブログさんだけならまだしも、ヤフーもダメってなると、 この↓↓自分のやり方がまずいんでしょうね。 DocumentBuilderFactory domFactory = DocumentBuilderFactory.newInstance(); domFac…

はてなブログをDOM解析しようとしたら、SAXParseException。

あろうことか、本ブログをDOM解析しようとしたら、 SAXParseExceptionが発生してしまい、 DOMを構築できませんでした。 ↓↓ 取得したレスポンスをInputStreamとして、 そのままDocumentBuilderのparseメソッドに渡しただけです。 エラーログは、 「要素タイプ…

XML解析では、絶対にXPathを使いたい。

XPathっていうW3Cが策定した、 XMLを簡単に解析する仕様があります。 スクレイピングにおいて、一番難しいのは解析かなと思うのですが、 XPathを使えばむちゃくちゃ解析が楽になると思いました。 私は出向先の現場でもレスポンスがXMLだったりするのですが、…

Javaでウェブスクレイピングの調査

デジタルロジック: JAVAでスクレイピングを実現するための覚書 1 接続→取得→解析 というシンプルな流れで、実際に使えるソースが掲載されていました。 多分、すべての基本となる原理なので、 まずはココを見て簡単なスクレイピングをやってみよう。 bj リー…

ウェブスクレイピング(Web scraping)関連資料のまとめ

ただSlideshareで検索しただけです。 Webクローリング&スクレイピングの最前線 公開用 from Lumin Hacker 画像を大量取得しています。 実践スクレイピング from mogya エンジョイ☆スクレイピング from Kazufumi Ohkawa ブラウザ操作についても言及していま…

ネット上からキーワードを自由に拾えるようになる を実現するために?

ネット上からキーワードを自由に拾えるようになる ということをアプリで実現するために何が必要か。 要はグーグルがやってるようなことをやらないといけないですね。 自動でリンクをたどってHPを収拾してくれたり、 キーワードだけを抽出するようなこと。 …

キーワードを発掘するアプリ

アフィリエイトではキーワード発掘が重要。 キーワードってどこからでも拾えますよね。 楽天ランキングからも拾えるし、 検索急上昇キーワードを発表しているサイトはもちろん、 テレビ局のHPからも拾えるし、 ネット上にはごろごろ落ちています。 まずは…

SSHとTelnetの違い in Tera Term

Tera Termを起動した最初の画面で、 サービスっていう項目にSSHとTelnetってありますよね。 あれってどう違うんですかね? 開発の現場で、何回かSSHとTelnetっていう言葉聞きました。 果たしてどっちをどうだったのだろうか? TCP/IP - Telnet/SSHとは ばっ…

AWSのEC2とTeratermを使ってLinuxコマンドの練習 by

私は業務アプリ開発のエンジニアです。 もうすぐ2年半が経ちますが、Linux環境での開発経験なし。 全部Windows。 でも転職の面接では、Linux経験ある?って聞かれます。 そんなとき、「ありません。これから勉強しようと思っています。」 ではNGなんですよね…