Webエンジニアの開発記

Webエンジニアの開発記録です。Java,SAStruts,jQuery,AmazonWebService,マッシュアップ。

2013-01-01から1年間の記事一覧

Product Advertising APIのTimestampとかSignatureとかは不要

前回の記事で、頑張って各パラメータについて調べました。 後はTimestampとSignatureだなって思っていたのですが、 それについて調べているうちに、Amazonが用意してくれている、 SignedRequestsHelperというクラスがあることが判明。 自分で面倒なことをし…

JavaでProduct Advertising APIのリクエストを作る

では、Signed Requests Helperではなく、 JavaでProduct Advertising APIのリクエストを作っていきましょうね。 アマゾンの本のジャンルから、 箱根駅伝というキーワードで商品を検索するリクエストは http://ecs.amazonaws.jp/onca/xml?AWSAccessKeyId=AKIA…

Product Advertising APIのItemSearchでキーワードをもとに商品検索

アフィリエイター向けのOperationと言えば、 まずはキーワードから商品を検索するItemSearchです。 丁寧な解説はこちら↓↓ 商品検索(ItemSearch) - Amazon Web サービス 覚えておきたいパラメータは2つ。 (必須)商品カテゴリーの指定→ SearchIndex (任意…

Product Advertising API(リンク作成用API)でアフィリコード取得 2日目

昨日の記事の最期に紹介したリンク先のさらにリンク先、 アマゾンの↓このヘルプサイトが役に立ちます。 Signed Requests Helper - Amazon Product Advertising API 必要なのは、下の画像でいうところの赤字の1~3。 1 と 2 は、AWSのアカウントを作成し…

Product Advertising API(リンク作成用API)でアフィリコード取得

昨日まででなんとか、あるサイトのHTMLを取得して、 DOM構築して特定のキーワードを抜き出すことができた。 次はそのキーワードを元に、 楽天やアマゾンのアフィリコードを取得したい。 とりあえずアマゾンかな? アマゾンのアフィリコード取得には、Product…

JavaでJTidy + XPathを使ってAタグのhref属性を取得してみた。

参考文献から。 ・まずはXPathクラスのAPI↓ javax.xml.xpath (Java Platform SE 6) ・↓↓IBMのXPathの解説 Java XPath API いかにXPathを使わないとなると、DOMの解析が面倒か分かる。 未だにうちの現場では面倒な方法でDOMの解析をしていた。 あーやれやれ。…

ヤフーよりも簡単なHTMLをJTidyでDOM解析。

ヤフーのHTMLははっきり言って読みにくいです。 なのでまずはJTidyに慣れるために、 動作確認の意味も込めて、もっと簡単なHTMLを解析しましょう。 HTML サンプル で検索してでてきたのが↓↓こちら。 http://www.html-cool.com/samples/tryhtml_basic.html 上…

JTidyはSAXじゃなくてDOM

前回SAXとDOMの違いを調べてみました。 昨日、JTidyでヤフーをDOM解析しようとしていたので、 JTidyはSAXとDOMのどちら?と思って調べたら、DOMでした。 JTidyの日本語サイトに書いてあること、 自分の直面している問題に対して、どストライクなんですよね。…

DOMとSAXは違う。

DOMとSAXが違うということは、薄々感づいていたのですが、 意識することなくいろんなサイトのソースをコピペして、 スクレイピングしようとしていました。 ですが、やはりDOMとSAXの違いというのは、 小さくなさそうなのでちょっと調べてみました。 ・技術者…

JTidyを使えばDOMが構築できるらしい。

DOMが構築できない問題。 はてなブログやヤフーが厳密なXMLの形式に沿っていなくて、 SAXParseExceptionが投げられてしまう。 別のパーサーを見つけた。 JTidyっていうやつ。 最高の参考文献はIBMさん。 IBMさんの技術文献はどれも優れていますよね。 Javaの…

ヤフーもDOM解析しようとしたら、SAXParseException。

あららです。 ヤフーさんでも、DOM解析に失敗してしまいます。 はてなブログさんだけならまだしも、ヤフーもダメってなると、 この↓↓自分のやり方がまずいんでしょうね。 DocumentBuilderFactory domFactory = DocumentBuilderFactory.newInstance(); domFac…

はてなブログをDOM解析しようとしたら、SAXParseException。

あろうことか、本ブログをDOM解析しようとしたら、 SAXParseExceptionが発生してしまい、 DOMを構築できませんでした。 ↓↓ 取得したレスポンスをInputStreamとして、 そのままDocumentBuilderのparseメソッドに渡しただけです。 エラーログは、 「要素タイプ…

XML解析では、絶対にXPathを使いたい。

XPathっていうW3Cが策定した、 XMLを簡単に解析する仕様があります。 スクレイピングにおいて、一番難しいのは解析かなと思うのですが、 XPathを使えばむちゃくちゃ解析が楽になると思いました。 私は出向先の現場でもレスポンスがXMLだったりするのですが、…

Javaでウェブスクレイピングの調査

デジタルロジック: JAVAでスクレイピングを実現するための覚書 1 接続→取得→解析 というシンプルな流れで、実際に使えるソースが掲載されていました。 多分、すべての基本となる原理なので、 まずはココを見て簡単なスクレイピングをやってみよう。 bj リー…

ウェブスクレイピング(Web scraping)関連資料のまとめ

ただSlideshareで検索しただけです。 Webクローリング&スクレイピングの最前線 公開用 from Lumin Hacker 画像を大量取得しています。 実践スクレイピング from mogya エンジョイ☆スクレイピング from Kazufumi Ohkawa ブラウザ操作についても言及していま…

ネット上からキーワードを自由に拾えるようになる を実現するために?

ネット上からキーワードを自由に拾えるようになる ということをアプリで実現するために何が必要か。 要はグーグルがやってるようなことをやらないといけないですね。 自動でリンクをたどってHPを収拾してくれたり、 キーワードだけを抽出するようなこと。 …

キーワードを発掘するアプリ

アフィリエイトではキーワード発掘が重要。 キーワードってどこからでも拾えますよね。 楽天ランキングからも拾えるし、 検索急上昇キーワードを発表しているサイトはもちろん、 テレビ局のHPからも拾えるし、 ネット上にはごろごろ落ちています。 まずは…

SSHとTelnetの違い in Tera Term

Tera Termを起動した最初の画面で、 サービスっていう項目にSSHとTelnetってありますよね。 あれってどう違うんですかね? 開発の現場で、何回かSSHとTelnetっていう言葉聞きました。 果たしてどっちをどうだったのだろうか? TCP/IP - Telnet/SSHとは ばっ…

AWSのEC2とTeratermを使ってLinuxコマンドの練習 by

私は業務アプリ開発のエンジニアです。 もうすぐ2年半が経ちますが、Linux環境での開発経験なし。 全部Windows。 でも転職の面接では、Linux経験ある?って聞かれます。 そんなとき、「ありません。これから勉強しようと思っています。」 ではNGなんですよね…

ヤフーも結局、Googleの検索APIを使っている。

今はヤフーとGoogleって基本的に同じ検索結果です。 一昔前はヤフーは独自のヤフカテというリストをもっていて、 そこに載っているWebサイトが優先表示されたりしていた。 ヤフー独自の検索エンジンをYSTって呼んだりしていた。 しかしそれがGoogleの検索エ…

APIを駆使して、コンテンツ自動生成をできないものか。

公開APIが激増しているみたいです。 >>変わるAPIのエコシステム ヤフーはなぜ、検索APIを有料にしたか (1/3) - ITmedia ニュース 昨日の HTMLを100個作るプログラム~基礎研究続編~ - 世界旅行家兼Webエンジニアの開発記 を思い出しながら、 「自作PCおも…

HTMLを100個作るプログラム~基礎研究続編~

もっと個数増やしたらどうなるかやってみました。 Javaの力を感覚として自分にインプットするためです。 ↓↓1000個のHTMLを作ったところ、7秒かかりました。 結構かかりますね。全部で54.1KBでした。 では、10000個なら? 7秒×10=70秒でしょうか? ↓↓10000個…

HTMLを100個作るプログラム~基礎研究~

ネットビジネスを少しかじったことがあったり、 APIを活用してビジネスを考えている人なら、 一度はHTMLを自動生成すること考えたことがあるかもしれません。 プログラムを使えば、HTMLは無限に作りだすことができますね。 SEO上、自動生成されたHTMLはスパ…

AWSで理解しておきたいことメモ

AWSの解説サイト見ていてよく出てくる。 1.VPC…Amazon Virtual Private Cloud(Amazon VPC) これはセキュリティも関連しているようで、 意味を理解していないといろんな所で分からなくなる。 予備知識として、ネットワーク関連、インフラ関連も基礎は必要…

Amazon RDS上のPostgreSQLに、EclipseのDBViewerから接続できない

Amazon RDSにPostgreSQLのインスタンスを追加しました。 よし、まずはEclipseのDBViewerでテスト接続! と思ってやってみたのですが、ダメでした。↓↓ ネットで調べてみると、どうやらセキュリティの問題らしい。 とある作業が必要みたいです↓↓ Amazon RDSを…

AWS Management Controleを見ていて気付いた

AWSって、いろんなサービスがありますよね。 EC2 に S3に、Beanstalkに。 どれがどれなのか、何ができるのかよく分からなかった。 でも今日、AWS Management Controleを見ていて気付いた。 Compute & Networking Storage & Content Delivery Database Deploy…

AWSにDB構築する方法の調査(Amazon RDS)

ちょっとJavaサーブレットを基礎から勉強していて、 DB接続の部分をやろうと思っています。 せっかくなので、AWSにDB構築する方法もまとめて勉強します。 まずはオンラインで情報収集しましたよ。 「AWS DB」で検索です。 ■公式 ・Amazon RDS(リレーショナ…

AWS(Amazon Web Service)で定時バッチを起動する方法 の調査

私は日頃はフツーの業務アプリのPGです。 まだバッチの作成業務にあたったことはありません。 ですが、バッチって便利だと思うんですよね。 例えば、WEBを自動でクロールしてAタグを拾って、 href属性の中身=URLをどんどんため込んでいく。 これがプログラ…

SAStrutsで独自プロパティファイル(.properties)から値を取り出す

参考サイト SAStruts/propertiesファイルから設定を読み出す [俺の基地] リクルートAPIのキーやアプリの文字コードなど、 プロパティ化しておいて、適宜それを取り出す場合。 1.プロパティファイルを作る。 /hoge/src/main/resources/config.properties フ…

リクルート 中古車検索API を試してみる

API使ってプログラミングして、 WEBサービス立ち上げる計画をたてた。 手始めに、リクルート 中古車検索APIを使って、 自分のHPに張り付ける中古車情報取得一覧を書いてみる。 使い方としては、本プログラムをAWSに設置しておく。 別の独自ドメインのHP…