Webエンジニアの開発記

Webエンジニアの開発記録です。Java,SAStruts,jQuery,AmazonWebService,マッシュアップ。

Javaでウェブスクレイピングの調査

デジタルロジック: JAVAでスクレイピングを実現するための覚書 1

接続→取得→解析

というシンプルな流れで、実際に使えるソースが掲載されていました。

多分、すべての基本となる原理なので、

まずはココを見て簡単なスクレイピングをやってみよう。

 

 

bj リーグの個人成績を収集する Java プログラム、Java でウェブスクレイピング - 集中力なら売り切れたよ

こちらも自作でスクレイピングをやっています。

基本的なJavaの知識だけでやっています。

自分のやりたいことも上のサイトとこのサイトの知識の組み合わせで実現できそうです。

 

[Java]WebページをTree構造に基づいてスクレイピング | Share Technical Blogs

JTidyという解析ライブラリを紹介しています。

高度な解析ができるようになるかもしれません。

 

 

ウェブスクレイピング(Web scraping)関連資料のまとめ

ただSlideshareで検索しただけです。

 

 

 画像を大量取得しています。

 

 

 

 ブラウザ操作についても言及しています。

 

 

 ヤフーファイナンスから株価を取得しています。

 

 

 

 

ネット上からキーワードを自由に拾えるようになる を実現するために?

ネット上からキーワードを自由に拾えるようになる

ということをアプリで実現するために何が必要か。

 

要はグーグルがやってるようなことをやらないといけないですね。

自動でリンクをたどってHPを収拾してくれたり、

キーワードだけを抽出するようなこと。

 

そういうのを、

ウェブスクレイピングWeb scraping)

ウェブ・クローラー(Web crawler) あるいはウェブ・スパイダー(Web spider)

と言うようです。

 

ほとんど、

ウェブスクレイピング - Wikipedia

で言ってることそのもの。

 

技術的には、JavaのHTTPClientを使って取得して、

それをDOM解析すればいいと思っている。

 

 

キーワードを発掘するアプリ

アフィリエイトではキーワード発掘が重要。

キーワードってどこからでも拾えますよね。

 

楽天ランキングからも拾えるし、

検索急上昇キーワードを発表しているサイトはもちろん、

テレビ局のHPからも拾えるし、

ネット上にはごろごろ落ちています。

 

まずはそれらを効率よく拾うアプリを作ります。

 

次に、それらのキーワードからアフィリ商材を検索して、

アフィリ商材を紹介する記事をブログに投稿します。

 

ブログにアクセスがあったキーワードを一覧表示します。

そのキーワードでさらに記事を増やせるようにします。

 

上記のことを簡単にできるアプリがあればいいですね。

それを自分で紹介記事を書くのではなくて、

ランサーズとかでお金を払って誰かに書いてもらうようにすれば、

自動で有力キーワードを盛り込んだアフィリ記事が、

投入した資金の分だけ増えていくわけです。

 

まずは、ネット上からキーワードを自由に拾えるようになること。

それをやっていこうと計画しています。

SSHとTelnetの違い in Tera Term

Tera Termを起動した最初の画面で、

サービスっていう項目にSSHとTelnetってありますよね。

あれってどう違うんですかね?

 

開発の現場で、何回かSSHとTelnetっていう言葉聞きました。

果たしてどっちをどうだったのだろうか?

 

TCP/IP - Telnet/SSHとは

ばっちり引用させてもらいます。

 

SSH (Secure SHell) とは、ネットワークに接続された機器を遠隔操作するために使用するアプリケーション層のプロトコルです。

Telnetとは、ネットワークに接続された機器を遠隔操作するために使用するアプリケーション層のプロトコル。

 

あれ!?

一緒ですやん 笑

 

と思ってさらに読み進めると違いが分かりました。

telnetの場合、パスワード情報を含め全てのデータが暗号化されずに送信されるのに
対して、SSHの場合、パスワード情報を含めて全てのデータが暗号化されて送信されます。

とのことです。

 

Secure セキュア

なんですね、SSHは。よく分かりました。

 

AWSのEC2とTeratermを使ってLinuxコマンドの練習 by

私は業務アプリ開発のエンジニアです。

もうすぐ2年半が経ちますが、Linux環境での開発経験なし。

全部Windows。

 

でも転職の面接では、Linux経験ある?って聞かれます。

そんなとき、「ありません。これから勉強しようと思っています。」

ではNGなんですよね。

 

できれば、

「ありません。でも業務外にLinuxは勉強しましたので、業務でも問題なく使えると思います。」

ぐらい言えると違いますよね。

 

そのために、今日はLinuxの勉強を実際にしました。

LinuxってOSってことぐらいは知っていましたので、

どこかにそのOSがインストールされたマシンを確保しないといけないんですよね。

 

それが簡単にできるのが、Amazon Web Servicesです。

このスライドでばっちり解説されていました。

はじめてのアマゾンクラウド②[仮想サーバ(Amazon EC2)を立ち上げる]

 

なので、私の画面ハードコピーは不要ですね。

一応エビデンスだけ。

 

↓↓まずはEC2上にLinuxインスタンスをlunchしました。

f:id:tahkah0124:20131201004454j:plain

冒頭のスライドでいうところの17ページ。

 

↓↓人生初のWindows以外のOSへの接続。

f:id:tahkah0124:20131201004627j:plain

感動の初めてのLinuxマシンへの接続は、22ページです。

 

よーし。

これで面接でLinuxは使える?」って聞かれたときも、

自信を持って「使えると思います!」って言える♪

 

まずは↓この辺からはじめて。

これだけは知ってもらいたいLinuxコマンド

 

最後は↓この辺を制覇したいところ。

Linuxコマンド集 - Linuxコマンド集 INDEX:ITpro

 

Linux面白いでーす!

ヤフーも結局、Googleの検索APIを使っている。

今はヤフーとGoogleって基本的に同じ検索結果です。

一昔前はヤフーは独自のヤフカテというリストをもっていて、

そこに載っているWebサイトが優先表示されたりしていた。

 

ヤフー独自の検索エンジンをYSTって呼んだりしていた。

しかしそれがGoogleの検索エンジンを採用することになった。

>>ヤフーとグーグルが提携、アルゴリズム検索技術にGoogleを採用::SEM R (#SEMR)

>>[UPDATE 5] ヤフー、検索エンジン Google への移行完了::SEM R (#SEMR)

最新情報↓↓

Google検索とYahoo!検索はどれだけ違う? 検索機能と情報源の比較一覧::SEM R (#SEMR)

 

昨今、私は公開APIどんなんがあるかいろいろ見てたんですけど、

結局はこれって、ヤフーがグーグルの検索API使ってるようなもんじゃない?

f:id:tahkah0124:20131130024947j:plain

ヤフーの検索は ヤフー/search?p=かに道楽 という形式で検索しています。

 

一方Googleも↓のように、Google/search?p=かに道楽 という形式。

f:id:tahkah0124:20131130025123j:plain

 

ヤフーさん、Googleに丸っきりのっかってるってことか。

開発現場でいうところの丸投げですね。