keywlker crawler

9
+ Keywlker Web Crawler 2012 年 4 年 年年年年年年年年年年年

Upload: yoshishiro-yamamoto

Post on 19-Jun-2015

616 views

Category:

Documents


1 download

DESCRIPTION

Webクローラサービスの説明です。

TRANSCRIPT

Page 1: Keywlker crawler

+

Keywlker Web Crawler

2012 年 4 月株式会社キーウォーカー

Page 2: Keywlker crawler

+Keywalker Web クローラとは?

Keywalker Web クローラは、大量の Web 情報を効率よく収集する、クローリング専用ロボットです。

収集したデータは、項目ごとに分類し、使いやすいデータフォーマットで、ダウンロードできます。

充実のパース設定機能で、詳細で大量なデータを取得できます。

Web ページのソースにある、 TAG 情報は自動で削除するため、データのみを抽出することができます。

多彩なスケジューリング設定で、ターゲット Web ページの情報を逃しません。

Page 3: Keywlker crawler

+Spider Robot や Wget とKeywaker クローラの違い Spider Robot / Wget

HTML のソースコードをそのまま取得するので、必要な情報を抜き出す必要があリます。

HTML ページ全てを抜き出してしまいます。

すべてのリンクを網羅的にクロールするため効率がよく有りません。

クロールしたデータは、ページごとのファイルとして保管されます。

Keywalker Web クローラ 不要な HTML タグを自動的に消

去し、表示情報だけを効率良く取り出します。

パーシング設定で、ページ内の必要な情報を分類して取り出します。

必要なクロールルートを設定できるので、効率良くクロールすることができます。

クロールしたデータは、分類され項目ごとの CSV ファイルとしてダウンロードできます。

Page 4: Keywlker crawler

+クロール情報を分類取得

Keywalker クローラは、 Web ページのパーシング機能で必要な情報を必要な項目に分類取得できます。

分類項目は、自由に調整できます。

分類  メーカー  品名   売価

自由に項目の調整が可能

Page 5: Keywlker crawler

+効率のよいクロールルートを設定

効率のよいクローリングを設定できます。 クローラの起点は複数設定可能です。 商品リストなど効率良くクロールするためのルート設定が可能です。 ページ送りへの対応も可能です。(リストのページ送りなど)

・クロールルートの設定・自由なクロール深度設定・ページ送り処理への対応・クロール禁止ページの設定

最高効率のクローリング!

Page 6: Keywlker crawler

+きめ細やかなタイマー設定

クローリングの頻度スケジュールの調整機能 クロール対象の更新情報を逃しません。 クロールの

負荷調整

複数条件を設定可能

Page 7: Keywlker crawler

+クロール結果を検索で確認

クロールした情報を全文検索できるので、データをダウンロードしなくても、様々な調査を行えます。

クロールデータをキーワード検索

マッチした情報をWeb ブラウザで確認

Page 8: Keywlker crawler

+実績

数々のサイト内検索などでご利用いただいております。 AFP 通信社のニュースサイト

http://afpbb.com/ http://www.afpbb.com/fashion/ 日刊工業新聞社のニュースサイト

http://www.nikkan.co.jp Wall Street Journal Japan のニュースサイト

http://jp.wsj.com/ 毎日新聞デジタル MANTAN Web のキーワードサイト

http://keyword.mantan-web.jp/ その他 コミュニティーサイト、 e- コマースサイトなど約 40 社

http://lococom.keywalker.jp/

Page 9: Keywlker crawler

+お問い合わせ御連絡先

http://www.keywalker.co.jp/

株式会社キーウォーカー

〒 106-0041東京都港区麻布台2−4−2電話: 03-3560-6201e-mail : [email protected]