bixo web mining toolkit

Post on 25-May-2015

2.075 Views

Category:

Technology

4 Downloads

Preview:

Click to see full reader

DESCRIPTION

Bixoウェブ・マイニング・ツールキットのご紹介

TRANSCRIPT

『Bixo』 について

Web Mining Toolkit

株式会社 ロンウイット RONDHUIT Co., Ltd. ;Professional Search Engine Consulting Services for Lucene/Solr

アッタチョー  トウンポン ATTACHOT Tuangphon

目次

■ Bixoとは

■ 4ステップ・イン・Bixo

■ Bixoを用いたウェブ・マイニングのサンプル

■ Bixoがさらに使える

■ Bixoの有益性

■ (参考)Cascadingとは

■ Bixoとは

ウェブからの情報を抽出し、分析するオープンソース・ウェブ・マイニング

ウェブページ

データベース

Bixo

情報抽出・分析

  The MIT Licenseの下でリリースされた   Hadoopクラス上でデータ処理するCascadingをベースにして開発された   「収集」、「抽出」、「分析」、「生成」というプロセスで情報を検証する

ユーザが検索した情報を研究するツールではありません。

Input Tap(s) Bixo Pipe(s) Custom Operations

Output Tap(s)

Cascading

Hadoop

Tika Parsers

Internal Cluster Single JVM EC2 Cluster

Architecture

 Bixo

ユーザの行動/コンペティターの状況等を研究し、ビジネスの成功を支援するツール

■ 4ステップ・イン・Bixo

1)  収集

2)  抽出

3)  分析

4)  生成

ウェブページ ------ -------- Webからのコンテンツを取出し、収集する。

フォーマットからのデータを抽出する。

抽出したデータをトークナイズ・レート・分類・ グルーピングする。

インデックス/レポートを作成する。

抽出

■ Bixoを用いたウェブ・マイニングのサンプル

「合計スコア、メールアドレス、名前」 インデックスを作成する。

      抽出したテキスト

「ありがとう」= 15 「色がきれい」= 20 「わかりにくい」= -5 「おすすめしない」= -15 

生成 Score

400 350 300 250 200

Mail Address

mark@gmail.com lily@gmail.com shy@gmail.com cole@gmail.com tom@gmail.com

Name

Mark Lily Shy Cole Tom

 キーワードを検索し、スコアを付ける。

 メール内容からテキストを抽出する。

          テキスト

  ありがとう。   この本、とても楽しかったです。

        メーリングリスト         

  core-user@hadoop.apache.org

収集  メーリングリストを使い、全ての ユーザーのメールを収集する。

分析

1

2

3

4

■ Bixoがさらに使える!

■ Bixoの有益性

      商用プロジェクトのニーズへの答え!  

▼ Bixoのことをもっと知りたい!            Homepage: http://bixo.101tec.com/

■ (参考)Cascadingとは 

Hadoopクラス上でデータ処理するワークフローAPI。

ネームフィールドを持つタプル上で操作する。

パイプから作られるワークフロー。

困難な低レベルであるMRの詳細を減少する。

複雑な/確かな処理ワークフローをサポートする。

パイプは、これから行われるデータ処理を定義するステップ

MR= Map Reduce

詳しくは: http://www.cascading.org/

ご清聴 ありがとうございました

top related