Download - Bixo Web Mining Toolkit
![Page 1: Bixo Web Mining Toolkit](https://reader034.vdocuments.site/reader034/viewer/2022052523/55626577d8b42aab1a8b4c65/html5/thumbnails/1.jpg)
『Bixo』 について
Web Mining Toolkit
株式会社 ロンウイット RONDHUIT Co., Ltd. ;Professional Search Engine Consulting Services for Lucene/Solr
アッタチョー トウンポン ATTACHOT Tuangphon
![Page 2: Bixo Web Mining Toolkit](https://reader034.vdocuments.site/reader034/viewer/2022052523/55626577d8b42aab1a8b4c65/html5/thumbnails/2.jpg)
目次
■ Bixoとは
■ 4ステップ・イン・Bixo
■ Bixoを用いたウェブ・マイニングのサンプル
■ Bixoがさらに使える
■ Bixoの有益性
■ (参考)Cascadingとは
![Page 3: Bixo Web Mining Toolkit](https://reader034.vdocuments.site/reader034/viewer/2022052523/55626577d8b42aab1a8b4c65/html5/thumbnails/3.jpg)
■ Bixoとは
ウェブからの情報を抽出し、分析するオープンソース・ウェブ・マイニング
ウェブページ
データベース
Bixo
情報抽出・分析
The MIT Licenseの下でリリースされた Hadoopクラス上でデータ処理するCascadingをベースにして開発された 「収集」、「抽出」、「分析」、「生成」というプロセスで情報を検証する
ユーザが検索した情報を研究するツールではありません。
Input Tap(s) Bixo Pipe(s) Custom Operations
Output Tap(s)
Cascading
Hadoop
Tika Parsers
Internal Cluster Single JVM EC2 Cluster
Architecture
Bixo
ユーザの行動/コンペティターの状況等を研究し、ビジネスの成功を支援するツール
![Page 4: Bixo Web Mining Toolkit](https://reader034.vdocuments.site/reader034/viewer/2022052523/55626577d8b42aab1a8b4c65/html5/thumbnails/4.jpg)
■ 4ステップ・イン・Bixo
1) 収集
2) 抽出
3) 分析
4) 生成
ウェブページ ------ -------- Webからのコンテンツを取出し、収集する。
フォーマットからのデータを抽出する。
抽出したデータをトークナイズ・レート・分類・ グルーピングする。
インデックス/レポートを作成する。
![Page 5: Bixo Web Mining Toolkit](https://reader034.vdocuments.site/reader034/viewer/2022052523/55626577d8b42aab1a8b4c65/html5/thumbnails/5.jpg)
抽出
■ Bixoを用いたウェブ・マイニングのサンプル
「合計スコア、メールアドレス、名前」 インデックスを作成する。
抽出したテキスト
「ありがとう」= 15 「色がきれい」= 20 「わかりにくい」= -5 「おすすめしない」= -15
生成 Score
400 350 300 250 200
Mail Address
[email protected] [email protected] [email protected] [email protected] [email protected]
Name
Mark Lily Shy Cole Tom
キーワードを検索し、スコアを付ける。
メール内容からテキストを抽出する。
テキスト
ありがとう。 この本、とても楽しかったです。
メーリングリスト
収集 メーリングリストを使い、全ての ユーザーのメールを収集する。
分析
1
2
3
4
![Page 6: Bixo Web Mining Toolkit](https://reader034.vdocuments.site/reader034/viewer/2022052523/55626577d8b42aab1a8b4c65/html5/thumbnails/6.jpg)
■ Bixoがさらに使える!
![Page 7: Bixo Web Mining Toolkit](https://reader034.vdocuments.site/reader034/viewer/2022052523/55626577d8b42aab1a8b4c65/html5/thumbnails/7.jpg)
■ Bixoの有益性
商用プロジェクトのニーズへの答え!
▼ Bixoのことをもっと知りたい! Homepage: http://bixo.101tec.com/
![Page 8: Bixo Web Mining Toolkit](https://reader034.vdocuments.site/reader034/viewer/2022052523/55626577d8b42aab1a8b4c65/html5/thumbnails/8.jpg)
■ (参考)Cascadingとは
Hadoopクラス上でデータ処理するワークフローAPI。
ネームフィールドを持つタプル上で操作する。
パイプから作られるワークフロー。
困難な低レベルであるMRの詳細を減少する。
複雑な/確かな処理ワークフローをサポートする。
パイプは、これから行われるデータ処理を定義するステップ
MR= Map Reduce
詳しくは: http://www.cascading.org/
![Page 9: Bixo Web Mining Toolkit](https://reader034.vdocuments.site/reader034/viewer/2022052523/55626577d8b42aab1a8b4c65/html5/thumbnails/9.jpg)
ご清聴 ありがとうございました