adatbányászat az internet korszakában

29
Adatbányászat az Internet korszakában Digitális lábnyomok és adatelemzés Budapest, 2009.01.28

Upload: feng

Post on 28-Jan-2016

28 views

Category:

Documents


1 download

DESCRIPTION

Adatbányászat az Internet korszakában. Digitális lábnyomok és adatelemzés. Budapest, 2009.01.28. Mi is az adatbányászat?. Adatbányászat az Interneten. Bemutatkozás. Data Research Kft. 2005-ben alakult – 100%-ban magyar tulajdonú tanácsadó cég. Célkitűzése: - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Adatbányászat az Internet korszakában

Adatbányászat az Internet korszakában

Digitális lábnyomok és adatelemzés

Budapest, 2009.01.28

Page 2: Adatbányászat az Internet korszakában

Bemutatkozás Mi is az adatbányászat?

Adatbányászat az Interneten

Page 3: Adatbányászat az Internet korszakában

Data Research Kft.

2005-ben alakult – 100%-ban magyar tulajdonú tanácsadó cég. Célkitűzése: 1. Új elemzési módszertan kifejlesztése primer és

szekunder adatok kombinációján keresztül, 2. CRM jellegű elemzések meghonosítása3. Innovatív megoldások kifejlesztése (Voice Miner,

MOSAiC tanulmány család, Churn Kompetencia Center üzemeltetése)

4. Tudástranszfer – SPSS Magyarországgal közösen CRM témájú szeminárium sorozat indítása.

2005-2007 között a Data Research Kft. a TÁRKI csoport tagja, 2007 óta a Nextent informatikai cégcsoport tagja

Page 4: Adatbányászat az Internet korszakában

Data Research Kft. szolgáltatás portfoliója

DATA RESEARCH CHURN KOMPETENCIA

CENTER

PIACKUTATÁS

• Egyedi kvalitatív/kvantitatív kutatások• Fizetési teszt mérés

• MOSAIC tanulmányok

KOMBINÁLT ELEMZÉSEK

• Árrugalmasság mérése

• Termékbevezetés/árazás

hatáselemzése

ADATBÁNYÁSZAT• Ügyfélszegmentáció• Termékaffinitás

• Churn elemzés• Várható élettartam számítás

OKTATÁS, WORKSHOPOK

KONZULTÁCIÓS CSOMAGOK• Útmutatók kidolgozása ügyfélszolgálat számára

(megtartás, keresztértékesítés)

• Ügyfélszolgálati folyamatok átvilágítása

INNOVATÍV MEGOLDÁSOK• Voice Mining – hanganyagok elemzése

• Community elemzések

Page 5: Adatbányászat az Internet korszakában

BemutatkozásAdatbányászat az Interneten

Mi is az adat- bányászat?

Page 6: Adatbányászat az Internet korszakában

Néhány alapfogalom az üzleti intelligencia területről

Adattárház/adatpiac: egy olyan intelligens adatbázis, mely lehetővé teszi az üzleti célú adatelemzések hatékony végrehajtását

OLAP: egy multidimenzionális lekérdező felület – mely kiválós eszköz annak feltárására, hogy mi történik, de alkalmatlan előrejelzések elkészítésére illetve az okok feltárására.

Adatbányászat: olyan MI algoritmusokra épülő módszertan, mely egyrészt alkalmas rejtett információk feltárására, ok-okozati összefüggések megkeresésére és ez alapján előrejelzések elkészítésére.

Page 7: Adatbányászat az Internet korszakában

Adatok osztályzása

Múltbéli viselkedés Jelen Jövőbeni akció

Adat-bányászat

Kérdőíves kutatás

Az adatbányászat az ügyfelek múltbeli viselkedés adatainak felhasználásával minden egyes ügyfélre kiszámol egy speciális ügyfél jellemzőt (churn valószínűség, termék affinitás, stb). Az információ leíró jellegű – az adott körülmények között érvényes információ (feltéve, hogy a múltbeli minta érvényes a jelenre is) A kérdőíves kutatás az ügyfeleknek

ugyancsak speciális attitűdjeit próbálja kinyerni – és ezen információkra is jellemző, hogy az ügyfelek jelen állapotát tükrözi az adott körülmények között. A jövővel kapcsolatos információk megbízhatósága kérdéses. Az információk nem egyéni szintűek.

Page 8: Adatbányászat az Internet korszakában

Néhány példa adatbányászati elemzések outputjára

Múltbéli viselkedés Jelen Jövőbeni akció

LEGFONTOSABB TULAJDONSÁG:

• minden ügyfélre rendelkezésre áll (ügyfélszint)• a jelenlegi állapotot tükrözi – amennyiben a múltbeli összefüggések igazak• előrejelzésre használják – múltbeli viselkedés alapján annak előrejelzése, hogy mi történik a közeljövőben

Churn valószínűség

Annak a valószínűsége, hogy az adott ügyfél a következő x hónapban elhagyja az adott vállalatot

Szegmens címke

Valamilyen ügyféljellemzők ügyfelek automatikus szegmentálása

Termék affinitás

Mekkora a valószínűsége, hogy az adott ügyfél az elkövetkező x hónapban vásárol az adott termékből

Ügyfélérték

Az ügyfél által generált jövedelem + várható élettartam számítás

Reakciókészség

Mekkora a valószínűsége annak, hogy egy megkeresés során pozitívan reagál

Adat-bányászat

Page 9: Adatbányászat az Internet korszakában

Adatbányászati algoritmusok (MI „örökség”)

Irányítatlan algoritmusok – Klaszterező eljárások– Asszociációs szabályok– Idősor elemzések

Irányított algoritmusok (klasszifikáció)– Döntési fák– Neurális hálók– Logisztikus regressziók– Genetikai algoritmusok

Page 10: Adatbányászat az Internet korszakában

BemutatkozásAdatbányászat az Interneten

Mi is az adatbányászat?

Page 11: Adatbányászat az Internet korszakában

Adatbányászat az Interneten

Két téma

Új technológiák ismertetése

Néhány érdekes honlap

Olyan új elemzése technológiák bemutatása, melyek lehetővé teszik az Interneten lévő publikus adatok automatikus elemzését

Az Interneten számos olyan oldal van, ahol a látogató barangolását különböző adatbányászati technológiák támogatják

Page 12: Adatbányászat az Internet korszakában

Új technológiák – Text Mining és Gráf

Mining

Page 13: Adatbányászat az Internet korszakában

Digitális nyomok az IT rendszerekben

Adattárház

HanganyagokSzöveges

dokumentumok

Hálózati adatok

X mining

AdatbányászatKérdőíves kutatási adatok

Page 14: Adatbányászat az Internet korszakában

Új adat források – még pontosabb elemzések Text mining: szöveg alapú struktúráratlan adatbázisok automatikus feldolgozása (szövegek értelmezése és kategorizálása) Voice Mining: hanganyagok automatikus feldolgozása (ügyfélszolgálati hanganyagokból érzelem és protokoll információk detektálása) Gráf Mining: szociális hálózatok modellezése és információ kinyerése (Interneten közösségi hálózatok illetve linkek elemzése)

Interneten tárolt adatok szerepe nő!

Page 15: Adatbányászat az Internet korszakában

Szövegbányászat

A szövegbányászat a strukturálatlan vagy kis mértékben strukturált szöveges állományokból történő ismeret kinyerés tudománya. Olyan különböző dokumentum forrásokból származó szöveges ismeretek és információk gépi intelligenciával történő kigyűjtése és reprezentációja, amely a feldolgozás előtt rejtve és feltáratlanul maradt az elemző előtt (bővebben: http://www.vazsonyi.hu/szovegbanyaszat/)

Célja: jelentéstartalmak felismeréseAttribútuma: öntanuló (lásd AI) és képes információ

strukturálásra

kategorizál tömörít

újdonság detekció

releváns keresés

Page 16: Adatbányászat az Internet korszakában

Kitűzött feladat

Online tartalmak (hírek, blogok, fórumok) figyelése, az ebben található információkból adatok szöveganalitikai feldolgozása, ezek alapján elemzések, trendfigyelés, monitoring…Egy adott cégről található dokumentumok osztályzása

Elemzés

Egységes adatbázis létrehozása

Automatikus letöltő és feldolgozó eljárások,

scriptek

Január

Febru

ár

Júliu

s

Szepte

mber

Októ

ber

Novem

ber

Monitoring, trendfigyelés

Textmining feldolgozás

Page 17: Adatbányászat az Internet korszakában

Eredmény I.

Vélemény szótár – pozitív és negatív jelzőkkel

Vélemény szótár – pozitív és negatív jelzőkkel

Page 18: Adatbányászat az Internet korszakában

Eredmény II. – vélemények alakulása

Internetes blogok és ezen keresztül bloggerek automatikusan elemezhetők , ez alapján különbözö statisztikák készíthetők. Pl. „egy adott cégről írt pozitív illetve negatív tartalmaú vélemények hogyan alakultak az elmúlt 2 évben”

Page 19: Adatbányászat az Internet korszakában

Gráf mining

Olyan algoritmusok gyűjteménye, melyek gráf alapú struktúrákból (általában kis világok) automatikusan nyernek ki információt, a gráfban lévő objektumokhoz új attribútumokat rendel.

Milyen információk nyerhetők ki? • Klaszterek, közösségek – az egymással szoros kapcsolatban lévők detektálása• Vélemény vezérek detktálása – egy közösségen belül speciális szerepet betöltők azonosítása• Információterjedés vizsgálata (vagy fertőzés vizsgálat) – egy hálózaton belül hogyan terjed az információ

Page 20: Adatbányászat az Internet korszakában

Gráf mining (hálózati kutatás matematikai módszerekkel)

Hálózati elemek - pont és vonal

Központiság (Dani) centralitás/fokszámKöztesség(Gergő)Közelség(Tamás – András)Elérés(% 1, 2, 3 lépéssel)

Eszter

Judit

Tamás

Dani

András

Rita

Roland

Miklós

Andi

Gergő

Page 21: Adatbányászat az Internet korszakában

Egy kapcsolati háló

Ez egy ember kapcsolati hálója - iwiw adatok alapján.Első ránézésre értelmez-hetetlen!

Page 22: Adatbányászat az Internet korszakában

Kapcsolati háló értelmezése gráf mining segítségével

Automatikusan detektálásra kerültek iskolás, munkahelyi és egyéb kapcsolatai!

Page 23: Adatbányászat az Internet korszakában

Gráf mining és text mining alkalmazások

Gráf mining Mobil hívások illetve e-mail-ek alapján hálózati elemzések (pl. humán tanácsadó cégek) Banki átutalások vizsgálata – bedőlési kockázatok pontosabb mérése Internetes közösségek elemzése

Gráf mining és text mining Blogok elemzése – bloggerek közötti kapcsolatok feltárása, vélemény formálók detektálása Vélemény terjedés vizsgálata

Page 24: Adatbányászat az Internet korszakában

Néhány érdekes honlap

Page 25: Adatbányászat az Internet korszakában

www.amazon.com

Nyitó oldalon:- Recommended

for You- Latest from

Your Favorite Artists, Including Pat Metheny Group

- New For You- Inspired by

Your Wish List- Didn't Get What

You Wished For? Treat Yourself

- For You to Enjoy- Most Wished For

in Jazz

Page 26: Adatbányászat az Internet korszakában

www.amazon.com

Termék oldalon:- Frequently

Bought Together- Customers Who

Bought This Item Also Bought

- Listen To Samples

- Editorial Reviews

- Customer Reviews

Page 27: Adatbányászat az Internet korszakában

www.farecast.com

Page 28: Adatbányászat az Internet korszakában
Page 29: Adatbányászat az Internet korszakában

Köszönöm a figyelmet!