stream mining: clustering von streamdaten filematthias biehl stream mining: clustering von...

56
Stream Mining: Clustering von Streamdaten- 1 Matthias Biehl Stream Mining: Clustering von Streamdaten Matthias Biehl Betreuer: Prof. Dr. Klemens Böhm Imperfektion und erweiterte Konzepte im Data Warehousing Seminar im Sommersemester 2005 06.06.2005

Upload: dinhdat

Post on 22-May-2019

234 views

Category:

Documents


0 download

TRANSCRIPT

Stream Mining: Clustering von Streamdaten- 1Matthias Biehl

Stream Mining:Clustering von Streamdaten

Matthias BiehlBetreuer: Prof. Dr. Klemens Böhm

Imperfektion und erweiterte Konzepteim Data Warehousing

Seminar im Sommersemester 200506.06.2005

Stream Mining: Clustering von Streamdaten- 2Matthias Biehl

Stream Mining

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Gold Stream Mining Alaska, USA; um 1900 [12]

Stream Mining: Clustering von Streamdaten- 2Matthias Biehl

Stream Mining

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Gold Stream Mining Alaska, USA; um 1900 [12]

ClusteringAlgorithmus

Datenstrom

Zusammenhängein Daten

Stream Mining: Clustering von Streamdaten- 3Matthias Biehl

Anwendungsbeispiel: Network Intrusion Detection

…...............

...http37K9114.2.12.2999.40.22.12

...ssh99K12114.2.12.1383.12.44.10

...http20K10114.2.12.54101.23.0.23

...protocolbytesdurationdestinationsourceBeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Stream Mining: Clustering von Streamdaten- 3Matthias Biehl

Anwendungsbeispiel: Network Intrusion Detection

…...............

...http37K9114.2.12.2999.40.22.12

...ssh99K12114.2.12.1383.12.44.10

...http20K10114.2.12.54101.23.0.23

...protocolbytesdurationdestinationsourceBeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

X

X

X XX

X

X

X

X

Buffer Overflow

DOS Normal

duration

bytes

Stream Mining: Clustering von Streamdaten- 4Matthias Biehl

Übersicht

� Herkömmliches Clustering� Stream Clustering

�Eigenschaften von Streamdaten�Allg. Lösungsansätze

� Algorithmus für Stream Clustering�Datenstruktur�Mikroclustering�Pyramidal Time Frame�Makroclustering

� Zusammenfassung

Stream Mining: Clustering von Streamdaten- 5Matthias Biehl

Übersicht

� Herkömmliches Clustering� Stream Clustering

�Eigenschaften von Streamdaten�Allg. Lösungsansätze

� Algorithmus für Stream Clustering�Datenstruktur�Mikroclustering�Pyramidal Time Frame�Makroclustering

� Zusammenfassung

Stream Mining: Clustering von Streamdaten- 6Matthias Biehl

Herkömmliches Clustering

� Gruppen in statischen Daten finden

XXXX

X

X

X

X

X

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

XX

XXXX

X XX

Stream Mining: Clustering von Streamdaten- 6Matthias Biehl

Herkömmliches Clustering

� Gruppen in statischen Daten finden

XXXX

X

X

X

X

X

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Datenpunkt

XMikroclusteringPyramidal TimeMakroclustering

Zusammenfsg.

XX

XXXX

X XX

Stream Mining: Clustering von Streamdaten- 6Matthias Biehl

Herkömmliches Clustering

� Gruppen in statischen Daten finden

XXXX

X

X

X

X

X

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Datenpunkt

XMikroclusteringPyramidal TimeMakroclustering

Zusammenfsg.

Dimension

MakroclusteringZusammenfsg.

XX

XXXX

X XX

Stream Mining: Clustering von Streamdaten- 6Matthias Biehl

Herkömmliches Clustering

� Gruppen in statischen Daten finden

XXXX

X

X

X

X

X

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Datenpunkt

XMikroclusteringPyramidal TimeMakroclustering

Zusammenfsg.

Dimension

MakroclusteringZusammenfsg.

Abstand

X

x

XX

XXXX

X XX

Stream Mining: Clustering von Streamdaten- 6Matthias Biehl

Herkömmliches Clustering

� Gruppen in statischen Daten finden

XXXX

X

X

X

X

X

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Datenpunkt

XMikroclusteringPyramidal TimeMakroclustering

Zusammenfsg.

Dimension

MakroclusteringZusammenfsg.

Abstand

X

x

Cluster

x

XX

XXXX

X XX

Stream Mining: Clustering von Streamdaten- 7Matthias Biehl

Übersicht

� Herkömmliches Clustering� Stream Clustering

�Eigenschaften von Streamdaten�Allg. Lösungsansätze

� Algorithmus für Stream Clustering�Datenstruktur�Mikroclustering�Pyramidal Time Frame�Makroclustering

� Zusammenfassung

Stream Mining: Clustering von Streamdaten- 8Matthias Biehl

Stream Clustering

� Gruppen in dynamischen Daten finden� Aktuelles Clustering zu jedem Zeitpunkt� Analyse der historischen Cluster

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

XXXX

X

X

X

XX

XXXX

XXX

X

X

XX

X

XXX X

X

XX

XX

XX

X

XXX

XXX

X

XXX

X

X XXXXX

X

XX

XX

X

XX

XXX

XX

XX

XX

XX X

X

X

X

XX

X

XXX

XX

X

XX

XXX

XX

Stream Mining: Clustering von Streamdaten- 8Matthias Biehl

Stream Clustering

� Gruppen in dynamischen Daten finden� Aktuelles Clustering zu jedem Zeitpunkt� Analyse der historischen Cluster

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

XXXX

X

X

X

X

XX

XXXX

XXX

X

X

XX

X

XXX X

X

XX

XX

XX

X

XXX

XXX

X

XXX

X

X XXXXX

X

XX

XX

X

XX

XXX

XX

XX

XX

XX X

X

X

X

XX

X

XXX

XX

X

XX

XXX

XX

Stream Mining: Clustering von Streamdaten- 8Matthias Biehl

Stream Clustering

� Gruppen in dynamischen Daten finden� Aktuelles Clustering zu jedem Zeitpunkt� Analyse der historischen Cluster

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

XXXX

X

X

X

X

XX

XXXX

XXX

X

X

XX

X

XXX X

X

XX

XX

XX

X

XXX

XXX

X

XXX

X

X XXXXX

X

XX

XX

X

XX

XXX

XX

XX

XX

XX X

X

X

X

XX

X

XXX

XX

X

XX

XXX

XX

Stream Mining: Clustering von Streamdaten- 8Matthias Biehl

Stream Clustering

� Gruppen in dynamischen Daten finden� Aktuelles Clustering zu jedem Zeitpunkt� Analyse der historischen Cluster

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

X XX

X

X

XXX

X

XXXXX

XXXX

X

X

XXX

X

XXXX

XX

XX

XX X

X

X

XXXX

X

X

X

XX

XXXX

XXX

X

X

XX

X

XXX X

X

XX

XX

XX

X

XXX

XXX

X

XXX

X

X XXXXX

X

XX

XX

X

XX

XXX

XX

XX

XX

XX X

X

X

X

XX

X

XXX

XX

X

XX

XXX

XX

Stream Mining: Clustering von Streamdaten- 9Matthias Biehl

Eigenschaften von Streamdaten

� Zeitliche Komponente�Aktuelle Daten�Historische Daten

� Kontinuität�Große Datenmengen�Hohe Datenraten

� EingschränkteZugriffsmöglichkeit

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Stream Mining: Clustering von Streamdaten- 9Matthias Biehl

Eigenschaften von Streamdaten

� Zeitliche Komponente�Aktuelle Daten�Historische Daten

� Kontinuität�Große Datenmengen�Hohe Datenraten

� EingschränkteZugriffsmöglichkeit

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

x

neumittel

altXX XX

X

XX

XX

y

Stream Mining: Clustering von Streamdaten- 9Matthias Biehl

Eigenschaften von Streamdaten

� Zeitliche Komponente�Aktuelle Daten�Historische Daten

� Kontinuität�Große Datenmengen�Hohe Datenraten

� EingschränkteZugriffsmöglichkeit

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

x

neumittel

altXX XX

X

XX

XX

y

t0 1 2 3 ...

Stream Mining: Clustering von Streamdaten- 9Matthias Biehl

Eigenschaften von Streamdaten

� Zeitliche Komponente�Aktuelle Daten�Historische Daten

� Kontinuität�Große Datenmengen�Hohe Datenraten

� EingschränkteZugriffsmöglichkeit

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

x

neumittel

altXX XX

X

XX

XX

y

t0 1 2 3 ...

15

11

78

40

... ClusteringAlgorithmus

Stream Mining: Clustering von Streamdaten- 10Matthias Biehl

Allgemeine Lösungsansätze

� Aktuelle Cluster�Einfache Operationen�Konstanter Speicher:

Alte Daten verdrängen

� Historische Cluster�Verlangsamen des Wachstums:

Alte Daten eliminieren�Approximation eliminierter Daten

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Stream Mining: Clustering von Streamdaten- 11Matthias Biehl

Übersicht

� Herkömmliches Clustering� Stream Clustering

�Eigenschaften von Streamdaten�Allg. Lösungsansätze

� Algorithmus für Stream Clustering�Datenstruktur�Mikroclustering�Pyramidal Time Frame�Makroclustering

� Zusammenfassung

Stream Mining: Clustering von Streamdaten- 12Matthias Biehl

Architektur eines Stream Clustering Systems

Snapshots

Mikroclustering

15

11

78

40

...

Online

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Stream Mining: Clustering von Streamdaten- 12Matthias Biehl

Architektur eines Stream Clustering Systems

Snapshots

Mikroclustering

15

11

78

40

...

Online

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Clustering Ergebnis

Makroclustering Offline

Stream Mining: Clustering von Streamdaten- 12Matthias Biehl

Architektur eines Stream Clustering Systems

Snapshots

Mikroclustering

15

11

78

40

...

Online

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Clustering Ergebnis

Makroclustering Offline

Mikroclustering

Stream Mining: Clustering von Streamdaten- 13Matthias Biehl

Mikrocluster Datenstruktur

� Repräsentiert ein Cluster� Fasst Daten über kurze Zeitperiode zusammen� Anzahl der Mikrocluster konstant

� Eigenschaft: Additivität und Subtraktivität� Erlaubt inkrementelle Updates

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Mikrocluster

xi: Datenpunktn: # Datenpunkted: DimensionID n

Stream Mining: Clustering von Streamdaten- 13Matthias Biehl

Mikrocluster Datenstruktur

� Repräsentiert ein Cluster� Fasst Daten über kurze Zeitperiode zusammen� Anzahl der Mikrocluster konstant

� Eigenschaft: Additivität und Subtraktivität� Erlaubt inkrementelle Updates

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Mikrocluster

xi: Datenpunktn: # Datenpunkted: DimensionID n

Stream Mining: Clustering von Streamdaten- 14Matthias Biehl

Projected Clustering Algorithmus

� Betrachte für jedes Cluster nur eine Teilmenge der Dimensionen

� 2 Aufgaben:�Finden geeignete Dimensionen D�Finden von Cluster auf D

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

y

x

xx

x

x

xx

xx

xx

xxx

xx

xxx

xx

xx z

x

xxxxxx

xxxxxxxxxx

Stream Mining: Clustering von Streamdaten- 15Matthias Biehl

Mikroclustering Algorithmus (1)

XXXX

X

X

X

X

X

1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Stream Mining: Clustering von Streamdaten- 15Matthias Biehl

Mikroclustering Algorithmus (1)

XXXX

X

X

X

X

X

1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

X

Stream Mining: Clustering von Streamdaten- 15Matthias Biehl

Mikroclustering Algorithmus (1)

XXXX

X

X

X

X

X

1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

X

X XX

XX X

Stream Mining: Clustering von Streamdaten- 15Matthias Biehl

Mikroclustering Algorithmus (1)

XXXX

X

X

X

X

X

1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

X

XXXX

X

Stream Mining: Clustering von Streamdaten- 15Matthias Biehl

Mikroclustering Algorithmus (1)

XXXX

X

X

X

X

X

1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

XXX X

Stream Mining: Clustering von Streamdaten- 15Matthias Biehl

Mikroclustering Algorithmus (1)

XXXX

X

X

X

X

X

1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

XXX X

01C3

11C2

11C1

yx

Stream Mining: Clustering von Streamdaten- 16Matthias Biehl

Mikroclustering Algorithmus (2)

XXXX

X

X

X

X

X X

1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster

ManhattanSegmental Distance

Âd (xd - md)#dmsd =

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Stream Mining: Clustering von Streamdaten- 16Matthias Biehl

Mikroclustering Algorithmus (2)

XXXX

X

X

X

X

X X

1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster

ManhattanSegmental Distance

Âd (xd - md)#dmsd =

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

2--2C3

1,512C2

3,534C1

msdyx

Stream Mining: Clustering von Streamdaten- 16Matthias Biehl

Mikroclustering Algorithmus (2)

XXXX

X

X

X

X

X X

1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster

ManhattanSegmental Distance

Âd (xd - md)#dmsd =

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

2--2C3

1,512C2

3,534C1

msdyxX XXX

XX X

Âd (xd - m#dmsd =

Stream Mining: Clustering von Streamdaten- 16Matthias Biehl

Mikroclustering Algorithmus (2)

XXXX

X

X

X

X

X X

1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster

ManhattanSegmental Distance

Âd (xd - md)#dmsd =

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

2--2C3

1,512C2

3,534C1

msdyxXXXX

X

Stream Mining: Clustering von Streamdaten- 16Matthias Biehl

Mikroclustering Algorithmus (2)

XXXX

X

X

X

X

X X

1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster

ManhattanSegmental Distance

Âd (xd - md)#dmsd =

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

2--2C3

1,512C2

3,534C1

msdyx

XX X

Stream Mining: Clustering von Streamdaten- 17Matthias Biehl

Mikroclustering Algorithmus (3)

XXXX

X

X

X

X

X X

1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster

natural limiting radius:Verwende Daten aus

Mikrocluster

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

3

XXXX

X

Stream Mining: Clustering von Streamdaten- 17Matthias Biehl

Mikroclustering Algorithmus (3)

XXXX

X

X

X

X

X X

1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster

natural limiting radius:Verwende Daten aus

Mikrocluster

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

2

XXXX

X 3

XXXX

X

Stream Mining: Clustering von Streamdaten- 18Matthias Biehl

Mikroclustering Algorithmus (3)

XXXX

X

X

X

X

X X

1. Bestimme Dimensionen für jedes Cluster2. Finde nächstes Cluster3. Hinzufügen oder neues Cluster

x

y

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Stream Mining: Clustering von Streamdaten- 19Matthias Biehl

Architektur eines Stream Clustering Systems

Snapshots

Mikroclustering

15

11

78

40

...

Online

Clustering Ergebnis

Makroclustering Offline

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Stream Mining: Clustering von Streamdaten- 20Matthias Biehl

Speichern der Snapshots

� Momentaner Zustand aller Mikrocluster� Periodisch alte Snapshots filtern

�Unterschiedliche zeitliche Auflösungen�Zeitliche Auflösung

–abhängig von Neuigkeit–bestimmt die Granularität

�Umgesetzt in Pyramidal Time Frame

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Stream Mining: Clustering von Streamdaten- 21Matthias Biehl

Pyramidal Time Frame

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Stream Mining: Clustering von Streamdaten- 21Matthias Biehl

Pyramidal Time Frame

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Stream Mining: Clustering von Streamdaten- 21Matthias Biehl

Pyramidal Time Frame

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Stream Mining: Clustering von Streamdaten- 21Matthias Biehl

Pyramidal Time Frame

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

� Anzahl Daten ∈ O(log(t))

Stream Mining: Clustering von Streamdaten- 22Matthias Biehl

Architektur eines Stream Clustering Systems

Snapshots

Mikroclustering

15

11

78

40

...

Online

Clustering Ergebnis

Makroclustering Offline

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Stream Mining: Clustering von Streamdaten- 23Matthias Biehl

Makroclustering

• Anzahl A der Cluster• Zeithorizont H

1. Erstelle Menge der Mikrocluster über Zeithorizont H

2. Berechne A Cluster aus Mikroclustern mit herkömmlichem Algorithmus

Clustering Ergebnis

Makroclustering

Snapshots

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Stream Mining: Clustering von Streamdaten- 24Matthias Biehl

Übersicht

� Herkömmliches Clustering� Stream Clustering

�Eigenschaften von Streamdaten�Allg. Lösungsansätze

� Algorithmus für Stream Clustering�Datenstruktur�Mikroclustering�Pyramidal Time Frame�Makroclustering

� Zusammenfassung

Stream Mining: Clustering von Streamdaten- 25Matthias Biehl

Zusammenfassung

� Finden von Zusammenhängen in schnellen Datenströmen

� Veraltete Daten identifizieren und „vergessen“

� Datenstruktur: Inkrementelle Updates� Algorithmus: Zerlegung in

Online-/Offline-Komponenten� Umgang mit hochdimensionalen Daten

BeispieleHerkömmliches ClusteringStream Clustering-Eigenschaften-LösungsansatzAlgorithmus-Datenstruktur-Mikroclustering-Pyramidal Time-MakroclusteringZusammenfsg.

Stream Mining: Clustering von Streamdaten- 26Matthias Biehl

Literatur (1)� [1] C. Aggarwal. An intuitive framework for understanding

changes in evolving datastreams, 2002.� [2] Charu C. Aggarwal. A framework for diagnosing changes

in evolving data streams. In ACM SIGMOD 2003.� [3] Charu C. Aggarwal, Jiawei Han, Jianyong Wang, and

Philip S. Yu. A framework for clustering evolving data streams. In VLDB 2003.

� [4] Charu C. Aggarwal, Jiawei Han, Jianyong Wang, and Philip S. Yu. A framework for projected clustering of high dimensional data streams. In VLDB 2004.

� [5] P. Domingos and G. Hulten. Mining high-speed data streams. In Knowledge Discovery and Data Mining, pages 71–80, 2000.

� [6] John A. Hartigan. Clustering Algorithms. Wiley, New York, 1975.

� [7] Anil K. Jain and Richard C. Dubes. Algorithms for Clustering Data. Prentice Hall,1988.

Stream Mining: Clustering von Streamdaten- 26Matthias Biehl

Literatur (1)� [1] C. Aggarwal. An intuitive framework for understanding

changes in evolving datastreams, 2002.� [2] Charu C. Aggarwal. A framework for diagnosing changes

in evolving data streams. In ACM SIGMOD 2003.� [3] Charu C. Aggarwal, Jiawei Han, Jianyong Wang, and

Philip S. Yu. A framework for clustering evolving data streams. In VLDB 2003.

� [4] Charu C. Aggarwal, Jiawei Han, Jianyong Wang, and Philip S. Yu. A framework for projected clustering of high dimensional data streams. In VLDB 2004.

� [5] P. Domingos and G. Hulten. Mining high-speed data streams. In Knowledge Discovery and Data Mining, pages 71–80, 2000.

� [6] John A. Hartigan. Clustering Algorithms. Wiley, New York, 1975.

� [7] Anil K. Jain and Richard C. Dubes. Algorithms for Clustering Data. Prentice Hall,1988.

� [3] Charu C. Aggarwal, Jiawei Han, Jianyong Wang, and Philip S. Yu. A framework for clustering evolving data streams. In VLDB 2003.

� [4] Charu C. Aggarwal, Jiawei Han, Jianyong Wang, and Philip S. Yu. A framework for projected clustering of high dimensional data streams. In VLDB 2004.

Stream Mining: Clustering von Streamdaten- 27Matthias Biehl

Literatur (2)� [8] L. Kaufman and P.J. Rousseeuw. Finding Groups in Data: An

Introduction to Cluster Analysis. Wiley, New York, 1990.

� [9] Rainer Koschke and Thomas Eisenbarth. A framework for experimental evaluation of clustering techniques. In 8th International Workshop on Program Comprehension (IWPC2000), pages 201 –210, Limerick, Irland, Juni 2000.

� [10] L. O’Callaghan, N. Mishra, A. Meyerson, S. Guha, and R. Motwani. Streamingdata algorithms for high-quality clustering. In Proceedings of IEEE International Conference on Data Engineering, 2002.

� [11] Tian Zhang, Raghu Ramakrishnan, and Miron Livny. Birch: An efficient clustering method for very large databases. In ACM SIGMOD Workshop on Research Issues on Data Mining and Knowledge Discovery, pages 103–114, Montreal, Canada, 1996.

� [12] Alaska State Library http://library.state.ak.us/hist/goldrush/table.html

� [13] NYSE Statistical Data http://www.nyse.com/marketinfo/datalib/1022743347427.html