wine clustering ling lin. contents ❏ motivation ❏ data ❏ dimensionality reduction-mds, isomap...

Wine Clustering Ling Lin

Upload: alexandra-sparks

Post on 06-Jan-2018

239 views

Category:

Documents

0 download

Report

Download

Embed Size (px):

DESCRIPTION

Motivation Clustering is a main task of exploratory data mining Make market Segementation, marketing strategies Document Clustering Target appropriate treatment to patients with similar response patterns Image segementation Apply clustering methods to a real data

TRANSCRIPT

WineClustering

Ling Lin

Contents❏ Motivation❏ Data❏ Dimensionality Reduction-MDS, Isomap❏ Clustering-Kmeans, Ncut, Ratio Cut, SCC❏ Conclustion❏ Reference

Page 3: Wine Clustering Ling Lin. Contents ❏ Motivation ❏ Data ❏ Dimensionality Reduction-MDS, Isomap ❏ Clustering-Kmeans, Ncut, Ratio Cut, SCC ❏ Conclustion

Motivation• Clustering is a main task of exploratory data mining

Make market Segementation, marketing strategies Document Clustering Target appropriate treatment to patients with similar response

patterns Image segementation

• Apply clustering methods to a real data

Page 4: Wine Clustering Ling Lin. Contents ❏ Motivation ❏ Data ❏ Dimensionality Reduction-MDS, Isomap ❏ Clustering-Kmeans, Ncut, Ratio Cut, SCC ❏ Conclustion

Data➢ Wine data

Source of the data set : “Machine Learning Repository” , University of California, Irvine.

Data sample size : 14 variables and 178 observations in 3 classes : different cultivar

Variables :

1) Alcohol 2) Malic acid 3) Ash 4) Alcalinity of ash 5) Magnesium 6) Total phenols

7) Flavanoids 8) Nonflavanoid phenols 9) Proanthocyanins 10)Color intensity 11)Hue

12)OD280/OD315 of diluted wines 13)Proline

Page 5: Wine Clustering Ling Lin. Contents ❏ Motivation ❏ Data ❏ Dimensionality Reduction-MDS, Isomap ❏ Clustering-Kmeans, Ncut, Ratio Cut, SCC ❏ Conclustion

MDS

Can I seperate objects better? ---> change the ways to find the distances

Page 6: Wine Clustering Ling Lin. Contents ❏ Motivation ❏ Data ❏ Dimensionality Reduction-MDS, Isomap ❏ Clustering-Kmeans, Ncut, Ratio Cut, SCC ❏ Conclustion

Cityblock(L1)Distance

Chebychev Distance

Cosine Distance Mahalanobis Distance

Page 7: Wine Clustering Ling Lin. Contents ❏ Motivation ❏ Data ❏ Dimensionality Reduction-MDS, Isomap ❏ Clustering-Kmeans, Ncut, Ratio Cut, SCC ❏ Conclustion

Distances• Euclidean Distance-Straight line distance between two points.

• City-block Distance- (L1 Distance)

Sum of the distances of two points in any coordinate dimension.

Page 8: Wine Clustering Ling Lin. Contents ❏ Motivation ❏ Data ❏ Dimensionality Reduction-MDS, Isomap ❏ Clustering-Kmeans, Ncut, Ratio Cut, SCC ❏ Conclustion

Distances• Chebychev Distance-(Chessboard Distance)

The greatest distance of two points’ difference in any coordinate dimension.

• Cosine Distance-

The cosine of the angle between two vectors

Page 9: Wine Clustering Ling Lin. Contents ❏ Motivation ❏ Data ❏ Dimensionality Reduction-MDS, Isomap ❏ Clustering-Kmeans, Ncut, Ratio Cut, SCC ❏ Conclustion

Distances• Mahalanobis Distance-The dissimilarity of two vectors. S is the

covariance matrix.

Euclidean Distance = c

City-block Distance = a+b

Chebychev Distance = max(a,b) = a

Cosine Distance = cos(θ)

cθ

Page 10: Wine Clustering Ling Lin. Contents ❏ Motivation ❏ Data ❏ Dimensionality Reduction-MDS, Isomap ❏ Clustering-Kmeans, Ncut, Ratio Cut, SCC ❏ Conclustion

MDS in 3D

Page 11: Wine Clustering Ling Lin. Contents ❏ Motivation ❏ Data ❏ Dimensionality Reduction-MDS, Isomap ❏ Clustering-Kmeans, Ncut, Ratio Cut, SCC ❏ Conclustion

MDS in 2D

Isomap

Cosine

Mahalanobis

Isomap

Cosine

Mahalanobis

Page 14: Wine Clustering Ling Lin. Contents ❏ Motivation ❏ Data ❏ Dimensionality Reduction-MDS, Isomap ❏ Clustering-Kmeans, Ncut, Ratio Cut, SCC ❏ Conclustion

Kmeans Clustering

Error rate = 0.03

Page 15: Wine Clustering Ling Lin. Contents ❏ Motivation ❏ Data ❏ Dimensionality Reduction-MDS, Isomap ❏ Clustering-Kmeans, Ncut, Ratio Cut, SCC ❏ Conclustion

True Labeled Kmeans Clustering

Normalized Cut Ratio Cut SCC

ClusteringComparison

Page 16: Wine Clustering Ling Lin. Contents ❏ Motivation ❏ Data ❏ Dimensionality Reduction-MDS, Isomap ❏ Clustering-Kmeans, Ncut, Ratio Cut, SCC ❏ Conclustion

Conclusion• Dimensionality Reduction-

Different methods for calculating distances and reducing dimension

--->Wine dataV X

3D MDS Cosine Distance Mahalanobis

2D MDS Cosine Distance Mahalanobis

Isomap make Mahalanobis distance a better display

Page 17: Wine Clustering Ling Lin. Contents ❏ Motivation ❏ Data ❏ Dimensionality Reduction-MDS, Isomap ❏ Clustering-Kmeans, Ncut, Ratio Cut, SCC ❏ Conclustion

Conclusion• Clustering:

Kmeans= Rcut→ SCC→ Ncut

Ncut and Rcut : consider both inter and intra cluster connections.

However, in this dataset, the intra cluster connections are weak.

Cluster Ensembles Subspace Clustering Distributed Clustering

Nonlinear Dimensionality Reduction Approach (ISOMAP, LLE)

CLUSTERING. Overview Definition of Clustering Existing clustering methods Clustering examples

Iterative Reclassification in Agglomerative Clustering of... · Iterative Reclassification in Agglomerative Clustering ... clustering for finding improved ... flat clustering

Clustering Clustering

Text-Mining: Clustering - Philosophische Fakultät · Clustering im TM Flaches Clustering Hierarchisches Clustering Erweiterungen, LabelingLiteratur Cluster-Hypothese \Documents in

Clustering in Ratemaking: Applications in Territories ... · Clustering in Ratemaking: Applications in Territories Clustering OVERVIEW OF CLUSTERING ¾Purpose of Clustering in Insurance

C:wisoftimageoutput68700111A15022524 - NCUT

Lecture 8 Mathematics of Data: ISOMAP and LLE

Extended Isomap for Pattern Classification · Extended Isomap for Pattern Classiﬁcation Ming-Hsuan Yang Honda Fundamental Research Labs Mountain View, CA 94041 [email protected] Abstract

Clustering. 2 Outline Introduction K-means clustering Hierarchical clustering: COBWEB

NCUT 文化創意事業系

FUZZY CLUSTERING 2009/2010. 2 What is Data Clustering? Fuzzy C-Means Clustering Subtractive Clustering Data Clustering Using the Clustering GUI

Chapter19 Clustering Analysis. Content Similarity coefficient Hierarchical clustering analysis Dynamic clustering analysis Ordered sample clustering analysis

LNCS 3776 - Data Clustering: A User’s Dilemmabiometrics.cse.msu.edu/Publications/Clustering/JainLawClustering05… · Data Clustering: A User’s Dilemma 3 performing clustering,

Nonlinear Dimensionality Reduction Approach (ISOMAP)

Modul clustering data mining modul clustering

Guest Lecture: Clusteringcvml.ist.ac.at/talks/clustering-core2018.pdfsingle linkage clustering, complete linkage clustering, average linkage clustering Graph-based clustering spectral

Continuum ISOMAP for Manifold Learning

Clustering 2: Hierarchical clustering

ASA Clustering within VMDC Architecture - Cisco€¦ · ASA Clustering within VMDC Architecture ASA Clustering Overview ASA Clustering Overview The clustering feature for the ASA

Manifold learning: MDS and Isomap

Clustering Algorithms for Numerical Data Sets. Contents 1.Data Clustering Introduction 2.Hierarchical Clustering Algorithms 3.Partitional Data Clustering

Clustering. 2 Outline Introduction K-means clustering Hierarchical clustering: COBWEB

Extension of ISOMAP for Imperfect Manifolds · 2017. 10. 21. · Extension of ISOMAP for Imperfect Manifolds Chao Shao, Haitao Hu School of Computer and Information Engineering, Henan

1 Microarray Clustering. 2 Outline Microarrays Hierarchical Clustering K-Means Clustering Corrupted Cliques Problem CAST Clustering Algorithm

Tutorial 8 Clustering 1. General Methods –Unsupervised Clustering Hierarchical clustering K-means clustering Expression data –GEO –UCSC –ArrayExpress

Introduction to Web Clustering - Università degli Studi ... · Introduction to Web Clustering Some Web Clustering engines ... for Web Clustering Web data ... for Web Clustering Classic

Clustering k-mean clustering

CSE601 Clustering Ensemble - University at Buffalojing/cse601/fa12/materials/clustering_ensem… · – Clustering ensemble – Clustering in MapReduce – Semi-supervised clustering,

Canopy Clustering and K-Means Clustering

Clustering IV. Outline Impossibility theorem for clustering Density-based clustering and subspace clustering Bi-clustering or co-clustering

Clustering Supervised vs. Unsupervised Learning Examples of clustering in Web IR Characteristics of clustering Clustering algorithms Cluster Labeling 1

iodometri ncut

Affinity Clustering: Hierarchical Clustering at Scalepapers.nips.cc/paper/7262-affinity-clustering-hierarchical-clustering-at-scale.pdf · Afﬁnity Clustering: Hierarchical Clustering