content-based clustering for tag cloud visualization

Content-based Clustering for Tag Cloud VisualizationASONAM 2009

Arkaitz ZubiagaAlberto P. Garcıa-Plaza

Vıctor FresnoRaquel Martınez

NLP & IR Group @ UNED

July 21st, 2009

Introduction

1 Introduction

2 Dataset Generation

3 Our Method

4 Results

5 Conclusions

6 Future Work

NLP Group (UNED) Content-based Tag Clustering July 21st, 2009 2 / 25

Introduction

Simple Tagging

Introduction

Collaborative Tagging

Introduction

Tag Cloud

No organization.

No relations between tags.

Introduction

Our Work

Find relations between tags to organize them:

To ease visualization and search.To ease subscribing to a group of related tags.

Previous works rely on tag co-occurrence to find relations.

What about considering web documents’ content?

Dataset Generation

1 Introduction

3 Our Method

4 Results

5 Conclusions

6 Future Work

Dataset Generation

Starting point: 140 most popular tags on Delicious (T140, tag cloud).

Tag monitoring: ∼6.000 documents/tag (∼840.000 docs., html andpdf).

Data retrieval:

Tag data for each document.Document content.

Filtering: English-written documents with tag data available.

Result: 144.574 documents (unbalanced).

Our Method

1 Introduction

3 Our Method

4 Results

5 Conclusions

6 Future Work

Our Method

Representation

Most relevant tags for each document: at least, 40,7% of the top tag

Merge documents pertaining to each T140 tag.

Stopwords removal.

Stemming.

TF-IDF representation (reducing by DF).

1 vector/tag.

Our Method

Clustering (SOM)

Our Method

Clustering Settings

12x12 sized map: 144 neurons.

vectors with 17.518 dimensions.

Learning rate: 0,1.

Neighborhood: 12.

Iterations: 50.000.

Our Method

Terminology Extraction

Merge all the documents in each neuron.

Terminology extraction for each neuron.

Representative for the neuron, but not for the rest.Language models (KLD, Kullback-Leibler Divergence).

Result: Representative terms for each neuron.

Results

1 Introduction

3 Our Method

4 Results

5 Conclusions

6 Future Work

Results

Full map available at: http://nlp.uned.es/social-tagging/

Results

Results: Computer Science

Results

Results: Design

Results

Results: Cooking

Results

Results: Coherence

Results

Results: Terminology

Conclusions

1 Introduction

3 Our Method

4 Results

5 Conclusions

6 Future Work

Conclusions

We analyzed tag clustering and terminology extraction relying ondocuments’ content.

We collected the DeliciousT140 dataset.

Unlike previous works, we considered documents’ content.

The resulting map shows encouraging results, exhibiting the potentialof collaborative tagging systems.

It could allow community discovery.

It eases tag cloud visualization, as well as improving navigation andsubscribing.

Future Work

1 Introduction

3 Our Method

4 Results

5 Conclusions

6 Future Work

Future Work

To compare our content-based approach to those based on tagco-occurrence.

To make a quantitative evaluation

To semantically analyze tags (polysemy, synonimy,...).

To extend the work to multilingual tag sets.

Future Work

Thank You for Your Attention

Achiu Arigato Danke Dhannvaad Dua Netjer en ek EfcharistoGracias Gracies Gratia Grazie Guishepeli Hvala Kiitos

Koszonom Merce Merci Mila esker Obrigado ShukranShukriya Tack Tak Takk Tanan Tapadh leat Tesekkur ederim Thank

you Toda

content-based clustering for tag cloud visualization

contentbased clustering

t140 tag

tag cooccurrence

tag monitoring

contentbased approach

tag merge documents

tag data available

multilingual tag sets

Technology

multimodal data visualization, denoising and clustering

visualization for classification and clustering techniques

topical clustering, summarization, and...

using visualization to improve clustering analysis …...

a clustering method for network visualization and monitoring...

data visualization and clustering of players in major league...

improving personal tagging consistency through visualization...

eﬃcient fiber clustering using parameterized...

a semantic clustering-based approach for searching and...

remarks on big data clustering (and its visualization)

clustering and centrality for graph...

integrated management and visualization of electronic tag...

model-based clustering and visualization of navigation...

key-node-separated graph clustering and visualization...

personalization in folksonomies based on tag clustering

tag-cloud drawing: algorithm for cloud visualization

visualization with data clustering · visualization with...

tag-cloud drawing: algorithms for cloud visualization

an active position sensing tag for sports visualization in

clustering and optimization in genetic data: the problem of ...