classification and clustering methods development and implementation for unstructured documents...

Classification and clustering methods development and implementation for unstructured documents collections

byOsipova Nataly

St.Petesburg State University Faculty of Applied Mathematics and Control Processes Department of Programming Technology

Contents

IntroductionMethods descriptionInformation Retrieval SystemExperiments

Contextual Document Clustering

was developed in joined project ofApplied Mathematics and Control Processes Faculty, St. Petersburg State University and Northern Ireland Knowledge Engineering Laboratory (NIKEL), University of Ulster.

Definitions

DocumentTerms dictionaryDictionaryClusterWord contextContext or document conditional

probability distributionEntropy

Document conditional probability distribution

Document x

yword1 word2 word3 …wordn

tf(y)5106

p(y|x)5/m10/m6/m

y – wordstf(y) – y frequencyp(y|x) – y conditional probability in document xm – document x size

(5/m, 10/m,6/m,…,16/m ) – document conditional probability distribution

Word context

Word wDocument x1 Document x2 Document xk

yword1 word2 …wordn1

tf(y)510

p(y|x1)5/m110/m1

yword1 word3 …wordn2

tf(y)712

p(y|x1)7/m112/m1

yword1 word4 …wordnk

tf(y)209

p(y|x1)20/mk9/mk

yword1 word2 word3 …wordnk

tf(y)5+7+20=321012

p(y|w)32/m10/m12/m

Context conditional probability distribution

Contents

Methods

document clustering methoddictionary build methodsdocument classification method using

training set

Information retrieval methods:keyword search methodcluster based search methodsimilar documents search method

Contextual Documents Clustering

Documents Dictionary Narrow context words

Clusters

Distances calculation

Entropy

)log(*)

p1 pnp2

y context conditional probability distribution

p1+p2+…+pn=1

p1 pnp2

Uncertainly measure, here it is used to characterize commonness (narrowness) of the word context.

Contextual Document Clustering

maxH(y)=H (

Entropy

α0 10.5

)2(log2 1, 21 pp

)loglog(]),([ 221121 ppppppH

H( ) H( ) H( )

Word Context - Document Distance

21 ppp

y context conditional probability distribution

Document x conditional probability distribution

Average conditional probability distribution

Word Context - Document Distance

JS[p1,p2]=H( )

- 0.5H( )

Jensen-Shannon divergence

210]2,1[

0]2,1[

ppppJS

Dictionary construction

Why:- big volumes: 60,000 documents, 50,000 words => 15,000

words in a context- narrow context words importance

Dictionary construction

Delete words with1. High or low frequency2. High or low document frequency3. 1. and 2.

Retrieval algorithms

keyword search methodcluster based search methodsearch by example method

Keyword search method

Document 1word 1word 2word 3…word n1

Request: word 2 Result set: document 1document3

Cluster based search method

Documents

Cluster 3word 1word 23…word n3

Documents Documents

Cluster context words

Request: word 1 Result set: Cluster 1Cluster 3

classification and clustering methods development and implementation for unstructured documents...

word n4request

word n1document

word n2document

word n2cluster

document 1document3cluster

document xm document

low document frequency3

cluster n topic

Documents

graph-based multimodal clustering for social event detection...

automatic face annotation in personal photo collections...

evaluating the use of clustering for automatically...

scatter/gather : a cluster based approach for browsing large...

clustering iv. outline impossibility theorem for clustering...

mining unstructured reviews

recent work in image-based rendering from unstructured image...

temporal event clustering for digital photo collections

fast effective clustering for graphs and document...

documentation unstructured

affinity clustering: hierarchical clustering at...

fv, unstructured

unstructured p2p

search results clustering · what is search results...

optimizing unstructured data

clustering clustering

generation of unstructured hexahedron- dominated ... · pdf...

knowledge discovery from large collections of … discovery...

unstructured lumigraph rendering

distributedamorphousramp constructionin unstructured