ir-2 knowledge in text - firdaus solihin...1 firdaus solihin (unijoyo) 2008 knowledge in text (ir-2)...

12
1 Firdaus Solihin (unijoyo) 2008 KNOWLEDGE IN TEXT (IR-2) FIRDAUS SOLIHIN UNIVERSITAS TRUNOJOYO Firdaus Solihin (unijoyo) 2008 Teknologi for Knowledge Management Document Collection (Mengumpulkan Document/Informasi) Document Retrieval (Mengakses Document/Informasi) Text Mining (analisa berdasarkan ligusitic) Ontologies (pemodelan untuk merepresentasikan object dalam type, properties, dan relasinya)

Upload: others

Post on 02-Jan-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: IR-2 KNOWLEDGE IN TEXT - FIRDAUS SOLIHIN...1 Firdaus Solihin (unijoyo) 2008 KNOWLEDGE IN TEXT (IR-2) FIRDAUS SOLIHIN UNIVERSITAS TRUNOJOYO Firdaus Solihin (unijoyo) 2008 Teknologi

1

Firdaus Solihin (unijoyo) 2008

KNOWLEDGE IN TEXT

(IR-2)

FIRDAUS SOLIHIN

UNIVERSITAS TRUNOJOYO

Firdaus Solihin (unijoyo) 2008

Teknologi for Knowledge

Management

� Document Collection (Mengumpulkan

Document/Informasi)

� Document Retrieval (Mengakses

Document/Informasi)

� Text Mining (analisa berdasarkan ligusitic)

� Ontologies (pemodelan untuk

merepresentasikan object dalam type,

properties, dan relasinya)

Page 2: IR-2 KNOWLEDGE IN TEXT - FIRDAUS SOLIHIN...1 Firdaus Solihin (unijoyo) 2008 KNOWLEDGE IN TEXT (IR-2) FIRDAUS SOLIHIN UNIVERSITAS TRUNOJOYO Firdaus Solihin (unijoyo) 2008 Teknologi

2

Firdaus Solihin (unijoyo) 2008

DOCUMENT

COLLECTION

Firdaus Solihin (unijoyo) 2008

DOCUMENT COLLECTION

Page 3: IR-2 KNOWLEDGE IN TEXT - FIRDAUS SOLIHIN...1 Firdaus Solihin (unijoyo) 2008 KNOWLEDGE IN TEXT (IR-2) FIRDAUS SOLIHIN UNIVERSITAS TRUNOJOYO Firdaus Solihin (unijoyo) 2008 Teknologi

3

Firdaus Solihin (unijoyo) 2008

DOCUMEN COLLECTION (1)

� Domain (dependent or independent)

� Ketergantungan dgn dokumen lain

� Structured or Non Structured Texts

� Memiliki struktur khusus or tidak, ex HTML

� Formated or Non Formated Documents

� Memiliki format khusus or tidak, ex Doc vs Txt

� Textual or Multimedia Documents

� Berupa text atau multimedia

Firdaus Solihin (unijoyo) 2008

DOCUMEN COLLECTION (2)

� Monolingual or Multilingual Documents

� Berupa satu bahasa or banyak bahasa

� Centralized or Non Centralized Document Management

� Lokasi dokumen satu tempat or banyak tempat

� Controlled or Free Additional of Doc

� Pengaksesannya butuh login or tidak

� Stable or Non Stable Collections

� Ketersediaannya tetap or tidak tetap.

Page 4: IR-2 KNOWLEDGE IN TEXT - FIRDAUS SOLIHIN...1 Firdaus Solihin (unijoyo) 2008 KNOWLEDGE IN TEXT (IR-2) FIRDAUS SOLIHIN UNIVERSITAS TRUNOJOYO Firdaus Solihin (unijoyo) 2008 Teknologi

4

Firdaus Solihin (unijoyo) 2008

Permasalahan dlm Documents

Collection

� Inconsistent Document

� Incomplete descriptions

� Duplicates or Worse

� Different terminologies/ languange/

perspective/ abriviation

Firdaus Solihin (unijoyo) 2008

DOCUMENT

RETRIEVAL

Page 5: IR-2 KNOWLEDGE IN TEXT - FIRDAUS SOLIHIN...1 Firdaus Solihin (unijoyo) 2008 KNOWLEDGE IN TEXT (IR-2) FIRDAUS SOLIHIN UNIVERSITAS TRUNOJOYO Firdaus Solihin (unijoyo) 2008 Teknologi

5

Firdaus Solihin (unijoyo) 2008

DOCUMENT RETRIEVAL

Firdaus Solihin (unijoyo) 2008

DOCUMENT RETRIEVAL

� QUERY INTERPRETATION (MenggunakanQuery)

� DOCUMENTS INDEXING (MenggunakanIndex)

� RANGKING OF RETRIEVED DOCUMENTS(mengurutkan sesuai rangkingn tertentu)

� LINGUISTIC AND STATISTICAL

Contoh : Search Engine

Page 6: IR-2 KNOWLEDGE IN TEXT - FIRDAUS SOLIHIN...1 Firdaus Solihin (unijoyo) 2008 KNOWLEDGE IN TEXT (IR-2) FIRDAUS SOLIHIN UNIVERSITAS TRUNOJOYO Firdaus Solihin (unijoyo) 2008 Teknologi

6

Firdaus Solihin (unijoyo) 2008

Search Engine

Firdaus Solihin (unijoyo) 2008

www.alltheweb.com

� AllTheWeb from Fast Search & Transfer (2002)

� Index: 2,1 GB documents

� Languages supported: 52

� Linguistics used: Lemmatization, language identification, phrasing, anti-phrasing, text categorization, clustering, offensive content reduction, finite-state automata

� 30 mill. queries per hari

Page 7: IR-2 KNOWLEDGE IN TEXT - FIRDAUS SOLIHIN...1 Firdaus Solihin (unijoyo) 2008 KNOWLEDGE IN TEXT (IR-2) FIRDAUS SOLIHIN UNIVERSITAS TRUNOJOYO Firdaus Solihin (unijoyo) 2008 Teknologi

7

Firdaus Solihin (unijoyo) 2008

Document Retrieval’s

problems

� VOLUME DATA

� Sangat besar dan berkembang dinamis

� Tersebar dibanyak tempat dan beda platform

� MULTITUDE OF LANGUAGES

� Multilingual web

� 40-50 languages used on the web

� Many text encoding standart

Firdaus Solihin (unijoyo) 2008

# Website

Page 8: IR-2 KNOWLEDGE IN TEXT - FIRDAUS SOLIHIN...1 Firdaus Solihin (unijoyo) 2008 KNOWLEDGE IN TEXT (IR-2) FIRDAUS SOLIHIN UNIVERSITAS TRUNOJOYO Firdaus Solihin (unijoyo) 2008 Teknologi

8

Firdaus Solihin (unijoyo) 2008

# % Multilingual web

Firdaus Solihin (unijoyo) 2008

Document Retrieval’s

problems

� DOCUMENT QUALITY

� Missplelings (Salah eja)

� Spam and offensive content (isi sampah)

� Little text (isi tidak menggmbarkan

� All topics

� USER BEHAVIOUR

� Misspellings (Salah eja)

� Query length and query session (panjang dan seberapa

sering)

� Document yang dilihat umumnya yang diatas

Page 9: IR-2 KNOWLEDGE IN TEXT - FIRDAUS SOLIHIN...1 Firdaus Solihin (unijoyo) 2008 KNOWLEDGE IN TEXT (IR-2) FIRDAUS SOLIHIN UNIVERSITAS TRUNOJOYO Firdaus Solihin (unijoyo) 2008 Teknologi

9

Firdaus Solihin (unijoyo) 2008

TEXT MINING

Firdaus Solihin (unijoyo) 2008

TEXT MINING

� LINGUISTIC ANALYSIS

� Merubah bentuk Document or menambahkaninformation (memilah dalam S,O,P,Pre dls)

� Tagging (potongan kata yg memiliki arti), lemmatization (mengindentifikasi satu kata dariberbagai perubahan bentuk)

� KNOWLEDGE DISCOVERING IN TEXT

� Menemukan Bentuk

� Memisahkan Dan Menemukan Kesalahan

� Statistical and linguistic aproach

Page 10: IR-2 KNOWLEDGE IN TEXT - FIRDAUS SOLIHIN...1 Firdaus Solihin (unijoyo) 2008 KNOWLEDGE IN TEXT (IR-2) FIRDAUS SOLIHIN UNIVERSITAS TRUNOJOYO Firdaus Solihin (unijoyo) 2008 Teknologi

10

Firdaus Solihin (unijoyo) 2008

Lemmatization

� walk, walked, walks, walking � walk

� run, runs, ran, running � run

� go, goes, going, went, gone � go

Firdaus Solihin (unijoyo) 2008

Knowledge Discovering

Technique

� Concept extraction

� Ontology construction

� TOC construction

� Clustering

� Text categorization

� Subtechniques:

� information extraction, text analysis

Page 11: IR-2 KNOWLEDGE IN TEXT - FIRDAUS SOLIHIN...1 Firdaus Solihin (unijoyo) 2008 KNOWLEDGE IN TEXT (IR-2) FIRDAUS SOLIHIN UNIVERSITAS TRUNOJOYO Firdaus Solihin (unijoyo) 2008 Teknologi

11

Firdaus Solihin (unijoyo) 2008

ONTOLOGIES

HUBUNGAN ANTAR BAGIAN DALAM

SUATU OBJECT YANG DIGAMBARKAN

� Conceptual modelling

� Document Analysis & Text Mining

� Standarization Work

Firdaus Solihin (unijoyo) 2008

Membagun Ontologi model

Page 12: IR-2 KNOWLEDGE IN TEXT - FIRDAUS SOLIHIN...1 Firdaus Solihin (unijoyo) 2008 KNOWLEDGE IN TEXT (IR-2) FIRDAUS SOLIHIN UNIVERSITAS TRUNOJOYO Firdaus Solihin (unijoyo) 2008 Teknologi

12

Firdaus Solihin (unijoyo) 2008

Contoh Ontology

Firdaus Solihin (unijoyo) 2008

THE END