1 sistem pencarian dan capaian dokumen apa itu maklumat ? teori maklumat kitar hayat maklumat
Post on 22-Dec-2015
254 views
TRANSCRIPT
![Page 1: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/1.jpg)
1
SISTEM PENCARIAN DAN CAPAIAN DOKUMEN
Apa itu maklumat ?
Teori Maklumat
Kitar Hayat Maklumat
![Page 2: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/2.jpg)
2
Information Hierarchy
Wisdom
Knowledge
Information
Data
Data
• The raw material of information
Information
• Data organized and presented by someone
Knowledge
• Information read, heard or seen and understood
Wisdom
• Distilled and integrated knowledge and understanding
![Page 3: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/3.jpg)
3
Maklumat (Information)
Where is the Life we have lost in living?Where is the wisdom we have lost in knowledge?Where is the knowledge we have lost in information?
-- T.S. Eliot, “The Rock”
Where is the information we have lost in data?
![Page 4: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/4.jpg)
4
Apa itu maklumat (Information)
Tidak ada definisi yang tepat Berbeza mengikut bidang : philosophy, psychology, signal
processing, physics Oxford English Dictionary
• information: informing, telling; thing told, knowledge, items of knowledge, news
• knowledge: knowing familiarity gained by experience; person’s range of information; a theoretical or practical understanding of; the sum of what is known
Kamus Dewan
• Knowledge in the form of facts
![Page 5: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/5.jpg)
5
Teori Maklumat
Disebut “Communication Theory” Communication may be over time and space
Noise
Source DecodingEncoding Destination
Message Message
Channel
StorageSourceDecoding
(Retrieval/Reading)Encoding
(writing/indexing)Destination
Message Message
![Page 6: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/6.jpg)
6
Information Life Cycle
Creation
Utilization Searching
Active
Inactive
Semi-Active
Retention/Mining
Disposition
Discard
Using Creating
AuthoringModifying
OrganizingIndexing
StoringRetrieval
DistributionNetworking
AccessingFiltering
![Page 7: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/7.jpg)
7
Authoring/Modifying Converting Data+Information+Knowledge to New Information. Creating information from observation, thought. Editing and Publication.
Collecting and Integrating information. Affects Data, Information and Metadata. Indexing
Organizing/Indexing
![Page 8: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/8.jpg)
8
Storing/Retrieving Information Storage
• How and Where is Information stored? Retrieving Information.
• How is information recovered from storage
• How to find needed information
• Linked with Accessing/Filtering stage
Distribution/Networking Transmission of information
• How is information transmitted? Networks vs Broadcast.
![Page 9: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/9.jpg)
9
Accessing/Filtering Using the organization created in the O/I stage to:
• Select desired (or relevant) information
• Locate that information
• Retrieve the information from its storage location (often via a network)
Using/Creating Using Information. Transformation of Information to Knowledge. Knowledge to New Data and New Information.
![Page 10: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/10.jpg)
10
Creation
Utilization Searching
Active
Inactive
Semi-Active
Retention/Mining
Disposition
Discard
Using Creating
AuthoringModifying
OrganizingIndexing
StoringRetrieval
DistributionNetworking
AccessingFiltering
Sistem Pencarian Dan Capaian Dokumen
![Page 11: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/11.jpg)
11
Pengenalan
Micheal Lesk membahagikan era teknologi maklumat kepada tujuh era iaitu :
Maklumat lanjut rujuk kertas kerja yang bertajuk : The Seven Ages Of Information Retrieval
Childhood (1945-1955)The SchoolBoy (1960s)AdultHood(1970s)Maturity (1980s)MidLife Crisis (1990s)Fulfillment (2000s)Retirement (2010)
![Page 12: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/12.jpg)
12
SISTEM PENCARIAN DAN CAPAIAN DOKUMEN
(MAKLUMAT)
Definisi CM Komponen Asas CM
Teknik Carian Maklumat Berasas Katakunci
Teknik Carian dan Capaian Maklumat
![Page 13: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/13.jpg)
13
Definisi
Menurut Tengku(1989), capaian maklumat adalah
satu pengajian cara korpus suatu simpanan maklumat ditentukan dan dicapai berdasarkan kehendak tertentu.
berkenaan perwakilan , penstoran , perorganisasian dan perolehan maklumat mengikut pertanyaan atau kueri dan keperluan pengguna
![Page 14: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/14.jpg)
14
Untuk sistem capaian maklumat, 3 elemen asas yang diperlukan (Brown, 1996).
Perwakilan Dokumen (representasi): dokumen yang menyediakan penerangan maklumat secara formal yang terdapat dalam sesuatu dokumen.
Perwakilan pertanyaan (query): menyediakan penerangan mengenai maklumat yang diperlukan
Pengukuran yang berkaitan di antara pertanyaan dan dokumen: menyediakan suatu tatacara atau prosedur untuk memadankan antara keperluan maklumat dengan dokumen bagi memenuhi keperluan tersebut.
Definisi
![Page 15: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/15.jpg)
15
Definisi
D : set perwakilan dokumenQ : set perwakilan kehendak pengguna (kueri)
R : D x Q real numbers
fungsi yang akan menentukan bagi setiap dokumen dan kueri suatu nombor tertentu (real number) bagi diwakili oleh suatu
pangkatan (berkaitan) dokumen berdasarkan kueri yang dimasukkan.
![Page 16: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/16.jpg)
16Asas Sistem Capaian Dokumen
PemprosesPemprosesPemprosesPemprosesOutput
Dokumen
Pertanyaan
Input
feedback
-operasi sebutan-Stemming-Truncation
Sistem capaian maklumat diillustrasi seperti rajah (van Rijsbergen, 1979)
Komponen Asas CM
![Page 17: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/17.jpg)
17
Teknik pencarian maklumat berasaskan web boleh dijalankan menggunakan beberapa teknik bergantung kepada operator yang digunakan selain penggunaan bahasa tabii.
Operator yang boleh digunakan
Boolean operator
Positional operator
Relational operator
Teknik Carian Maklumat Berasaskan Katakunci
![Page 18: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/18.jpg)
18
Operator yang boleh digunakan (AND, OR, NOT, \ dan XOR) :Q1 AND Q2
Documents that are in BOTH sets: Q1 and Q2
Q1 OR Q2Documents that are in at least in one set: Q1 or Q2
NOT Q1All documents except the one in set Q1
Q1 \ Q2Logical “minus” all documents from Q1 except those that belong to Q2. Used also as “binary NOT” (Q1 NOT Q2)
Q1 XOR Q2Exclusive OR - documents that belong to exactly one set: Q1 or Q2, but not both. In other words (Q1 OR Q2) \ (Q1 AND Q2)
Teknik Carian Maklumat : Boolean Operator
![Page 19: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/19.jpg)
19
Boolean Queries
• AND and OR Usually expressed as INFIX operators in IR
• ((a AND b) OR (c AND b))
• NOT is UNARY PREFIX operator
• ((a AND b) OR (c AND (NOT b)))
• AND and OR can be n-ary operators
• (a AND b AND c AND d)
• Some rules - (De Morgan revisited)
• NOT(a) AND NOT(b) = NOT(a OR b)
• NOT(a) OR NOT(b)= NOT(a AND b)
• NOT(NOT(a)) = a
![Page 20: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/20.jpg)
20
SAME Example: Sains SAME Maklumat
Only records containing both Sains and Maklumat within the same bibliographic field will be retrieved.
WITHExample: Sains WITH Maklumat
Only records containing both Sains and Maklumat in the same sentence in a bibliographic field will be retrieved from this search.
NEAR Example: Sains NEAR Maklumat
Only records with the terms Sains and Maklumat next to each other within the same bibliographic field would be retrieved from this search. Sains or Maklumat could display first in the field.
Teknik Carian Maklumat : Positional OperatorPositional operator digunakan untuk mendapatkan rekod dalam rekod bibliografik yang sama.
![Page 21: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/21.jpg)
21
ADJ Example: Sains ADJ Maklumat
Only records with the terms Sains and Maklumat adjacent to each other within the same bibliographic field and with Sains listed first in this field would be retrieved from this search
Tambahan : penggabungan operator boleh dilakukan bagi mengecil atau meluaskan jarak antara perkataan
Example: FROM ADJ1 HERE ADJ2 ETERNITYThis example shows how to search for the title, "From Here to Eternity.“
ADJ2 means that the words may be within two searchable words of each other, but they must be in the order they were entered.
Teknik Carian Maklumat : Positional Operator
![Page 22: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/22.jpg)
22
Relational Operators Relational operators (<, >, =, <>, <=, >=) allow you to search
numeral expressions. Use relational operators by enclosing a field name or entry tag number in braces {}, then typing a relational operator and number.
Operator Definition< Less than> Greater than= Equal to<> Not equal to<= Less than or equal to>= Greater than or equal to
Example: {DATE} <991022If you type {DATE} < 991022, the system will searches for records whose Date field contains values less than 991022.
Teknik Carian Maklumat : Relational Operator
![Page 23: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/23.jpg)
23
Jika beberapa kombinasi operator digunakan maka ianya adalah berdasarkan keutamaan berikut :
()= <> < <= > >= NEAR, ADJ WITH SAME AND, NOT XOR, OR
Teknik Carian Maklumat : Keutamaan Operator
![Page 24: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/24.jpg)
24
Pengguna boleh memberikan pemberat. Sesetengah enjin carian web membenarkan pengguna menggunakan simbol (+) atau (-) untuk memberi pemberat kepada perkataan.
Contoh : cost AND +paper
Jika ujud di dalam sesuatu dokumen yang mengandungi cost dan paper maka term paper akan dipangkat lebih tinggi (pemberat lebih besar) berbanding term cost
Teknik Carian Maklumat : Kaedah Lain
![Page 25: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/25.jpg)
25
Tugasan
Dapatkan maklumat untuk carian menggunakan
• Within• Before• After• Wildcard symbol
Markah tambahan akan diberikan kepada yang dapat memberi dan menghantar jawapan pada minggu
hadapan
![Page 26: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/26.jpg)
26
Belkin dan Croft (1987) membahagikan teknik capaian kepada padanan tepat dan padanan separa.
Teknik Capaian
Padanan Tepat Padanan Separa
CorakTeks Pencarian Boolean Kebarangkalian Ruang Clustering ….. Vektor
Teknik Carian dan Capaian Maklumat
![Page 27: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/27.jpg)
27
Teknik Sistem Carian Dan Capaian Terdapat beberapa teknik yang boleh dilakukan dalam proses
carian dan capaian dalam sistem capaian dokumen bagi enjin gelintar
Teknik Capaian padanan tepat
• Boolean
Dokumen dinyatakan sebagai satu set dj = {ti,…..tn} dimana setiap ti adalah perkataan yang terdapat pada dokumen dj.
query yang digunakan adalah dalam bentuk operasi boolean yang piawai iaitu AND, OR, NOT dan XOR.
carian seperti yang diterangkan sebelum ini
![Page 28: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/28.jpg)
28
Boolean LanjutanCapaian Lanjutan Boolean merupakan peningkatan daripada capaian Boolean. Ianya memberi pemberat bagi perkataan. tf (term frequency) atau frekuensi perkataan menunjukkan berapa kali perkataan tersebut wujud dalam dokumen.
Ia direkabentuk untuk mengemaskini capaian boolean dimana beberapa pengoperasian dan teknik ditambah seperti keupayaan capaian dalam bentuk pemangkatan atau susunan (rank) mengikut jujukan menaik atau menurun serta nilai pemberat bagi meningkatkan lagi keupayaan capaian sesuatu query.
Teknik Sistem Carian Dan Capaian : Boolean Lanjutan
![Page 29: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/29.jpg)
29
Contoh pemangkatan melalui frekuensi perkataan (Enjin Carian Sony)
x AND y : tfx x tfy x OR y : tfx + tfy NOT x : 0 if tfx > 0, 1 if tfx = 0
Memberikan pemberat kepada perkataan melalui frekuensi, membenarkan dokumen yang mengandungi banyak perkataan kueri dipangkat lebih tinggi. Skor adalah 0 jika dokumen tidak menepati Syarat Boolean.
Teknik Sistem Carian Dan Capaian : Boolean Lanjutan
![Page 30: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/30.jpg)
30
Cara capaian dokumen yang menyusun dokumen mengikut pangkatan dengan menggunakan teori kebarangkalian.
Mencapai suatu kualiti capaian yang optimum berdasarkan suatu andaian.
Ianya dijana berdasarkan pengiraan menggunakan similarity coefficient diantara kueri dan dokumen. Ia dijana dlm bentuk kebarangkalian bagi menyatakan kerelevanan diantara keduanya.
Dua asas pendekatan digunakan
• Bergantung kepada penggunaan patern bagi meramal kerelevanan (Maron and Kuhns, 1960)
• Penggunaan setiap term pada kueri sebagai klu bagi kerelevanan dengan suatu dokumen (Robertson and Spark Jones 1976)
Asas Penggunaan teorem Bayes
Teknik Sistem Carian Dan Capaian : Capaian Berkebarangkalian
![Page 31: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/31.jpg)
31
Kueri q (q1,q2)
Jana q dan capai n dokumen (katakan n = 5) dan di mewakili dokumen berikut
q1 q2 q1 q1
q2
q2
d1 d2 d3 d4 d5
Katakan d2 dan d4 adalah relevan
P(q1 | di adalah relevan) = ½
P(q1 | di adalah tidak relevan) = 2/3
P(q2 | di adalah relevan) = 1
P(q2 | di adalah tidak relevan) = 1/3
Teknik Sistem Carian Dan Capaian : Capaian Berkebarangkalian
![Page 32: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/32.jpg)
32
Robertson-Sparck Jones Weights
2115.0
log)1(
NnR
r
w
15.0
15.0
log)2(
RNrn
Rr
w
5.05.05.0
5.0
log)4(
rRnNrnrR
r
w
Predictive formulation
11
5.05.0
log)3(
nNnrR
r
w
Contoh dan pemahaman lanjut rujuk slide 37
![Page 33: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/33.jpg)
33
Model capaian ruang vektor menyatakan kedua-dua pertanyaan dan dokumen sebagai set perkataan mengira persamaan antara perkataan pertanyaan dan dokumen. Model ini menganggap bahawa set ini boleh digunakan untuk mengenalpasti kedua-dua rekod dan maklumat yang ditanya. Semua perkataan pada model ini mempunyai kepentingan yang sama. teknik pemberat digunakan untuk menentukan paras atau tahap kepentingan bagi setiap perkataan. Fungsi kesamaan digunakan untuk mengira persamaan vektor antara perkataan pertanyaan dan dokumen. Dua perkara yang selalu digunakan iaitu ukuran kosine dan songsangan fungsi kekerapan dokumen.
Teknik Sistem Carian Dan Capaian : Capaian Ruang Vektor
![Page 34: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/34.jpg)
34
Kueri dan setiap dokumen dipetakan kepada vektor dengan setiap dimensi mewakili nilai tf-idf bagi setiap perkataan. Dimana
dokumen dokumen : dokumen dengan set term indeks dengan pemberat. Pemberat dijanakan bagi menentukan kepentingan (keberkaitan) sesuatu term kepada dokumen dj = (W1,j , W2,j, …… , Wi,j) dan
KueriKueri : kueri adalah term indeks dengan pemberat. Pemberat dijanakan bagi menentukan kepentingan (keberkaitan) sesuatu term kepada kehendak pengguna
q = (W1,j , W2,j, …… , Wi,j)
Teknik Sistem Carian Dan Capaian : Capaian Ruang Vektor
![Page 35: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/35.jpg)
35
Dokumen dj dan kueri q merupakan vector dalam ruang t dimensi. Kepentingan sesuatu term bergantung kepada kekerapan keujudan sesuatu term tersebut pada satu-satu dokumen. Jika term A dinyatakan lebih dari term B maka dokumen tersebut lebih menerangkan tentang A dari B. Jika freqi,j adalah kekerapan term ki dalam dokumen dj. Maka wi,j = freqi,j.
Komponen adalah 0 jika tidak wujud, nilai positif diberi (bergantung kepada frekuensi perkataan dan frekuensi dokumen songsang) jika ianya wujud. Dokumen dipangkat melalui jarak dengan kueri, dengan itu dokumen akan dipangkat paling tinggi sekiranya sudut antaranya dan kueri adalah paling kecil. Jarak ditentukan berdasarkan pengiraan skor kesamaan (similarity score calculation). Jarak boleh merupakan magnitud perbezaan vektor yang dinormalkan atau mungkin kosin (cosine) bagi sudut antara vektor-vektor.
Teknik Sistem Carian Dan Capaian : Capaian Ruang Vektor
![Page 36: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/36.jpg)
36
Perwakilan Grafik
Example:
D1 = 2T1 + 3T2 + 5T3
D2 = 3T1 + 7T2 + T3
Q = 0T1 + 0T2 + 2T3
T3
T1
T2
D1 = 2T1+ 3T2 + 5T3
D2 = 3T1 + 7T2 + T3
Q = 0T1 + 0T2 + 2T3
7
32
5
• Adakah D1 atau D2 lebih sama dgn Q?
• Bagaimana untuk mengukur darjah kesamaan? Jarak ? Sudut?
![Page 37: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/37.jpg)
37
Contoh
Q : gold silver truck
D1: Shipment of gold damaged in a fire
D2: Delivery of silver arrived in a silver truck
D3: Shipment of gold arrived in a truck
Variable gold silver truck
N 3 3 3
n 2 1 2
R 2 2 2
r 1 1 2
![Page 38: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/38.jpg)
38
Variable gold silver truck
N 3 3 3
n 2 1 2
R 2 2 2
r 1 1 2
N : bilangan dokumen dalam koleksi
n : bilangan indeks dokumen yang mengandungi term t
R : bilangan dokumen yang relevan bagi kueri yang diberikan
r : bilangan indeks dokumen relevan yang mengandungi term t
Contoh
Penyelesaian rujuk handout yang diberikan
![Page 39: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/39.jpg)
39
Robertson-Sparck Jones Weights
2115.0
log)1(
NnR
r
w
15.0
15.0
log)2(
RNrn
Rr
w
5.05.05.0
5.0
log)4(
rRnNrnrR
r
w
Predictive formulation
11
5.05.0
log)3(
nNnrR
r
w
Penyelesaian rujuk handout yang diberikan
![Page 40: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/40.jpg)
40
Tesaurus adalah set item (frasa atau perkataan ) dan set hubungan di antara item-item tersebut. 3 perkara asas yang berkaitan dengan tesaurus di dalam capaian maklumat ialah:
1. pembinaan: ada 2 jenis tesaurus iaitu secara manual dan secara automatik.
2. capaian: diberi satu pertanyaan yang khusus, maka tesaurus akan mencapai dan menggunakan perkataan tersebut untuk meningkat dan mengembangkan pertanyaan.
3. penilaian: selepas tesaurus dibina, adalah penting menilai kebaikan yang mampu dilakukannya. Tesaurus manual dinilai melalui perkembangan pertanyaan yang dicapai untuk memastikan peningkatan keupayaan capaian.
TESAURUS
![Page 41: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/41.jpg)
41
Tesaurus menyediakan maklumat sinonim dan semantik berkaitan perkataan dan frasa.
Example: physician syn: ||croaker, doc, doctor, MD, medical,
mediciner, medico, ||sawbones rel: medic, general practitioner, surgeon,
Bagi setiap term, t, pada kueri, ia akan memperkembangkan kueri dengan sinonim dan perkataan yang berkaitan dengan t dari tesaurus.
Pemberat yang digunakan adalah kurang dari term kueri yang asal
TESAURUS
![Page 42: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/42.jpg)
42
WordNet
A more detailed database of semantic relationships between English words.
Developed by famous cognitive psychologist George Miller and a team at Princeton University.
About 144,000 English words. Nouns, adjectives, verbs, and adverbs grouped into about
109,000 synonym sets called synsets.
Penggunaan WordNet dalam perkembangan kueri Add synonyms in the same synset. Add hyponyms to add specialized terms. Add hypernyms to generalize a query. Add other related terms to expand query.
![Page 43: 1 SISTEM PENCARIAN DAN CAPAIAN DOKUMEN Apa itu maklumat ? Teori Maklumat Kitar Hayat Maklumat](https://reader036.vdocuments.site/reader036/viewer/2022081504/56649d7d5503460f94a5fc05/html5/thumbnails/43.jpg)
43
WordNet Synset Relationships Antonym: front back Attribute: benevolence good (noun to adjective) Pertainym: alphabetical alphabet (adjective to noun) Similar: unquestioning absolute Cause: kill die Entailment: breathe inhale Holonym: chapter text (part-of) Meronym: computer cpu (whole-of) Hyponym: tree plant (specialization) Hypernym: fruit apple (generalization)