sistem temu kembali informasi - rizal setya · pdf file001 information retrieval ricardo...
TRANSCRIPT
![Page 1: Sistem Temu Kembali Informasi - Rizal Setya · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk](https://reader031.vdocuments.site/reader031/viewer/2022022419/5a78ab777f8b9a07028c6971/html5/thumbnails/1.jpg)
Sistem Temu Kembali Informasi ?
![Page 2: Sistem Temu Kembali Informasi - Rizal Setya · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk](https://reader031.vdocuments.site/reader031/viewer/2022022419/5a78ab777f8b9a07028c6971/html5/thumbnails/2.jpg)
Dokumen
![Page 3: Sistem Temu Kembali Informasi - Rizal Setya · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk](https://reader031.vdocuments.site/reader031/viewer/2022022419/5a78ab777f8b9a07028c6971/html5/thumbnails/3.jpg)
Penyimpanan yang Terorganisasi
![Page 4: Sistem Temu Kembali Informasi - Rizal Setya · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk](https://reader031.vdocuments.site/reader031/viewer/2022022419/5a78ab777f8b9a07028c6971/html5/thumbnails/4.jpg)
Database
Database Mahasiswa
Buku ID Nama Buku Pengarang
001 Information Retrieval Ricardo baeza
002 Matematika Diskrit Rinaldi Munir
003 Pengenalan Java Abdul Kadir
004 Pengenalan C++ Abdul Kadir
005 Design Pattern Arnold
![Page 5: Sistem Temu Kembali Informasi - Rizal Setya · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk](https://reader031.vdocuments.site/reader031/viewer/2022022419/5a78ab777f8b9a07028c6971/html5/thumbnails/5.jpg)
Unstructured
Siapa pemain dalam novel tersebut ?
![Page 6: Sistem Temu Kembali Informasi - Rizal Setya · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk](https://reader031.vdocuments.site/reader031/viewer/2022022419/5a78ab777f8b9a07028c6971/html5/thumbnails/6.jpg)
Digital Library UB
![Page 7: Sistem Temu Kembali Informasi - Rizal Setya · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk](https://reader031.vdocuments.site/reader031/viewer/2022022419/5a78ab777f8b9a07028c6971/html5/thumbnails/7.jpg)
![Page 8: Sistem Temu Kembali Informasi - Rizal Setya · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk](https://reader031.vdocuments.site/reader031/viewer/2022022419/5a78ab777f8b9a07028c6971/html5/thumbnails/8.jpg)
Database Retrieval vs IR
• Database retrieval
– Dokumen mana yang mengandung himpunan keyword?
– Semantik didefinisikan dengan baik
– Error dari suatu obyek mengakibatkan kegagalan!
• Information retrieval
– Informasi mengenai suatu subyek atau topik
– Semantik dapat bersifat lepas (longgar)
– Error kecil ditoleransi
![Page 9: Sistem Temu Kembali Informasi - Rizal Setya · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk](https://reader031.vdocuments.site/reader031/viewer/2022022419/5a78ab777f8b9a07028c6971/html5/thumbnails/9.jpg)
Pengertian IR
•
unstructured
•
• retrieval
•
![Page 10: Sistem Temu Kembali Informasi - Rizal Setya · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk](https://reader031.vdocuments.site/reader031/viewer/2022022419/5a78ab777f8b9a07028c6971/html5/thumbnails/10.jpg)
Information Retrieval
• index
•
• retrieve
• retrieve
• Tujuan: Me-retrieve semua dokumen yang relevan sekaligusme-retrieve sesedikit mungkin dokumen yang tidak relevan
![Page 11: Sistem Temu Kembali Informasi - Rizal Setya · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk](https://reader031.vdocuments.site/reader031/viewer/2022022419/5a78ab777f8b9a07028c6971/html5/thumbnails/11.jpg)
• Relevansi merupakan suatu judgment (keputusan)subyektif dan dapat didasarkan pada:
– Topik yang tepat.
– Waktu (informasi terbaru).
– Otoritatif (dari suatu sumber terpercaya).
– Kebutuhan informasi dari pengguna.
• Kriteria relevansi utama: suatu sistem IR sebaiknya(harus) memenuhi kebutuhan informasi pengguna.
Relevan
![Page 12: Sistem Temu Kembali Informasi - Rizal Setya · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk](https://reader031.vdocuments.site/reader031/viewer/2022022419/5a78ab777f8b9a07028c6971/html5/thumbnails/12.jpg)
Sistem IR
![Page 13: Sistem Temu Kembali Informasi - Rizal Setya · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk](https://reader031.vdocuments.site/reader031/viewer/2022022419/5a78ab777f8b9a07028c6971/html5/thumbnails/13.jpg)
Sistem IR
![Page 14: Sistem Temu Kembali Informasi - Rizal Setya · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk](https://reader031.vdocuments.site/reader031/viewer/2022022419/5a78ab777f8b9a07028c6971/html5/thumbnails/14.jpg)
Pencarian Keyword
• Ide paling sederhana dari relevansi: apakahstring query ada di dalam dokumen (kata demikata, verbatim)?
• Ide yang lebih fleksibel: Berapa sering kata-kata di dalam query muncul di dalamdokumen, tanpa melihat urutannya (bag ofwords)?
![Page 15: Sistem Temu Kembali Informasi - Rizal Setya · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk](https://reader031.vdocuments.site/reader031/viewer/2022022419/5a78ab777f8b9a07028c6971/html5/thumbnails/15.jpg)
Masalah dengan Keyword
• Mungkin tidak me-retrieve dokumen relevan yangmenyertakan synonymous terms.
– “restaurant” vs. “café”
– “NDHU” vs. “National Dong Hwa University”
• Mungkin me-retrieve dokumen tak-relevan yang menyertakanambiguous terms.
– “bat” (baseball vs. mamalia)
– “Apple” (perusahaan vs. buah-buahan)
– “bit” (unit data vs. perilaku menggigit)
![Page 16: Sistem Temu Kembali Informasi - Rizal Setya · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk](https://reader031.vdocuments.site/reader031/viewer/2022022419/5a78ab777f8b9a07028c6971/html5/thumbnails/16.jpg)
Bukan Sekedar Keyword
• Kita akan mendiskusikan dasar-dasar IR berbasis keyword,tetapi…
– Fokus pada perluasan dan pengembangan terakhir untukmendapatkan hasil terbaik.
• Kita akan membahas dasar-dasar pembangunan sistem IRyang efisien, tetapi…
– Fokus pada algoritma dan kemampuan dasar, bukanmasalah sistem yang memungkinkan pengembangan kedatabase ukuran industri.
![Page 17: Sistem Temu Kembali Informasi - Rizal Setya · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk](https://reader031.vdocuments.site/reader031/viewer/2022022419/5a78ab777f8b9a07028c6971/html5/thumbnails/17.jpg)
IR Cerdas
• Memanfaatkan pengertian atau makna dari katayang digunakan.
• Melibatkan urutan kata di dalam query.
• Beradaptasi dengan pengguna berdasarkan padafeedback, langsung atau tidak langsung.
• Memperluas pencarian dengan term terkait.
• Mengerjakan pemeriksaan ejaaan/perbaikan tandapengenal otomatis.
• Memanfaatkan Otoritas dari sumber
![Page 18: Sistem Temu Kembali Informasi - Rizal Setya · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk](https://reader031.vdocuments.site/reader031/viewer/2022022419/5a78ab777f8b9a07028c6971/html5/thumbnails/18.jpg)
Perkembangan IR
1. Klasifikasi Dokumen
2. Clustering Dokumen
3. Peringkasan Teks
4. Question Answering System
![Page 19: Sistem Temu Kembali Informasi - Rizal Setya · PDF file001 Information Retrieval Ricardo baeza ... (kata demi kata, ... –Fokus pada perluasan dan pengembangan terakhir untuk](https://reader031.vdocuments.site/reader031/viewer/2022022419/5a78ab777f8b9a07028c6971/html5/thumbnails/19.jpg)
Portal Jurnal
• Computer.org (gunakan proxy UB) :
• http://scholar.google.com/
• http://www.sciencedirect.com/ :
• Other