Nama/NIM
: I Made Gede Suryadinatha/1204505069
Jurusan/Fakultas/Universitas
: Teknologi Informasi/Tekni/U. Udayana
Mata
Kuliah
: Sistem Temu Kembali Informasi
Dosen
: I Putu Agus Eka Pratama, S.T.,
M.T.
Boolean
Retrieval Model
Boolean Index
•
Model proses pencarian informasi dari query, yang menggunakan ekspresi boolean.
•
Ekspresi
boolean dapat berupa operator logika AND, OR dan NOT.
•
Hasil perhitungannya hanya berupa nilai binary
(1 atau 0).
•
Ini menyebabkan di dalam Boolean
Retrieval Model (BRM), yang ada hanya dokumen relevan atau tidak sama sekali.
Tidak ada pertimbangan dokumen yang ‘mirip’.
•
Dalam pengerjaan operator boolean (AND,
NOT, OR) ada urutan pengerjaannya (Operator precedence).
•
Urutannya adalah:
•
() à Prioritas yang
berada dalam tanda kurung
•
NOT
•
AND
•
OR
•
Query
•
(Madding OR crow) AND Killed OR slain (Brutus
OR Caesar) AND NOT (Antony OR Cleopatra)
Permasalah
pada Information Retrieval
a.
Misalkan kita ingin mencari dari
cerita-cerita karangan shakespeare yang mengandung kata Brutus AND Caesar
AND NOT Calpurnia.
b.
Salah satu cara adalah: Baca semua teks
yang ada dari awal sampai akhir.
c.
Komputer juga bisa disuruh melakukan hal
ini (menggantikan manusia). Proses ini disebut grepping.
d.
Melihat kemajuan komputer jaman
sekarang, grepping bisa jadi solusi yang baik.
e.
Tapi, kalau sudah bicara soal ribuan
dokumen, kita perlu melakukan sesuatu yang lebih baik.
Karena ada beberapa tuntutan yang harus dipenuhi :
1. Kecepatan
dalam pemrosesan dokumen yang jumlahnya sangat banyak.
2. Fleksibilitas.
3. Perangkingan.
f.
Salah satu cara pemecahannya adalah
dengan membangun index dari dokumen.
Incidence Matrix
Incidence matrix adalah
suatu matrix yang terdiri dari kolom (dokumen) dan baris (token/terms/kata).
Pembangunan index akan berbeda untuk
tiap metode Retrieval.
Untuk boolean model, salah satunya kita
akan menggunakan Incidence matrix sebagai index dari korpus (kumpulan dokumen)
data kita.
Dokumen yang ada di kolom adalah semua
dokumen yang terdapat pada korpus data kita.
Token
Token/Terms/Kata pada
baris adalah semua token unik (kata yang berbeda satu
dengan yang lainnya) dalam seluruh dokumen yang ada. Saat suatu token(t)
ada dalam dokumen(d), maka nilai dari baris dan kolom (t,d)
adalah 1. Jika tidak ditemukan, maka nilai kolom (t,d) adalah 0.
Dari sudut pandang kolom, kita bisa tahu token apa saja yang ada di satu
dokumen (d). Dari sudut pandang barisnya, kita bisa tahu di dokumen mana
saja token (t) ada (posting lists).
Inverted Index
Inverted
Index adalah sebuah struktur data index yang dibangun
untuk memudahkan query pencarian yang
memotong tiap kata (term) yang berbeda dari suatu daftar term dokumen.
Tujuan :
1.
Meningkatkan kecepatan dan efisiensi
dalam melakukan pencarian pada sekumpulan dokumen.
2.
Menemukan dokumen-dokumen yang
mengandung query user.
Inverted
Index mempunyai vocabulary, yang berisi seluruh term yang berbeda pada
masing-masing dokumennya (unik), dan tiap-tiap term yang berbeda ditempatkan
pada inverted list.
Tidak ada komentar:
Posting Komentar