Selasa, 10 Maret 2015

Ringkasan tentang Boolean



Nama/NIM                                  : I Made Gede Suryadinatha/1204505069
Jurusan/Fakultas/Universitas  : Teknologi Informasi/Tekni/U. Udayana
Mata Kuliah                               : Sistem Temu Kembali Informasi
 Dosen                                         : I Putu Agus Eka Pratama, S.T., M.T.
  
Boolean Retrieval Model

Boolean Index
         Model proses pencarian informasi dari query, yang menggunakan ekspresi boolean.
         Ekspresi boolean dapat berupa operator logika AND, OR dan NOT.
         Hasil perhitungannya hanya berupa nilai binary (1 atau 0).
         Ini menyebabkan di dalam Boolean Retrieval Model (BRM), yang ada hanya dokumen relevan atau tidak sama sekali. Tidak ada pertimbangan dokumen yang ‘mirip’.
         Dalam pengerjaan operator boolean (AND, NOT, OR) ada urutan pengerjaannya (Operator precedence).
         Urutannya adalah:
         () à Prioritas yang berada dalam tanda kurung
         NOT
         AND
         OR
         Query
         (Madding OR crow) AND Killed OR slain (Brutus OR Caesar) AND NOT (Antony OR Cleopatra)

Permasalah pada Information Retrieval
a.       Misalkan kita ingin mencari dari cerita-cerita karangan shakespeare yang mengandung kata Brutus AND Caesar AND NOT Calpurnia.
b.      Salah satu cara adalah: Baca semua teks yang ada dari awal sampai akhir.
c.       Komputer juga bisa disuruh melakukan hal ini (menggantikan manusia). Proses ini disebut grepping.
d.      Melihat kemajuan komputer jaman sekarang, grepping bisa jadi solusi yang baik.
e.       Tapi, kalau sudah bicara soal ribuan dokumen, kita perlu melakukan sesuatu yang lebih baik.
Karena ada beberapa tuntutan yang harus dipenuhi :
1.      Kecepatan dalam pemrosesan dokumen yang jumlahnya sangat banyak.
2.      Fleksibilitas.
3.      Perangkingan.
f.       Salah satu cara pemecahannya adalah dengan membangun index dari dokumen.

Incidence Matrix
Incidence matrix adalah suatu matrix yang terdiri dari kolom (dokumen) dan baris (token/terms/kata).
Pembangunan index akan berbeda untuk tiap metode Retrieval.
Untuk boolean model, salah satunya kita akan menggunakan Incidence matrix sebagai index dari korpus (kumpulan dokumen) data kita.
Dokumen yang ada di kolom adalah semua dokumen yang terdapat pada korpus data kita.

Token
Token/Terms/Kata pada baris adalah semua token unik (kata yang berbeda satu dengan yang lainnya) dalam seluruh dokumen yang ada. Saat suatu token(t) ada dalam dokumen(d), maka nilai dari baris dan kolom (t,d) adalah 1. Jika tidak ditemukan, maka nilai kolom (t,d) adalah 0. Dari sudut pandang kolom, kita bisa tahu token apa saja yang ada di satu dokumen (d). Dari sudut pandang barisnya, kita bisa tahu di dokumen mana saja token (t) ada (posting lists).

Inverted Index
Inverted Index adalah sebuah struktur data index yang dibangun untuk memudahkan query  pencarian yang memotong tiap kata (term) yang berbeda dari suatu daftar term dokumen.
Tujuan :
1.      Meningkatkan kecepatan dan efisiensi dalam melakukan pencarian pada sekumpulan dokumen.
2.      Menemukan dokumen-dokumen yang mengandung query user.

Inverted Index mempunyai vocabulary, yang berisi seluruh term yang berbeda pada masing-masing dokumennya (unik), dan tiap-tiap term yang berbeda ditempatkan pada inverted list.

Tidak ada komentar:

Posting Komentar