Sabtu, 05 Januari 2008

Ragam Teori Informasi Putu Laxman Pendit, Ph.D

Ragam Teori Informasi
Pusat Dokumentasi dan Informasi Ilmiah
Lembaga Ilmu Pengetahuan Indonesia
Jakarta, 19 September 2006
Putu Laxman Pendit, Ph.D
Perpustakaan Pusat Universitas Indonesia
Teori Matematik tentang Informasi
(1)
• Claude Shannon, “A Mathematical Theory of Communication”
(1948) , ilmuwan matematik yang membantu perusahaan Bell
mengembangkan teknologi telekomunikasi.
• Efisiensi pengiriman infomasi melalui saluran. memandang
informasi sebagai simbol-simbol yang dipertukarkan, mengirim
simbol-simbol itu dari satu titik di suatu tempat ke titik lain di
tempat lainnya.
• jumlah informasi yang dapat dikaitkan, atau dihasilkan oleh,
sebuah keadaan atau kejadian (atau realisasi dari sebuah
situasi tertentu) merupakan tingkat pengurangan (reduksi)
ketidakpastian, atau pilihan kemungkinan, yang dapat muncul
dari keadaan atau kejadian tersebut।
Teori Matematik tentang Informasi
(2)
Source Encoder Channel Decoder Destination
Noise
• Menurut Wilson (1999), perlu re-adjustment dalam istilah;
kesalahan pada pengertian “metrika” (metrics); ilmuwan dengan
latarbelakang sains cenderung memandang scientometrics
sebagai berbeda dari informetrika maupun bibliometrika. Kaum
dokumentalis membedakan antara “memberi jasa informasi
kepada ilmuwan” dan “menyediakan buku”.
• Sekarang ini jaman teknologi informasi, istilah informasi dianggap
lebih luas, maka Wilson mengatakan: informetrics covers and
replaces the field of bibliometrics, including citation analysis, and
includes some recent subfields such as Webometrics. It is distinct from
theoritical information retrieval with respect to goals, and librametrics
with respect to both goals and often its objects of analysis. It overlaps
strongly with scientometrics, and less so with scholarly communication
studies, with respect to the analysis of scientific literature.
Bibliometrika dan Informetrika (3)• Citation analysis. Cabang informetrika paling besar. Dinamakan
juga citation studies. Fokusnya pada publication-to-publication
link. Perbedaan utama dengan reference analysis adalah pada
kenyaaan bawa reference list di dalam setiap dokumen bersifat
intrinsik, sementara daftar sitasi bersifat ekstrinsik.
• Word related analysis. Menganalisis penggunaan bahasa di
dalam dokumen, penulisan judul, co-word analysis, content
analysis.
• Author related analysis. Distribusi frekuensi publikasi dari
seorang pengarang, kolaborasi, co-author matrices, ciri-ciri
pengarang, afiliasi, gender, dan sebagainya.
• Time and growth studies. Pentingnya waktu sebagai determinan
dalam perkembangan ilmu dan literaturnya sudah dikenali sejak
awal oleh para pionir bibliometrika, yaitu Cole dan Eagles.
Tentu yang paling jelas terpengaruh oleh waktu adalah
besarnya jumlah literatur di sujbek tertentu.
Bibliometrika dan Informetrika (4)Information Retrieval (1)
Empat tokoh:
1. Mortimer Taube (1910 – 1965), pustakawan Library of
Congress, mengembangkan “coordinate indexing”. yang
berbasis uniterms dan mengaplikasikan logika Boolean.
2. Hans Peter Luhn (1896 – 1964) pertamakali menciptakan
aplikasi komputer, menghasilkan sebuah “electronic searching
selector” yang diberi nama Luhn Scanner.
3. Calvin C. Mooers (1919 – 1994) pertamakali secara “resmi”
menggunakan istilah information retrieval. Ahli matematik,
dan dikenang sebagai pencipta Mooers’ Law for Information
Retrieval Systems.
4. Gerard Salton (1927 – 1995) memperkenalkan System for
the Manipulation and Retrieval of Text (SMART) yang menjadi
pendorong bagi banyak peneliti lain untuk serius memikirkan
text retrieval।Information Retrieval (2)
• Menurut Robertson (2000), tidak ada overall theory dalam IR
dan tidak ada teori yang kuat tentang IR, sebab bidang IR
pada umumnya pragmatis :
– commercial pragmatism yang didorong oleh kepentingan pasar
dan kepuasan pelanggan,
– technological pragmatism yang mengejar kinerja teknologi tetapi
tidak mempersoalkan aspek why.
• Dia mengatakan bahwa IR punya low-level theoritical
arguments, tetapi tidak punya Grand Theory. Sama dengan
membagun jembatan, memakai berbagai teori, tetapi tidak
ada Grand Theory tentang jembatan. Dalam IR, menurut
Robertson, kita menggunakan teori dari ilmu kognitif,
linguistik, epistemolgi, ontologi, statistik probabilitas, …and
probably other things।Information Retrieval (4)
• Taksonomi model IR (Baeza-Yates dan Ribeiro-Neto, 1999):
U
s
e
r
T
a
s
k
Retrieval:
• Adhoc
• Filtering
Browsing
Classic Models:
• boolean
• vector
• probabilistic
Structured Models:
• Non-overlapping lists
• Proximal nodes
Set theoritic:
• fuzzy
• extended boolean
Algebraic:
• generalistic vector
• laten semantic index
• neural networks
Probabilistic:
• inference network
• belief network
• Flat
• Structure Guided
ह्य्पेर्तेक्स्तInformation Retrieval (5)
• Penggunaan Language Modeling atau statistical language
modeling muncul sebagai probabilistic framework yang baru,
bermaksud menangkap ketidakteraturan statistis yang menjadi ciri
dari ketidakteraturan penggunaan bahasa. Sebuah language model
(disingkat LM) adalah model tentang distribusi kondisional dari
identitas kata yang kesekian dalam sebuah rangkaian, yang
ditentukan oleh identitas dari semua kata-kata sebelumnya. Dalam
trigram model, bahasa tertulis diandaikan dengan memakai model
matematik “second-order Markov process”. Dapat dikaitkan
dengan teori Zipf tentang frekuensi kemunculan kata. Juga dengan
teori Shannon “prediction game involving n-grams ”. Selama
beberapa tahun kemudian, LM dipakai untuk automatic speech
recognition . Sejak 1980, LM menjadi komponen penting dalam
machine traslation dan error spelling. Juga dalam natural language
processing task, dan summarization. Akhir tahun 1990an
diperkenalkan ke IR dan kini menjadi salah satu cabang penting.

http://eprints.rclis.org/archive/00011265/01/Ragam_Teori_Informasi.pdf

Tidak ada komentar: