Kamis, 17 Juli 2014

pagerange

PageRank adalah sebuah algoritma yang
telah dipatenkan yang berfungsi menentukan
situs web mana yang lebih penting/populer.
PageRank merupakan salah satu fitur utama
mesin pencari Google dan diciptakan oleh
pendirinya, Larry Page dan Sergey Brin yang
merupakan mahasiswa Ph.D. Universitas
Stanford .
Cara kerja
Sebuah situs akan semakin populer jika
semakin banyak situs lain yang meletakkan
tautan yang mengarah ke situsnya, dengan
asumsi isi/content situs tersebut lebih
berguna dari isi/content situs lain. Peringkat
halaman dihitung dengan skala 1-10.
Contoh: Sebuah situs yang mempunyai
peringkat halaman 9 akan di urutkan
lebih dahulu dalam daftar pencarian
Google daripada situs yang mempunyai
peringkat halaman 8 dan kemudian
seterusnya yang lebih kecil.
Konsep
Banyak cara digunakan search engine dalam
menentukan kualitas/rangking sebuah
halaman web, mulai dari penggunaan META
Tags , isi dokumen, penekanan pada content
dan masih banyak teknik lain atau gabungan
teknik yang mungkin digunakan. Link
popularity , sebuah teknologi yang
dikembangkan untuk memperbaiki
kekurangan dari teknologi lain (Meta
Keywords, Meta Description) yang bisa
dicurangi dengan halaman yang khusus di
desain untuk search engine atau biasa
disebut doorway pages. Dengan algoritma
‘PageRank ’ ini, dalam setiap halaman akan
diperhitungkan inbound link (link masuk)
dan outbound link (link keuar) dari setiap
halaman web.
PageRank , memiliki konsep dasar yang sama
dengan link popularity , tetapi tidak hanya
memperhitungkan “jumlah” inbound dan
outbound link. Pendekatan yang digunakan
adalah sebuah halaman akan diangap
penting jika halaman lain memiliki link ke
halaman tersebut. Sebuah halaman juga
akan menjadi semakin penting jika halaman
lain yang memiliki rangking (pagerank)
tinggi mengacu ke halaman tersebut.
Dengan pendekatan yang digunakan
PageRank , proses terjadi secara rekursif
dimana sebuah rangking akan ditentukan
oleh rangking dari halaman web yang
rangkingnya ditentukan oleh rangking
halaman web lain yang memiliki link ke
halaman tersebut. Proses ini berarti suatu
proses yang berulang (rekursif). Di dunia
maya, ada jutaan bahkan milyaran halaman
web. Oleh karena itu sebuah rangking
halaman web ditentukan dari struktur link
dari keseluruhan halaman web yang ada di
dunia maya. Sebuah proses yang sangat
besar dan komplek.
Algoritma
Dari pendekatan yang sudah dijelaskan pada
artikel konsep pagerank, Lawrence Page and
Sergey Brin membuat algoritma pagerank
seperti di bawah:
Algoritma awal
PR(A) = (1-d) + d ( ( PR
(T1) / C(T1) ) + … + ( PR
(Tn) / C(Tn) ) )
Salah satu algoritma lain yang dipublikasikan
PR(A) = (1-d) / N + d ( ( PR
(T1) / C(T1) ) + … + ( PR
(Tn) / C(Tn) ) )
PR(A) adalah Pagerank halaman A
PR(T1) adalah Pagerank halaman
T1 yang mengacu ke halaman A
C(T1) adalah jumlah link keluar
( outbound link) pada halaman T1
d adalah damping factor yang bisa
diberi antara 0 dan 1.
N adalah jumlah keseluruhan
halaman web (yang terindeks oleh Google)
Dari algoritma di atas dapat dilihat bahwa
pagerank ditentukan untuk setiap halaman
anda bukan keseluruhan situs web. Pagerank
sebuah halaman ditentukan dari pagerank
halaman yang mengacu kepadanya yang juga
menjalani proses penentuan pagerank
dengan cara yang sama, jadi proses ini akan
berulang sampai ditemukan hasil yang tepat.
Akan tetapi pagerank halaman A tidak
langsung diberikan kepada halaman yang
dituju, akan tetapi sebelumnya dibagi
dengan jumlah link yang ada pada halaman
T1 (outbound link), dan pagerank itu akan
dibagi rata kepada setiap link yang ada pada
halaman tersebut. Demikian juga dengan
setiap halaman lain “Tn” yang mengacu ke
halaman “A”.
Setelah semua pagerank yang didapat dari
halaman-halaman lain yang mengacu ke
halaman “A” dijumlahkan, nilai itu kemudian
dikalikan dengan damping factor yang
bernilai antara 0 sampai 1. Hal ini dilakukan
agar tidak keseluruhan nilai pagerank
halaman T didistribusikan ke halaman A.
Random surfer model
Random surfer model merupakan
pendekatan yang menggambarkan
bagaimana sesungguhnya yang dilakukan
seorang pengunjung di depan sebuah
halaman web. Ini berarti peluang atau
probabilitas seorang user mengklik sebuah
link sebanding dengan jumlah link yang ada
pada halaman tersebut. Pendekatan ini yang
digunakan pagerank sehingga pagerank dari
link masuk (inbound link) tidak langsung
didistribusikan ke halaman yang dituju,
melainkan dibagi dengan jumlah link keluar
(outbound link) yang ada pada halaman
tersebut. Rasanya semua juga menganggap
ini adil. Karena bisa anda bayangkan apa
jadinya jika sebuah halaman dengan
rangking tinggi mengacu ke banyak halaman,
mungkin teknologi pagerank tidak akan
relevan digunakan.
Metode ini juga memiliki pendekatan bahwa
seorang user tidak akan mengklik semua link
yang ada pada sebuah halaman web. Oleh
karena itu pagerank menggunakan damping
factor untuk mereduksi nilai pagerank yang
didistribusikan sebuah halaman ke halaman
lain. Probabilitas seorang user terus
mengkilk semua link yang ada pada sebuah
halaman ditentukan oleh nilai damping
factor (d) yang bernilai antara 0 sampai 1.
Nilai damping factor yang tinggi berarti
seorang user akan lebih banyak mengklik
sebuah halaman sampai dia berpindah ke
halaman lain. Setelah user berpindah
halaman maka probabilitas
diimplemntasikan ke dalam algoritma
pagerank sebagai konstanta (1-d) . Dengan
mengeluarkan variable inbound link (link
masuk), maka kemungkinan seorang user
untuk berpindah ke halaman lain adalah (1-
d), hal ini akan membuat pagerank selalu
berada pada nilai minimum.
Dalam algoritma pagerank yang lain,
terdapat nilai N yang merupakan jumlah
keseluruhan halaman web, jadi seorang user
memiliki probabilitas mengunjungi sebuah
halaman dibagi dengan total jumlah
halaman yang ada. Sebagai contoh, jika
sebuah halaman memiliki pagerank 2 dan
total halaman web 100 maka dalam seratus
kali kunjungan dia mengunjungi halaman itu
sebanyak 2 kali (catatan, ini adalah
probabilitas).

Tidak ada komentar:

Posting Komentar

ngomong aja!!