Lawrence Page和Sergey Brin在不同的刊物中發(fā)表了2個(gè)不同版本的PageRank的算法公式。在第二個(gè)版本的算法里,頁面A的PageRank值是這樣得到的:
PR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) ——算法2
這里的N是整個(gè)互聯(lián)網(wǎng)網(wǎng)頁的總數(shù)。這個(gè)算法2,并不是完全不同于算法1。隨機(jī)沖浪模型中,算法2中頁面的PageRank值就是在點(diǎn)擊許多鏈接后到達(dá)這個(gè)頁面頁面的實(shí)際概率。因此,互聯(lián)網(wǎng)上所有網(wǎng)頁的PageRank值形成一個(gè)概率分布,所有RageRank值之和為1。
相反地,第一種算法中隨機(jī)訪問到一個(gè)頁面的概率受到互聯(lián)網(wǎng)網(wǎng)頁總數(shù)的影響。因此,算法2解得的PageRank值就是用戶開始訪問過程后,該頁面被隨機(jī)訪問到的概率的期望值。如果互聯(lián)網(wǎng)有100個(gè)網(wǎng)頁,其中一個(gè)頁面PageRank值為2;那么,如果他將訪問互聯(lián)網(wǎng)的過程重新開始100次(xdanger注:這句話具體含義是,該用戶隨機(jī)點(diǎn)擊網(wǎng)頁上的鏈接進(jìn)入另一個(gè)頁面,每點(diǎn)擊一次都有一定概率因疲勞或厭倦或其他任何原因停止繼續(xù)點(diǎn)擊,這就是阻尼系數(shù)d的含義;每當(dāng)停止點(diǎn)擊后,即算作此次訪問結(jié)束,然后隨機(jī)給出一個(gè)頁面讓他開始另一次訪問過程;讓他將這樣的“手續(xù)”重復(fù)進(jìn)行100次),平均就有2次訪問到該頁面。
就像前面所提到的,兩種算法并非彼此是本質(zhì)的不同。用算法2解得的PR(A)乘以互聯(lián)網(wǎng)的總網(wǎng)頁數(shù)N,即得到由算法1解得的PR(A)。Page和Brin在他們最著名的刊物《The Anatomy of a Large-Scale Hypertextual Web Search Engine》中調(diào)和了兩種算法,文中聲稱算法1是將PageRank形成對(duì)于互聯(lián)網(wǎng)網(wǎng)頁的一個(gè)概率分布,其和為1。
接下來,我們將使用算法1。理由是算法1忽略了互聯(lián)網(wǎng)的網(wǎng)頁總數(shù),使得更易于計(jì)算。
出處:藍(lán)色理想
責(zé)任編輯:藍(lán)色
上一頁 Google 的 PageRank 算法 [1] 下一頁
|