繼續(xù)。以下文字翻譯自http://pr.efactory.de/e-pagerank-algorithm.shtml。
Lawrence Page和Sergey Brin在個(gè)別場(chǎng)合描述了PageRank最初的算法。這就是
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) ——算法1
式中:
- PR(A) :網(wǎng)頁(yè)A頁(yè)的PageRank值;
- PR(Ti) :鏈接到A頁(yè)的網(wǎng)頁(yè)Ti的PageRank值;
- C(Ti) :網(wǎng)頁(yè)Ti的出站鏈接數(shù)量;
- d :阻尼系數(shù),0<d<1。
可見,首先,PageRank并不是將整個(gè)網(wǎng)站排等級(jí),而是以單個(gè)頁(yè)面計(jì)算的。其次,頁(yè)面A的PageRank值取決于那些連接到A的頁(yè)面的PageRank的遞歸值。
PR(Ti)值并不是均等影響頁(yè)面PR(A)的。在PageRank的計(jì)算公式里,T對(duì)于A的影響還受T的出站鏈接數(shù)C(T)的影響。這就是說,T的出站鏈接越多,A受T的這個(gè)連接的影響就越少。
PR(A)是所有PR(Ti)之和。所以,對(duì)于A來說,每多增加一個(gè)入站鏈接都會(huì)增加PR(A)。
最后,所有PR(Ti)之和乘以一個(gè)阻尼系數(shù)d,它的值在0到1之間。因此,阻尼系數(shù)的使用,減少了其它頁(yè)面對(duì)當(dāng)前頁(yè)面A的排序貢獻(xiàn)。
隨機(jī)沖浪模型
Lawrence Page和Sergey Brin為以上這個(gè)PageRank算法給出了一個(gè)非常簡(jiǎn)單直觀的解釋。他們將PageRank視作一種模型,就是用戶不關(guān)心網(wǎng)頁(yè)內(nèi)容而隨機(jī)點(diǎn)擊鏈接。
網(wǎng)頁(yè)的PageRank值決定了隨機(jī)訪問到這個(gè)頁(yè)面的概率。用戶點(diǎn)擊頁(yè)面內(nèi)的鏈接的概率,完全由頁(yè)面上鏈接數(shù)量的多少?zèng)Q定的,這也是上面PR(Ti)/C(Ti)的原因。
因此,一個(gè)頁(yè)面通過隨機(jī)沖浪到達(dá)的概率就是鏈入它的別的頁(yè)面上的鏈接的被點(diǎn)擊概率的和。并且,阻尼系數(shù)d減低了這個(gè)概率。阻尼系數(shù)d的引入,是因?yàn)橛脩舨豢赡軣o限的點(diǎn)擊鏈接,常常因無聊而隨機(jī)跳入另一個(gè)頁(yè)面。
阻尼系數(shù)d定義為用戶不斷隨機(jī)點(diǎn)擊鏈接的概率,所以,它取決于點(diǎn)擊的次數(shù),被設(shè)定為0-1之間。d的值越高,繼續(xù)點(diǎn)擊鏈接的概率就越大。因此,用戶停止點(diǎn)擊并隨機(jī)沖浪至另一頁(yè)面的概率在式子中用常數(shù)(1-d)表示。無論入站鏈接如何,隨機(jī)沖浪至一個(gè)頁(yè)面的概率總是(1-d)。(1-d)本身也就是頁(yè)面本身所具有的PageRank值。
出處:藍(lán)色理想
責(zé)任編輯:藍(lán)色
上一頁(yè) Google 的 PageRank 概述 下一頁(yè) Google 的 PageRank 算法 [2]
|