同樣,在家中,如果你購買了公共網(wǎng)絡(luò)服務(wù),那么你的IP地址存在動(dòng)態(tài)分配的問題。你今天上網(wǎng)的IP地址和明天的可能就會不同,這個(gè)時(shí)候日志方法只能 判斷為兩個(gè)不同的訪問者。這又可能使訪問者的數(shù)量被高估。
此外,前面提到過日志是能夠忠實(shí)記錄機(jī)器(非人為)的訪問活動(dòng)的,但是機(jī)器不是人,它們的活動(dòng)混在真實(shí)的人的訪問之中,同樣會使真實(shí)訪問者的數(shù)量, 或者訪問數(shù)本身被高估。
在這正反兩相反方向的共同作用下,結(jié)果只能一個(gè),那就是對于訪問者數(shù)量的估算是非常模糊的。當(dāng)然,我們必須要承認(rèn),無論用什么方法,網(wǎng)站訪問者的精 確數(shù)量都無法獲得,但相對而言,日志方法要更不準(zhǔn)確些。
4. 較弱的實(shí)時(shí)性
沒錯(cuò),網(wǎng)站服務(wù)器日志是記錄服務(wù)器運(yùn)行的實(shí)時(shí)數(shù)據(jù)的,但是這些數(shù)據(jù)想要被取出分析,實(shí)時(shí)性就沒有那么好了。常見的情況是,你必須首先把服務(wù)器日志文 件(log file)從服務(wù)器中取出來,而這些文件肯定不會是服務(wù)器正在運(yùn)行過程中的數(shù)據(jù),一般都是隔天的(需要驗(yàn)證),然 后再把這些日志文件導(dǎo)入到專門針對日志分析的工具中才能進(jìn)行分析。這個(gè)過程的快慢依賴于你的熟練程度,但要追求實(shí)時(shí),頗有難度。
有技術(shù)高超的站長或者工程師通過架設(shè)內(nèi)部網(wǎng)絡(luò)、組建專門的日志分析服務(wù)器,并且編寫特定的程序來解決日志分析的實(shí)時(shí)性問題(http://www.phparticle.net/htmldata/36462/1/), 但是,對于普通的中小網(wǎng)站,這種方法難度頗大,花費(fèi)不菲,所以可行性不強(qiáng)。因此,實(shí)時(shí)性是絕大部分通過日志方法來分析網(wǎng)站數(shù)據(jù)時(shí)要面對的問題。
5. 海量的數(shù)據(jù)存儲
服務(wù)器日志是忠實(shí)的,所以它會如實(shí)記錄下來每一分每一秒發(fā)生的每一條服務(wù)器響應(yīng)。對于一些流量稍大的網(wǎng)站,一天的網(wǎng)站日志記錄超過數(shù)個(gè) G(Gigabytes)是非常正常的,而那些最大的網(wǎng)站,一個(gè)小時(shí)就可能產(chǎn)生數(shù)G的記錄。我們沒有詹姆斯·卡梅隆的超級團(tuán)隊(duì)(他的《阿凡達(dá)》特效需要處 理超過500,000G的數(shù)據(jù)),所以如果要回溯網(wǎng)站一個(gè)月的流量就可能變成一個(gè)相當(dāng)棘手的問題,需要投入相當(dāng)?shù)臅r(shí)間和耐心,如果你沒有相當(dāng)?shù)募夹g(shù)和經(jīng) 驗(yàn),效率就會很低。
6. 日志文件獲取繁瑣
我們不能把日志文件的獲取想象的太簡單,畢竟這不是在自己臥室的電腦中點(diǎn)開一個(gè)MP3文件那么容易。有些網(wǎng)站有鏡像服務(wù)器,有些服務(wù)器在境外,有些 服務(wù)器是由處在多個(gè)不同地理位置的物理服務(wù)器邏輯組合而成。這些情況下,在進(jìn)行日志分析之前需要集中所有的日志文件,這是一個(gè)很有些麻煩的事情,尤其是當(dāng) 日志文件的體積極為龐大的時(shí)候。另外,如果是租用的ISP服務(wù)器空間,如果沒有權(quán)限獲取日志數(shù)據(jù),那么實(shí)際上連進(jìn)行分析的可能性都沒有了。
現(xiàn)在,你完全了解了日志方法收集網(wǎng)站分析數(shù)據(jù)的優(yōu)缺點(diǎn),那么,什么情況下你應(yīng)該選擇這種方法進(jìn)行網(wǎng)站分析呢?
四. 什么情況下該用日志分析方法
如果你有如下的數(shù)據(jù)監(jiān)測和分析的需要,你應(yīng)該用日志分析方法:
1. 需要了解搜索引擎機(jī)器人或者其他非人為訪問流量,并且希望據(jù)此對網(wǎng)站進(jìn)行針對性的優(yōu)化,如通過分析搜索引擎的訪問行為來進(jìn)行SEO;
2. 需要了解除了普通的PC客戶端之外的上網(wǎng)設(shè)備對網(wǎng)站的訪問情況;
3. 需要了解網(wǎng)站的文件資源是否被用戶完整的下載索取;
4. 對網(wǎng)站流量信息具有極高的保密需要,不允許讓任何第三方染指或幫忙;
5. 對于網(wǎng)站服務(wù)器的安全性和可維護(hù)性有要求,以及有非常顯著的反抗黑客或其他非授權(quán)訪問需求的。
如果有如下需求,你不應(yīng)該用日志分 析方法:
1. 你的網(wǎng)站有重要的Flash之類的“非網(wǎng)頁類型的互動(dòng)”,用戶和這些內(nèi)容的互動(dòng)是你想要了解的內(nèi)容;
2. 不喜歡麻煩,對大數(shù)據(jù)量文件的處理不擅長,對日志文件不熟悉,沒有好的日志數(shù)據(jù)處理軟硬件資源;
3. 需要更精確的了解網(wǎng)站被真正的人訪問的情況,而不需要了解“非人”的機(jī)器對網(wǎng)站的訪問并且不希望受到網(wǎng)頁緩存的干擾;
4. 需要更好的實(shí)時(shí)性、更規(guī)律更直觀的數(shù)據(jù)呈現(xiàn)。
現(xiàn)在,拿著這個(gè)清單,你可以做出容易的選擇了。因?yàn)槲业牟┛停?a target="_blank">http://www.chinawebanalytics.cn) 的流量很多來自搜索引擎,因此分析服務(wù)器日志并了解搜索引擎爬蟲的工作其實(shí)是非常必要的一個(gè)分析工作之一。
就我的經(jīng)驗(yàn)而言,我們國家使用日志來分析網(wǎng)站仍然占有相當(dāng)?shù)谋壤,尤其是對于一些大型網(wǎng)站,他們會開發(fā)專門的軟件,劃撥專門的硬件資源來分析網(wǎng)站日 志。不過,這不僅僅是從分析訪問者行為的角度來考慮,更是從網(wǎng)站服務(wù)器的安全性和可維護(hù)性角度來考慮的。
不過,如果你把網(wǎng)站分析的重心放在對于網(wǎng)站真實(shí)訪問者行為的追蹤和分析上,那么,通過日志方法來實(shí)現(xiàn)相對而言難度相對比較大,操作也比較繁瑣,我們 可以利用另一種方法,即頁面標(biāo)記法(Page Tag)來實(shí)現(xiàn)對網(wǎng)站訪問數(shù)據(jù)的收集。
[版權(quán)歸Sidney Song(宋星)所有,歡 迎轉(zhuǎn)載,但請事先告知作者并注明出處]
好了,介紹完了,希望大家覺得看完后還算愉快!現(xiàn)在是大家的時(shí)間了,請您留言,任何問題,想法,不確切之處,都非常歡迎!謝謝!
來源:http://www.chinawebanalytics.cn/wa-server-logfile-basic-pros-and-cons/
轉(zhuǎn)載:http://www.ued163.com/?p=1123
本文鏈接:http://www.95time.cn/tech/site/2010/7798.asp
出處:163 UED Team
責(zé)任編輯:bluehearts
上一頁 服務(wù)器日志法網(wǎng)站分析的原理及優(yōu)缺點(diǎn) [4] 下一頁
◎進(jìn)入論壇網(wǎng)站綜合、網(wǎng)頁制作版塊參加討論
|