下面是一條標準的log file記錄:
202.71.113.38 – – [03/Jan/2010:01:56:12 +0800] “GET /Chinawebanalytics/Sidney.htm HTTP/1.0″ 200 5122
從左到右,202.71.113.38就是遠程主機的IP;而登錄名和登錄全名指的是發(fā)起這個請求的用戶的名字,這個一般大家當然是不想要透露的 了,所以遠程主機會禁止給出這兩個信息,log file當然就記錄不下來了,用兩個短中劃線代替。然后,03/Jan/2010是請求發(fā)生的日期,01:56:12則是時間,之后的+0800是指比格 林威治時間要晚8個小時,就是我們北京時間了。再之后的GET是請求的方法,另一種方法是POST,可以簡單理解為GET就是索取,POST就是提交。接 著:/Chinawebanalytics/Sidney.htm是被請求文件的地址,可以是絕對地址也可以是相對地址。HTTP/1.0是請求所遵守的 協(xié)議,這里的協(xié)議是HTTP 1.0。整個記錄的結(jié)尾是兩個數(shù)字,其中200表示一種請求的狀態(tài),意思是請求一切正常。有時候這個數(shù)字會顯示為404,相信大家一看到這個數(shù)字就頭痛, 它表示請求的文件無法找到(file not found);又有時候,這個數(shù)字會顯示為301,表示頁面被重新定向到了別的地址。最后的一個數(shù)字5593,表示所請求的文檔的長度為5122 bytes。
通用格式其實很簡單,但是里面的這11類記錄往往不足夠幫助我們進行更深入的分析,因此其他的一些記錄被加入進來,其中最重要的一些是:
- 請求來源(Referrer):指連接到被請求資源的網(wǎng)站的URL。如果請求時通過點擊一個鏈接時發(fā)生,那么這個項目就會被記錄;
- 客戶端(User Agent):記錄用戶的瀏覽器或者發(fā)出請求的程序的相關(guān)信息;
- 所需時間(Time Taken):從請求的發(fā)出到請求的資源全部傳輸完畢所需花費的時間;
- Cookie。關(guān)于cookie的內(nèi)容請大家看我的這篇文章:捍 衛(wèi)Cookie——沒有Cookie,我們什么都沒有了。
看起來,網(wǎng)站服務(wù)器日志所記錄的內(nèi)容是很有限的,比起我們動輒上萬行的編程實在是九牛一毛。但是,千萬別認為網(wǎng)站服務(wù)器日志文件會很小,對于一些大 網(wǎng)站,每分每秒都有很多訪問者對網(wǎng)站服務(wù)器進行請求,所以日志文件會積少成多,成為巨型的數(shù)據(jù)文件。有時候,一個小時的記錄就能超過數(shù)G。什么,你網(wǎng)站的 服務(wù)器日志一個月才1M?要加油啊,沒有人氣的網(wǎng)站可沒有生命力。
講到這兒,該說說歷史了。網(wǎng)站分析就是從網(wǎng)站服務(wù)器日志開始的,或者更準確的說,網(wǎng)站服務(wù)器日志自誕生之日起,就是為網(wǎng)站分析所用的。最早,人們可是把所 有的記錄都拿出來,然后導(dǎo)入到數(shù)據(jù)軟件中去進行分析,辛苦程度自不用說;但這個痛苦的階段不會持續(xù)太久,哪兒有痛苦,哪兒就有生意,所以網(wǎng)站日志分析軟件 就出現(xiàn)了,解決了很大的問題,以至于大小互聯(lián)網(wǎng)服務(wù)提供商(ISP)們都為租用他們空間的用戶提供一款免費的網(wǎng)站日志分析軟件。盡管如此,分析網(wǎng)站日志一 直都是一個相當不容易的事情,所以,人們不得不尋找一些更便利的方法,這樣便發(fā)明了網(wǎng)站分析的新的數(shù)據(jù)獲取方法,這是后話了。
如果你問我什么情況下選擇用網(wǎng)站服務(wù)器日志來進行網(wǎng)站分析,我建議你如非必須,那么還是尋找一些更容易的方法能夠事半功倍。看看后面的內(nèi)容,你就能 知道我為什么這么說。
出處:163 UED Team
責任編輯:bluehearts
上一頁 服務(wù)器日志法網(wǎng)站分析的原理及優(yōu)缺點 [1] 下一頁 服務(wù)器日志法網(wǎng)站分析的原理及優(yōu)缺點 [3]
◎進入論壇網(wǎng)站綜合、網(wǎng)頁制作版塊參加討論
|