網(wǎng)站分析收集數(shù)據(jù)的方式其實有五、六種之多,我們最常見的有三種,分別是:服務(wù)器日志(Server Log)、頁面標記(Page Tag)和客戶端監(jiān)測軟件收集(Client End/Desktop)。我的CWA博客(http://www.chinawebanalytics.cn)中主要講解的都是頁面標記法,今天則跟大 家講解一下服務(wù)器日志方法的原理及優(yōu)缺點。
一. 服務(wù)器日志是什么
真正意義上的網(wǎng)站分析是從服務(wù)器日志開始的,而且直到今天,分析服務(wù)器(也稱為server log file,或簡稱log file)日志仍然是網(wǎng)站分析的重要方法。
這里的服務(wù)器指的是網(wǎng)站服務(wù)器(Web Server),而服務(wù)器日志跟飛機的黑匣子一樣,是用來記錄網(wǎng)站服務(wù)器的運行信息的,或者簡單說,是用來記錄服務(wù)器中的什么頁面在什么時候被誰訪問了。 例如,如果你訪問一次我的網(wǎng)站:http://www.chinawebanalytics.cn, 那么一般情況下,網(wǎng)站服務(wù)器的日志就會記錄在某時某刻來自某個IP的訪問者索引了網(wǎng)頁“/index.php”。當然,網(wǎng)站服務(wù)器日志還會記錄其他許多內(nèi) 容,這些內(nèi)容能夠幫助我們分析網(wǎng)站的流量和訪問者在網(wǎng)站上的行為。
下面這個圖說明了網(wǎng)站日志是如何產(chǎn)生的。當用戶訪問一個網(wǎng)站的時候,事實上是訪問這個網(wǎng)站的某一個具體的頁面,我們假設(shè)這個頁面叫Page 1。這時,我們的這個訪問行為會請求服務(wù)器中Page 1的實際的文件,隨之把這個文件下載到瀏覽器上。由于請求和下載行為都會引起服務(wù)器的響應(yīng)和相應(yīng)的行動,因此就有必要記錄下服務(wù)器的這些行動。
你會問,為什么需要記錄服務(wù)器的行動呢?原因很簡單,因為我們不想讓這個服務(wù)器變成“哈爾9000”(哈爾9000是庫布里克《2001太空奧德 賽》里面有了自我意識的電腦,它直接威脅到了電影中的宇航員)。∵@當然只是開玩笑,不過目的并無差別,就是能夠通過服務(wù)器日志,對服務(wù)器的運行歷史進行 記錄,這樣當有任何異常情況發(fā)生的時候,我們都能夠通過日志探尋問題發(fā)生的原因——跟記錄飛機運行狀態(tài)的黑匣子的作用十分類似。
原理看起來并不復(fù)雜,不過log file實際上并不簡單。為了讓log file具有可讀性,log file并不可以按照各個網(wǎng)站所有者的喜好隨意記錄的,而是有自己的規(guī)范。W3C組織定義了server log file的通用格式(如果你有興趣,可以在這里看看這些格式都是如何定義的:http://www.w3.org/Daemon/User/Config/Logging.html#common_logfile_format), 而其他一些組織或者個人又根據(jù)自己的需要額外擴展了這個格式,使log file能夠比較全面地記錄網(wǎng)站服務(wù)器進行的各種活動。
一條標準的web server log記錄通常包含如下信息:
- 遠程主機(Remote Host)的IP地址/名字
- 登錄名(Log Name)
- 登錄全名(Full Name)
- 請求發(fā)生的日期(Date)
- 請求發(fā)生的時間(Time)
- 和標準格林威治時間的差值(GMT Offset)
- 請求的方法(Request Method)
- 請求的文件的地址(File)
- 請求遵守的協(xié)議(Protocol)
- 請求的狀態(tài)(Status)
- 被請求文檔的長度(Length)
出處:163 UED Team
責任編輯:bluehearts
上一頁 下一頁 服務(wù)器日志法網(wǎng)站分析的原理及優(yōu)缺點 [2]
◎進入論壇網(wǎng)站綜合、網(wǎng)頁制作版塊參加討論
|