知己知彼——站點(diǎn)訪問統(tǒng)計/日志分析挖掘的重要性
網(wǎng)站設(shè)計不僅僅只是被動的迎合搜索引擎的索引,更重要是充分利用搜索引擎帶來的流量進(jìn)行更深層次的用戶行為分析。目前,來自搜索引擎關(guān)鍵詞統(tǒng)計幾乎是各種WEB日志分析工具的標(biāo)準(zhǔn)功能,相信商業(yè)日志統(tǒng)計工具在這方面應(yīng)該會有更強(qiáng)化的實現(xiàn)。WEB日志統(tǒng)計這個功能如此重要,以至于新的RedHat 8中已經(jīng)將日志分析工具webalizer作為標(biāo)準(zhǔn)的服務(wù)器配置應(yīng)用之一。
以Apache/webalizer為例,具體的做法如下:
- 記錄訪問來源:
在Apache配置文件中設(shè)置日志格式為combined格式,這樣的日志中會包含擴(kuò)展信息:其中有一個字段就是相應(yīng)訪問的轉(zhuǎn)向來源: HTTP_REFERER,如果用戶是從某個搜索引擎的搜索結(jié)果中找到了你的網(wǎng)頁并點(diǎn)擊過來,日志中記錄的HTTP_REFERER就是用戶在搜索引擎結(jié)果頁面的URL,這個URL中包含了用戶查詢的關(guān)鍵詞。
- 在webalizer中缺省配置針對搜索引擎的統(tǒng)計:如何提取HTTP_REFERER中的關(guān)鍵詞
webalizer中缺省有針對yahoo, google等國際流行搜索引擎的查詢格式:這里我增加了針對國內(nèi)門戶站點(diǎn)的搜索引擎參數(shù)設(shè)置
SearchEngine yahoo.com p=
SearchEngine altavista.com q=
SearchEngine google.com q=
SearchEngine sina.com.cn word=
SearchEngine baidu.com word=
SearchEngine sohu.com word=
SearchEngine 163.com q=
通過這樣設(shè)置webalizer統(tǒng)計時就會將HTTP_REFERER中來自搜索引擎的URL中的keyword提取出來,比如:所有來自 google.com鏈接中,參數(shù)q的值都將被作為關(guān)鍵詞統(tǒng)計下來:,從匯總統(tǒng)計結(jié)果中,就可以發(fā)現(xiàn)用戶是根據(jù)什么關(guān)鍵詞找到你的次數(shù),以及找到你的用戶最感興趣的是那些關(guān)鍵詞等,進(jìn)一步的,在webalizer中有設(shè)置還可以將統(tǒng)計結(jié)果倒出成CSV格式的日志,便于以后導(dǎo)入數(shù)據(jù)庫進(jìn)行歷史統(tǒng)計,做更深層次的數(shù)據(jù)挖掘等。
以前通過WEB日志的用戶分析主要是簡單的基于日志中的訪問時間/IP地址來源等,很明顯,基于搜索引擎關(guān)鍵詞的統(tǒng)計能得到的分析結(jié)果更豐富、更直觀。因此,搜索引擎服務(wù)的潛在商業(yè)價值幾乎是不言而喻的,也許這也是Yahoo! Altavista等傳統(tǒng)搜索引擎網(wǎng)站在門戶模式后重新開始重視搜索引擎市場的原因,看看Google的年度關(guān)鍵詞統(tǒng)計就知道了,在互聯(lián)網(wǎng)上有誰比搜索引擎更了解用戶對什么更感興趣呢?
請看本站的反相鏈接統(tǒng)計:http://www.chedong.com/log/2003_6.log
需要注意的是:由于Google針對Windows 2000中的IE使用的是UTF-8方式的編碼,因此很多統(tǒng)計有時候需要在UTF-8方式下查看才是正確字符顯示。從統(tǒng)計中能夠感受到:在使用水平比較高的IT開發(fā)人員中Google已經(jīng)成為最常用的搜索引擎。而使用百度的用戶也已經(jīng)大大超過了傳統(tǒng)的搜狐,新浪等門戶站點(diǎn),因此傳統(tǒng)門戶網(wǎng)站在搜索引擎上的優(yōu)勢將是非常脆弱的。而從技術(shù)的發(fā)展趨勢來看,以后還會有更多的利用互聯(lián)網(wǎng)媒體做更深層次數(shù)據(jù)挖掘的服務(wù)模式出現(xiàn):
轉(zhuǎn)載自cnblog.org——“突發(fā)”文字可能揭示社會趨勢
在“新科學(xué)家”(New Scientist)在線雜志上,公布了康奈爾大學(xué)的一個新研究成果,引人注目,也許與Google 收購Pyra 的動機(jī)有關(guān)。
這所大學(xué)的計算機(jī)科學(xué)家 Jon Klenberg 開發(fā)了一個計算機(jī)算法,能夠識別一篇文章中某些文字的“突發(fā)”增長,而且他發(fā)現(xiàn),這些“突發(fā)”增長的文字可以用來快速識別最新的趨勢和熱點(diǎn)問題,因此能夠更有效地篩選重要信息。過去很多搜索技術(shù)都采用了簡單計算文字/詞組出現(xiàn)頻率的方法,卻忽略了文字使用增加的速率。
Jon 特別指出,這種方法可以應(yīng)用到大量Weblog上,以跟蹤社會趨勢,這對商業(yè)應(yīng)用也很有潛力。例如,廣告商可以從成千上萬的個人Blog 中快速找到潛在的需求風(fēng)尚。而且只要Blog 覆蓋話題范圍足夠大(實際上發(fā)展趨勢確實如此),這項技術(shù)對政治、社會、文化和經(jīng)濟(jì)等領(lǐng)域也都會有實際意義了。
雖然Google 新聞的內(nèi)部算法至今沒有公開,但是人們猜測這種完全由機(jī)器所搜集的頭條新聞應(yīng)當(dāng)不是Google搜索引擎中慣用的鴿子算法,很可能與這種“突發(fā)”判斷算法有關(guān)。如此說來,Google收購Blog工具供應(yīng)商的舉動確實還有更深層次的遠(yuǎn)見了。
- NewScientist.com news, Word