2021-06-16 分類: 網(wǎng)站建設(shè)
網(wǎng)站日志,準(zhǔn)確來(lái)說(shuō)是服務(wù)器日志。通過(guò)服務(wù)器日志,我們可以了解到用戶在什么IP、在什么分辨率的設(shè)備、什么時(shí)間、什么地區(qū)訪問(wèn)了我們的網(wǎng)站,以及當(dāng)時(shí)訪問(wèn)的頁(yè)面是否正常。
對(duì)于我們網(wǎng)站而言,搜索引擎也是網(wǎng)站用戶之一。本文提到的網(wǎng)站日志分析,更多是在分析搜索引擎這種用戶。
下面是一條標(biāo)準(zhǔn)的log file記錄:
202.71.113.38 – - [03/Jan/2014:01:56:12 +0800] "GET /http://www.mahaixiang.cn/SEO/index.html HTTP/1.0" 200 5122
從左到右,202.71.113.38就是遠(yuǎn)程主機(jī)的IP;而登錄名和登錄全名指的是發(fā)起這個(gè)請(qǐng)求的用戶的名字,這個(gè)一般大家是不想要透露的了,所以遠(yuǎn)程主機(jī)會(huì)禁止給出這兩個(gè)信息,log file當(dāng)然就記錄不下來(lái)了,用兩個(gè)短中劃線代替。
然后,03/Jan/2014是請(qǐng)求發(fā)生的日期,01:56:12則是具體時(shí)間,之后的+0800是指比格林威治時(shí)間要晚8個(gè)小時(shí),就是我們北京時(shí)間了。
再之后的GET是請(qǐng)求的方法,另一種方法是POST,可以簡(jiǎn)單理解為GET就是索取,POST就是提交。
接著www.mahaixiang.cn/SEO/index.html是被請(qǐng)求文件的地址,可以是絕對(duì)地址也可以是相對(duì)地址。
HTTP/1.0是請(qǐng)求所遵守的協(xié)議,這里的協(xié)議是HTTP 1.0,整個(gè)記錄的結(jié)尾是兩個(gè)數(shù)字,其中200表示一種請(qǐng)求的狀態(tài),意思是請(qǐng)求一切正常(具體可查看馬海祥博客《解讀IIS日志中搜索引擎蜘蛛名稱代碼及爬尋返回代碼》的相關(guān)介紹)。
有時(shí)候這個(gè)數(shù)字會(huì)顯示為404(不明白怎么設(shè)置404的朋友,可查看馬海祥博客《你真的懂404頁(yè)面設(shè)置嗎》的相關(guān)介紹),相信大家一看到這個(gè)數(shù)字就頭痛,它表示請(qǐng)求的文件無(wú)法找到(file not found);又有時(shí)候,這個(gè)數(shù)字會(huì)顯示為301,表示頁(yè)面被重新定向到了別的地址。
最后的一個(gè)數(shù)字5593,表示所請(qǐng)求的文檔的長(zhǎng)度為5122 bytes。
通用格式其實(shí)很簡(jiǎn)單,但是里面的這11類記錄往往不足夠幫助我們進(jìn)行更深入的分析,因此其他的一些記錄被加入進(jìn)來(lái),其中最重要的一些是:
①、請(qǐng)求來(lái)源(Referrer):指連接到被請(qǐng)求資源的網(wǎng)站的URL,如果請(qǐng)求時(shí)通過(guò)點(diǎn)擊一個(gè)鏈接時(shí)發(fā)生,那么這個(gè)項(xiàng)目就會(huì)被記錄;
②、客戶端(User Agent):記錄用戶的瀏覽器或者發(fā)出請(qǐng)求的程序的相關(guān)信息;
③、所需時(shí)間(Time Taken):從請(qǐng)求的發(fā)出到請(qǐng)求的資源全部傳輸完畢所需花費(fèi)的時(shí)間;
④、Cookie:關(guān)于cookie的內(nèi)容請(qǐng)大家看馬海祥博客《基于Cookie信息的互聯(lián)網(wǎng)精準(zhǔn)廣告定向技術(shù)研究》的這篇文章,在此,也就不多講了。
看起來(lái),網(wǎng)站服務(wù)器日志所記錄的內(nèi)容是很有限的,比起我們動(dòng)輒上萬(wàn)行的編程實(shí)在是九牛一毛,但是,千萬(wàn)別認(rèn)為網(wǎng)站服務(wù)器日志文件會(huì)很小,對(duì)于一些大網(wǎng)站,每分每秒都有很多訪問(wèn)者對(duì)網(wǎng)站服務(wù)器進(jìn)行請(qǐng)求,所以日志文件會(huì)積少成多,成為巨型的數(shù)據(jù)文件。
有時(shí)候,一個(gè)小時(shí)的記錄就能超過(guò)數(shù)G的容量,如果你網(wǎng)站的服務(wù)器日志一個(gè)月才1M,那你就要加油了,沒(méi)有人氣的網(wǎng)站可沒(méi)有生命力。
利用網(wǎng)站服務(wù)器日志分析網(wǎng)站的優(yōu)點(diǎn)
如果你問(wèn)我什么情況下,選擇用網(wǎng)站服務(wù)器日志來(lái)進(jìn)行網(wǎng)站分析,我建議你如非必須,那么,還是尋找一些更容易的方法能夠事半功倍,看看后面的內(nèi)容,你就能知道我為什么這么說(shuō)了。
盡管是個(gè)技術(shù)活,但是利用網(wǎng)站服務(wù)器日志進(jìn)行網(wǎng)站分析還是有不少好處的。
(1)、網(wǎng)站服務(wù)器的日志是被你完全掌控的數(shù)據(jù)
所謂放在自己手心才是最放心的,這些日志在你的服務(wù)器中,如果不是h客入侵,數(shù)據(jù)不可能被你不希望的人獲?。ň唧w可查看馬海祥博客《如何通過(guò)IIS日志分析網(wǎng)站的隱形信息》的相關(guān)介紹)。
而且,只要你不刪除,它們永遠(yuǎn)都在那里,在任何時(shí)候你都可以回溯歷史數(shù)據(jù),無(wú)論這些數(shù)據(jù)有多么久遠(yuǎn),有朝一日,你的網(wǎng)站大獲成功,這些日志也是一份奮斗歷史的見(jiàn)證。
(2)、能夠記錄機(jī)器人或自動(dòng)程序?qū)W(wǎng)站的訪問(wèn)
其次,前面講過(guò),網(wǎng)站服務(wù)器的日志是記錄網(wǎng)站服務(wù)器行為的,因此任何服務(wù)器響應(yīng)的請(qǐng)求都會(huì)被記錄下來(lái),這些響應(yīng)可能是應(yīng)答用戶發(fā)出的請(qǐng)求,也完全可能是應(yīng)答一些互聯(lián)網(wǎng)上自動(dòng)程序發(fā)出的請(qǐng)求。
最常見(jiàn)的一種互聯(lián)網(wǎng)上的自動(dòng)程序是搜索引擎的機(jī)器人,例如:百度的Baiduspider、Google的Googlebot,這意味著網(wǎng)站服務(wù)器日志能夠用來(lái)分析搜索引擎的訪問(wèn),并幫助我們優(yōu)化搜索引擎對(duì)網(wǎng)站的訪問(wèn)。
講到這里,馬海祥請(qǐng)大家注意,并不是每一種網(wǎng)站分析方法都能做到這一點(diǎn),我們最常用的為網(wǎng)站頁(yè)面加入標(biāo)簽的方法是不能獲取搜索引擎流量的。
(3)、各個(gè)終端訪問(wèn)的詳細(xì)記錄
網(wǎng)站服務(wù)器的日志能夠記錄網(wǎng)站服務(wù)器全部響應(yīng)行為的特點(diǎn)還延伸出另外一個(gè)優(yōu)點(diǎn),那就是無(wú)論是何種終端訪問(wèn)服務(wù)器,都能把相關(guān)數(shù)據(jù)記錄下來(lái)。
現(xiàn)在,能夠訪問(wèn)網(wǎng)站的終端越來(lái)越多了,我無(wú)聊的時(shí)候也試著用Sony的PSP上網(wǎng),用手機(jī)的GPRS也能輕松的瀏覽網(wǎng)頁(yè),這些形形色 色的終端的訪問(wèn),服務(wù)器日志都會(huì)忠實(shí)的記錄,但頁(yè)面加入標(biāo)簽的方法就可能完全行不通。
(4)、能夠探知文件是否完全下載
日志方法的另一個(gè)好處是能夠記錄文件下載的情況,如果你在網(wǎng)上下載一個(gè)MP3音樂(lè),你在發(fā)出這個(gè)響應(yīng)的時(shí)候,日志會(huì)記錄一個(gè)狀態(tài);你在下載完全的時(shí)候,日志照樣會(huì)記錄一個(gè)狀態(tài);如果你沒(méi)有下載完全,日志還是會(huì)記錄下來(lái),這個(gè),我想對(duì)那些提供下載服務(wù)的網(wǎng)站很有用。
(5)、數(shù)據(jù)獲取不依賴于第三方
通過(guò)日志獲取數(shù)據(jù)本身不需要額外的第三方的幫助,只要你的服務(wù)器在運(yùn)轉(zhuǎn),日志就會(huì)源源不斷的被創(chuàng)建、保存。
不過(guò),請(qǐng)注意,這里我所指的是數(shù)據(jù)的獲取不需要額外的支持,但是數(shù)據(jù)的分析一般而言,還是需要第三方的幫助的,直接去用肉眼讀日志文件中的數(shù)據(jù)進(jìn)行分析是不可想象的。
(6)、不怕防火墻
最后,日志方法不懼怕防火墻或客戶端安全軟件的屏蔽,因?yàn)閿?shù)據(jù)都是從服務(wù)器端獲取的。
看起來(lái)似乎不錯(cuò),不過(guò)凡事有利有弊,日志方法也肯定有它不能克服的不足
利用網(wǎng)站服務(wù)器日志分析網(wǎng)站的缺點(diǎn)
日志方法能夠起到作用的前提是服務(wù)器要響應(yīng)來(lái)自客戶端的請(qǐng)求,如果客戶端的請(qǐng)求不通過(guò)服務(wù)器就得到了響應(yīng)(這其實(shí)是經(jīng)常發(fā)生的),那么服務(wù)器日志法就無(wú)能為力了。
(1)、害怕網(wǎng)頁(yè)緩存
為了提高網(wǎng)站頁(yè)面的載入速度,人們發(fā)明了網(wǎng)頁(yè)緩存(Cache),在臺(tái)灣,Cache被翻譯作“快取”,似乎兼?zhèn)淞艘袅x。
網(wǎng)頁(yè)緩存的原理很容易理解,但卻是個(gè)了不起的發(fā)明,在緩存出現(xiàn)之前,人們?cè)L問(wèn)網(wǎng)站每次都需要把網(wǎng)頁(yè)從網(wǎng)站的服務(wù)器傳輸?shù)娇蛻舳说臑g覽器中,這個(gè)速度當(dāng)然會(huì)有點(diǎn)兒慢,尤其是網(wǎng)絡(luò)條件不好的時(shí)候。
于是善動(dòng)腦筋的人們發(fā)現(xiàn),每次訪問(wèn)的網(wǎng)站其實(shí)有很多內(nèi)容是沒(méi)有更新的,如果能夠把那些不經(jīng)常更新的部分放在自己的電腦里面,每次打開(kāi)網(wǎng)頁(yè)的時(shí)候,首先搜索自己電腦里面已經(jīng)有的內(nèi)容,然后再去服務(wù)器去尋找那些被更新了的部分,這樣服務(wù)器傳輸?shù)臄?shù)據(jù)量就會(huì)大大減少了,整個(gè)網(wǎng)頁(yè)也會(huì)被更快地顯示出來(lái)。
現(xiàn)在,我們大部分人的瀏覽器都設(shè)置了緩存,所以,有時(shí)候,你會(huì)發(fā)現(xiàn),即使網(wǎng)絡(luò)沒(méi)有接通,你訪問(wèn)的網(wǎng)站似乎也能“正?!贝蜷_(kāi),只不過(guò)瀏覽器會(huì)顯示“脫機(jī)”狀態(tài),告訴你,這些內(nèi)容不是真正從服務(wù)器傳輸過(guò)來(lái)的。
除了客戶端(瀏覽器)能夠存放緩存的內(nèi)容外,代理服務(wù)器(Proxy)也能夠存放網(wǎng)頁(yè)緩存,目的同樣是為了提速。
你可以把代理服務(wù)器的緩存想象成CPU的“二級(jí)緩存”——當(dāng)客戶端沒(méi)有存儲(chǔ)某個(gè)網(wǎng)頁(yè)的緩存的時(shí)候(“一級(jí)緩存”沒(méi)有內(nèi)容),瀏覽器就會(huì)尋找代理服務(wù)器緩存,看看有沒(méi)有內(nèi)容,如果還沒(méi)有,那才會(huì)再去尋找真正存放網(wǎng)頁(yè)內(nèi)容的網(wǎng)站服務(wù)器。
有了緩存,當(dāng)你點(diǎn)擊瀏覽器的“回退按鈕”的時(shí)候,回退的上一個(gè)頁(yè)面就不需要再重新從服務(wù)器中下載一次,而是立即就呈現(xiàn)在你的面前,你常用的網(wǎng)站的打開(kāi)速度也顯著提升了(具體可查看馬海祥博客《如何實(shí)現(xiàn)shtml頁(yè)面的局部緩存》的相關(guān)介紹)。
可是,對(duì)于通過(guò)服務(wù)器日志來(lái)獲取網(wǎng)站訪問(wèn)數(shù)據(jù)的方法而言,這可不是一個(gè)好事情,由于緩存的存在,本來(lái)應(yīng)該請(qǐng)求服務(wù)器的結(jié)果不需要請(qǐng)求了,服務(wù)器的日志什么也不會(huì)記錄下來(lái),可是對(duì)頁(yè)面的訪問(wèn)卻又實(shí)實(shí)在在的發(fā)生了,所以,緩存的存在會(huì)使日志方法低估網(wǎng)站的實(shí)際訪問(wèn)量。
(2)、害怕Flash等“客戶端交互”內(nèi)容
現(xiàn)在,為了更具沖擊力的視覺(jué)效果和更豐富的網(wǎng)頁(yè)互動(dòng),很多網(wǎng)站都運(yùn)用Flash、加入視頻、設(shè)計(jì)很多互動(dòng)程序在網(wǎng)頁(yè)上已經(jīng)稀疏平常。
而這些元素,它們太獨(dú)立了,以至于當(dāng)它們被載入到瀏覽器端了之后,完全可以在瀏覽器端運(yùn)行而不再與服務(wù)器發(fā)生交互,或者只需要在必要的時(shí)候才與服務(wù)器發(fā)生交互。
比如,你玩普通網(wǎng)頁(yè)版的Flash 小游戲,一旦游戲下載完畢,你在玩的過(guò)程中跟網(wǎng)站服務(wù)器就不會(huì)有什么聯(lián)系了,或者你看網(wǎng)頁(yè)上的視頻,你在播放器上進(jìn)行的暫停操作,一般也不會(huì)跟服務(wù)器進(jìn)行互動(dòng)。
還有,有一些腳本語(yǔ)言編寫(xiě)的網(wǎng)頁(yè)程序,是在瀏覽器上被解釋執(zhí)行的,比如用JavaScript實(shí)現(xiàn)的網(wǎng)頁(yè)Tab標(biāo)簽切換,在頁(yè)面全部載完后,無(wú)論你怎么切換Tab,服務(wù)器都感覺(jué)不到了。
服務(wù)器感覺(jué)不到,也就不會(huì)存在什么服務(wù)器日志記錄,也就不會(huì)有數(shù)據(jù),因此用日志方法是無(wú)法準(zhǔn)確獲取“客戶端交互”類型的網(wǎng)站訪問(wèn)行為的,這種情況下,必須選擇其他的數(shù)據(jù)收集方法。
(3)、不精確的訪問(wèn)者記錄
日志方法辨別獨(dú)立訪問(wèn)者需要依靠客戶端的IP地址,也只能依靠它,不過(guò),IP地址顯然不代表真正的訪問(wèn)者,上班族的整個(gè)辦公室的IP地址都可能是一個(gè)(使用代理服務(wù)器),而這個(gè)辦公室可能坐著十多個(gè)人。
同樣,在家中,如果你購(gòu)買(mǎi)了公共網(wǎng)絡(luò)服務(wù),那么你的IP地址存在動(dòng)態(tài)分配的問(wèn)題,你今天上網(wǎng)的IP地址和明天的可能就會(huì)不同,這個(gè)時(shí)候日志方法只能判斷為兩個(gè)不同的訪問(wèn)者。
此外,前面提到過(guò)日志是能夠忠實(shí)記錄機(jī)器(非人為)的訪問(wèn)活動(dòng)的,但是機(jī)器不是人,它們的活動(dòng)混在真實(shí)的人的訪問(wèn)之中,同樣會(huì)使真實(shí)訪問(wèn)者的數(shù)量,或者訪問(wèn)數(shù)本身被高估。
在這正反兩相反方向的共同作用下,結(jié)果只能一個(gè),那就是對(duì)于訪問(wèn)者數(shù)量的估算是非常模糊的。
當(dāng)然,我們必須要承認(rèn),無(wú)論用什么方法,網(wǎng)站訪問(wèn)者的精確數(shù)量都無(wú)法獲得,但相對(duì)而言,日志方法要更不準(zhǔn)確些。
(4)、較弱的實(shí)時(shí)性
網(wǎng)站服務(wù)器日志是記錄服務(wù)器運(yùn)行的實(shí)時(shí)數(shù)據(jù)的,但是這些數(shù)據(jù)想要被取出分析,實(shí)時(shí)性就沒(méi)有那么好了。
常見(jiàn)的情況是,你必須首先把服務(wù)器日志文件(log file)從服務(wù)器中取出來(lái),而這些文件肯定不會(huì)是服務(wù)器正在運(yùn)行過(guò)程中的數(shù)據(jù),一般都是隔天的(需要驗(yàn)證),然后再把這些日志文件導(dǎo)入到專門(mén)針對(duì)日志分析的工具中才能進(jìn)行分析,這個(gè)過(guò)程的快慢依賴于你的熟練程度,但要追求實(shí)時(shí),頗有難度。
有技術(shù)高超的站長(zhǎng)或者工程師通過(guò)架設(shè)內(nèi)部網(wǎng)絡(luò)、組建專門(mén)的日志分析服務(wù)器,并且編寫(xiě)特定的程序來(lái)解決日志分析的實(shí)時(shí)性問(wèn)題,但是,對(duì)于普通的中小網(wǎng)站,這種方法難度頗大,花費(fèi)不菲,所以可行性不強(qiáng)。
因此,實(shí)時(shí)性是絕大部分通過(guò)日志方法來(lái)分析網(wǎng)站數(shù)據(jù)時(shí)要面對(duì)的問(wèn)題。
(5)、海量的數(shù)據(jù)存儲(chǔ)
服務(wù)器日志是忠實(shí)的,所以它會(huì)如實(shí)記錄下來(lái)每一分每一秒發(fā)生的每一條服務(wù)器響應(yīng)。
對(duì)于一些流量稍大的網(wǎng)站,一天的網(wǎng)站日志記錄超過(guò)數(shù)個(gè)G(Gigabytes)是非常正常的,而那些大的網(wǎng)站,一個(gè)小時(shí)就可能產(chǎn)生數(shù)G的記錄。
我們沒(méi)有詹姆斯·卡梅隆的超級(jí)團(tuán)隊(duì)(他的《阿凡達(dá)》特效需要處理超過(guò)500,000G的數(shù)據(jù)),所以如果要回溯網(wǎng)站一個(gè)月的流量就可能變成一個(gè)相當(dāng)棘手的問(wèn)題,需要投入相當(dāng)?shù)臅r(shí)間和耐心,如果你沒(méi)有相當(dāng)?shù)募夹g(shù)和經(jīng)驗(yàn),效率就會(huì)很低。
(6)、日志文件獲取繁瑣
我們不能把日志文件的獲取想象的太簡(jiǎn)單,畢竟這不是在自己電腦中點(diǎn)開(kāi)一個(gè)MP3文件那么容易,有些網(wǎng)站有鏡像服務(wù)器,有些服務(wù)器在境外,有些服務(wù)器是由處在多個(gè)不同地理位置的物理服務(wù)器邏輯組合而成。
這些情況下,在進(jìn)行日志分析之前需要集中所有的日志文件,這是一個(gè)很有些麻煩的事情,尤其是當(dāng)日志文件的體積極為龐大的時(shí)候。
另外,如果是租用的ISP服務(wù)器空間,如果沒(méi)有權(quán)限獲取日志數(shù)據(jù),那么實(shí)際上連進(jìn)行分析的可能性 都沒(méi)有了。
本文標(biāo)題:如何分析查看服務(wù)器日志文件?
分享地址:http://jinyejixie.com/news44/117844.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站建設(shè)、響應(yīng)式網(wǎng)站、用戶體驗(yàn)、電子商務(wù)、企業(yè)建站、虛擬主機(jī)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容