在分析日志的時候需要用到的工具:光年日志分析工具、web log explorer、MSSQL。還有一點,做好數據的分析excel是必備的,最近在看阿莫推薦的一本書,寫的挺好的《你早該這么玩excel》,推薦大家看看,基礎的應用還是要會的。
我們應該從哪幾個維度來進行數據的整理分析呢?我們從基礎信息、目錄抓取、時間段抓取、IP抓取、狀態碼幾點分布給大家講解。
第一、基礎信息
我們從日志中能夠獲取哪里基礎信息呢?總抓取量、停留時間(h)及訪問次數這三個基礎信息,可以從光年日志分析工具中統計出來。然后,通過這三個基礎信息算出:平均每次抓取頁數、單頁抓取停留時間。然后用我們的MSSQL提取蜘蛛唯一抓取量,根據以上的數據算出爬蟲重復抓取率。
平均每次抓取頁數=總抓取量/訪問次數 單頁抓取停留時間=停留時間*3600/總抓取量 爬蟲重復抓取率=100%—唯一抓取量/總抓取量
而以上這些數據,我們需要統計出一段時間的數據,看這個時間的整體趨勢是怎么樣的,這樣才能夠發現問題,才能夠調整網站的整體策略。下面就以一站點上個月的日志基礎信息為例。
這個基礎表是上個月的日志的基本信息,我們需要看它的整體趨勢來調整,哪些地方需要加強。
從這個整體走勢來看出,爬蟲的抓取總量整體是在下降的,這個就需要我們進行一些相應的調整。
整體來看,網站重復抓取率是有點上升的,這個就需要一些細節,多一些為抓取的入口和使用一些robots及nofollow技巧。
爬蟲單頁的停留的時間,國平老師曾經寫過那篇網頁加載速度是怎么影響seo流量的文章,大家應該看過吧。提高網頁加載速度,減少爬蟲單頁停留時間,可以為爬蟲的總抓取做出貢獻,進而增加網站收錄,從而提高網站整體流量。在16號至20號左右服務器出現一些問題,之后進行調整后,速度明顯變快,單頁停留時間也相應的下來了。
而對此進行相應調整如下:
從本月整理來看,爬蟲的抓取量是下降的,重復抓取率是上升的。綜合分析,需要從站內鏈接和站外的鏈接進行調整。站內的鏈接盡量的帶錨文本,如果不能帶的話,可以推薦其他頁面的超鏈接,讓蜘蛛盡可能的深層次的抓取。站外鏈接的話,需要多方面的發布。目前平臺太少了,如果深圳新聞網、商國互聯等站點出現一絲差錯的話,我們站點將受到嚴重影響。站外平臺要廣,發布的鏈接要多樣話,不能直發首頁的,欄目及文章頁面需要加大力度。目前,來講站外平臺太少,將近10w的外部鏈接,集中在幾個平臺上。
第二、目錄抓取
用MSSQL提取出爬蟲抓取的目錄,分析每日目錄抓取量。可以很清晰的看到每個目錄的抓取情況,另外可以對比之前的優化策略,優化是否合理,重點的欄目優化是不是預期的效果。如圖,
綠色:主做欄目 黃色:抓取較差 粉色:抓取很差 深藍色:需要禁止欄目
可以看到整體的趨勢并沒有太大變化,只有兩個欄目的抓取是有較大變動的。
通過上面兩個圖,進行相應調整如下:
通過圖表中科院產出,整體抓取較少。主做欄目中,抓取較少的為:xxx、xxx、xxx。對于總體來說,需要加大整個網站的導入口,需要外鏈配合,站內需要加強內部鏈接的構建。對于,爬取較弱欄目進行加強處理。同時,深藍色的欄目寫入robots中,將其屏蔽,并將網站中導入到這些欄目是URL進行 nofollow避免權重只進不出。
第三、時間段抓取
通過excel中的數組函數,提取每日的時間段的爬蟲抓取量,重在分析每日的抓取情況,找到相應的抓取量較為密集的時間段,可以針對性的進行更新內容。同時,還可以看出,抓取不正常情況。
圖中一些表粉色的,是抓取不正常的時間點,可以看出服務器并不是特別的穩定。而且,如果想知道特殊情況的話,可以從下圖中一眼看出,某日哪個時間點出問題了,而且同樣是總抓取是下降的趨勢。
通過時間段抓取,我們進行相應的調整:
通過圖中的表色,可以看出服務器并不是特別的穩定,我們需要加強服務器的穩定性。另外,17、18、19三天,連續被人攻擊、掛鏈等,但是爬蟲抓取正常,這說明這些對網站已經造成了一定影響!
第四,IP段的抓取
通過MSSQL提取日志中的爬蟲的IP,通過excel進行統計,每日每個IP的抓取量,同樣我們需要看整體,如果IP段沒有明顯的變化的話,網站升降權是沒有多大問題的。因為在網站升權或者降權的時候,爬蟲的IP段會更換的。
第五,狀態碼的統計
在這個之前你需要了解下,HTTP狀態碼返回值代表是什么。
圖中,可以看出304狀態碼比較多。如果一個網站被搜索引擎抓取的次數以及頻率越多那么他是越有利于排名的,但是如果你的網站出現太多的304,那么一定會降低搜索引擎的抓取頻率以及次數,從而讓自己的網站排名比別人落一步。調整:服務器可以清除下緩存。
還有最后一張圖,百度爬蟲的數據圖,密密麻麻的數據,以上所有的數據都是從這里調用出來的。
以上是后知對于上月某網站的日志分析,,希望各位高手能夠多多拍磚,指出小弟的不足,讓后知能夠繼續進步。謝謝!