百度蜘蛛是什么?
百度蜘蛛,是百度搜索引擎的一個(gè)自動(dòng)程序。它的作用是訪問收集整理互聯(lián)網(wǎng)上的網(wǎng)頁(yè)、圖片、視頻等內(nèi)容,然后分門別類建立索引數(shù)據(jù)庫(kù),使用戶能在百度搜索引擎中搜索到您網(wǎng)站的網(wǎng)頁(yè)、圖片、視頻等內(nèi)容。我們可以理解為百度蜘蛛就是用來(lái)抓取網(wǎng)站鏈接的IP,小編經(jīng)常會(huì)聽到百度蜘蛛來(lái)的太頻繁,服務(wù)器要被抓爆了,如果你無(wú)法識(shí)別百度蜘蛛,你怎么知道是百度蜘蛛抓爆的呢?也有出現(xiàn)百度蜘蛛都不來(lái)了的情況,還有很多站點(diǎn)想得到百度蜘蛛的IP段,想把IP加入白名單,但無(wú)法識(shí)別百度IP。
怎么才能識(shí)別正確的百度蜘蛛呢?
一、查看UA
如果UA都不對(duì),可以直接判斷非百度搜索的蜘蛛,目前對(duì)外公布過的UA是:
移動(dòng)UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
PC UA:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
新增渲染UA:
移動(dòng)UA:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
PC UA:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
二、反查IP
站長(zhǎng)可以通過DNS反查IP的方式判斷某只spider是否來(lái)自百度搜索引擎。根據(jù)平臺(tái)不同驗(yàn)證方法不同,如linux/windows/os三種平臺(tái)下的驗(yàn)證方法分別如下:
正確識(shí)別百度蜘蛛
(1)、在linux平臺(tái)下,您可以使用host ip命令反解ip來(lái)判斷是否來(lái)自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。
(2)、在windows平臺(tái)或者IBM OS/2平臺(tái)下,您可以使用nslookup ip命令反解ip來(lái) 判斷是否來(lái)自Baiduspider的抓取。打開命令處理器 輸入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 來(lái)判斷是否來(lái)自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。
在運(yùn)行中大概CMD命令行窗口,然后輸入 nslookup IP地址(例如211.112.11.41),如果得到有baiduspider等結(jié)果,就意味著此IP時(shí)百度蜘蛛的專用IP。
(3)、 在mac os平臺(tái)下,您可以使用dig 命令反解ip來(lái) 判斷是否來(lái)自Baiduspider的抓取。打開命令處理器 輸入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 來(lái)判斷是否來(lái)自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即為冒充。
以下是PHP的IP反查代碼:
- $dnsadd=gethostbyaddr($_SERVER["REMOTE_ADDR"]); if((substr($dnsadd, -strlen("baidu.com")) ==="baidu.com")||(substr($dnsadd, -strlen("baidu.jp")) ==="baidu.jp")) //是真的百度蜘蛛 else //是模擬的百度蜘蛛,假蜘蛛
下面列舉了百度不同IP段常見蜘蛛的一些詳情情況,及所謂的降權(quán)蜘蛛,沙盒蜘蛛,高權(quán)重蜘蛛等等。
百度蜘蛛
159.226.50.*
180.76.5.*
220.181.158.107
百度競(jìng)價(jià)蜘蛛
125.39.78.185
61.135.165.134
117.34.74.66
118.122.188.194
119.63.196.9
每天這個(gè)IP段只增不減很有可能進(jìn)沙盒或K站
218.30.118.*
220.181.68.*
123.125.68.*
抓取內(nèi)頁(yè)收錄的,權(quán)重較低,爬過此段的內(nèi)頁(yè)文章暫時(shí)被收錄但不放出來(lái)(意思也就是說(shuō)待定),因不是原創(chuàng)或采集文章。(百度網(wǎng)頁(yè)爬蟲(百度圖片爬蟲)
123.125.71.*
123.181.108.77
這個(gè)ip段出現(xiàn)在新站及站點(diǎn)有不正常現(xiàn)象后
203.208.60.*
183.91.40.144
代表百度蜘蛛IP來(lái)訪準(zhǔn)備抓取你東西
220.181.7.*
123.125.66.*
【61.135.186.*】百度聯(lián)盟爬蟲,說(shuō)白了就是百度統(tǒng)計(jì)
【121.14.89.*】這個(gè)ip段作為度過新站考察期
【123.15.**.**】百度圖片爬蟲
【123.125.68.*】這個(gè)蜘蛛經(jīng)常來(lái),別的來(lái)的少,表示網(wǎng)站可能要進(jìn)入沙盒了,或被者降權(quán)
【124.248.34.52】搜外站長(zhǎng)工具蜘蛛
【125.90.88.*】也屬于百度蜘蛛IP主要造成成分,是新上線站較多,還有使用過站長(zhǎng)工具,或SEO綜合檢測(cè)造成的,沒有多大用
【180.149.130.*】偽裝百度蜘蛛IP
【210.72.225.*】這個(gè)ip段不間斷巡邏各站,就是路過一下
【220.181.108.*】專用抓取首頁(yè)ip權(quán)重段,一般返回代碼30400代表未更新,如果是200064別擔(dān)心這不是K站,可能是網(wǎng)站是動(dòng)態(tài)的,所以返回就是這個(gè)代碼。
【220.181.108.91】屬于綜合的。主要抓取首頁(yè)和內(nèi)頁(yè)或者其它頁(yè)面。屬于權(quán)重IP段,抓過的文章或首頁(yè)基本24小時(shí)放出來(lái)
【220.181.108.75】重點(diǎn)抓取更新文章的內(nèi)頁(yè)達(dá)到90%,8%的抓取首頁(yè),2%其他權(quán)重ip段,抓過的文章或首頁(yè)基本24小時(shí)放出來(lái)
【220.181.108.92】98%抓取首頁(yè)可能還會(huì)抓取其他「不是指內(nèi)頁(yè))屬于權(quán)重IP段此段爬過的文章或首頁(yè)基本24小時(shí)放出來(lái)
【220.181.108.95】這個(gè)是百度抓取首頁(yè)的專用IP,基本來(lái)說(shuō)網(wǎng)站會(huì)天天隔夜快照,絕對(duì)錯(cuò)不了的
114站長(zhǎng)工具箱(這個(gè)是你的網(wǎng)站不穩(wěn)定時(shí)常來(lái)的)
121.10.141.*
119.147.114.213
站長(zhǎng)工具模仿的百度蜘蛛
61.147.98.146
61.188.39.16
113.98.254.245
117.21.220.245
117.28.255.42