什么是爬蟲
爬蟲,即網絡爬蟲,大家可以理解為在網絡上爬行的一直蜘蛛,互聯網就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那么它就會抓取下來。想抓取什么?這個由你來控制它咯。
比如它在抓取一個網頁,在這個網中他發現了一條道路,其實就是指向網頁的超鏈接,那么它就可以爬到另一張網上來獲取數據。這樣,整個連在一起的大網對這之蜘蛛來說觸手可及,分分鐘爬下來不是事兒。
1.最基本的抓站
1
2
|
import urllib2 content = urllib2.urlopen( 'http://XXXX' ).read() |
2.使用代理服務器
這在某些情況下比較有用,比如IP被封了,或者比如IP訪問的次數受到限制等等。
1
2
3
4
5
|
import urllib2 proxy_support = urllib2.ProxyHandler({ 'http' : 'http://XX.XX.XX.XX:XXXX' }) opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler) urllib2.install_opener(opener) content = urllib2.urlopen( 'http://XXXX' ).read() |
3.需要登錄的情況
登錄的情況比較麻煩我把問題拆分一下:
3.1.cookie的處理
1
2
3
4
5
|
import urllib2, cookielib cookie_support = urllib2.HTTPCookieProcessor(cookielib.CookieJar()) opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler) urllib2.install_opener(opener) content = urllib2.urlopen( 'http://XXXX' ).read() |
是的沒錯,如果想同時用代理和cookie,那就加入proxy_support然后operner改為
1
|
opener = urllib2.build_opener(proxy_support, cookie_support, urllib2.HTTPHandler) |
3.2 表單的處理
登錄必要填表,表單怎么填?首先利用工具截取所要填表的內容
比如我一般用firefox+httpfox插件來看看自己到底發送了些什么包
這個我就舉個例子好了,以verycd為例,先找到自己發的POST請求,以及POST表單項:
可以看到verycd的話需要填username,password,continueURI,fk,login_submit這幾項,其中fk是隨機生成的(其實不太隨機,看上去像是把epoch時間經過簡單的編碼生成的),需要從網頁獲取,也就是說得先訪問一次網頁,用正則表達式等工具截取返回數據中的fk項。continueURI顧名思義可以隨便寫,login_submit是固定的,這從源碼可以看出。還有username,password那就很顯然了。
好的,有了要填寫的數據,我們就要生成postdata
1
2
3
4
5
6
7
8
|
import urllib postdata = urllib.urlencode({ 'username' : 'XXXXX' , 'password' : 'XXXXX' , 'continueURI' : 'http://www.verycd.com/' , 'fk' :fk, 'login_submit' : '登錄' }) |
然后生成http請求,再發送請求:
1
2
3
4
5
|
req = urllib2.Request( url = 'http://secure.verycd.com/signin/*/http://www.verycd.com/' , data = postdata ) result = urllib2.urlopen(req).read() |
3.3 偽裝成瀏覽器訪問
某些網站反感爬蟲的到訪,于是對爬蟲一律拒絕請求
這時候我們需要偽裝成瀏覽器,這可以通過修改http包中的header來實現
1
2
3
4
5
6
7
8
9
10
|
#… headers = { 'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6' } req = urllib2.Request( url = 'http://secure.verycd.com/signin/*/http://www.verycd.com/' , data = postdata, headers = headers ) #... |
3.4 反”反盜鏈”
某些站點有所謂的反盜鏈設置,其實說穿了很簡單,就是檢查你發送請求的header里面,referer站點是不是他自己,所以我們只需要像3.3一樣,把headers的referer改成該網站即可,以黑幕著稱地cnbeta為例:
1
2
3
4
5
|
#... headers = { 'Referer' : 'http://www.cnbeta.com/articles' } #... |
headers是一個dict數據結構,你可以放入任何想要的header,來做一些偽裝。例如,有些自作聰明的網站總喜歡窺人隱私,別人通過代理訪問,他偏偏要讀取header中的X-Forwarded-For來看看人家的真實IP,沒話說,那就直接把X-Forwarde-For改了吧,可以改成隨便什么好玩的東東來欺負欺負他,呵呵。
3.5 終極絕招
有時候即使做了3.1-3.4,訪問還是會被據,那么沒辦法,老老實實把httpfox中看到的headers全都寫上,那一般也就行了。
再不行,那就只能用終極絕招了,selenium直接控制瀏覽器來進行訪問,只要瀏覽器可以做到的,那么它也可以做到。類似的還有pamie,watir,等等等等。
4.多線程并發抓取
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
|
print time.time() - start 1. . from threading import Thread from Queue import Queue from time import sleep import urllib2 import time q = Queue() NUM = 10 JOBS = 50 def do_somthing_using(p): response = urllib2.urlopen( 'http://www.cnblogs.com' ) result = response.read() #print p def working(): while True : arguments = q.get() do_somthing_using(arguments) q.task_done() for i in xrange (NUM): t = Thread(target = working) t.setDaemon( True ) t.start() start = time.time() for i in xrange (JOBS): q.put(i) q.join() print "MultiThreading:" print time.time() - start 2. . from threading import Thread from multiprocessing.dummy import Pool as ThreadPool import urllib2 import time start = time.time() url = "http://www.cnblogs.com" urls = [url] * 50 pool = ThreadPool( 4 ) results = pool. map (urllib2.urlopen, urls) pool.close() pool.join() print "Map:" print time.time() - start |
關于Python爬蟲的基本寫法小編就給大家介紹到這里,后續還會持續更細,敬請關注,謝謝!