下載代碼cookie池(這里主要是微博登錄,也可以自己配置置其他的站點網址)
下載代碼github:https://github.com/python3webspider/cookiespool
下載安裝過后注意看網頁下面的相關基礎配置和操作!!!!!!!!!!!!!
自己的設置主要有下面幾步:
1、配置其他設置
2、設置使用的瀏覽器
3、設置模擬登陸
源碼cookies.py的修改(以下兩處不修改可能會產生bug):
4、獲取cookie
隨機獲取cookies: http://localhost:5000/weibo/random(注意:cookie使用時是需要后期處理的!!)
簡單的處理方式,如下代碼(偶爾需要對獲取的cookie處理):
1
2
3
4
5
6
7
8
9
10
11
|
def get_cookie( self ): return requests.get( 'http://127.0.0.1:5000/weibo/random' ).text def stringtodict( self ,cookie): itemdict = {} items = cookie.replace( ':' , '=' ).split( ',' ) for item in items: key = item.split( '=' )[ 0 ].replace( ' ' , ' ').strip(' "') value = item.split( '=' )[ 1 ].strip( ' "' ) itemdict[key] = value return itemdict |
scrapy爬蟲的使用示例(爬取微博):
middlewares.py中自定義請求中間件
1
2
3
4
5
6
7
8
9
10
11
12
13
|
def start_requests( self ): ua = useragent() headers = { 'user-agent' : ua.random, } cookies = self .stringtodict( str ( self .get_cookie().strip( '{|}' ))) yield scrapy.request(url = self .start_urls[ 0 ], headers = headers, cookies = cookies, callback = self .parse) cookies = self .stringtodict( str ( self .get_cookie().strip( '{|}' ))) yield scrapy.request(url = self .start_urls[ 0 ], headers = headers, cookies = cookies, callback = self .parse) |
settings.py 中的配置:
5、錄入賬號和密碼:
格式規定(賬號----密碼)
6、驗證:(注意:使用cmd)
7、使用時注意保持cmd打開運行!!
使用時一定要打開cmd,并運行如第6步。
得到cookie是判斷是否處理處理cookie(幾乎都需要!!)類比第4步!!!
到此這篇關于python爬蟲scrapy框架cookie池(微博cookie池)的使用的文章就介紹到這了,更多相關scrapy cookie池內容請搜索服務器之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持服務器之家!
原文鏈接:https://blog.csdn.net/qq_33472765/article/details/80957853