在定向爬蟲的制作過程中,使用分布式爬取技術(shù)可以顯著提高爬取效率。而 Redis 配合 Scrapy 是實現(xiàn)分布式爬取的基礎。
Redis 是一個高性能的 Key-Value 數(shù)據(jù)庫,它把數(shù)據(jù)保存在內(nèi)存里。因此可以有非常快的數(shù)據(jù)讀寫速度。
1
2
|
pip install scrapy - redis easy_install scrapy - redis |
下載
版本推薦
1
|
stable 3.0 . 2 |
運行redis
1
|
redis - server redis.conf |
清空緩存
1
|
redis - cli flushdb |
scrapy配置redis
settings.py配置redis
1
2
3
4
5
6
|
SCHEDULER = "scrapy_redis.scheduler.Scheduler" SCHEDULER_PERSIST = True SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue' REDIS_URL = None # 一般情況可以省去 REDIS_HOST = '127.0.0.1' # 也可以根據(jù)情況改成 localhost REDIS_PORT = 6379 |
在scrapy中使用scrapy-redis
spider 繼承RedisSpider
1
2
3
|
class tempSpider(RedisSpider) name = "temp" redis_key = ''temp:start_url" |
以上這篇基于scrapy的redis安裝和配置方法就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持服務器之家。
原文鏈接:https://blog.csdn.net/xx1710/article/details/51187356