1.在pycharm下安裝scrapy函數(shù)庫(kù) 2.將安裝好scrapy函數(shù)庫(kù)下的路徑配置到系統(tǒng)path的環(huán)境變量中 3.打開(kāi)cmd終端輸入:scrapy.exe檢查是否安裝成功 4.創(chuàng)建一個(gè)項(xiàng)目:scrapy startproject 項(xiàng)目名字 5.cd進(jìn)入該目錄下,創(chuàng)建一個(gè)spider:scrapy genspider 項(xiàng)目名字 網(wǎng)址 6.編輯settings.py文件中的USER_AGENT選項(xiàng)為正常的瀏覽器頭部 7.執(zhí)行這個(gè)spider:scrapy crawl 項(xiàng)目名字 8.如果遇到因pip版本太低導(dǎo)致安裝不了scarpy函數(shù)庫(kù),可以先在cmd窗口輸入py -m pip install --upgrade pip升級(jí)命令(前提是你的python環(huán)境下得有pip,可通過(guò)輸入pip命令查看是否已安裝,如未安裝得去官網(wǎng)下載并解壓至相應(yīng)路徑)
代碼示例命令截圖:
項(xiàng)目文件截圖:
settings.py
文件截圖:(需要修改爬取網(wǎng)站的USER_AGENT)
scrapy運(yùn)行工作流程圖:
Spiders
(爬蟲(chóng)):它負(fù)責(zé)處理所有Responses
,從中分析提取數(shù)據(jù),獲取Item字段需要的數(shù)據(jù),并將需要跟進(jìn)的URL提交給引擎,再次進(jìn)入Scheduler(調(diào)度器)
Engine
(引擎):負(fù)責(zé)Spider
、ItemPipeline
、Downloader
、Scheduler
中間的通訊,信號(hào)、數(shù)據(jù)傳遞等。
Scheduler
(調(diào)度器):它負(fù)責(zé)接受引擎發(fā)送過(guò)來(lái)的Request請(qǐng)求,并按照一定的方式進(jìn)行整理排列,入隊(duì),當(dāng)引擎需要時(shí),交還給引擎。
Downloader
(下載器):負(fù)責(zé)下載Scrapy Engine(引擎)發(fā)送的所有Requests請(qǐng)求,并將其獲取到的Responses交還給Scrapy Engine(引擎),由引擎交給Spider來(lái)處理
ItemPipeline
(管道):它負(fù)責(zé)處理Spider中獲取到的Item,并進(jìn)行進(jìn)行后期處理(詳細(xì)分析、過(guò)濾、存儲(chǔ)等)的地方.
Downloader Middlewares
(下載中間件):你可以當(dāng)作是一個(gè)可以自定義擴(kuò)展下載功能的組件。
Spider Middlewares
(Spider
中間件):你可以理解為是一個(gè)可以自定擴(kuò)展和操作引擎和Spider中間
通信的功能組件(比如進(jìn)入Spider的Responses;和從Spider出去的Requests)
總結(jié)
本篇文章就到這里了,希望能夠給你帶來(lái)幫助,也希望您能夠多多關(guān)注服務(wù)器之家的更多內(nèi)容!
原文鏈接:https://blog.csdn.net/qq_62037643/article/details/121502999