日韩中文一区二区三区,91久久婷婷,亚洲精品天堂

一、環境準備

python3.8.3
pycharm
項目所需第三方包

				?

									pip install scrapy fake-useragent requests selenium virtualenv -i https://pypi.douban.com/simple

1.1 創建虛擬環境

切換到指定目錄創建

				?

									virtualenv .venv

創建完記得激活虛擬環境

1.2 創建項目

				?

									scrapy startproject 項目名稱

1.3 使用pycharm打開項目，將創建的虛擬環境配置到項目中來
1.4 創建京東spider

				?

									scrapy genspider 爬蟲名稱 url

1.5 修改允許訪問的域名，刪除https：

二、問題分析

爬取數據的思路是先獲取首頁的基本信息，在獲取詳情頁商品詳細信息；爬取京東數據時，只返回40條數據，這里，作者使用selenium，在scrapy框架中編寫下載器中間件，返回頁面所有數據。
爬取的字段分別是：

商品價格

商品評數

商品店家

商品sku（京東可直接搜索到對應的產品）

商品標題

商品詳細信息

三、spider

				?

									import re

									import scrapy

									from lianjia.items import jd_detailitem

									class jicomputerdetailspider(scrapy.spider):

									    name = 'ji_computer_detail'

									    allowed_domains = ['search.jd.com', 'item.jd.com']

									    start_urls = [

									        'https://search.jd.com/search?keyword=%e7%ac%94%e8%ae%b0%e6%9c%ac%e7%94%b5%e8%84%91&suggest=1.def.0.base&wq=%e7%ac%94%e8%ae%b0%e6%9c%ac%e7%94%b5%e8%84%91&page=1&s=1&click=0']

									    def parse(self, response):

									        lls = response.xpath('//ul[@class="gl-warp clearfix"]/li')

									        for ll in lls:

									            item = jd_detailitem()

									            computer_price = ll.xpath('.//div[@class="p-price"]/strong/i/text()').extract_first()

									            computer_commit = ll.xpath('.//div[@class="p-commit"]/strong/a/text()').extract_first()

									            computer_p_shop = ll.xpath('.//div[@class="p-shop"]/span/a/text()').extract_first()

									            item['computer_price'] = computer_price

									            item['computer_commit'] = computer_commit

									            item['computer_p_shop'] = computer_p_shop

									            meta = {

									                'item': item

									            }

									            shop_detail_url = ll.xpath('.//div[@class="p-img"]/a/@href').extract_first()

									            shop_detail_url = 'https:' + shop_detail_url

									            yield scrapy.request(url=shop_detail_url, callback=self.detail_parse, meta=meta)

									        for i in range(2, 200, 2):

									            next_page_url = f'https://search.jd.com/search?keyword=%e7%ac%94%e8%ae%b0%e6%9c%ac%e7%94%b5%e8%84%91&suggest=1.def.0.base&wq=%e7%ac%94%e8%ae%b0%e6%9c%ac%e7%94%b5%e8%84%91&page={i}&s=116&click=0'

									            yield scrapy.request(url=next_page_url, callback=self.parse)

									    def detail_parse(self, response):

									        item = response.meta.get('item')

									        computer_sku = response.xpath('//a[@class="notice j-notify-sale"]/@data-sku').extract_first()

									        item['computer_sku'] = computer_sku

									        computer_title = response.xpath('//div[@class="sku-name"]/text()').extract_first().strip()

									        computer_title = ''.join(re.findall('\s', computer_title))

									        item['computer_title'] = computer_title

									        computer_detail = response.xpath('string(//ul[@class="parameter2 p-parameter-list"])').extract_first().strip()

									        computer_detail = ''.join(re.findall('\s', computer_detail))

									        item['computer_detail'] = computer_detail

									        yield item

四、item

				?

									class jd_detailitem(scrapy.item):

									    # define the fields for your item here like:

									    computer_sku = scrapy.field()

									    computer_price = scrapy.field()

									    computer_title = scrapy.field()

									    computer_commit = scrapy.field()

									    computer_p_shop = scrapy.field()

									    computer_detail = scrapy.field()

五、setting

				?

									import random

									from fake_useragent import useragent

									ua = useragent()

									user_agent = ua.random

									robotstxt_obey = false

									download_delay = random.uniform(0.5, 1)

									downloader_middlewares = {

									    'lianjia.middlewares.jddownloadermiddleware': 543

									}

									item_pipelines = {

									    'lianjia.pipelines.jd_csv_pipeline': 300

									}

六、pipelines

				?

									class jd_csv_pipeline:

									    # def process_item(self, item, spider):

									    #     return item

									    def open_spider(self, spider):

									        self.fp = open('./jd_computer_message.xlsx', mode='w+', encoding='utf-8')

									        self.fp.write('computer_sku\tcomputer_title\tcomputer_p_shop\tcomputer_price\tcomputer_commit\tcomputer_detail\n')

									    def process_item(self, item, spider):

									        # 寫入文件

									        try:

									            line = '\t'.join(list(item.values())) + '\n'

									            self.fp.write(line)

									            return item

									        except:

									            pass

									    def close_spider(self, spider):

									        # 關閉文件

									        self.fp.close()

七、middlewares

				?

									class jddownloadermiddleware:

									    def process_request(self, request, spider):

									        # 判斷是否是ji_computer_detail的爬蟲

									        # 判斷是否是首頁

									        if spider.name == 'ji_computer_detail' and re.findall(f'.*(item.jd.com).*', request.url) == []:

									            options = chromeoptions()

									            options.add_argument("--headless")

									            driver = webdriver.chrome(options=options)

									            driver.get(request.url)

									            for i in range(0, 15000, 5000):

									                driver.execute_script(f'window.scrollto(0, {i})')

									                time.sleep(0.5)

									            body = driver.page_source.encode()

									            time.sleep(1)

									            return htmlresponse(url=request.url, body=body, request=request)

									        return none

八、使用jupyter進行簡單的處理和分析

其他文件：百度停用詞庫、簡體字文件
下載第三方包

				?

									!pip install seaborn jieba wordcloud pil  -i https://pypi.douban.com/simple

8.1導入第三方包

				?

									import re

									import os

									import jieba

									import wordcloud

									import pandas as pd

									import numpy as np

									from pil import image

									import seaborn as sns

									from docx import document

									from docx.shared import inches

									import matplotlib.pyplot as plt

									from pandas import dataframe,series

8.2設置可視化的默認字體和seaborn的樣式

				?

									sns.set_style('darkgrid')

									plt.rcparams['font.sans-serif'] = ['simhei']

									plt.rcparams['axes.unicode_minus'] = false

8.3讀取數據

				?

									df_jp = pd.read_excel('./jd_shop.xlsx')

8.4篩選inteli5、i7、i9處理器數據

				?

									def convert_one(s):

									    if re.findall(f'.*?(i5).*', str(s)) != []:

									        return re.findall(f'.*?(i5).*', str(s))[0]

									    elif re.findall(f'.*?(i7).*', str(s)) != []:

									        return re.findall(f'.*?(i7).*', str(s))[0]

									    elif re.findall(f'.*?(i9).*', str(s)) != []:

									        return re.findall(f'.*?(i9).*', str(s))[0]

									df_jp['computer_intel'] = df_jp['computer_detail'].map(convert_one)

8.5篩選筆記本電腦的屏幕尺寸范圍

				?

									def convert_two(s):

									    if re.findall(f'.*?(\d+\.\d+英寸-\d+\.\d+英寸).*', str(s)) != []:

									        return re.findall(f'.*?(\d+\.\d+英寸-\d+\.\d+英寸).*', str(s))[0]

									df_jp['computer_in'] = df_jp['computer_detail'].map(convert_two)

8.6將評論數轉化為整形

				?

									def convert_three(s):

									    if re.findall(f'(\d+)萬+', str(s)) != []:

									        number = int(re.findall(f'(\d+)萬+', str(s))[0]) * 10000

									        return number

									    elif re.findall(f'(\d+)+', str(s)) != []:

									        number = re.findall(f'(\d+)+', str(s))[0]

									        return number

									df_jp['computer_commit'] = df_jp['computer_commit'].map(convert_three)

8.7篩選出需要分析的品牌

				?

									def find_computer(name, s):

									    sr = re.findall(f'.*({name}).*', str(s))[0]

									    return sr

									def convert(s):

									    if re.findall(f'.*(聯想).*', str(s)) != []:

									        return find_computer('聯想', s)

									    elif re.findall(f'.*(惠普).*', str(s)) != []:

									        return find_computer('惠普', s)

									    elif re.findall(f'.*(華為).*', str(s)) != []:

									        return find_computer('華為', s)

									    elif re.findall(f'.*(戴爾).*', str(s)) != []:

									        return find_computer('戴爾', s)

									    elif re.findall(f'.*(華碩).*', str(s)) != []:

									        return find_computer('華碩', s)

									    elif re.findall(f'.*(小米).*', str(s)) != []:

									        return find_computer('小米', s)

									    elif re.findall(f'.*(榮耀).*', str(s)) != []:

									        return find_computer('榮耀', s)

									    elif re.findall(f'.*(神舟).*', str(s)) != []:

									        return find_computer('神舟', s)

									    elif re.findall(f'.*(外星人).*', str(s)) != []:

									        return find_computer('外星人', s)

									df_jp['computer_p_shop'] = df_jp['computer_p_shop'].map(convert)

8.8刪除指定字段為空值的數據

				?

									for n in ['computer_price', 'computer_commit', 'computer_p_shop', 'computer_sku', 'computer_detail', 'computer_intel', 'computer_in']:

									    index_ls = df_jp[df_jp[[n]].isnull().any(axis=1)==true].index

									    df_jp.drop(index=index_ls, inplace=true)

8.9查看各品牌的平均價格

				?

									plt.figure(figsize=(10, 8), dpi=100)

									ax = sns.barplot(x='computer_p_shop', y='computer_price', data=df_jp.groupby(by='computer_p_shop')[['computer_price']].mean().reset_index())

									for index,row in df_jp.groupby(by='computer_p_shop')[['computer_price']].mean().reset_index().iterrows():

									    ax.text(row.name,row['computer_price'] + 2,round(row['computer_price'],2),color="black",ha="center")

									ax.set_xlabel('品牌')

									ax.set_ylabel('平均價格')

									ax.set_title('各品牌平均價格')

									boxplot_fig = ax.get_figure()

									boxplot_fig.savefig('各品牌平均價格.png', dpi=400)