在线视频日韩精品,国产精品久久久久久久久免费高清,免费啪啪

前言

最近在出差，發(fā)現(xiàn)住的賓館居然有小強(qiáng)。所以出差無(wú)聊之際，寫了點(diǎn)爬蟲的代碼玩玩，問(wèn)就是應(yīng)景。本篇文章主要是爬取 CSDN全站綜合熱榜的100個(gè)標(biāo)題，然后分詞提取關(guān)鍵詞，統(tǒng)計(jì)一下詞頻。

我想了下，對(duì)于其他博主還是有用的，可以看看什么標(biāo)題可以上熱榜，就分享一下吧。順便把我解決各類問(wèn)題的方法，說(shuō)一說(shuō)。

環(huán)境

使用的IDE為：spyder（有看著界面不習(xí)慣的，忍一下，不關(guān)鍵）

頁(yè)面爬取使用chromedriver，至于原因我后面會(huì)說(shuō)。

分詞器：jieba

爬取頁(yè)面地址：https://blog.csdn.net/rank/list

爬蟲代碼

這里說(shuō)一下為什么沒(méi)有用requests直接獲取頁(yè)面源碼，主要是因?yàn)樵擁?yè)面并不能直接請(qǐng)求出源碼。而是通過(guò)頁(yè)面滾動(dòng)到最下方，才可以顯示出全部的100個(gè)排名的文章。

Python 詳解爬取并統(tǒng)計(jì)CSDN全站熱榜標(biāo)題關(guān)鍵詞詞頻流程

所以我的思路是，使用chromedriver，然后執(zhí)行js實(shí)現(xiàn)滾動(dòng)頁(yè)面到最下方。

這里需要說(shuō)明一下chromedriver的下載，需要根據(jù)你google瀏覽器的版本來(lái)。我的筆記本事mac，可以點(diǎn)擊左上角的Chrome，再點(diǎn)擊關(guān)于Google Chrome看看自己的瀏覽器版本。

Python 詳解爬取并統(tǒng)計(jì)CSDN全站熱榜標(biāo)題關(guān)鍵詞詞頻流程

分享一下chromedriver的下載地址：google chrome driver下載地址

簡(jiǎn)單說(shuō)明一下driver的原理，就是模擬瀏覽器打開url的操作，就像我們手點(diǎn)一樣，具體原理改天可以再聊聊。

不廢話了，上爬蟲工具代碼

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Thu Nov  4 17:15:06 2021
@author: huyi
"""

from selenium import webdriver
import time

# =============================================================================
# 爬取動(dòng)態(tài)下滑加載網(wǎng)頁(yè)
# =============================================================================
def pa(url):
  driver = webdriver.Chrome('/usr/local/bin/chromedriver')
  driver.get(url)
  js = '''
              let height = 0
      let interval = setInterval(() => {
          window.scrollTo({
              top: height,
              behavior: "smooth"
          });
          height += 500
      }, 500);
      setTimeout(() => {
          clearInterval(interval)
      }, 20000);
  '''
  driver.execute_script(js)
  time.sleep(20)
  source = driver.page_source
  driver.close()
  return source

代碼說(shuō)明

1、代碼主要是一個(gè)工具方法，使用diver打開瀏覽器。然后通過(guò)js代碼，模擬向下滾動(dòng)的操作。

2、根據(jù)你的網(wǎng)絡(luò)條件，里面的超時(shí)時(shí)間你可以調(diào)整。避免還沒(méi)有滾動(dòng)到最下面就結(jié)束了，因?yàn)槲屹e館的網(wǎng)比較卡，所以設(shè)置的比較大。

3、返回頁(yè)面源碼，為了后面的xpath解析。

驗(yàn)證一下

Python 詳解爬取并統(tǒng)計(jì)CSDN全站熱榜標(biāo)題關(guān)鍵詞詞頻流程

OK,已經(jīng)拿到了頁(yè)面源碼了。

關(guān)鍵詞提取代碼

我們把關(guān)鍵詞提取的方法也準(zhǔn)備一下。不廢話，上代碼。

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Thu Nov  4 21:53:22 2021
@author: huyi
"""


import jieba.analyse


def get_key_word(sentence):
  result_dic = {}
  words_lis = jieba.analyse.extract_tags(
      sentence, topK=3, withWeight=True, allowPOS=())
  for word, flag in words_lis:
      if word in result_dic:
          result_dic[word] += 1
      else:
          result_dic[word] = 1
  return result_dic

代碼說(shuō)明

1、簡(jiǎn)單說(shuō)明一下，方法取的是權(quán)重最高的3個(gè)詞，可以按照你的喜歡調(diào)整。

2、把相同的詞做一個(gè)計(jì)數(shù)，方便把100的標(biāo)題關(guān)鍵詞詞頻統(tǒng)計(jì)用。

主程序代碼

主程序主要是將源碼中的標(biāo)題，使用lxml進(jìn)行元素提取，獲取標(biāo)題。然后詞頻統(tǒng)計(jì)后輸出結(jié)果文本。

不廢話，上代碼。

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Thu Nov  4 14:01:38 2021
@author: huyi
"""
from lxml import etree
from tools.dynamic_page import pa
from tools.analyse_word import get_key_word


csdn_url = 'https://blog.csdn.net/rank/list'
source = etree.HTML(pa(csdn_url))

titles = source.xpath("//div[@class='hosetitem-title']/a/text()")
key_word_dic = {}
for x in titles:
  if x:
      for k, v in get_key_word(x).items():
          if k.lower() in key_word_dic:
              key_word_dic[k.lower()] += v
          else:
              key_word_dic[k.lower()] = v

word_count_sort = sorted(key_word_dic.items(),
                       key=lambda x: x[1], reverse=True)

with open('result.txt', mode='w', encoding='utf-8') as f:
  for y in word_count_sort:
      f.write('{},{}\n'.format(y[0], y[1]))

代碼說(shuō)明

1、xpath怎么取？google瀏覽器支持右鍵直接copy，但是還是建議了解一下xpath相關(guān)語(yǔ)法。

2、把英文單詞統(tǒng)一小寫，避免重復(fù)。

3、按照詞頻倒序排列輸出的，最多次數(shù)的在前面。

驗(yàn)證結(jié)果

Python 詳解爬取并統(tǒng)計(jì)CSDN全站熱榜標(biāo)題關(guān)鍵詞詞頻流程