国产片侵犯亲女视频播放_亚洲精品二区_在线免费国产视频_欧美精品一区二区三区在线_少妇久久久_在线观看av不卡

腳本之家,腳本語(yǔ)言編程技術(shù)及教程分享平臺(tái)!
分類導(dǎo)航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務(wù)器之家 - 腳本之家 - Python - 用Python爬取指定關(guān)鍵詞的微博

用Python爬取指定關(guān)鍵詞的微博

2022-03-02 00:05志斌 Python

這篇文章主要介紹了用Python爬取指定關(guān)鍵詞的微博,下面文章圍繞Python爬取指定關(guān)鍵詞的微博的相關(guān)資料展開詳細(xì)內(nèi)容,需要的朋友可以參考一下

前幾天學(xué)校一個(gè)老師在做微博的輿情分析找我?guī)退阋粋€(gè)用關(guān)鍵字爬取微博的爬蟲,再加上最近很多讀者問(wèn)志斌微博爬蟲的問(wèn)題,今天志斌來(lái)跟大家分享一下。

一、分析頁(yè)面

我們此次選擇的是從移動(dòng)端來(lái)對(duì)微博進(jìn)行爬取。移動(dòng)端的反爬就是信息校驗(yàn)反爬蟲的cookie反爬蟲,所以我們首先要登陸獲取cookie。

用Python爬取指定關(guān)鍵詞的微博

登陸過(guò)后我們就可以獲取到自己的cookie了,然后我們來(lái)觀察用戶是如何搜索微博內(nèi)容的。

平時(shí)我們都是在這個(gè)地方輸入關(guān)鍵字,來(lái)進(jìn)行搜索微博。

用Python爬取指定關(guān)鍵詞的微博

我通過(guò)在開發(fā)者模式下對(duì)這個(gè)頁(yè)面觀察發(fā)現(xiàn),它每次對(duì)關(guān)鍵字發(fā)起請(qǐng)求后,就會(huì)返回一個(gè)XHR響應(yīng)。

用Python爬取指定關(guān)鍵詞的微博

我們現(xiàn)在已經(jīng)找到數(shù)據(jù)真實(shí)存在的頁(yè)面了,那就可以進(jìn)行爬蟲的常規(guī)操作了。

 

二、數(shù)據(jù)采集

在上面我們已經(jīng)找到了數(shù)據(jù)存儲(chǔ)的真實(shí)網(wǎng)頁(yè),現(xiàn)在我們只需對(duì)該網(wǎng)頁(yè)發(fā)起請(qǐng)求,然后提取數(shù)據(jù)即可。

1、發(fā)起請(qǐng)求

通過(guò)對(duì)請(qǐng)求頭進(jìn)行觀察,我們不難構(gòu)造出請(qǐng)求代碼。

用Python爬取指定關(guān)鍵詞的微博

代碼如下:

key = input("請(qǐng)輸入爬取關(guān)鍵字:")
for page in range(1,10):
 params = (
     ('containerid', f'100103type=1&q={key}'),
     ('page_type', 'searchall'),
     ('page', str(page)),
 )

 response = requests.get('https://m.weibo.cn/api/container/getIndex', headers=headers, params=params)



2、提取數(shù)據(jù)

從上面我們觀察發(fā)現(xiàn)這個(gè)數(shù)據(jù)可以轉(zhuǎn)化成字典來(lái)進(jìn)行爬取,但是經(jīng)過(guò)我實(shí)際測(cè)試發(fā)現(xiàn),用正則來(lái)提取是最為簡(jiǎn)單方便的,所以這里展示的是正則提取的方式,有興趣的讀者可以嘗試用字典方式來(lái)提取數(shù)據(jù)。

代碼如下:

r = response.text
title = re.findall('"page_title":"(.*?)"',r)
comments_count = re.findall('"comments_count":(.*?),',r)
attitudes_count = re.findall('"attitudes_count":(.*?),',r)
for i in range(len(title)):
 print(eval(f"'{title[i]}'"),comments_count[i],attitudes_count[i])

在這里有一個(gè)小問(wèn)題要注意,微博的標(biāo)題是用Unicode編碼的,如果直接爬取存儲(chǔ),將存儲(chǔ)的是Unicode編碼,在這里要感謝大佬―小明哥的幫助,志斌在網(wǎng)上搜了好多解決方法都沒(méi)有成功,最后小明哥一個(gè)簡(jiǎn)單的函數(shù)就給解決了,實(shí)在是佩服!

解決方案:用eval()來(lái)輸出標(biāo)題,就可以將Unicode轉(zhuǎn)換成漢字了。

 

三、小結(jié)

1. 本文詳細(xì)介紹了如何用Python指定關(guān)鍵字爬取微博,有興趣的讀者可以嘗試自己動(dòng)手練習(xí)一下。

2. 本文僅供讀者學(xué)習(xí)使用,不做其他用途!

到此這篇關(guān)于用Python爬取指定關(guān)鍵詞的微博的文章就介紹到這了,更多相關(guān)Python爬取指定關(guān)鍵詞的微博內(nèi)容請(qǐng)搜索服務(wù)器之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持服務(wù)器之家!

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 久久国产午夜 | av在线免费播放 | 国产亚洲精品久久久久久无几年桃 | 久久国产精品久久久久久电车 | 国产精品久久久久久久久久久免费看 | 久久99精| 亚洲欧美精品一区 | 精品国产乱码久久久久久久软件 | 久久精品一区二区三区四区 | 日韩欧美高清视频 | a天堂国产 | 久久久亚洲精品一区二区三区 | 黄色av网站在线观看 | 不卡的一区二区 | 国产成人综合一区二区三区 | 欧美视频在线播放 | 日韩和的一区二在线 | 国产精品一区二区三区四区 | 久久这里只有精品免费 | 九九久久精品 | 欧美精品久久久 | 中文字幕av亚洲精品一部二部 | 成人午夜 | 91久久精品视频 | 日韩精品一区二区三区丰满 | 欧美精品成人 | 亚州成人| 成人精品在线 | 亚洲大片av | 亚洲在线第一页 | 欧美在线视频一区二区 | 亚洲国产成人av好男人在线观看 | 日韩一区中文字幕 | 精品一区在线视频 | 免费观看欧美一级大片 | 日韩在线精品 | 精品国产欧美一区二区三区成人 | 亚洲综合日韩 | 亚洲福利一区二区 | 国产精品高清在线 | 91嫩草香蕉 |