国产片侵犯亲女视频播放_亚洲精品二区_在线免费国产视频_欧美精品一区二区三区在线_少妇久久久_在线观看av不卡

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - Python多線程爬蟲實戰_爬取糗事百科段子的實例

Python多線程爬蟲實戰_爬取糗事百科段子的實例

2020-12-25 00:38Liuyt_61 Python

下面小編就為大家分享一篇Python多線程爬蟲實戰_爬取糗事百科段子的實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧

多線程爬蟲:即程序中的某些程序段并行執行,

合理地設置多線程,可以讓爬蟲效率更高

糗事百科段子普通爬蟲和多線程爬蟲

分析該網址鏈接得出:

https://www.qiushibaike.com/8hr/page/頁碼/

多線程爬蟲也就和JAVA的多線程差不多,直接上代碼

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
'''
#此處代碼為普通爬蟲
import urllib.request
import urllib.error
import re
headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
urllib.request.install_opener(opener)
for i in range(1,2):
 url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"
 pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore")
 pattern = '<div class="content">.*?<span>(.*?)</span>(.*?)</div>'
 datalist = re.compile(pattern,re.S).findall(pagedata)
 for j in range(0,len(datalist)):
  print("第"+str(i)+"頁第"+str(j)+"個段子內容是:")
  print(datalist[j])
'''
'''
#此處為多線程介紹代碼
import threading #導入多線程包
class A(threading.Thread): #創建一個多線程A
 def __init__(self):  #必須包含的兩個方法之一:初始化線程
  threading.Thread.__init__(self)
 def run(self):   #必須包含的兩個方法之一:線程運行方法
  for i in range(0,11):
   print("我是線程A")
class B(threading.Thread): #創建一個多線程A
 def __init__(self):  #必須包含的兩個方法之一:初始化線程
  threading.Thread.__init__(self)
 def run(self):   #必須包含的兩個方法之一:線程運行方法
  for i in range(0,11):
   print("我是線程B")
t1 = A() #線程實例化
t1.start() #線程運行
t2 = B()
t2.start()
'''
 
#此處為修改后的多線程爬蟲
#使用多線程進行奇偶頁的爬取
import urllib.request
import urllib.error
import re
import threading
headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
urllib.request.install_opener(opener)
class one(threading.Thread): #爬取奇數頁內容
 def __init__(self):
  threading.Thread.__init__(self)
 def run(self):
  for i in range(1,12,2):
   url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"
   pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore")
   pattern = '<div class="content">.*?<span>(.*?)</span>(.*?)</div>'
   datalist = re.compile(pattern,re.S).findall(pagedata)
   for j in range(0,len(datalist)):
    print("第"+str(i)+"頁第"+str(j)+"段子內容為:")
    print(datalist[j])
 
class two(threading.Thread): #爬取奇數頁內容
 def __init__(self):
  threading.Thread.__init__(self)
 def run(self):
  for i in range(2,12,2):
   url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"
   pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore")
   pattern = '<div class="content">.*?<span>(.*?)</span>(.*?)</div>'
   datalist = re.compile(pattern,re.S).findall(pagedata)
   for j in range(0,len(datalist)):
    print("第"+str(i)+"頁第"+str(j)+"段子內容為:")
    print(datalist[j])
t1 = one()
t2 = two()
t1.start()
t2.start()

以上這篇Python多線程爬蟲實戰_爬取糗事百科段子的實例就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持服務器之家。

原文鏈接:http://www.cnblogs.com/Liuyt-61/archive/2017/12/14/8040238.html

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 99亚洲伊人久久精品影院 | 国产精品久久久久久久久免费桃花 | 青青草免费在线视频 | 在线观看的av | 一区免费视频 | 亚洲日韩中文字幕一区 | 欧美中文字幕 | 色呦呦网站在线观看 | 欧美日韩视频一区二区 | 日韩一区二区在线观看 | 日韩视频一区二区 | 国产一区www| 一级做a爰片性色毛片2021 | 国产精品一区二区三区不卡 | 欧美一区二区三区精品 | 亚洲一区二区精品在线观看 | 久久99精品国产麻豆婷婷洗澡 | 性福视频在线观看 | 久久中文字幕一区 | 久久一| 亚洲国产精品成人 | 国产精品美女久久久久久久网站 | 一本一道久久a久久精品逆3p | 国产精品高潮呻吟久久 | 婷婷精品久久久久久久久久不卡 | 亚洲成人av| 欧美日韩一区精品 | 毛片网站在线 | 一区二区不卡 | 91亚洲精品乱码久久久久久蜜桃 | 亚洲视频在线观看网址 | 中文字幕免费中文 | 午夜av影视 | 午夜草民福利电影 | 久久精品一区 | 免看一级一片 | 99国产精品久久久久久久成人热 | 欧美日日 | 久久综合久久综合久久 | 国产精品视频区 | 在线免费av电影 |