国产片侵犯亲女视频播放_亚洲精品二区_在线免费国产视频_欧美精品一区二区三区在线_少妇久久久_在线观看av不卡

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - Python制作爬蟲采集小說

Python制作爬蟲采集小說

2020-08-01 11:53腳本之家 Python

本文給大家分享的是使用Python制作爬蟲采集小說的代碼,非常的簡單實用,雖然還是有點瑕疵,大家一起改改,共同進步

開發工具:python3.4
操作系統:win8
主要功能:去指定小說網頁爬小說目錄,按章節保存到本地,并將爬過的網頁保存到本地配置文件。
被爬網站:http://www.cishuge.com/
小說名稱:靈棺夜行
代碼出處:本人親自碼的

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
import urllib.request
import http.cookiejar
 
import socket
import time
import re
 
timeout = 20
socket.setdefaulttimeout(timeout)
 
sleep_download_time = 10
time.sleep(sleep_download_time)
 
def makeMyOpener(head = {
 'Connection': 'Keep-Alive',
 'Accept': 'text/html, application/xhtml+xml, */*',
 'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'
}):
 cj = http.cookiejar.CookieJar()
 opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
 header = []
 for key, value in head.items():
  elem = (key, value)
  header.append(elem)
 opener.addheaders = header
 return opener
 
def saveFile(save_path,txts):
 f_obj = open(save_path,'w+')
 for item in txts:
  f_obj.write(item+'\n')
 f_obj.close()
 
#get_code_list
code_list='http://www.cishuge.com/read/0/771/'
oper = makeMyOpener()
uop = oper.open(code_list,timeout=1000)
data = uop.read().decode('gbk','ignore')
 
pattern = re.compile('<li><a href="(.*?)".*?>(.*?)</a></li>',re.S)
 
items = re.findall(pattern,data)
 
print ('獲取列表完成')
url_path='url_file.txt'
 
url_r=open(url_path,'r')
url_arr=url_r.readlines(100000)
url_r.close()
print (len(url_arr))
 
url_file=open(url_path,'a')
 
print ('獲取已下載網址')
 
for tmp in items:
 save_path = tmp[1].replace(' ','')+'.txt'
 url = code_list+tmp[0]
 if url+'\n' in url_arr:
  continue
 print('寫日志:'+url+'\n')
 url_file.write(url+'\n')
 opene = makeMyOpener()
 op1 = opene.open(url,timeout=1000)
 data = op1.read().decode('gbk','ignore')
 opene.close()
 pattern = re.compile('&nbsp;&nbsp;&nbsp;&nbsp;(.*?)<br />',re.S)
 txts = re.findall(pattern,data)
 saveFile(save_path,txts)
 
url_file.close()

雖然代碼還是有點瑕疵,還是分享給大家,一起改進

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 欧美午夜一区 | 性高潮一级片 | 亚洲www啪成人一区二区 | 国产精品视频导航 | 北条麻妃一区二区三区在线观看 | 欧美成人h版在线观看 | 中文字幕国产在线视频 | 在线视频 亚洲 | 综合色网站 | 一区二区久久 | 国产精品久久久久久久久久久久 | 美女主播精品视频一二三四 | 精品在线播放 | 高清一区二区 | 亚洲精品视频区 | 日韩国产一区二区三区 | 一级黄色片欧美 | 国产日韩视频在线观看 | 亚洲激情视频在线播放 | 人人做人人澡人人爽欧美 | 欧美视频在线一区 | 国产精品v一区二区三区 | 96自拍视频 | 香蕉视频成人在线观看 | 中文字幕在线观看日本 | 成人黄色短视频在线观看 | 午夜私人影院在线观看 | 久久久久久国产精品美女 | 91精品国产91久久久久久黑人 | 亚洲一区二区三区在线免费观看 | 在线观看一区二区视频 | 欧美a视频 | 中文字幕久久伊人 | 日产一区二区 | 日韩欧美在线看 | 一区二区免费 | 视频二区| 久久久久在线 | 日穴视频在线观看 | 超碰天天 | 在线观看黄色 |