国产片侵犯亲女视频播放_亚洲精品二区_在线免费国产视频_欧美精品一区二区三区在线_少妇久久久_在线观看av不卡

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - Python實現可獲取網易頁面所有文本信息的網易網絡爬蟲功能示例

Python實現可獲取網易頁面所有文本信息的網易網絡爬蟲功能示例

2021-01-04 01:06壞蛋是我 Python

這篇文章主要介紹了Python實現可獲取網易頁面所有文本信息的網易網絡爬蟲功能,涉及Python針對網頁的獲取、字符串正則判定等相關操作技巧,需要的朋友可以參考下

本文實例講述了Python實現可獲取網易頁面所有文本信息的網易網絡爬蟲功能。分享給大家供大家參考,具體如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
#coding=utf-8
#---------------------------------------
#  程序:網易爬蟲
#  作者:ewang
#  日期:2016-7-6
#  語言:Python 2.7
#  功能:獲取網易頁面中的文本信息并保存到TXT文件中。
#---------------------------------------
import string
import urllib2
import re
import os
class WangYi_Spider:
  #申明相關屬性
  def __init__(self):
    #給wangyiUrl屬性賦值
    self.wangyiUrl="http://www.163.com/"
    #用來保存頁面中文字信息
    self.pageinfor=[]
    print u'已經啟動網易爬蟲,爬爬...'
  #初始化加載頁面并將其轉碼存儲
  def wangyi(self):
    #讀取頁面的原始信息并將其從gbk轉碼
    Page=urllib2.urlopen(self.wangyiUrl).read().decode('gbk')
    #獲取頁面標題
    title=self.find_title(Page)
    print u'網頁名稱:'+title
    #獲取頁面中文本信息
    self.save_infor(title)
  #查找頁面標題
  def find_title(self,page):
    #匹配<title>xxxx</title>
    myTitle=re.search(r'<title>(.*?)</title>',page,re.S)
    #初始化標題名為暫無標題
    title=u'暫無標題'
    #如果標題存在把標題賦值給title
    if myTitle:
      #(.*?)這稱作一個group,組是從1開始
      title=myTitle.group(1)
    else:
      print u'爬蟲報告:無法加載網頁標題...'
    return title
  #保存頁面信息
  def save_infor(self,title):
    #加載頁面文本信息到數組中
    self.get_infor()
    #創建并打開本地文件
    f=open(title+'.txt','w+')
    #把獲取的頁面信息寫入文件中
    f.writelines(self.pageinfor)
    #關閉打開的文件
    f.close()
    print u'爬蟲報告:文件'+title+'.txt'+u'已經下載:'+os.getcwd()
    print u'按任意鍵退出...'
    raw_input()
  #獲取頁面源碼并將其存儲到數組中
  def get_infor(self):
    #獲取頁面中的源碼
    page=urllib2.urlopen(self.wangyiUrl).read()
    #把頁面中的內容gbk解碼然后獲取頁面中所有的文本信息
    self.deal_infor(page.decode('gbk'))
  #從頁面代碼中獲取所需文信息
  def deal_infor(self,page):
    #獲取<em >XXX</em>的文本信息XXX
    emTagItems=re.findall("<em.*?>(\W+?)</em>",page,re.S)
    #獲取<span>XXXX</a>的文本信息XXXX
    spanTagItems=re.findall("<span>(\W+?)</span>",page,re.S)
    #獲取<a .*>XXXX</a>的文本信息XXXX
    aTagItems=re.findall("<a.*?>(\W+?)</a>",page,re.S)
    #把em tag中獲取的文本信息添加到數組pageinfor中
    for emItem in emTagItems:
      #對獲取的文本信息用gbk進行編碼
      self.pageinfor.append(emItem.encode('gbk')+'\n')
    #把span tag中獲取的文本信息添加到數組pageinfor中
    for spanItem in spanTagItems:
      #對獲取的文本信息用gbk進行編碼
      self.pageinfor.append(spanItem.encode('gbk')+'\n')
    #把a tag中獲取的文本信息添加到數組pageinfor中
    for aItem in aTagItems:
      #對獲取的文本信息用gbk進行編碼
      self.pageinfor.append(aItem.encode('gbk')+'\n')
#------------程序入口處----------------
print u"""#---------------------------------------
#  程序:網易爬蟲
#  作者:ewang
#  日期:2016-7-6
#  語言:Python 2.7
#  功能:獲取網易頁面中的文本信息并保存到TXT文件中
#--------------------------------------------------
"""
wangyiSpider=WangYi_Spider()
wangyiSpider.wangyi()

希望本文所述對大家Python程序設計有所幫助。

原文鏈接:http://blog.csdn.net/henni_719/article/details/51839504

延伸 · 閱讀

精彩推薦
Weibo Article 1 Weibo Article 2 Weibo Article 3 Weibo Article 4 Weibo Article 5 Weibo Article 6 Weibo Article 7 Weibo Article 8 Weibo Article 9 Weibo Article 10 Weibo Article 11 Weibo Article 12 Weibo Article 13 Weibo Article 14 Weibo Article 15 Weibo Article 16 Weibo Article 17 Weibo Article 18 Weibo Article 19 Weibo Article 20 Weibo Article 21 Weibo Article 22 Weibo Article 23 Weibo Article 24 Weibo Article 25 Weibo Article 26 Weibo Article 27 Weibo Article 28 Weibo Article 29 Weibo Article 30 Weibo Article 31 Weibo Article 32 Weibo Article 33 Weibo Article 34 Weibo Article 35 Weibo Article 36 Weibo Article 37 Weibo Article 38 Weibo Article 39 Weibo Article 40
主站蜘蛛池模板: 国产一区二区三区视频 | 中文字幕第十二页 | 免费av大全 | 狠狠干2024 | 中文字幕高清在线 | 福利片中文字幕 | 精品一区二区不卡 | 国产精品一区三区 | 能免费看的av | 免费在线观看一区二区 | 99精品欧美一区二区三区综合在线 | 日韩有码一区二区三区 | 亚洲国产精品99久久久久久久久 | 精品综合99久久久久久www | 国产精品美女久久久久久免费 | 日韩欧美一级片 | 久久精品亚洲精品 | 欧美国产日韩一区 | 免费午夜视频 | 亚洲成人黄色 | 亚洲小视频 | 国内精品久久久久久中文字幕 | 精品日韩一区二区三区 | 欧美精品一区二区三区在线播放 | 后人极品翘臀美女在线播放 | 成人免费淫片aa视频免费 | 久久久久久久久国产成人免费 | 亚洲免费片 | 真实国产露脸乱 | 久久99精品视频 | 一区二区三区在线播放 | 亚洲精品免费播放 | 综合久久综合久久 | 免费在线观看黄色 | 精品无码久久久久久久动漫 | 日韩精品一区二区三区中文字幕 | 君岛美绪一区二区三区在线视频 | 中国一级特黄毛片大片 | 欧美成人精品一区二区三区在线看 | 久久成人a | 最新中文字幕 |