国产片侵犯亲女视频播放_亚洲精品二区_在线免费国产视频_欧美精品一区二区三区在线_少妇久久久_在线观看av不卡

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - 簡單實現python爬蟲功能

簡單實現python爬蟲功能

2020-08-05 10:06Vigor Python

這篇文章主要介紹了python實現簡單爬蟲功能的相關資料,感興趣的小伙伴們可以參考一下

       在我們日常上網瀏覽網頁的時候,經常會看到一些好看的圖片,我們就希望把這些圖片保存下載,或者用戶用來做桌面壁紙,或者用來做設計的素材。

  我們最常規的做法就是通過鼠標右鍵,選擇另存為。但有些圖片鼠標右鍵的時候并沒有另存為選項,還有辦法就通過就是通過截圖工具截取下來,但這樣就降低圖片的清晰度。好吧~!其實你很厲害的,右鍵查看頁面源代碼。

  我們可以通過python 來實現這樣一個簡單的爬蟲功能,把我們想要的代碼爬取到本地。下面就看看如何使用python來實現這樣一個功能。

一、獲取整個頁面數據 

首先我們可以先獲取要下載圖片的整個頁面信息。

getjpg.py

?
1
2
3
4
5
6
7
8
9
10
11
#coding=utf-8
import urllib
 
def getHtml(url):
  page = urllib.urlopen(url)
  html = page.read()
  return html
 
html = getHtml("http://tieba.baidu.com/p/2738151262")
 
print html

  Urllib模塊提供了讀取web頁面數據的接口,我們可以像讀取本地文件一樣讀取www和ftp上的數據。首先,我們定義了一個getHtml()函數:

  urllib.urlopen()方法用于打開一個URL地址。

  read()方法用于讀取URL上的數據,向getHtml()函數傳遞一個網址,并把整個頁面下載下來。執行程序就會把整個網頁打印輸出。

二、篩選頁面中想要的數據

Python 提供了非常強大的正則表達式,我們需要先要了解一點python 正則表達式的知識才行。

假如我們百度貼吧找到了幾張漂亮的壁紙,通過到前段查看工具。找到了圖片的地址,如:src=”http://imgsrc.baidu.com/forum......jpg”pic_ext=”jpeg”

簡單實現python爬蟲功能

修改代碼如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import re
import urllib
 
def getHtml(url):
  page = urllib.urlopen(url)
  html = page.read()
  return html
 
def getImg(html):
  reg = r'src="(.+?\.jpg)" pic_ext'
  imgre = re.compile(reg)
  imglist = re.findall(imgre,html)
  return imglist  
  
html = getHtml("http://tieba.baidu.com/p/2460150866")
print getImg(html)

我們又創建了getImg()函數,用于在獲取的整個頁面中篩選需要的圖片連接。re模塊主要包含了正則表達式:

  •   re.compile() 可以把正則表達式編譯成一個正則表達式對象.
  •   re.findall() 方法讀取html 中包含 imgre(正則表達式)的數據.

運行腳本將得到整個頁面中包含圖片的URL地址。 

三、將頁面篩選的數據保存到本地
把篩選的圖片地址通過for循環遍歷并保存到本地,代碼如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
#coding=utf-8
import urllib
import re
 
def getHtml(url):
  page = urllib.urlopen(url)
  html = page.read()
  return html
 
def getImg(html):
  reg = r'src="(.+?\.jpg)" pic_ext'
  imgre = re.compile(reg)
  imglist = re.findall(imgre,html)
  x = 0
  for imgurl in imglist:
    urllib.urlretrieve(imgurl,'%s.jpg' % x)
    x+=1
 
 
html = getHtml("http://tieba.baidu.com/p/2460150866")
 
print getImg(html)

這里的核心是用到了urllib.urlretrieve()方法,直接將遠程數據下載到本地。
通過一個for循環對獲取的圖片連接進行遍歷,為了使圖片的文件名看上去更規范,對其進行重命名,命名規則通過x變量加1。保存的位置默認為程序的存放目錄。
程序運行完成,將在目錄下看到下載到本地的文件。

結果展示:

簡單實現python爬蟲功能

以上就是本文的全部內容,希望對大家實現Python爬蟲功能有所幫助。

延伸 · 閱讀

精彩推薦
Weibo Article 1 Weibo Article 2 Weibo Article 3 Weibo Article 4 Weibo Article 5 Weibo Article 6 Weibo Article 7 Weibo Article 8 Weibo Article 9 Weibo Article 10 Weibo Article 11 Weibo Article 12 Weibo Article 13 Weibo Article 14 Weibo Article 15 Weibo Article 16 Weibo Article 17 Weibo Article 18 Weibo Article 19 Weibo Article 20 Weibo Article 21 Weibo Article 22 Weibo Article 23 Weibo Article 24 Weibo Article 25 Weibo Article 26 Weibo Article 27 Weibo Article 28 Weibo Article 29 Weibo Article 30 Weibo Article 31 Weibo Article 32 Weibo Article 33 Weibo Article 34 Weibo Article 35 Weibo Article 36 Weibo Article 37 Weibo Article 38 Weibo Article 39 Weibo Article 40
主站蜘蛛池模板: 国产欧美日韩精品一区 | 久播播av| 亚洲黄色在线视频 | 成人网色 | 欧美国产日韩一区 | 在线观看成人 | 国产精品成人在线视频 | 久久久久国产精品 | 亚洲人免费视频 | 黄免费 | 亚洲一级淫片 | 日本一区二区在线播放 | 国产在线观看一区 | 国产精品免费视频一区二区三区 | 欧美精品网站 | 国产精品视频一二三 | 久久久综合色 | 国产精品综合在线 | 亚洲电影免费 | 日韩一区二区在线免费 | 五月婷婷激情 | 欧美大片免费高清观看 | 久久国产亚洲精品 | av在线综合网 | 隔壁老王国产在线精品 | 国产精品久久久久久久久久久久 | 国产亚洲欧美一区 | 精品国产鲁一鲁一区二区在线观看 | 日韩三级 | 香蕉尹人网| 香蕉成人啪国产精品视频综合网 | 精品国产乱码久久久久久影片 | 精品一区二区三区免费视频 | 国产伊人一区 | 91视频 - 88av | 免费看一区二区三区 | 99国产精品99久久久久久 | 成人av高清 | 一区二区三区成人久久爱 | 日本久久久久久久久久久久 | 成人日韩|