国产片侵犯亲女视频播放_亚洲精品二区_在线免费国产视频_欧美精品一区二区三区在线_少妇久久久_在线观看av不卡

腳本之家,腳本語言編程技術及教程分享平臺!
分類導航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務器之家 - 腳本之家 - Python - Python 爬蟲學習筆記之單線程爬蟲

Python 爬蟲學習筆記之單線程爬蟲

2020-09-08 10:19千里追風 Python

本文給大家分享的是python使用requests爬蟲庫實現單線程爬蟲的代碼以及requests庫的安裝和使用,有需要的小伙伴可以參考下

介紹

本篇文章主要介紹如何爬取麥子學院的課程信息(本爬蟲仍是單線程爬蟲),在開始介紹之前,先來看看結果示意圖

Python 爬蟲學習筆記之單線程爬蟲

怎么樣,是不是已經躍躍欲試了?首先讓我們打開麥子學院的網址,然后找到麥子學院的全部課程信息,像下面這樣

Python 爬蟲學習筆記之單線程爬蟲

這個時候進行翻頁,觀看網址的變化,首先,第一頁的網址是 http://www.maiziedu.com/course/list/, 第二頁變成了 http://www.maiziedu.com/course/list/all-all/0-2/, 第三頁變成了 http://www.maiziedu.com/course/list/all-all/0-3/ ,可以看到,每次翻一頁,0后面的數字就會遞增1,然后就有人會想到了,拿第一頁呢?我們嘗試著將 http://www.maiziedu.com/course/list/all-all/0-1/ 放進瀏覽器的地址欄,發現可以打開第一欄,那就好辦了,我們只需要使用 re.sub() 就可以很輕松的獲取到任何一頁的內容。獲取到網址鏈接之后,下面要做的就是獲取網頁的源代碼,首先右擊查看審查或者是檢查元素,就可以看到以下界面

Python 爬蟲學習筆記之單線程爬蟲

找到課程所在的位置以后,就可以很輕松的利用正則表達式將我們需要的內容提取出來,至于怎么提取,那就要靠你自己了,嘗試著自己去找規律才能有更大的收獲。如果你實在不知道怎么提取,那么繼續往下,看我的源代碼吧

實戰源代碼

?

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    # coding=utf-8
     import re
     import requests
     import sys
     reload(sys)
     sys.setdefaultencoding("utf8")
     
     
     class spider():
       def __init__(self):
         print "開始爬取內容。。。"
     
        def changePage(self, url, total_page):
         nowpage = int(re.search('/0-(\d+)/', url, re.S).group(1))
         pagegroup = []
     
         for i in range(nowpage, total_page + 1):
           link = re.sub('/0-(\d+)/', '/0-%s/' % i, url, re.S)
           pagegroup.append(link)
     
         return pagegroup
     
    def getsource(self, url):
      html = requests.get(url)
      return html.text
     
    def getclasses(self, source):
      classes = re.search('<ul class="zy_course_list">(.*?)</ul>', source, re.S).group(1)
      return classes
     
    def geteach(self, classes):
      eachclasses = re.findall('<li>(.*?)</li>', classes, re.S)
      return eachclasses
     
    def getinfo(self, eachclass):
      info = {}
      info['title'] = re.search('<a py" id="highlighter_90957">
    ?
    1
    2
    3
    4
    5
    import requests
     
    html=requests.get("http://gupowang.baijia.baidu.com/article/283878")
    html.encoding='utf-8'
    print(html.text)

    第一行引入requests庫,第二行使用requests的get方法獲取網頁源代碼,第三行設置編碼格式,第四行文本輸出。
    把獲取到的網頁源代碼保存到文本文件中:

    ?
    1
    2
    3
    4
    5
    6
    7
    import requests
    import os
     
    html=requests.get("http://gupowang.baijia.baidu.com/article/283878")
    html_file=open("news.txt","w")
    html.encoding='utf-8'
    print(html.text,file=html_file)

    延伸 · 閱讀

    精彩推薦
    主站蜘蛛池模板: 国产电影一区二区三区图片 | 欧美成人精品一区二区三区 | 成年人视频免费在线看 | 羞羞在线观看 | 久久精品无码一区二区日韩av | 性色国产| 亚洲一区二区免费视频 | 大白屁股一区二区视频 | 国产精品久久久久久久久 | 激情毛片| 人人99| 成人福利电影在线观看 | 狠狠狠狠狠狠 | 欧美激情一区二区三级高清视频 | 亚洲免费精品 | 国产精品一区二区av | 成人在线视频网站 | 久久精品一区 | 国产福利一区二区三区四区 | 国产伦精品一区二区三区四区视频 | 欧美国产精品一区二区三区 | 羞羞视频免费网站 | 国产精品免费视频观看 | 色中色av| 亚洲午夜成激人情在线影院 | 欧美综合激情 | 国产伦精品一区二区三区四区视频_ | 欧美国产精品一区 | 精品国产欧美一区二区三区成人 | 国产精品久久久久久久久久免费 | 欧美精品1 | 成人精品 | 久久国产成人 | 久久国产免费 | 91亚洲国产成人久久精品网站 | 成人久久久 | 久久久91 | 日韩欧美精品一区二区三区 | 国外成人在线视频网站 | 日韩超碰| 国产免费一区二区三区 |