国产片侵犯亲女视频播放_亚洲精品二区_在线免费国产视频_欧美精品一区二区三区在线_少妇久久久_在线观看av不卡

腳本之家,腳本語(yǔ)言編程技術(shù)及教程分享平臺(tái)!
分類導(dǎo)航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服務(wù)器之家 - 腳本之家 - Python - python+mongodb數(shù)據(jù)抓取詳細(xì)介紹

python+mongodb數(shù)據(jù)抓取詳細(xì)介紹

2020-12-13 00:30GenTleMrzhU Python

這篇文章主要介紹了python+mongodb數(shù)據(jù)抓取詳細(xì)介紹,具有一定參考價(jià)值,需要的朋友可以了解下。

分享點(diǎn)干貨!!!

Python數(shù)據(jù)抓取分析

編程模塊:requests,lxml,pymongo,time,BeautifulSoup

首先獲取所有產(chǎn)品的分類網(wǎng)址:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
def step():
  try:
    headers = {
      。。。。。
      }
    r = requests.get(url,headers,timeout=30)
    html = r.content
    soup = BeautifulSoup(html,"lxml")
    url = soup.find_all(正則表達(dá)式)
    for i in url:
      url2 = i.find_all('a')
      for j in url2:
         step1url =url + j['href']
         print step1url
         step2(step1url)
  except Exception,e:
    print e

我們?cè)诋a(chǎn)品分類的同時(shí)需要確定我們所訪問(wèn)的地址是產(chǎn)品還是又一個(gè)分類的產(chǎn)品地址(所以需要判斷我們?cè)L問(wèn)的地址是否含有if判斷標(biāo)志):

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
def step2(step1url):
  try:
    headers = {
      。。。。
      }
    r = requests.get(step1url,headers,timeout=30)
    html = r.content
    soup = BeautifulSoup(html,"lxml")
    a = soup.find('div',id='divTbl')
    if a:
      url = soup.find_all('td',class_='S-ITabs')
      for i in url:
        classifyurl = i.find_all('a')
        for j in classifyurl:
           step2url = url + j['href']
           #print step2url
           step3(step2url)
    else:
      postdata(step1url)

當(dāng)我們if判斷后為真則將第二頁(yè)的分類網(wǎng)址獲取到(第一個(gè)步驟),否則執(zhí)行postdata函數(shù),將網(wǎng)頁(yè)產(chǎn)品地址抓取!

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
def producturl(url):
  try:
    p1url = doc.xpath(正則表達(dá)式)
    for i in xrange(1,len(p1url) + 1):
      p2url = doc.xpath(正則表達(dá)式)
      if len(p2url) > 0:
        producturl = url + p2url[0].get('href')
        count = db[table].find({'url':producturl}).count()
        if count <= 0:
            sn = getNewsn()
            db[table].insert({"sn":sn,"url":producturl})
            print str(sn) + 'inserted successfully'
        else:
            'url exist'
 
  except Exception,e:
    print e

其中為我們所獲取到的產(chǎn)品地址并存入mongodb中,sn作為地址的新id。

下面我們需要在mongodb中通過(guò)新id索引來(lái)獲取我們的網(wǎng)址并進(jìn)行訪問(wèn),對(duì)產(chǎn)品進(jìn)行數(shù)據(jù)分析并抓取,將數(shù)據(jù)更新進(jìn)數(shù)據(jù)庫(kù)內(nèi)!

其中用到最多的BeautifulSoup這個(gè)模塊,但是對(duì)于存在于js的價(jià)值數(shù)據(jù)使用BeautifulSoup就用起來(lái)很吃力,所以對(duì)于js中的數(shù)據(jù)我推薦使用xpath,但是解析網(wǎng)頁(yè)就需要用到HTML.document_fromstring(url)方法來(lái)解析網(wǎng)頁(yè)。

對(duì)于xpath抓取價(jià)值數(shù)據(jù)的同時(shí)一定要細(xì)心!如果想了解xpath就在下面留言,我會(huì)盡快回答!

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
def parser(sn,url):
  try:
    headers = {
      。。。。。。
      }
    r = requests.get(url, headers=headers,timeout=30)
    html = r.content
    soup = BeautifulSoup(html,"lxml")
    dt = {}
    #partno
    a = soup.find("meta",itemprop="mpn")
    if a:
      dt['partno'] = a['content']
    #manufacturer
    b = soup.find("meta",itemprop="manufacturer")
    if b:
      dt['manufacturer'] = b['content']
    #description
    c = soup.find("span",itemprop="description")
    if c:
      dt['description'] = c.get_text().strip()
    #price
    price = soup.find("table",class_="table table-condensed occalc_pa_table")
    if price:
      cost = {}
      for i in price.find_all('tr'):
        if len(i) > 1:
          td = i.find_all('td')
          key=td[0].get_text().strip().replace(',','')
          val=td[1].get_text().replace(u'\u20ac','').strip()
          if key and val:
            cost[key] = val
      if cost:
        dt['cost'] = cost
        dt['currency'] = 'EUR'
    #quantity
    d = soup.find("input",id="ItemQuantity")
    if d:
      dt['quantity'] = d['value']
    #specs
    e = soup.find("div",class_="row parameter-container")
    if e:
      key1 = []
      val1= []
      for k in e.find_all('dt'):
        key = k.get_text().strip().strip('.')
        if key:
          key1.append(key)
      for i in e.find_all('dd'):
        val = i.get_text().strip()
        if val:
          val1.append(val)
      specs = dict(zip(key1,val1))
    if specs:
      dt['specs'] = specs
      print dt
      
    if dt:
      db[table].update({'sn':sn},{'$set':dt})
      print str(sn) + ' insert successfully'
      time.sleep(3)
    else:
      error(str(sn) + '\t' + url)
  except Exception,e:
    error(str(sn) + '\t' + url)
    print "Don't data!"

最后全部程序運(yùn)行,將價(jià)值數(shù)據(jù)分析處理并存入數(shù)據(jù)庫(kù)中!

以上就是本文關(guān)于python+mongodb數(shù)據(jù)抓取詳細(xì)介紹的全部?jī)?nèi)容,希望對(duì)大家有所幫助。

原文鏈接:http://www.cnblogs.com/zhuPython/p/7724242.html

延伸 · 閱讀

精彩推薦
Weibo Article 1 Weibo Article 2 Weibo Article 3 Weibo Article 4 Weibo Article 5 Weibo Article 6 Weibo Article 7 Weibo Article 8 Weibo Article 9 Weibo Article 10 Weibo Article 11 Weibo Article 12 Weibo Article 13 Weibo Article 14 Weibo Article 15 Weibo Article 16 Weibo Article 17 Weibo Article 18 Weibo Article 19 Weibo Article 20 Weibo Article 21 Weibo Article 22 Weibo Article 23 Weibo Article 24 Weibo Article 25 Weibo Article 26 Weibo Article 27 Weibo Article 28 Weibo Article 29 Weibo Article 30 Weibo Article 31 Weibo Article 32 Weibo Article 33 Weibo Article 34 Weibo Article 35 Weibo Article 36 Weibo Article 37 Weibo Article 38 Weibo Article 39 Weibo Article 40
主站蜘蛛池模板: 中文字幕第18页 | 日韩欧美网| 成人国产精品免费观看 | 黄色免费在线看 | 一本久久a久久精品亚洲 | 一区二区精品在线 | 欧美黄色影院 | 在线成人av| 精品九色| 国产精品国产自产拍高清av | 欧美老妇交乱视频 | 激情久久久 | 久久国产精品无码网站 | 日本韩国欧美一区 | 成人精品国产免费网站 | 一本大道综合伊人精品热热 | 一区在线观看 | 国产黄色免费网站 | 久久亚洲一区二区 | 超碰偷拍 | 天天久久 | 成年人免费看 | 亚洲一区自拍偷拍 | 久久久亚洲精品中文字幕 | 久久妇女高潮片免费观看 | 色www精品视频在线观看 | 国产精品国产精品国产专区不片 | 一区二区视频 | 日韩国产精品一区二区三区 | 欧美精品在线一区二区三区 | 91夜夜操| 久久精品视频网站 | 午夜黄色影院 | 精品一区二区三区在线观看 | 免费av观看| 亚洲精彩视频在线 | 欧美a在线看 | 天天躁人人躁人人躁狂躁 | 亚洲v在线 | 精品一区二区三区四区五区 | 性吧在线 |