本文實例為大家分享了python爬取哈爾濱天氣信息的具體代碼,供大家參考,具體內(nèi)容如下
環(huán)境:
windows7
python3.4(pip install requests;pip install BeautifulSoup4)
代碼: (親測可以正確執(zhí)行)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
|
# coding:utf-8 """ 總結一下,從網(wǎng)頁上抓取內(nèi)容大致分3步: 1、模擬瀏覽器訪問,獲取html源代碼 2、通過正則匹配,獲取指定標簽中的內(nèi)容 3、將獲取到的內(nèi)容寫到文件中 """ import requests # 用來抓取網(wǎng)頁的html源代碼 import csv # 將數(shù)據(jù)寫入到csv文件中 import random # 取隨機數(shù) import time # 時間相關操作 import socket # 用于異常處理 import http.client # 用于異常處理 from bs4 import BeautifulSoup # 用來代替正則式取源碼中相應標簽中的內(nèi)容 # 獲取網(wǎng)頁中的html代碼 def get_content(url, data = None ): header = { 'Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8' , 'Accept-Encoding' : 'gzip, deflate' , 'Accept-Language' : 'zh-CN,zh;q=0.9' , 'Connection' : 'keep-alive' , 'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36' } timeout = random.choice( range ( 80 , 180 )) # timeout是設定的一個超時時間,取隨機數(shù)是因為防止被網(wǎng)站認定為網(wǎng)絡爬蟲 while True : try : rep = requests.get(url, headers = header, timeout = timeout) rep.encoding = 'utf-8' # rep.encoding = ‘utf-8'是將源代碼的編碼格式改為utf-8 break except socket.timeout as e: print ( '3:' , e) time.sleep(random.choice( range ( 8 , 15 ))) except socket.error as e: print ( '4:' , e) time.sleep(random.choice( range ( 20 , 60 ))) except http.client.BadStatusLine as e: print ( '5:' , e) time.sleep(random.choice( range ( 30 , 80 ))) except http.client.IncompleteRead as e: print ( '6:' , e) time.sleep(random.choice( range ( 5 , 15 ))) return rep.text # 獲取html中我們所需要的字段 def get_data(html_text): final = [] bs = BeautifulSoup(html_text, "html.parser" ) # 創(chuàng)建BeautifulSoup對象 body = bs.body # 獲取body部分 data = body.find( 'div' , { 'id' : '7d' }) # 找到id為7d的div ul = data.find( 'ul' ) # 獲取ul部分 li = ul.find_all( 'li' ) # 獲取所有的li for day in li: # 對每個li標簽中的內(nèi)容進行遍歷 temp = [] date = day.find( 'h1' ).string # 找到日期 temp.append(date) # 添加到temp中 inf = day.find_all( 'p' ) # 找到li中的所有p標簽 temp.append(inf[ 0 ].string, ) # 第一個p標簽中的內(nèi)容(天氣狀況)加到temp中 if inf[ 1 ].find( 'span' ) is None : temperature_highest = None # 天氣預報可能沒有當天的最高氣溫(到了傍晚,就是這樣),需要加個判斷語句,來輸出最低氣溫 else : temperature_highest = inf[ 1 ].find( 'span' ).string # 找到最高溫 temperature_highest = temperature_highest.replace( '℃' , '') # 到了晚上網(wǎng)站會變,最高溫度后面也有個℃ temperature_lowest = inf[ 1 ].find( 'i' ).string # 找到最低溫 temperature_lowest = temperature_lowest.replace( '℃' , '') # 最低溫度后面有個℃,去掉這個符號 temp.append(temperature_highest) # 將最高溫添加到temp中 temp.append(temperature_lowest) # 將最低溫添加到temp中 final.append(temp) # 將temp加到final中 return final # 寫入文件csv def write_data(data, name): file_name = name with open (file_name, 'a' , errors = 'ignore' , newline = '') as f: f_csv = csv.writer(f) f_csv.writerows(data) if __name__ = = '__main__' : url = 'http://www.weather.com.cn/weather/101050101.shtml' html = get_content(url) result = get_data(html) write_data(result, 'weather.csv' ) |
講解:
python標準庫-----內(nèi)置函數(shù)open(file,mode='r',buffering=-1,encoding=None,errors=None,newline=None...)
函數(shù)作用:打開一個文件并返回文件對象。如果文件不能打開,拋出異常OSError。
file:是一個字符串的文件名稱,或者是一個數(shù)組表示的文件名稱。文件名稱可以是相對當前目錄的路徑,也可以是絕對路徑表示。
mode:是指打開文件的模式。
1)‘r'表示打開文件只讀,不能寫。
2)‘w'表示打開文件只寫,并且清空文件。
3)‘x'表示獨占打開文件,如果文件已經(jīng)存打開就會失敗。
4)‘a'表示打開文件寫,不清空文件,在文件后尾追加的方式寫入。
5)‘b'表示二進制的模式打開文件。
6)‘t'表示文本模式,默認情況下就是這種模式。
7)‘+'打開文件更新(讀取或?qū)懭耄?/p>
8)缺省時的模式就相當于'rt'。比如'w+b'就是打開文件進入讀寫,把文件清空;'r+b'打開文件,但不把文件 清空。
參數(shù)buffering是一個可選的參數(shù),用來表示緩沖區(qū)的策略選擇。設置為0時,表示不使用緩沖區(qū),直接讀寫,僅在二進制模式下有效。設置為1時,表示在文本模式下使用行緩沖區(qū)方式。設置為大于1時,表示緩沖區(qū)的設置大小。如果參數(shù)buffering沒有給出,使用默認時,會采用下面策略來選擇:
1)對于二進制文件模式時,采用固定塊內(nèi)存緩沖區(qū)方式,內(nèi)存塊的大小根據(jù)系統(tǒng)設備的分配的磁盤塊來決定,如果獲取系統(tǒng)磁盤塊的大小失敗,就使用內(nèi)部常量io.DEFAULT_BUFFER_SIZE定義的大小。一般的操作系統(tǒng)上,塊的大小是4096或者8192字節(jié)大小。
2)對于交互的文本文件(采用isatty()判斷為True)時,采用一行緩沖區(qū)的方式。其它文本文件使用跟二進制一樣的方式。
參數(shù)encoding是指明對文件編碼,僅適用于文本文件。如果不明編碼方式,默認是使用locale.getpreferredencoding()函數(shù)返回的編碼方式。
參數(shù)errors是用來指明編碼和解碼錯誤時怎么樣處理。不能在二進制的模式下使用。
1)當指明為'strict'時,編碼出錯則拋出異常ValueError。
2)當指明為'ignore'時,忽略錯誤。
3)當指明為'replace'時,使用某字符進行替代模式,比如使用'?'來替換出錯的。
4)其它相應還有surrogateescape/xmlcharrefreplacs/backslashreplace。
參數(shù)newline是用來控制文本模式之下,一行的結束字符。可以是None,'',\n,\r,\r\n等。
1)當在讀取模式下,如果新行符為None,那么就作為通用換行符模式工作,意思就是說當遇到\n,\r或\r\n都可以作為換行標識,并且統(tǒng)一轉(zhuǎn)換為\n作為文本輸入的換行符。當設置為空''時,也是通用換行符模式工作,但不作轉(zhuǎn)換為\n,輸入什么樣的,就保持原樣全輸入。當設置為其它相應字符時,就會判斷到相應的字符作為換行符,并保持原樣輸入到文本。
2)當在輸出模式時,如果新行符為None,那么所有輸出文本都是采用\n作為換行符。如果設置為''或者\n時,不作任何的替換動作。如果是其它字符,會在字符后面添加\n作為換行符。
以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持服務器之家。
原文鏈接:https://www.cnblogs.com/sunshine-blog/p/9292875.html