亚洲福利,国产7777,国产一区二区三区在线视频

本文實例講述了Python3實現抓取 javascript動態生成的html網頁功能。分享給大家供大家參考，具體如下：

用urllib等抓取網頁，只能讀取網頁的靜態源文件，而抓不到由javascript生成的內容。

究其原因，是因為urllib是瞬時抓取，它不會等javascript的加載延遲，所以頁面中由javascript生成的內容，urllib讀取不到。

那由javascript生成的內容就真的沒有辦法讀取了嗎？非也！

這里要介紹一個python庫：selenium，本文使用的版本是 2.44.0

先安裝：

				 
				?

									pip install -U selenium

下面用三個例子來說明其用法：

【例0】

打開一個Firefox瀏覽器
載入所給url地址的頁面

				 
				?

									from selenium import webdriver

									browser = webdriver.Firefox()

									browser.get('http://www.baidu.com/')

【例1】

打開一個Firefox瀏覽器
載入百度主頁
搜索 “seleniumhq”
關閉瀏覽器

				 
				?

									from selenium import webdriver

									from selenium.webdriver.common.keys import Keys

									browser = webdriver.Firefox()

									browser.get('http://www.baidu.com')

									assert '百度' in browser.title

									elem = browser.find_element_by_name('p') # Find the search box

									elem.send_keys('seleniumhq' + Keys.RETURN) # 模擬按鍵

									browser.quit()

【例2】

Selenium WebDriver 常用于網絡程序的測試。下面是一個使用Python標準庫 unittest 的例子:

				 
				?

									import unittest

									class BaiduTestCase(unittest.TestCase):

									  def setUp(self):

									    self.browser = webdriver.Firefox()

									    self.addCleanup(self.browser.quit)

									  def testPageTitle(self):

									    self.browser.get('http://www.baidu.com')

									    self.assertIn('百度', self.browser.title)

									if __name__ == '__main__':

									  unittest.main(verbosity=2)