国产片侵犯亲女视频播放_亚洲精品二区_在线免费国产视频_欧美精品一区二区三区在线_少妇久久久_在线观看av不卡

服務器之家:專注于服務器技術及軟件下載分享
分類導航

PHP教程|ASP.NET教程|Java教程|ASP教程|編程技術|正則表達式|C/C++|IOS|C#|Swift|Android|VB|R語言|JavaScript|易語言|vb.net|

服務器之家 - 編程語言 - Java教程 - Java爬蟲技術框架之Heritrix框架詳解

Java爬蟲技術框架之Heritrix框架詳解

2020-07-23 00:29moonsoft Java教程

這篇文章主要介紹了爬蟲技術框架之Heritrix框架詳解,文中通過示例介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧

Heritrix是一個由Java開發的開源Web爬蟲系統,用來獲取完整的、精確的站點內容的深度復制,

具有強大的可擴展性,運行開發者任意選擇或擴展各個組件,實現特定的抓取邏輯。

一、Heritrix介紹

Heritrix采用了模塊化的設計,用戶可以在運行時選擇要用的模塊。它由核心類(core classes)和插件模塊(pluggable modules)構成。

核心類可以配置,但不能被覆蓋,插件模塊可以由第三方模塊取代。所以我們就可以用實現了特定抓取邏輯的第三方模塊來取代默認的插件模塊,從而滿足自己的抓取需要。

CrawlController(下載控制器)整個下載過程的總控制者,整個抓取工作的起點,決定整個抓取任務的開始和結束。每個URI都有一個獨立的線程,它從邊界控制器(Frontier)獲取新的URI,然后傳遞給Processor chains(處理鏈)經過一系列Processor(處理器)處理。

Java爬蟲技術框架之Heritrix框架詳解

二、Heritrix架構

中央控制器 CrawlController 是核心組件,決定了整個抓取任務的開始與結束。

用戶在 Heritrix web UI 控制臺設置抓取任務后,heritrix首先構造XMLSettingsHandler對象,然后調用CrawlController的構造函數,構造一個CrawlController實例并初始化,這樣,CrawlController就具備了運行條件。

此時,只需調用 requestCrawlStart()方法就可以啟動線程池和Frontier,以便向線程池中工作線程提供抓取用的URL鏈接。

Java爬蟲技術框架之Heritrix框架詳解

Heritrix 3.x 的框架主要分為 Engine 和 Component

三、一些API

org.archive.crawler.framework.CrawlJob;

org.archive.crawler.postprocessor.CandidatesProcessor;
org.archive.modules.CrawlURI;

等等

抓取任務CrawlOrder類:是整個抓取工作的起點。一次抓取任務包括許多屬性,建立一個任務的方式有很多種,最簡單的一種就是根據默認的order.xml來配置。

中央控制器CrawlController:該類決定著抓取任務的開始和結束。它包含以下幾個組件:

CrawlOrder:該類保存了order.xml的屬性配置;

CrawlScope:決定當前抓取范圍;

ProcessorChainList:處理器鏈;

Frontier:一次抓取任務需要設定一個Frontier,以此來不斷為其每個線程提供URI;

ToePool:它是一個線程池,管理了所有在當前任務中抓取過的Host名稱和Server名稱。

中央控制器CrawlControllr的類結構如圖所示:

Java爬蟲技術框架之Heritrix框架詳解

Frontier鏈接制造工廠:它表示一種為線程提供鏈接的工具,通過一些特定的算法來決定哪個鏈接將接下來被送入處理器鏈中,同時,它本身也負責一定的日志和狀態報告功能。

BdbFrontier類:它是用Berkeley DB 實現的,Berkeley DB 就是一個HashTable,它能夠按“key/value”方式保存數據,能夠為應用程序提供可伸縮的、高性能的、有事務保護功能的嵌入式數據庫。

Heritrix的多線程ToeThread和ToePool:要想更快更有效地抓取網頁,必須采用多線程,Heritrix則采用多線程機制,提供了一個標準的線程池ToePool,用于管理所有的抓取線程。

處理器鏈 Processor:包括PreProcessor、Fetcher、Extractor、Writer、PostProcessor五種。

四、應用

作為爬蟲模塊,爬取數據

Java爬蟲技術框架之Heritrix框架詳解

到此這篇關于爬蟲技術框架之Heritrix框架詳解的文章就介紹到這了,更多相關爬蟲技術框架 Heritrix內容請搜索服務器之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持服務器之家!

原文鏈接:https://www.cnblogs.com/moonsoft/p/9337590.html

延伸 · 閱讀

精彩推薦
Weibo Article 1 Weibo Article 2 Weibo Article 3 Weibo Article 4 Weibo Article 5 Weibo Article 6 Weibo Article 7 Weibo Article 8 Weibo Article 9 Weibo Article 10 Weibo Article 11 Weibo Article 12 Weibo Article 13 Weibo Article 14 Weibo Article 15 Weibo Article 16 Weibo Article 17 Weibo Article 18 Weibo Article 19 Weibo Article 20 Weibo Article 21 Weibo Article 22 Weibo Article 23 Weibo Article 24 Weibo Article 25 Weibo Article 26 Weibo Article 27 Weibo Article 28 Weibo Article 29 Weibo Article 30 Weibo Article 31 Weibo Article 32 Weibo Article 33 Weibo Article 34 Weibo Article 35 Weibo Article 36 Weibo Article 37 Weibo Article 38 Weibo Article 39 Weibo Article 40
主站蜘蛛池模板: 久久美 | 亚洲综合二区 | 日韩一区二区免费视频 | 国产精品久久精品 | 香蕉久久av一区二区三区 | 欧美日韩专区 | 老司机福利在线视频 | 久草电影网 | 久久久久久网站 | 黄色片网站免费观看 | 欧美精品一区二区视频 | 欧美麻豆| 成人免费在线电影 | 亚洲第一免费播放区 | 激情欧美一区二区三区中文字幕 | 中文字幕一区在线 | 中文字幕亚洲一区二区va在线 | 日韩精品一二三区 | 亚洲午夜视频在线观看 | 午夜影院在线播放 | 久久精品一区二区三区中文字幕 | 国产亚洲网站 | 国内精品一区二区三区 | 黄在线看 | 欧美日韩视频在线 | 91视频在线免费观看 | 伊人网在线视频免费观看 | 日本中文在线 | 四虎影院网站 | 日韩毛片在线观看 | 久久精品中文字幕 | 日日夜夜视频 | 91午夜理伦私人影院 | 国产美女久久 | 玖玖精品 | 欧美激情一区二区三级高清视频 | 黄色av大全 | 永久91嫩草亚洲精品人人 | 日韩激情一区 | 午夜精品在线观看 | av成人免费在线观看 |