国产片侵犯亲女视频播放_亚洲精品二区_在线免费国产视频_欧美精品一区二区三区在线_少妇久久久_在线观看av不卡

服務(wù)器之家:專注于服務(wù)器技術(shù)及軟件下載分享
分類導(dǎo)航

PHP教程|ASP.NET教程|Java教程|ASP教程|編程技術(shù)|正則表達(dá)式|C/C++|IOS|C#|Swift|Android|VB|R語言|JavaScript|易語言|vb.net|

服務(wù)器之家 - 編程語言 - Java教程 - Hadoop組件簡介

Hadoop組件簡介

2021-01-12 14:12動(dòng)力節(jié)點(diǎn) Java教程

Hadoop作為一種分布式基礎(chǔ)架構(gòu),可以使用戶在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。接下來通過本文給大家分享Hadoop組件簡介,感興趣的朋友一起看看吧

安裝hbase

首先下載hbase的最新穩(wěn)定版本

 http://www.apache.org/dyn/closer.cgi/hbase/

安裝到本地目錄中,我安裝的是當(dāng)前用戶的hadoop/hbase中

tar -zxvf hbase-0.90.4.tar.gz

單機(jī)模式

修改配置文件

conf/hbase_env.sh

配置jdk的路徑

修改conf/hbase-site.xml

hbase.rootdir

file:///home/${user.name}/hbase-tmp

完成后啟動(dòng)

bin/start-hbase.sh

啟動(dòng)后

starting master, logging to/home/lgstar888/hadoop/hbase0.9/bin/../logs/hbase-lgstar888-master-ubuntu.out

然后執(zhí)行

bin/hbase shell

輸入status

Hadoop組件簡介

如果輸入exit則退出

hadoop與google一樣,都是小孩命名的,是一個(gè)虛構(gòu)的名字,沒有特別的含義。從計(jì)算機(jī)專業(yè)的角度看,hadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),由apache基金會(huì)開發(fā)。hadoop的主要目標(biāo)是對分布式環(huán)境下的“大數(shù)據(jù)”以一種可靠、高效、可伸縮的方式處理。設(shè)想一個(gè)場景,假如您需要grep一個(gè)100tb的大數(shù)據(jù)文件,按照傳統(tǒng)的方式,會(huì)花費(fèi)很長時(shí)間,而這正是hadoop所需要考慮的效率問題。  

關(guān)于hadoop的結(jié)構(gòu),有各種不同的說法。我們這里簡單的理解為hadoop主要由三部分組成:hdfs(hadoopdistributed file system),mapreduce與hbase。

1.hadoop組件之一:hdfs分布式文件系統(tǒng)具有哪些優(yōu)點(diǎn)?

  hdfs作為一種分布式文件系統(tǒng),它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點(diǎn)。比如,hadoop文件系統(tǒng)管理的物理存儲資源不一定直接連接在本地節(jié)點(diǎn)上,而是通過計(jì)算機(jī)網(wǎng)絡(luò)與節(jié)點(diǎn)相連。對于client端而言,hdfs就像一個(gè)傳統(tǒng)的分級文件系統(tǒng),可以創(chuàng)建、刪除、移動(dòng)或重命名文件等等。與此同時(shí),hdfs與其他的分布式文件系統(tǒng)的區(qū)別也是顯而易見的。

  首先,hdfs設(shè)計(jì)目標(biāo)之一是適合運(yùn)行在通用硬件(commodityhardware)上的分布式文件系統(tǒng)。hdfs假設(shè)的硬件錯(cuò)誤不是異常,而是常態(tài)。因?yàn)閔dfs面向的是成百上千的服務(wù)器集群,每臺服務(wù)器上存儲著文件系統(tǒng)的部分?jǐn)?shù)據(jù),并且這些機(jī)器的價(jià)格都很低廉。這就意味著總是有一部分硬件因各種原因而無法工作。因此,錯(cuò)誤檢測和快速、自動(dòng)的恢復(fù)是hdfs最核心的架構(gòu)目標(biāo)。從這個(gè)角度說,hdfs具有高度的容錯(cuò)性。

  第二,hdfs的另一個(gè)設(shè)計(jì)目標(biāo)是支持大文件存儲。與普通的應(yīng)用不同,hdfs應(yīng)用具有很大的數(shù)據(jù)集,一個(gè)典型hdfs文件大小一般都在g字節(jié)至t字節(jié)。這就意味著hdfs應(yīng)該能提供比較高的數(shù)據(jù)傳輸帶寬與數(shù)據(jù)訪問吞吐量。相應(yīng)的,hdfs開放了一些posix的必須接口,容許流式訪問文件系統(tǒng)的數(shù)據(jù)。

  第三,hdfs還要解決的一個(gè)問題是高數(shù)據(jù)吞吐量。hdfs采用的是“一次性寫,多次讀”這種簡單的數(shù)據(jù)一致性模型。換句話說,文件一旦建立后寫入,就不需要再更改了。網(wǎng)絡(luò)爬蟲程序就很適合使用這樣的模型。

  第四,移動(dòng)計(jì)算環(huán)境比移動(dòng)數(shù)據(jù)劃算。hdfs提供了api,以便把計(jì)算環(huán)境移動(dòng)到數(shù)據(jù)存儲的地方,而不是把數(shù)據(jù)傳輸?shù)接?jì)算環(huán)境運(yùn)行的地方。這對于數(shù)據(jù)大文件尤其適用,可以有效減少網(wǎng)絡(luò)的擁塞、提高系統(tǒng)的吞吐量。

  hdfs的體系結(jié)構(gòu)與工作流程

  下面簡單看一下hdfs的結(jié)構(gòu)。圖1所示為hdfs的體系結(jié)構(gòu)圖。hdfs采用的是master/slave架構(gòu)。

  namenode節(jié)點(diǎn)作為master服務(wù)器,有三部分功能。第一:處理來自客戶端的文件訪問。第二:管理文件系統(tǒng)的命名空間操作,如'打開'、'關(guān)閉'、'重命名'等。第三:負(fù)責(zé)數(shù)據(jù)塊到數(shù)據(jù)節(jié)點(diǎn)之間的映射。從這個(gè)意義上說,它扮演中心服務(wù)器的角色。

  datanode節(jié)點(diǎn)作為slave服務(wù)器,同樣有三部分功能。第一:管理掛載在節(jié)點(diǎn)上的存儲設(shè)備。第二:響應(yīng)客戶端的讀寫請求。第三:從內(nèi)部看,每個(gè)文件被分成一個(gè)或多個(gè)數(shù)據(jù)塊,被存放到一組datanode,在namenode的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制。

Hadoop組件簡介

  圖1 hdfs體系結(jié)構(gòu)圖

  hdfs采用java語言開發(fā),因此任何支持java的機(jī)器都可以部署namenode或datanode。相應(yīng)地,gnu/linux操作系統(tǒng)支持namenode與datanode。一個(gè)典型的部署場景是,一臺gnu/linux操作系統(tǒng)上運(yùn)行一個(gè)namenode實(shí)例,作為master中心服務(wù)器。而集群中的其它gnu/linux操作系統(tǒng)分別運(yùn)行一個(gè)datanode實(shí)例,作為slave服務(wù)器集群。

2.hadoop組件之二:什么是mapreduce編程模型,mapreduce的工作流程是什么?

  mapreduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1tb)的并行運(yùn)算。mapreduce的設(shè)計(jì)目標(biāo)是方便編程人員在不熟悉分布式并行編程的情況下,將自己的程序運(yùn)行在分布式系統(tǒng)上。

  mapreduce的命名規(guī)則由兩個(gè)術(shù)語組成,分別是map(映射)與reduce(化簡)。這些術(shù)語來自于列表處理語言,如:lisp,scheme,或ml。從概念上來講,mapreduce將輸入元素列表(inputlist)轉(zhuǎn)換成輸出元素列表(output list),按照map與reduce規(guī)則各一次。

  從mapreduce框架的實(shí)現(xiàn)角度看,mapreduce程序有著兩個(gè)組件:一個(gè)實(shí)現(xiàn)了mapper,另一個(gè)實(shí)現(xiàn)了reducer。

  第一次叫mapping,如圖2所示。mapreduce將inputlist作為mapping函數(shù)的輸入?yún)?shù),經(jīng)過處理,把結(jié)果返回給outputlist。舉例來說,有一個(gè)函數(shù)toupper(str),用來返回輸入字符串的大寫版本。那么這里的inputlist指的是轉(zhuǎn)換前的常規(guī)字符串列表,mapping function指的是toupper函數(shù),而outputlist指的是轉(zhuǎn)換后的大寫字符串列表。值得注意的是,在這里mapping并沒有改變輸入字符串列表,而是返回一個(gè)新的字符串列表。

Hadoop組件簡介

  圖2 map函數(shù)處理

  第二次叫reducing,如圖3所示。mapreduce將inputlist作為reducing函數(shù)的輸入?yún)?shù),經(jīng)過迭代處理,把這些數(shù)據(jù)匯集,返回一個(gè)輸出值給outputvalue。從這個(gè)意義上來說,reducing一般用來生成”總結(jié)“數(shù)據(jù),把大規(guī)模的數(shù)據(jù)轉(zhuǎn)變成更小的總結(jié)數(shù)據(jù)。例如,"+"可以用來作一個(gè)reducing函數(shù),去返回輸入數(shù)據(jù)列表的值的總和。

Hadoop組件簡介

  圖3 reduce函數(shù)處理

  從工作流程來講,mapreduce對應(yīng)的作業(yè)job首先把輸入的數(shù)據(jù)集切分為若干獨(dú)立的數(shù)據(jù)塊,并由map組件以task的方式并行處理。處理結(jié)果經(jīng)過排序后,依次輸入給reduce組件,并且以task的形式并行處理。mapreduce對應(yīng)的輸入輸出數(shù)據(jù)由hdfs的datanode存儲。mapreduce對應(yīng)的job部署在master服務(wù)器,由masterjobtracker負(fù)責(zé)task的調(diào)度,監(jiān)控,重新執(zhí)行失敗的任務(wù)等等。mapreduce對應(yīng)的job部署在若干不同的slave服務(wù)器,每個(gè)集群節(jié)點(diǎn)含一個(gè)slave tasktracker,負(fù)責(zé)執(zhí)行由master指派的任務(wù)。

  hadoop框架由java實(shí)現(xiàn)的,它提供了兩種主要工具。hadoopstreaming是一種運(yùn)行作業(yè)的實(shí)用工具,它允許用戶創(chuàng)建和運(yùn)行任何可執(zhí)行程序(例如:shell工具)來做為mapper和reducer。hadoop pipes是一個(gè)與swig兼容的c++ api(沒有基于jnitm技術(shù)),它也可用于實(shí)現(xiàn)map/reduce應(yīng)用程序。這樣,開發(fā)人員就可以利用mapreduce框架,開發(fā)分布式應(yīng)用程序,運(yùn)行在由上千個(gè)商用機(jī)器組成的大型集群上,并以一種可靠容錯(cuò)的方式并行處理上t級別的數(shù)據(jù)集。

hadoop為企業(yè)來帶了什么?

  如今,“大數(shù)據(jù)”這一術(shù)語在it經(jīng)理人中變得越來越流行。美國國家海洋與大氣管理局noaa利用“大數(shù)據(jù)”進(jìn)行氣象、生態(tài)系統(tǒng)、天氣和商務(wù)研究。《紐約時(shí)報(bào)》使用“大數(shù)據(jù)”工具進(jìn)行文本分析和web信息挖掘。迪斯尼則利用它們關(guān)聯(lián)和了解跨不同商店、主題公園和web資產(chǎn)的客戶行為。

  “大數(shù)據(jù)”不僅適用于大型企業(yè),而是適用于各種不同規(guī)模的企業(yè)。例如,通過評估某位客戶在網(wǎng)站上的行為,來更好地了解他們需要什么支持或?qū)ふ沂裁串a(chǎn)品,或者弄清當(dāng)前天氣和其他條件對于送貨路線和時(shí)間安排的影響。

  面對“大數(shù)據(jù)”,hadoop為揭示深?yuàn)W的企業(yè)與外部數(shù)據(jù)的關(guān)鍵內(nèi)幕提供了基礎(chǔ)。從技術(shù)上看,hadoop分布式文件系統(tǒng)(hdfs)保證了大數(shù)據(jù)的可靠存儲,而另一hadoop核心組件mapreduce則提供高性能并行數(shù)據(jù)處理服務(wù)。這兩項(xiàng)服務(wù)提供了一個(gè)使對結(jié)構(gòu)化和復(fù)雜“大數(shù)據(jù)”的快速、可靠分析變?yōu)楝F(xiàn)實(shí)的基礎(chǔ)。

  hadoop已經(jīng)迅速成長為首選的、適用于非結(jié)構(gòu)化數(shù)據(jù)的大數(shù)據(jù)分析解決方案。基于hadoop、利用商品化硬件對海量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行批處理,給數(shù)據(jù)分析領(lǐng)域帶來了深刻的變化。通過挖掘機(jī)器產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)中蘊(yùn)藏的知識,企業(yè)可以做出更好的決策,促進(jìn)收入增長,改善服務(wù),降低成本。

  google與hadoop有著千絲萬縷的聯(lián)系。如前所述,hadoop主要是由hdfs、mapreduce和hbase組成。而hdfs是google file system(gfs)的開源實(shí)現(xiàn),mapreduce是googlemapreduce的開源實(shí)現(xiàn),hbase是googlebigtable的開源實(shí)現(xiàn)。hadoop分布式框架很有創(chuàng)造性,而且有極大的擴(kuò)展性,使得google在系統(tǒng)吞吐量上有很大的競爭力。因此apache基金會(huì)用java實(shí)現(xiàn)了一個(gè)開源版本,支持fedora、ubuntu等linux平臺。

  考慮到hadoop在應(yīng)對大規(guī)模非結(jié)構(gòu)型數(shù)據(jù)中所起到的重要作用,微軟也不得不放下架子,近日宣布開發(fā)一個(gè)兼容windowsserver與windows azure平臺的hadoop開源版本。

  ibm宣布在hadoop上建立新的存儲架構(gòu),作為群集運(yùn)行db2或oracle數(shù)據(jù)庫,目的是讓應(yīng)用程序,支持高性能分析,數(shù)據(jù)倉庫應(yīng)用程序和云計(jì)算的目的。

  emc也推出了世界上第一個(gè)定制的、高性能的hadoop專用數(shù)據(jù)協(xié)同處理設(shè)備——greenplumhd數(shù)據(jù)計(jì)算設(shè)備,為客戶提供了最強(qiáng)大、最高效率的方法,充分挖掘大數(shù)據(jù)的價(jià)值。

  互聯(lián)網(wǎng)搜索巨頭百度也在考慮使用hadoop。不過,出于性能與安全的考慮,百度在采用hadoop架構(gòu)的時(shí)候,將hadoop計(jì)算層進(jìn)行了重新編寫。

  總結(jié):

  hadoop作為一種分布式基礎(chǔ)架構(gòu),可以使用戶在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。

  關(guān)于hadoop的價(jià)值,思科的jamesurquhart指出:“hadoop可以說是不涉及任何現(xiàn)有專利的開源項(xiàng)目在企業(yè)軟件方面所取得的首個(gè)里程碑式成功。”在業(yè)界,hadoop也贏得“龐大數(shù)據(jù)問題的通用解決方案”的頭銜。我們不得不說,hadoop前途不可估量。

原文鏈接:http://blog.sina.com.cn/s/blog_9c6852670102wwyp.html

延伸 · 閱讀

精彩推薦
Weibo Article 1 Weibo Article 2 Weibo Article 3 Weibo Article 4 Weibo Article 5 Weibo Article 6 Weibo Article 7 Weibo Article 8 Weibo Article 9 Weibo Article 10 Weibo Article 11 Weibo Article 12 Weibo Article 13 Weibo Article 14 Weibo Article 15 Weibo Article 16 Weibo Article 17 Weibo Article 18 Weibo Article 19 Weibo Article 20 Weibo Article 21 Weibo Article 22 Weibo Article 23 Weibo Article 24 Weibo Article 25 Weibo Article 26 Weibo Article 27 Weibo Article 28 Weibo Article 29 Weibo Article 30 Weibo Article 31 Weibo Article 32 Weibo Article 33 Weibo Article 34 Weibo Article 35 Weibo Article 36 Weibo Article 37 Weibo Article 38 Weibo Article 39 Weibo Article 40
主站蜘蛛池模板: 午夜精品在线 | 97操视频 | 7878www免费看片 | 这里只有精品免费 | 欧美成人a | 免费午夜视频 | 精品国产91亚洲一区二区三区www | 欧美精三区欧美精三区 | 不用播放器的av | 中文一区| 青青久久av北条麻妃黑人 | 污视频在线观看免费 | 国产精品免费高清 | 亚洲精品久久久一区二区三区 | 成人av一区二区三区 | 亚洲精品一区在线观看 | 牛牛澡牛牛爽一区二区 | 欧美视频二区 | 亚洲视频中文字幕 | caoporn免费| 久色| 国产中文视频 | 亚洲精品第一区在线观看 | 亚洲精品一区二区三区 | 欧美视频在线看 | 国产区区 | 特黄特色大片在线观看视频网站 | 久色成人 | 中文字幕一区二区三 | 色综合天天综合网国产成人综合天 | 久久久国际精品 | 国产9色在线 | 日韩 | 久久久久久久国产精品 | 亚洲一区二区三区精品动漫 | 精品久久中文字幕 | 国产欧美精品一区二区三区 | av免费黄色| 日韩中文一区二区三区 | 亚洲二区在线播放 | 直接看av的网站 | 中文字幕一区在线观看视频 |