有關Hadoop多Job任務并行處理,經過測試,配置如下:
首先做如下配置:
1、修改mapred-site.xml添加調度器配置:
1
2
3
4
|
< property > < name >mapred.jobtracker.taskScheduler</ name > < value >org.apache.hadoop.mapred.FairScheduler</ value > </ property > |
2、添加jar文件地址配置:
1
2
3
4
|
<property> <name>hadoopTest.jar</name> <value>所生成jar的地址</value> </property> |
Java基本代碼如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
|
// 獲取各個Job,有關Job的創建,這里就不貼上來了。 Job job_base = (Job) 。。。; Job job_avg = (Job) 。。。; Job job_runCount = (Job) 。。。; Job job_activeUser = (Job) ....; job_base.setJarByClass(CapuseDateTimerTask. class ); job_avg.setJarByClass(CapuseDateTimerTask. class ); job_runCount.setJarByClass(CapuseDateTimerTask. class ); job_activeUser.setJarByClass(CapuseDateTimerTask. class ); // 執行完job_base才開始并行以下三個Job; if (job_base.waitForCompletion( true )) { FileUtil.hdfsFileHandle(jobBase); // 并行Job job_avg.submit(); job_runCount.submit(); job_activeUser.submit(); } boolean bln1 = job_avg.isComplete(); boolean bln2 = job_runCount.isComplete(); boolean bln3 = job_activeUser.isComplete(); // 計算Job是否完成 while (!bln1 || !bln2 || !bln3) { bln1 = job_avg.isComplete(); bln2 = job_runCount.isComplete(); bln3 = job_activeUser.isComplete(); } |
最后將這些代碼組裝至Main方法,使用Hadoop執行命令運行:
hadoop jar jar包名稱 方法入口所在的類
如:
1
|
hadoop jar hadoopTest.jar ch03.test Test |
可以通過50030端口來監控Job的并行狀態,這里就不多說了!!
解釋:
1、配置Jar地址可以解決打包所生成的jar包后,運行時出現ClassNotFound的問題;
2、給多個Job設定setJarByClass,經測試,如果不設定此類,運行時會出現ClassNotFound錯誤,其中CapuseDateTimerTask為Main方法所在的類名;
3、waitForCompletion與submit方法是有區別的,waitForCompletion是串行,而submit是并行,正是因為submit是并行所以后續的代碼操作需要取其執行是否完成的狀態來做判斷處理即:isComplete();
4、以上Job采用的是:org.apache.hadoop.mapreduce.Job
以上代碼操作在單機/集群上測試都通過!
如有疑問請留言或者到本站社區交流討論,感謝閱讀,希望能幫助到大家,謝謝大家對本站的支持!
原文鏈接:http://blog.csdn.net/vtopqx/article/details/8589350