1、設置ssh
安裝ssh相關軟件包:
然后使用下面兩個命令之一啟動/關閉sshd:
sudo service ssh start|stop
若成功啟動sshd,我們能看到如下類似結果:
2766 ? 00:00:00 ssh-agent
10558 ? 00:00:00 sshd
這時候,如果運行如下ssh登錄本機的命令,會提示輸入密碼:
現在我們要做的就是讓它不需要輸入密碼:
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
這樣的話就行了。如果仍不湊效,可能是密鑰文件的權限設置不當。
2、配置hadoop
將hadoop-1.2.1解壓到~/下,同時在~/下建立目錄hadoop-env,繼續在hadoop-env下建立如下的目錄結構:
├── dfs
│ ├── checkpoint1
│ ├── data1
│ ├── data2
│ └── name1
└── test
└── input
配置文件hadoop-1.2.1/conf/core-site.xml:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
<final>true</final>
</property>
</configuration>
fs.default.name來指定HDFS的uri,如果value中沒有提供端口,默認為8020。
配置文件hadoop-1.2.1/conf/hdfs-site.xml:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.name.dir</name>
<value>~/hadoop-env/dfs/name1</value>
<final>true</final>
</property>
<property>
<name>dfs.data.dir</name>
<value>~/hadoop-env/dfs/data1,~/hadoop-env/dfs/data2</value>
<final>true</final>
</property>
<property>
<name>fs.checkpoint.dir</name>
<value>~/hadoop-env/dfs/checkpoint1</value>
<final>true</final>
</property>
</configuration>
dfs.name.dir指定namenode存儲元數據的目錄,可以指定多個目錄,這些目錄要用逗號分開;dfs.data.dir指定datanode存放數據的目錄,可以指定多個目錄;fs.checkpoint.dir指定輔助namenode存放檢查點的目錄。
配置文件hadoop-1.2.1/conf/mapred-site.xml:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
<final>true</final>
</property>
</configuration>
3、測試
先格式化HDFS:
啟動HDFS和MapReduce進程:
$ ./hadoop-1.2.1/bin/start-dfs.sh
$ ./hadoop-1.2.1/bin/start-mapred.sh
啟動時候如果報錯,例如localhost: Error: JAVA_HOME is not set.,需要在./hadoop-1.2.1/conf/hadoop-env.sh文件中export JAVA_HOME,例如:
export JAVA_HOME=~/jdk1.7.0_25
如何檢查是否成功啟動了: 第一種方法是使用jps命令(Java Virtual Machine Process Status Tool),應該有如下類似輸出:
$ jps
13592 DataNode
13728 SecondaryNameNode
13837 JobTracker
12864 NameNode
13955 TaskTracker
16069 Jps
第二種方法是瀏覽器登錄http://localhost:50030查看jobtracker,http://localhost:50070查看namenode。如果在使用翻墻軟件,那么在訪問時可能會報錯,最簡單的解決方法是關掉翻墻軟件。 還有一種方法就是查看日志文件。
現在我們在~/hadoop-env/test/input目錄下建立兩個文件:
$ echo "hello world" > test1.txt
$ echo "hi,world" > test2.txt
把這兩個文件導入HDFS:
./hadoop-1.2.1/bin/hadoop dfs -put hadoop-env/test/input/ output/
查看:
$ ./hadoop-1.2.1/bin/hadoop dfs -ls /
Found 2 items
drwxr-xr-x - user supergroup 0 2013-10-22 22:07 /test
drwxr-xr-x - user supergroup 0 2013-10-22 21:58 /tmp
$ ./hadoop-1.2.1/bin/hadoop dfs -ls /test
Found 2 items
-rw-r--r-- 3 user supergroup 12 2013-10-22 22:07 /test/test1.txt
-rw-r--r-- 3 user supergroup 9 2013-10-22 22:07 /test/test2.txt
OK,配置完成。
注:本文使用的系統是linux mint 15 64bit,hadoop使用的是1.2.1版本。