4.配置hadoop
以下是我针对自己都机器做的工作:
hadoop 的主要配置都在 hadoop-0.20.2/conf 下。
(1)在 conf/hadoop-env.sh 中配置 Java 环境(namenode 与 datanode 的都做):
$ gedit hadoop-env.sh
$ export JAVA_HOME=/home/sa/jdk1.6.0_21
(2)配置 conf/masters 和 conf/slaves 文件:
masters: sa(只在 namenode 上配置)
slaves:(namenode 与 datanode 的都做)
ubuntu
(3)配置 conf/core-site.xml, conf/hdfs-site.xml 及 conf/mapred-site.xml(以下内容namenode 与 datanode 都做)
core-site.xml:
*******************
《configuration》
《!--- global properties --》
《property》
《name》hadoop.tmp.dir《/name》
《value》/home/sa/tmp《/value》
《description》A base for other temporary directories.《/description》
《/property》
《!-- file system properties --》
《property》
《name》fs.default.name《/name》
《value》hdfs://sa:9000《/value》
《/property》
《/configuration》
*******************
hdfs-site.xml:( replication 默认为 3,如果不修改,datanode 少于三台就会报错)
*******************
《configuration》
《property》
《name》dfs.replication《/name》
《value》1《/value》
《/property》
《/configuration》
*******************
mapred-site.xml:
*******************
《configuration》
《property》
《name》mapred.job.tracker《/name》
《value》sa:9001《/value》
《/property》
《/configuration》
*******************
在之前所做都工作中,hosts文件中主机名和IP地址对应好,即使IP地址发生变动,只需修改hosts中都文件即可。
运行hadoop:(以下命令在hadoop-0.20.2/bin下进行)
进入 hadoop-0.20.2/bin,首先格式化文件系统:$ hadoop namenode –format
启动 Hadoop:$ start-all.sh
查看集群状态:$ hadoop dfsadmin -report
Hadoop 的 web 方式查看:http://sa:50070