龙空技术网

Hadoop入门:设置单节点集群。

程序员探索致富路 139

前言:

此时你们对“hadoop集群停止命令”大致比较着重,兄弟们都需要了解一些“hadoop集群停止命令”的相关资讯。那么小编也在网摘上汇集了一些关于“hadoop集群停止命令””的相关知识,希望同学们能喜欢,咱们快快来学习一下吧!

本文介绍如何设置和配置单节点 Hadoop 安装,以便使用 Hadoop MapReduce 和 Hadoop 分布式文件系统 (HDFS) 快速执行简单操作。

官网下载安装包,我下载的3.3.4版本:

准备启动 Hadoop 集群,部署在Linux上

1.解压下载的 Hadoop 发行版。

tar zxvf hadoop-3.3.4.tar.gz

2.编辑文件etc/hadoop/hadoop-env.sh,配置参数Java 安装的根目录:

# set to the root of your Java installation  export JAVA_HOME=/usr/java/latest
伪分布式运行

Hadoop 可以以伪分布式模式在单节点上运行,其中每个 Hadoop 守护进程都在单独的 Java 进程中运行。

配置以下内容:

etc/hadoop/core-site.xml:

fs.defaultFS: 这个属性用来指定namenode的hdfs协议的文件系统通信地址,可以指定一个主机+端口,也可以指定为一个namenode服务(这个服务内部可以有多台namenode实现ha的namenode服务

<configuration>    <property>        <name>fs.defaultFS</name>        <value>hdfs://localhost:9000</value>    </property></configuration>

etc/hadoop/hdfs-site.xml:

dfs.replication:hdfs的副本数设置。也就是上传一个文件,其分割为block块后,每个block的冗余副本个数,默认配置是3。

<configuration>    <property>        <name>dfs.replication</name>        <value>1</value>    </property></configuration>

设置无密码 ssh:

现在检查您是否可以在没有密码的情况下 ssh 到本地主机:

  $ ssh localhost

如果没有密码就无法通过 ssh 连接到本地主机,请执行以下命令:

  $ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa  $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys  $ chmod 0600 ~/.ssh/authorized_keys

一:本地运行 MapReduce 作业,如果想要在 YARN 上执行作业,请参阅后面YARN on Single Node

1.格式化文件系统:

$ ./bin/hdfs namenode -format

2.启动NameNode守护进程和DataNode守护进程:

 $ ./sbin/start-dfs.sh

hadoop 守护程序日志输出写入$HADOOP_LOG_DIR目录(默认为$HADOOP_HOME/logs)。

3.浏览 NameNode 的 Web 界面默认:

4.创建执行 MapReduce 作业所需的 HDFS 目录:

  $ bin/hdfs dfs -mkdir /user  $ bin/hdfs dfs -mkdir /user/<username>

5.将本地文件复制到分布式文件系统中:

  $ bin/hdfs dfs -mkdir input  $ bin/hdfs dfs -put etc/hadoop/*.xml input

6.运行提供的一些示例:

  $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar grep input output 'dfs[a-z.]+'

7.检查输出文件:将输出文件从分布式文件系统复制到本地文件系统:

  $ bin/hdfs dfs -get output output  $ cat output/*

或者查看分布式文件系统上的输出文件:

  $ bin/hdfs dfs -cat output/*

8.完成后,停止守护进程:

  $ sbin/stop-dfs.sh

二:单个节点上的 YARN(YARN on a Single Node)

通过设置一些参数并另外运行 ResourceManager 守护进程和 NodeManager 守护进程,以伪分布式模式在 YARN 上运行 MapReduce 作业。

以下说明假设上述说明的 1. ~ 4. 步骤已经执行。

1.配置参数如下:

etc/hadoop/mapred-site.xml:

mapreduce.framework.name:指定mr框架为yarn方式, Hadoop二代MP也基于资源管理系统Yarn来运行 。

<configuration>    <property>        <name>mapreduce.framework.name</name>        <value>yarn</value>    </property>    <property>        <name>mapreduce.application.classpath</name>        <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>    </property></configuration>

etc/hadoop/yarn-site.xml:

YARN 集群为 MapReduce 程序提供的 shuffle 服务

<configuration>    <property>        <name>yarn.nodemanager.aux-services</name>        <value>mapreduce_shuffle</value>    </property>    <property>        <name>yarn.nodemanager.env-whitelist</name>        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_HOME,PATH,LANG,TZ,HADOOP_MAPRED_HOME</value>    </property></configuration>

2.启动 ResourceManager 守护进程和 NodeManager 守护进程:

  $ sbin/start-yarn.sh

3.浏览 ResourceManager 的 Web 界面;默认情况下,它位于:

资源管理器 -

4.运行 MapReduce 作业。

5.完成后,停止守护进程:

  $ sbin/stop-yarn.sh

一次性启动运行hadoop的hdfs集群和yarn集群, 执行:sbin/start-all.sh

标签: #hadoop集群停止命令 #node 启动 守护模式