龙空技术网

2.大数据系列之Hadoop HDFS初探

后山新农人 36

前言:

如今各位老铁们对“hadoop伪分布式有什么用”可能比较关怀,看官们都想要剖析一些“hadoop伪分布式有什么用”的相关资讯。那么小编也在网络上搜集了一些对于“hadoop伪分布式有什么用””的相关知识,希望兄弟们能喜欢,我们一起来学习一下吧!

Hadoop学习路上的那些事儿,继续分享

(图片来自网络)

什么是伪分布式

顾名思义,就是“像”分布式呗,至于用途呢,也很简单,就是学习和测试,实际的生产环境还是真正的分布式。

一言不合上官网,

实验过程

实验准备:

1. 开通一台云主机,此实验采用的是移动云云主机

2. 确保JDK安装正确,环境变量配置无误

3. 确保Hadoop安装正确,环境变量配置无误

步骤一:配置两个核心配置文件

配置etc/hadoop/core-site.xml

<configuration>    <property>        <name>fs.defaultFS</name>        <value>hdfs://localhost:9000</value>    </property></configuration> 

配置etc/hadoop/hdfs-site.xml,当然,也可以不修改默认3副本

<configuration>    <property>        <name>dfs.replication</name>        <value>1</value>    </property></configuration>

步骤二:检查SSH命令可成功执行,且不需要密码

如果不修改成免密登录,HDFS启动可能有问题

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsacat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keyschmod 0600 ~/.ssh/authorized_keys 

步骤三:验证结果

1)格式化HDFS

bin/hdfs namenode -format 

2)启动HDFS,在此步骤,如果出现报错,JAVA_HOME没有设置或未发现之类的,需要在etc/Hadoop/Hadoop-evn.sh中添加JAVA_HOME,这一点在官网上没有提及。

sbin/start-dfs.sh 

3)创建HDFS执行MapReduce job的目录

bin/hdfs dfs -mkdir /userbin/hdfs dfs -mkdir /user/root 

4)创建HDFS输入目录,并且将实验数据(本地目录etc/Hadoop/中的所有.xml文件)拷贝到HDFS的input文件中。

bin/hdfs dfs -mkdir inputbin/hdfs dfs -put etc/hadoop/*.xml input 

5)运行hadoop内置example程序,验证通过HDFS来处理数据

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar grep input output 'dfs[a-z.]+' 

6)查看处理后的输出数据,如果输出如下数据,说明处理成功。

bin/hdfs dfs -cat output/* 

7)实验结束后,通过命令关闭HDFS服务

sbin/stop-dfs.sh 

步骤四:操作HDFS的dashboard

如果想访问hadoop的dashboard,可通过在浏览器键入该云主机的公网IP加端口50070,如33.162.68.xx:50070.

实验总结

1) hadoop本地操作,是基于默认的协议file://来实现的,也就是上一次实验演示的,在本地(云主机环境)目录下创建input文件,然后拷贝实验数据到input文件中,处理完的数据会在本地output目录中生成。

2) hadoop HDFS操作,是基于core-site.xml中配置的hdfs://路径实验的,本地(云主机环境)目录中不会出现input或者output文件,可通过登录HDFS的dashboard,查看HDFS的input或者output文件。

标签: #hadoop伪分布式有什么用