前言:
如今各位老铁们对“hadoop伪分布式有什么用”可能比较关怀,看官们都想要剖析一些“hadoop伪分布式有什么用”的相关资讯。那么小编也在网络上搜集了一些对于“hadoop伪分布式有什么用””的相关知识,希望兄弟们能喜欢,我们一起来学习一下吧!Hadoop学习路上的那些事儿,继续分享
(图片来自网络)
什么是伪分布式
顾名思义,就是“像”分布式呗,至于用途呢,也很简单,就是学习和测试,实际的生产环境还是真正的分布式。
一言不合上官网,
实验过程
实验准备:
1. 开通一台云主机,此实验采用的是移动云云主机
2. 确保JDK安装正确,环境变量配置无误
3. 确保Hadoop安装正确,环境变量配置无误
步骤一:配置两个核心配置文件
配置etc/hadoop/core-site.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property></configuration>
配置etc/hadoop/hdfs-site.xml,当然,也可以不修改默认3副本
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property></configuration>
步骤二:检查SSH命令可成功执行,且不需要密码
如果不修改成免密登录,HDFS启动可能有问题
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsacat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keyschmod 0600 ~/.ssh/authorized_keys
步骤三:验证结果
1)格式化HDFS
bin/hdfs namenode -format
2)启动HDFS,在此步骤,如果出现报错,JAVA_HOME没有设置或未发现之类的,需要在etc/Hadoop/Hadoop-evn.sh中添加JAVA_HOME,这一点在官网上没有提及。
sbin/start-dfs.sh
3)创建HDFS执行MapReduce job的目录
bin/hdfs dfs -mkdir /userbin/hdfs dfs -mkdir /user/root
4)创建HDFS输入目录,并且将实验数据(本地目录etc/Hadoop/中的所有.xml文件)拷贝到HDFS的input文件中。
bin/hdfs dfs -mkdir inputbin/hdfs dfs -put etc/hadoop/*.xml input
5)运行hadoop内置example程序,验证通过HDFS来处理数据
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar grep input output 'dfs[a-z.]+'
6)查看处理后的输出数据,如果输出如下数据,说明处理成功。
bin/hdfs dfs -cat output/*
7)实验结束后,通过命令关闭HDFS服务
sbin/stop-dfs.sh
步骤四:操作HDFS的dashboard
如果想访问hadoop的dashboard,可通过在浏览器键入该云主机的公网IP加端口50070,如33.162.68.xx:50070.
实验总结
1) hadoop本地操作,是基于默认的协议file://来实现的,也就是上一次实验演示的,在本地(云主机环境)目录下创建input文件,然后拷贝实验数据到input文件中,处理完的数据会在本地output目录中生成。
2) hadoop HDFS操作,是基于core-site.xml中配置的hdfs://路径实验的,本地(云主机环境)目录中不会出现input或者output文件,可通过登录HDFS的dashboard,查看HDFS的input或者output文件。
标签: #hadoop伪分布式有什么用