前言:
现在咱们对“spark集群搭建实验报告总结”大约比较看重,大家都需要剖析一些“spark集群搭建实验报告总结”的相关内容。那么小编也在网络上收集了一些关于“spark集群搭建实验报告总结””的相关文章,希望各位老铁们能喜欢,朋友们快快来了解一下吧!今天这篇文章小编给大家带来的是大数据Spark大规模流式数据处理架构集群安装部署运行机制及原理学习笔记
大数据、hadoop、Python学习资料分享群 596471005 不管你是小白还是大牛,小编我都挺欢迎,今天的源码已经上传到群文件,不定期分享干货,
包括我自己整理的一份最新的适合2018年学习的大数据开发和零基础入门教程,欢迎初学和进阶中的小伙伴。也可以关注我。
1、大数据的核心问题:(1)数据的存储
(2)数据的计算
2、MapReduce:计算模型(上周日晚上的公开课)
问题来源:Page Rank
3、基础:Java语言(Java SE的内容)
4、大数据:Hadoop
Storm
NoSQL
Spark
Kafka
实验环境:
1、Redhat linux 7.4 64位
2、JDK:1.8 64位
3、Spark 2.1.0
========================================
一、什么是Spark?为什么选择Spark?
1、MapReduce的缺点???----> I/O操作
Map、Reduce、合并、分区、排序 ------> MapReduce核心:Shuffle(洗牌)
画图(省略): shuffle 的过程
2、Spark最大的特点是:基于内存
3、什么是Spark
Apache Spark™ is a fast and general engine for large-scale data processing
4、基于内存,既是Spark的优点,也是Spark的缺点(容易出现OOM的问题)
Out of Memory: 内存溢出
二、Spark的体系结构和安装配置(重点) -----> 实战
在实际的生产环境中,需要自动部署
1、安装Linux
使用putty
2、配置Linux
(*)关闭防火墙
systemctl stop firewalld.service
systemctl disable firewalld.service
(*)设置主机名 vi /etc/hosts
192.168.157.81 mydemo81
(*)约定:所有的介质 /root/tools 目录下
安装目录 /root/training 目录下
(*)安装JDK
(1) 解压JDK tar -zxvf jdk-8u144-linux-x64.tar.gz -C ~/training/
(2) 设置环境变量
vi ~/.bash_profile
JAVA_HOME=/root/training/jdk1.8.0_144
export JAVA_HOME
PATH=$JAVA_HOME/bin:$PATH
export PATH
生效环境变量 source ~/.bash_profile
3、安装Spark(StandAlone模式,并且是一个伪分布)
(1) 解压Spark
tar -zxvf spark-2.1.0-bin-hadoop2.7.tgz -C ~/training/
(2) 修改Spark的配置文件: spark-env.sh
export JAVA_HOME=/root/training/jdk1.8.0_144
export SPARK_MASTER_HOST=mydemo81
export SPARK_MASTER_PORT=7077
(3) 启动Spark
sbin/start-all.sh
sbin/stop-all.sh
注意:配置Hadoop和Spark,都需要配置免密码登录
Spark的web console:
4、Spark的体系结构(重要): 主从结构
三、使用Spark Submit和Spark Shell
Demo
1、使用Spark Submit提交一个任务,来求圆周率 PI
蒙特卡罗求PI
bin/spark-submit --master spark://mydemo81:7077 --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.1.0.jar 100
Pi is roughly 3.1418775141877515
2、使用spark shell
bin/spark-shell --master spark://mydemo81:7077
四、Spark项目实战:分析日志信息(重点)
求出:访问量最高的两个网页
加入需要的jar包
标签: #spark集群搭建实验报告总结