龙空技术网

网易架构师整理大数据Spark集群安装部署运行笔记,独家发送!

游弋大数据之中 838

前言:

现在咱们对“spark集群搭建实验报告总结”大约比较看重,大家都需要剖析一些“spark集群搭建实验报告总结”的相关内容。那么小编也在网络上收集了一些关于“spark集群搭建实验报告总结””的相关文章,希望各位老铁们能喜欢,朋友们快快来了解一下吧!

今天这篇文章小编给大家带来的是大数据Spark大规模流式数据处理架构集群安装部署运行机制及原理学习笔记

大数据、hadoop、Python学习资料分享群 596471005 不管你是小白还是大牛,小编我都挺欢迎,今天的源码已经上传到群文件,不定期分享干货,

包括我自己整理的一份最新的适合2018年学习的大数据开发和零基础入门教程,欢迎初学和进阶中的小伙伴。也可以关注我。

大数据时代

1、大数据的核心问题:(1)数据的存储

(2)数据的计算

2、MapReduce:计算模型(上周日晚上的公开课)

问题来源:Page Rank

3、基础:Java语言(Java SE的内容)

4、大数据:Hadoop

Storm

NoSQL

Spark

Kafka

实验环境:

1、Redhat linux 7.4 64位

2、JDK:1.8 64位

3、Spark 2.1.0

========================================

一、什么是Spark?为什么选择Spark?

1、MapReduce的缺点???----> I/O操作

Map、Reduce、合并、分区、排序 ------> MapReduce核心:Shuffle(洗牌)

画图(省略): shuffle 的过程

2、Spark最大的特点是:基于内存

3、什么是Spark

Apache Spark™ is a fast and general engine for large-scale data processing

4、基于内存,既是Spark的优点,也是Spark的缺点(容易出现OOM的问题)

Out of Memory: 内存溢出

二、Spark的体系结构和安装配置(重点) -----> 实战

在实际的生产环境中,需要自动部署

1、安装Linux

使用putty

2、配置Linux

(*)关闭防火墙

systemctl stop firewalld.service

systemctl disable firewalld.service

(*)设置主机名 vi /etc/hosts

192.168.157.81 mydemo81

(*)约定:所有的介质 /root/tools 目录下

安装目录 /root/training 目录下

(*)安装JDK

(1) 解压JDK tar -zxvf jdk-8u144-linux-x64.tar.gz -C ~/training/

(2) 设置环境变量

vi ~/.bash_profile

JAVA_HOME=/root/training/jdk1.8.0_144

export JAVA_HOME

PATH=$JAVA_HOME/bin:$PATH

export PATH

生效环境变量 source ~/.bash_profile

3、安装Spark(StandAlone模式,并且是一个伪分布)

(1) 解压Spark

tar -zxvf spark-2.1.0-bin-hadoop2.7.tgz -C ~/training/

(2) 修改Spark的配置文件: spark-env.sh

export JAVA_HOME=/root/training/jdk1.8.0_144

export SPARK_MASTER_HOST=mydemo81

export SPARK_MASTER_PORT=7077

(3) 启动Spark

sbin/start-all.sh

sbin/stop-all.sh

注意:配置Hadoop和Spark,都需要配置免密码登录

Spark的web console:

4、Spark的体系结构(重要): 主从结构

三、使用Spark Submit和Spark Shell

Demo

1、使用Spark Submit提交一个任务,来求圆周率 PI

蒙特卡罗求PI

bin/spark-submit --master spark://mydemo81:7077 --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.1.0.jar 100

Pi is roughly 3.1418775141877515

2、使用spark shell

bin/spark-shell --master spark://mydemo81:7077

四、Spark项目实战:分析日志信息(重点)

求出:访问量最高的两个网页

加入需要的jar包

标签: #spark集群搭建实验报告总结