网易架构师整理大数据Spark集群安装部署运行笔记，独家发送！

游弋大数据之中 09-13 838

前言：

现在咱们对“spark集群搭建实验报告总结”大约比较看重，大家都需要剖析一些“spark集群搭建实验报告总结”的相关内容。那么小编也在网络上收集了一些关于“spark集群搭建实验报告总结””的相关文章，希望各位老铁们能喜欢，朋友们快快来了解一下吧！

今天这篇文章小编给大家带来的是大数据Spark大规模流式数据处理架构集群安装部署运行机制及原理学习笔记

大数据、hadoop、Python学习资料分享群 596471005 不管你是小白还是大牛，小编我都挺欢迎，今天的源码已经上传到群文件，不定期分享干货，

包括我自己整理的一份最新的适合2018年学习的大数据开发和零基础入门教程，欢迎初学和进阶中的小伙伴。也可以关注我。

大数据时代

1、大数据的核心问题：（1）数据的存储

（2）数据的计算

2、MapReduce：计算模型（上周日晚上的公开课）

问题来源：Page Rank

3、基础：Java语言（Java SE的内容）

4、大数据：Hadoop

Storm

NoSQL

Spark

Kafka

实验环境：

1、Redhat linux 7.4 64位

2、JDK：1.8 64位

3、Spark 2.1.0

========================================

一、什么是Spark？为什么选择Spark？

1、MapReduce的缺点？？？----> I/O操作

Map、Reduce、合并、分区、排序 ------> MapReduce核心：Shuffle（洗牌）

画图（省略）: shuffle 的过程

2、Spark最大的特点是：基于内存

3、什么是Spark

Apache Spark™ is a fast and general engine for large-scale data processing

4、基于内存，既是Spark的优点，也是Spark的缺点（容易出现OOM的问题）

Out of Memory: 内存溢出

二、Spark的体系结构和安装配置（重点） -----> 实战

在实际的生产环境中，需要自动部署

1、安装Linux

使用putty

2、配置Linux

（*）关闭防火墙

systemctl stop firewalld.service

systemctl disable firewalld.service

（*）设置主机名 vi /etc/hosts

192.168.157.81 mydemo81

（*）约定：所有的介质 /root/tools 目录下

安装目录 /root/training 目录下

（*）安装JDK

(1) 解压JDK tar -zxvf jdk-8u144-linux-x64.tar.gz -C ~/training/

(2) 设置环境变量

vi ~/.bash_profile

JAVA_HOME=/root/training/jdk1.8.0_144

export JAVA_HOME

PATH=$JAVA_HOME/bin:$PATH

export PATH

生效环境变量 source ~/.bash_profile

3、安装Spark（StandAlone模式，并且是一个伪分布）

(1) 解压Spark

tar -zxvf spark-2.1.0-bin-hadoop2.7.tgz -C ~/training/

(2) 修改Spark的配置文件: spark-env.sh

export JAVA_HOME=/root/training/jdk1.8.0_144

export SPARK_MASTER_HOST=mydemo81

export SPARK_MASTER_PORT=7077

(3) 启动Spark

sbin/start-all.sh

sbin/stop-all.sh

注意：配置Hadoop和Spark，都需要配置免密码登录

Spark的web console：

4、Spark的体系结构（重要）: 主从结构

三、使用Spark Submit和Spark Shell

Demo

1、使用Spark Submit提交一个任务，来求圆周率 PI

蒙特卡罗求PI

bin/spark-submit --master spark://mydemo81:7077 --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.1.0.jar 100

Pi is roughly 3.1418775141877515

2、使用spark shell

bin/spark-shell --master spark://mydemo81:7077

四、Spark项目实战：分析日志信息（重点）

求出：访问量最高的两个网页

加入需要的jar包

本文地址：http://www.longkongtuishu.com/cadfbBAFsBFUPAVdT.html

标签： #spark集群搭建实验报告总结

网易架构师整理大数据Spark集群安装部署运行笔记，独家发送！

网易架构师整理大数据Spark集群安装部署运行笔记，独家发送！

大数据：spark集群搭建