龙空技术网

0064-如何通过Cloudera Manager配置Spark1和Spark2的运行环境

Hadoop实操 222

前言:

现时兄弟们对“查看centosspark版本”大概比较注意,同学们都需要了解一些“查看centosspark版本”的相关文章。那么小编同时在网络上网罗了一些对于“查看centosspark版本””的相关资讯,希望咱们能喜欢,同学们快快来学习一下吧!

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

1.文档编写目的

大部分用户在使用CDH集群做Spark开发的时候,由于开发环境的JDK版本比CDH集群默认使用的JDK1.7.0_67-cloudera版本新,可能会出现Spark代码依赖的Java API不兼容问题,解决这个问题方法有两个:一是升级CDH集群的JDK版本;二是指定Spark运行环境JDK版本。本文章主要讲述如何通过Cloudera Manager来指定Spark1和Spark2的运行环境(包含JDK环境、Spark Local Dir等的配置)。

内容概述

1.部署JDK

2.CM配置Spark运行环境

测试环境

1.CDH集群服务正常

2.CM和CDH版本为5.11.2

3.集群启用了Kerberos

4.Spark On Yarn模式

2.部署JDK

本文章使用的jdk1.8.0_151进行说明,可以根据你自己开发环境JDK版本进行调整。

将需要的JDK版本部署到集群所有节点,此处配置以一个节点为例

[ec2-user@ip-172-31-21-45 jdk1.8]$ sudo tar -zxvf jdk-8u151-linux-x64.tar.gz[ec2-user@ip-172-31-21-45 java]$ cd jdk1.8.0_151/[ec2-user@ip-172-31-21-45 jdk1.8.0_151]$ pwd/usr/java/jdk1.8.0_151[ec2-user@ip-172-31-21-45 java]$ ll

注意:JDK的HOME目录必须统一,这样方便在Cloudera Manager统一管理配置。

3.CM配置Spark运行环境

1.登录Cloudera Manager平台,进入Spark服务,添加spark-env.sh配置

注意:每个配置占用一行。

2.保存配置,回到主页根据CM提示,重新部署Spark客户端配置

完成以上配置,那么接下来在执行spark作业的时候,就会默认的使用指定的环境变量。

注意:这里我们指定了SPARK_LOCAL_DIRS这个配置,如果在目录不存在的时候则需要自己在集群创建相应的目录,且需要赋权为777

[ec2-user@ip-172-31-22-86 ~]$ sudo mkdir -p /mnt/disk1/sparktmp1[ec2-user@ip-172-31-22-86 ~]$ sudo chmod 777 /mnt/disk1/sparktmp1/[ec2-user@ip-172-31-22-86 ~]$

该目录只需要在使用yarn-client模式提交Spark时Driver所在节点存在即可。

3.运行Spark作业测试

[ec2-user@ip-172-31-22-86 ~]$ spark-submit --master yarn-client\> --num-executors 4 --driver-memory 1g\> --driver-cores 1 --executor-memory 1g\> --executor-cores 2\> --class org.apache.spark.examples.SparkPi /opt/cloudera/parcels/CDH/lib/spark/examples/lib/spark-examples-1.6.0-cdh5.11.2-hadoop2.6.0-cdh5.11.2.jar ...17/10/23 08:39:05 INFO zookeeper.ZooKeeper: Client environment:java.version=1.8.0_15117/10/23 08:39:05 INFO zookeeper.ZooKeeper: Client environment:java.vendor=Oracle Corporation17/10/23 08:39:05 INFO zookeeper.ZooKeeper: Client environment:java.home=/usr/java/jdk1.8.0_151/jre...

可以看到Spark作业使用的是我们指定的JDK1.8版本。

4.总结

通过CM可以方便的指定Spark1和Spark2的运行环境变量,对于指定JDK版本,则需要在所有的Spark Gateway节点统一目录下部署需要的JDK版本(目录统一方便CM管理,由于CM不支持对单个Spark Gateway节点进行配置)。如果集群启用了Kerberos则需要为JDK安装JCE的支持。

上述文章中还讲述了配置SPARK_LOCAL_DIRS目录,在使用yarn-client模式提交Spark作业时会在Driver所在服务的/tmp目录生成作业运行临时文件,由于/tmp目录空间有限可能会造成作业运行时无法创建临时文件从而导致作业运行失败,因此需要对此参数进行调整,确保多个Spark作业运行时临时文件所需要的空间足够大(注意:该目录必须存在且权限为777)。在使用yarn-cluster模式提交Spark作业时,会默认使用Yarn的yarn.nodemanager.local-dirs配置。

5.常见问题

1.在执行Spark作业的时候报错

Caused by: java.io.IOException: javax.security.sasl.SaslException: GSS initiate failed [Caused by GSSException: No valid credentials provided (Mechanism level: Failed to find any Kerberos tgt)] at org.apache.hadoop.ipc.Client$Connection$1.run(Client.java:718) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:422) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1920) at org.apache.hadoop.ipc.Client$Connection.handleSaslConnectionFailure(Client.java:681) at org.apache.hadoop.ipc.Client$Connection.setupIOstreams(Client.java:769) at org.apache.hadoop.ipc.Client$Connection.access$3000(Client.java:396) at org.apache.hadoop.ipc.Client.getConnection(Client.java:1557) at org.apache.hadoop.ipc.Client.call(Client.java:1480) ... 31 more

原因:由于集群启用了Kerberos,Spark运行环境指定的JDK没有安装JCE导致。

解决方法:

从oracle官网下载相应JDK版本的JCE文件

将jce_policy-8.zip压缩包文件解压,覆盖至/usr/java/jdk1.8.0_151/jre/lib/security

醉酒鞭名马,少年多浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不肯放,数据玩的花!

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

您可能还想看

安装

CENTOS6.5安装CDH5.12.1(一)

CENTOS6.5安装CDH5.12.1(二)

CENTOS7.2安装CDH5.10和Kudu1.2(一)

CENTOS7.2安装CDH5.10和Kudu1.2(二)

如何在CDH中安装Kudu&Spark2&Kafka

如何升级Cloudera Manager和CDH

如何卸载CDH(附一键卸载github源码)

如何迁移Cloudera Manager节点

如何在Windows Server2008搭建DNS服务并配置泛域名解析

安全

如何在CDH集群启用Kerberos

如何在Hue中使用Sentry

如何在CDH启用Kerberos的情况下安装及使用Sentry(一)

如何在CDH启用Kerberos的情况下安装及使用Sentry(二)

如何在CDH未启用认证的情况下安装及使用Sentry

如何使用Sentry管理Hive外部表权限

如何使用Sentry管理Hive外部表(补充)

如何在Kerberos与非Kerberos的CDH集群BDR不可用时复制数据

Windows Kerberos客户端配置并访问CDH

数据科学

如何在CDSW中使用R绘制直方图

如何使用Python Impyla客户端连接Hive和Impala

如何在CDH集群安装Anaconda&搭建Python私有源

如何使用CDSW在CDH中分布式运行所有R代码

如何使用CDSW在CDH集群通过sparklyr提交R的Spark作业

如何使用R连接Hive与Impala

如何在Redhat中安装R的包及搭建R的私有源

如何在Redhat中配置R环境

什么是sparklyr

其他

CDH网络要求(Lenovo参考架构)

大数据售前的中年危机

如何实现CDH元数据库MySQL的主备

如何在CDH中使用HPLSQL实现存储过程

如何在Hive&Impala中使用UDF

Hive多分隔符支持示例

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

标签: #查看centosspark版本