Spark 个人实战系列(1)--Spark 集群安装

前言:

  CDH4不带yarn和spark, 因此需要自己搭建spark集群. 这边简单描述spark集群的安装过程, 并讲述spark的standalone模式, 以及对相关的脚本进行简单的分析.

spark官网: http://spark.apache.org/downloads.html

*)安装和部署
  环境: 172.16.1.109~172.16.1.111三台机器(对应域名为tw-node109~tw-node111), centos6.4, 已部署cdh4
  目标是: 搭建一个spark集群(standlone), 部署目录统一为$SPARK_HOME=/root/mmxf/spark, 172.16.1.109部署Master, 172.16.1.109~172.16.1.111部署Worker节点.

预先的准备工作:
#) 在各个节点已配置/etc/hosts

172.16.1.109    tw-node109
172.16.1.110    tw-node110
172.16.1.111    tw-node111

#) 进行ssh无密钥登录设置(ssh-genkey, ssh-copy-it)

1. 下载pre-build cdh4版spark
wget http://mirrors.hust.edu.cn/apache/spark/spark-1.0.1/spark-1.0.1-bin-cdh4.tgz

2. 解压spark
tar zxvf spark-1.0.1-bin-cdh4.tgz
ln -s spark-1.0.1-bin-cdh4 spark
目录结构如下:

3. 配置属性
配置${SPARK_HOME}/conf/spark-env.sh
cd conf/
cp spark-env.sh.template spark-env.sh

SPARK_MASTER_IP=172.16.1.109
SPARK_MASTER_PORT=7077
MASTER=spark://${SPARK_MASTER_IP}:${SPARK_MASTER_PORT}

修改${SPARK_HOME}/conf/slaves

tw-node109
tw-node110
tw-node111

4. 使用rsync做同步
SPARK_INSTALL_DIR=/root/mmxf
rsync -avh ${SPARK_INSTALL_DIR} <username>@<server>:${SPARK_INSTALL_DIR}
rsync -avh /root/mmxf/ [email protected]:/root/mmxf/
rsync -avh /root/mmxf/ [email protected]:/root/mmxf/

5. 启用服务
sbin/start-all.sh
sbin/stop-all.sh

6. 验证
jps | grep -i -e "\(Worker\|\sMaster\)"

集群UI展示

官方提供的测试用例: bin/run-example SparkPi 10

7. standlalone架构

总结:
  spark集群的搭建还是很简单的, 服务启动维护亦然.

Spark 个人实战系列(1)--Spark 集群安装,布布扣,bubuko.com

时间: 07-16

Spark 个人实战系列(1)--Spark 集群安装的相关文章

Spark入门实战系列--2.Spark编译与部署(下)--Spark编译安装

[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.编译Spark Spark可以通过SBT和Maven两种方式进行编译,再通过make-distribution.sh脚本生成部署包.SBT编译需要安装git工具,而Maven安装则需要maven工具,两种方式均需要在联网下进行,通过比较发现SBT编译速度较慢(原因有可能是1.时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 2.maven下载大文件是多线程进行,而SBT是

Spark入门实战系列--7.Spark Streaming(下)--实时流计算Spark Streaming实战

[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.实例演示 1.1 流数据模拟器 1.1.1 流数据说明 在实例演示中模拟实际情况,需要源源不断地接入流数据,为了在演示过程中更接近真实环境将定义流数据模拟器.该模拟器主要功能:通过Socket方式监听指定的端口号,当外部程序通过该端口连接并请求数据时,模拟器将定时将指定的文件数据随机获取发送给外部程序. 1.1.2 模拟器代码 import java.io.{PrintWriter} impor

Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介

[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.机器学习概念 1.1 机器学习的定义 在维基百科上对机器学习提出以下几种定义: l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”. l“机器学习是对能通过经验自动改进的计算机算法的研究”. l“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准.” 一种经常引用的英文定义是:A computer program is said

[原创]zero downtime using goldengate实现oracle 12C升级系列 第四篇:集群安装

1. 图形化界面,我用的软件是MobaXterm Personal Edition, 直接ssh [email protected]_server,然后./runInstaller就可以弹出图形化界面,当然还有其他工具如vnc可以实现图形化,这里就略过不提了,下面直接开始安装. 2.关于软件下载,在mos上面下载 Installation Type Zip File Oracle Database (includes Oracle Database, Oracle RAC, and Deinst

『GreenPlum系列』GreenPlum 4节点集群安装(图文教程)

目标架构如上图 一.硬件评估 cpu主频,核数推荐CPU核数与磁盘数的比例在12:12以上Instance上执行时只能利用一个CPU核资源进行计算,推荐高主频 内存容量 网络带宽重分布操作 Raid性能条带宽度设置回写特性 二.操作系统 1.在SUSE或者RedHat上使用xfs(操作系统使用ext3)    在Solaris上使用zfs(操作系统使用ufs) 2.系统包 出现如下界面,按照下面的说明进行勾选,之后一直[Next]到开始安装. -->[Desktop Environments]全

Spark2.1集群安装(standalone模式)

机器部署 准备三台Linux服务器,安装好JDK1.7 下载Spark安装包 上传spark-2.1.0-bin-hadoop2.6.tgz安装包到Linux(intsmaze-131)上 解压安装包到指定位置tar -zxvf spark-2.1.0-bin-hadoop2.6.tgz -C /home/hadoop/app/spark2.0/ 原文和作者一起讨论:http://www.cnblogs.com/intsmaze/p/6569036.html 微信:intsmaze 配置Spar

CentOS7+Hadoop2.7.2(HA高可用+Federation联邦)+Hive1.2.1+Spark2.1.0 完全分布式集群安装

1       VM网络配置... 3 2       CentOS配置... 5 2.1             下载地址... 5 2.2             激活网卡... 5 2.3             SecureCRT. 5 2.4             修改主机名... 6 2.5             yum代理上网... 7 2.6             安装ifconfig. 8 2.7             wget安装与代理... 8 2.8       

第54课:Hive集群安装和测试

一.Hive集群安装 1,安装好Hadoop,并启动HDFS和YARN. 2,下载hive 1.2.1 http://apache.fayea.com/hive/hive-1.2.1/ apache-hive-1.2.1-bin.tar.gz 上传文件至集群中 3. 安装Hive [email protected]:~# ls apache-hive-1.2.1-bin.tar.gz  core  links-anon.txtaaa  公共的  模板  视频  图片  文档  下载  音乐  桌

Spark2.1.0分布式集群安装

一.依赖文件安装 1.1 JDK 参见博文:http://www.cnblogs.com/liugh/p/6623530.html 1.2 Hadoop 参见博文:http://www.cnblogs.com/liugh/p/6624872.html 1.3 Scala 参见博文:http://www.cnblogs.com/liugh/p/6624491.html 二.文件准备 2.1 文件名称 spark-2.1.0-bin-hadoop2.7.tgz 2.2 下载地址 http://spa