Spark中的日志聚合的配置

1.介绍

  Spark的日志聚合功能不是standalone模式独享的,是所有运行模式下都会存在的情况

  默认情况下历史日志是保存到tmp文件夹中的

  

2.参考官网的知识点位置

  

3.修改spark-defaults.conf

  

4.修改env.sh

  

5.在HDFS上新建/spark-history

  bin/hdfs dfs -mkdir /spark-history

6.启动历史服务

  sbin/start-history-server.sh

  

7.测试  

  webUI: http://192.168.187.146:18080/
  local模式:bin/spark-shell
  standalone模式:bin/spark-shell --master spark://linux-hadoop3.ibeifeng.com:7070

8.local模式的测试

  

时间: 02-07

Spark中的日志聚合的配置的相关文章

Hadoop 2.0中的日志收集以及配置方法

Hadoop中的日志包含三个部分,Application Master产生的运行日志和Container的日志. 一.ApplicationMaster产生的作业运行日志 Application Master产生的日志信息详细记录了Map Reduce job的启动时间,运行时间,用了多少个Mapper,多少个Reducer,Counter等等信息.MapReduce作业中的Application Master是运行在container中的. 默认情况下,Application Master产生

Spark中的local模式的配置以及测试

一:介绍 1.Spark的模式 Local:本地运行模式,主要用于开发.测试 Standalone:使用Spark自带的资源管理框架运行Spark程序,30%左右 Yarn: 将spark应用程序运行在yarn上,绝大多数使用情况,60%左右 Mesos: 二:安装 1.解压 2.建立软连接 3.复制配置文件 4.修改env.sh文件 三:运行测试 1.启动HDFS 2.准备测试路径 3.开始测试 ./run-example SparkPi 10<----------------10代表迭代的次

[Spark性能调优] 第四章 : Spark Shuffle 中 JVM 内存使用及配置内幕详情

本课主题 JVM 內存使用架构剖析 Spark 1.6.x 和 Spark 2.x 的 JVM 剖析 Spark 1.6.x 以前 on Yarn 计算内存使用案例 Spark Unified Memory 的运行原理和机制 引言 Spark 从1.6.x 开始对 JVM 的内存使用作出了一种全新的改变,Spark 1.6.x 以前是基于静态固定的JVM内存使用架构和运行机制,如果你不知道 Spark 到底对 JVM 是怎么使用,你怎么可以很有信心地或者是完全确定地掌握和控制数据的缓存空间呢,所

[Spark性能调优] Spark Shuffle 中 JVM 内存使用及配置详情

[Spark性能调优]  Spark Shuffle 中 JVM 内存使用及配置详情 本课主题 JVM 內存使用架构剖析 Spark 1.6.x 和 Spark 2.x 的 JVM 剖析 Spark 1.6.x 以前 on Yarn 计算内存使用案例 Spark Unified Memory 的运行原理和机制 引言 Spark 从1.6.x 开始对 JVM 的内存使用作出了一种全新的改变,Spark 1.6.x 以前是基于静态固定的JVM内存使用架构和运行机制,如果你不知道 Spark 到底对

Spark Shuffle 中 JVM 内存使用及配置内幕详情

本课主题 JVM 內存使用架构剖析 Spark 1.6.x 和 Spark 2.x 的 JVM 剖析 Spark 1.6.x 以前 on Yarn 计算内存使用案例 Spark Unified Memory 的运行原理和机制 引言 Spark 从1.6.x 开始对 JVM 的内存使用作出了一种全新的改变,Spark 1.6.x 以前是基于静态固定的JVM内存使用架构和运行机制,如果你不知道 Spark 到底对 JVM 是怎么使用,你怎么可以很有信心地或者是完全确定地掌握和控制数据的缓存空间呢,所

YARN日志聚合相关参数配置

日志聚合是YARN提供的日志中央化管理功能,它能将运行完成的Container/任务日志上传到HDFS上,从而减轻NodeManager负载,且提供一个中央化存储和分析机制.默认情况下,Container/任务日志存在在各个NodeManager上,如果启用日志聚合功能需要额外的配置. 参数配置yarn-site.xml 1.yarn.log-aggregation-enable 参数说明:是否启用日志聚合功能,日志聚合开启后保存到HDFS上. 默认值:false 2.yarn.log-aggr

spark性能调优(四) spark shuffle中JVM内存使用及配置内幕详情

转载:http://www.cnblogs.com/jcchoiling/p/6494652.html 引言 Spark 从1.6.x 开始对 JVM 的内存使用作出了一种全新的改变,Spark 1.6.x 以前是基于静态固定的JVM内存使用架构和运行机制,如果你不知道 Spark 到底对 JVM 是怎么使用,你怎么可以很有信心地或者是完全确定地掌握和控制数据的缓存空间呢,所以掌握Spark对JVM的内存使用内幕是至关重要的.很多人对 Spark 的印象是:它是基于内存的,而且可以缓存一大堆数据

Spark中的键值对操作-scala

1.PairRDD介绍     Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,PairRDD提供了reduceByKey()方法,可以分别规约每个键对应的数据,还有join()方法,可以把两个RDD中键相同的元素组合在一起,合并为一个RDD. 2.创建Pair RDD 程序示例:对一个英语单词组成的文本行,提取其中的第一个单词作为key,将整个句子作为value,建立 PairR

接口服务中的日志

先来看下日志对于一个接口服务的作用: 监控服务的状态,一般程序中会增加一些跟踪或者提示性的日志,用来判断服务执行的详细情况,特别是执行一些复合功能的接口或者叫聚合接口非常有利于我们判断接口的执行情况 安全,用来分析调用者的身份信息,防止接口被非法恶意调用等 性能,可以统计每个接口的访问执行时间来分析系统的瓶颈 异常分析,对于线上的异常,在没有debug的环境下,要想分析问题原因最有价值的就要算异常的堆栈信息 上面的这几点需求,如果接口服务使用的是一些高级产品比如dubbo,其实它已经实现了大部分