(版本定制)第18课:Spark Streaming中空RDD处理及流处理程序优雅的停止

本期内容:

1. Spark Streaming中RDD为空处理

2. Streaming Context程序停止方式

Spark Streaming运用程序是根据我们设定的Batch Duration来产生RDD,产生的RDD存在partitons数据为空的情况,但是还是会执行foreachPartition,会获取计算资源,然后计算一下,这种情况就会浪费

集群计算资源,所以需要在程序运行的时候进行过滤,参考如下代码:

package com.dt.spark.sparkstreaming
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

object OnlineForeachRDD2DB {
    def main(args: Array[String]){
     val conf = new SparkConf() //创建SparkConf对象
      conf.setAppName("OnlineForeachRDD2DB"//设置应用程序的名称,在程序运行的监控界面可以看到名称
      conf.setMaster("spark://Master:7077"//此时,程序在Spark集群
      /**
        * 设置batchDuration时间间隔来控制Job生成的频率并且创建Spark Streaming执行的入口
         */
      val ssc = new StreamingContext(conf, Seconds(300))
      val lines = ssc.socketTextStream("Master", 9999)
      val words = lines.flatMap(line => line.split(" "))
      val wordCounts = words.map(word => (word,1)).reduceByKey(_ + _)
      wordCounts.foreachRDD{ rdd =>
       /**
        * 例如:rdd为空,rdd为空会产生什么问题呢?
         *     rdd没有任何元素,但是也会做做foreachPartition,也会进行写数据库的操作或者把数据写到HDFS上,
         *     rdd里面没有任何记录,但是还会获取计算资源,然后计算一下,消耗计算资源,这个时候纯属浪费资源,
         *         所以必须对空rdd进行处理;

        *         例如:使用rdd.count()>0,但是rdd.count()会触发一个Job;

         *             使用rdd.isEmpty()的时候,take也会触发Job;

         *             def isEmpty(): Boolean = withScope {

        *                   partitions.length == 0 || take(1).length == 0

        *             }

        *
        *              rdd.partitions.isEmpty里判断的是length是否等于0,就代表是否有partition
        *              def isEmpty: Boolean = { length == 0 }
        *             注:rdd.isEmpty()和rdd.partitions.isEmpty是两种概念;
         */

    //
    if(rdd.partitions.length > 0) {
        rdd.foreachPartition{ partitonOfRecord =>
         if(partitionOfRecord.hasNext) // 判断下partition中是否存在数据

{

val connection = ConnectionPool.getConnection()
            partitonOfRecord.foreach(record => {
            val sql = "insert into streaming_itemcount(item,rcount) values(‘" + record._1 + "‘," + record._2 + ")"
            val stmt = connection.createStatement()
            stmt.executeUpdate(sql)
            stmt.close()
          })
          ConnectionPool.returnConnection(connection)
        }

}

}
      }

     ssc.start()
     ssc.awaitTermination()
    }
}

二、SparkStreaming程序停止方式

第一种是不管接受到数据是否处理完成,直接被停止掉。

第二种是接受到数据全部处理完成才停止掉,一般采用第二种方式。

第一种停止方式:

/**
 * Stop the execution of the streams immediately (does not wait for all received data
 * to be processed). By default, if `stopSparkContextis not specified, the underlying
 * SparkContext will also be stopped. This implicit behavior can be configured using the
 * SparkConf configuration spark.streaming.stopSparkContextByDefault.
 *
 * 把streams的执行直接停止掉(并不会等待所有接受到的数据处理完成),默认情况下SparkContext也会被停止掉,
 * 隐式的行为可以做配置,配置参数为spark.streaming.stopSparkContextByDefault。
 *
 * @param stopSparkContext If true, stops the associated SparkContext. The underlying SparkContext
 *                         will be stopped regardless of whether this StreamingContext has been
 *                         started.
 */
def stop(stopSparkContext: Boolean = conf.getBoolean("spark.streaming.stopSparkContextByDefault"true)
         ): Unit = synchronized {
 stop(stopSparkContext, false)

}

第二种停止方式:

/**
 * Stop the execution of the streams, with option of ensuring all received data
 * has been processed.
 *

 * 所有接受到的数据全部被处理完成,才把streams的执行停止掉

 *
 * @param stopSparkContext if true, stops the associated SparkContext. The underlying SparkContext
 *                         will be stopped regardless of whether this StreamingContext has been
 *                         started.
 * @param stopGracefully if true, stops gracefully by waiting for the processing of all
 *                       received data to be completed
 */
def stop(stopSparkContext: Boolean, stopGracefully: Boolean): Unit = {
 var shutdownHookRefToRemove: AnyRef = null
 if (AsynchronousListenerBus.withinListenerThread.value) {
  throw new SparkException("Cannot stop StreamingContext within listener thread of" +
   " AsynchronousListenerBus")
 }
 synchronized {
  try {
   state match {
    case INITIALIZED =>
     logWarning("StreamingContext has not been started yet")
    case STOPPED =>
     logWarning("StreamingContext has already been stopped")
    case ACTIVE =>
     scheduler.stop(stopGracefully)
     // Removing the streamingSource to de-register the metrics on stop()
     env.metricsSystem.removeSource(streamingSource)
     uiTab.foreach(_.detach())
     StreamingContext.setActiveContext(null)
     waiter.notifyStop()
     if (shutdownHookRef != null) {
      shutdownHookRefToRemove = shutdownHookRef
      shutdownHookRef = null
     }
     logInfo("StreamingContext stopped successfully")
   }
  } finally {
   // The state should always be Stopped after calling `stop()`, even if we haven‘t started yet
   state = STOPPED
  }
 }
 if (shutdownHookRefToRemove != null) {
  ShutdownHookManager.removeShutdownHook(shutdownHookRefToRemove)
 }
 // Even if we have already stopped, we still need to attempt to stop the SparkContext because
 // a user might stop(stopSparkContext = false) and then call stop(stopSparkContext = true).
 if (stopSparkContext) sc.stop()
}

备注:

资料来源于:DT_大数据梦工厂(Spark发行版本定制)

更多私密内容,请关注微信公众号:DT_Spark

如果您对大数据Spark感兴趣,可以免费听由王家林老师每天晚上20:00开设的Spark永久免费公开课,地址YY房间号:68917580

时间: 06-12

(版本定制)第18课:Spark Streaming中空RDD处理及流处理程序优雅的停止的相关文章

spark版本定制十八:Spark Streaming中空RDD处理及流处理程序优雅的停止

本期内容: 1.Spark Streaming中RDD的空处理 2.StreamingContext程序的停止 一.Spark Streaming中RDD的空处理 案例代码: Scala代码: package com.dt.spark.sparkstreaming import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext} /** * 使用Scala开发集群运行的Sp

Spark Streaming中空RDD处理及流处理程序优雅的停止

本期内容 : Spark Streaming中的空RDD处理 Spark Streaming程序的停止 由于Spark Streaming的每个BatchDuration都会不断的产生RDD,空RDD有很大概率的,如何进行处理将影响其运行的效率.资源的有效使用. Spark Streaming会不断的接收数据,在不清楚接收的数据处理到什么状态,如果你强制停止掉的话,会涉及到数据不完整操作或者一致性相关问题. 一. Spark Streaming中的空RDD处理 : ForEachRDD是产生Ds

(版本定制)第16课:Spark Streaming源码解读之数据清理内幕彻底解密

本期内容: 1.Spark Streaming元数据清理详解 2.Spark Streaming元数据清理源码解析 一.如何研究Spark Streaming元数据清理 操作DStream的时候会产生元数据,所以要解决RDD的数据清理工作就一定要从DStream入手.因为DStream是RDD的模板,DStream之间有依赖关系. DStream的操作产生了RDD,接收数据也靠DStream,数据的输入,数据的计算,输出整个生命周期都是由DStream构建的.由此,DStream负责RDD的整个

第82课 Spark Streaming第一课 案例动手实战并在电光石火间理解其工作原理

本课内容提要: (1)什么是流处理以及Spark Streaming主要介绍 (2)Spark Streaming初体验 一.什么是流处理以及Spark Streaming主要介绍 流(Streaming),在大数据时代为数据流处理,就像水流一样,是数据流:既然是数据流处理,就会想到数据的流入.数据的加工.数据的流出. 日常工作.生活中数据来源很多不同的地方.例如:工业时代的汽车制造.监控设备.工业设备会产生很多源数据:信息时代的电商网站.日志服务器.社交网络.金融交易系统.黑客攻击.垃圾邮件.

.Spark Streaming(上)--实时流计算Spark Streaming原理介

Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍 http://www.cnblogs.com/shishanyuan/p/4747735.html 1.Spark Streaming简介 1.1 概述 Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的.具备容错机制的实时流数据的处理.支持从多种数据源获取数据,包括Kafk.Flume.Twitter.ZeroMQ.Kinesis 以及TCP

(版本定制)第11课:Spark Streaming源码解读之Driver中的ReceiverTracker彻底研究和思考

本期内容: 1.ReceiverTracker的架构设计 2.消息循环系统 3.ReceiverTracker具体实现 上节课讲到了Receiver是如何不断的接收数据的,并且接收到的数据的元数据会汇报给ReceiverTracker,下面我们看看ReceiverTracker具体的功能及实现. ReceiverTracker主要的功能: 在Executor上启动Receivers. 停止Receivers . 更新Receiver接收数据的速度(也就是限流) 不断的等待Receivers的运行

(版本定制)第14课:Spark Streaming源码解读之State管理之updateStateByKey和mapWithState解密

本期内容: 1.updateStateByKey解密 2.mapWithState解密 背景:整个Spark Streaming是按照Batch Duractions划分Job的.但是很多时候我们需要算过去的一天甚至一周的数据,这个时候不可避免的要进行状态管理,而Spark Streaming每个Batch Duractions都会产生一个Job,Job里面都是RDD, 所以此时面临的问题就是怎么对状态进行维护?这个时候就需要借助updateStateByKey和mapWithState方法完成

(版本定制)第5课:基于案例分析Spark Streaming流计算框架的运行源码

本期内容: 1.在线动态计算分类最热门商品案例回顾与演示 2.基于案例分析Spark Streaming的运行源码 第一部分案例: package com.dt.spark.sparkstreaming import com.robinspark.utils.ConnectionPoolimport org.apache.spark.SparkConfimport org.apache.spark.sql.Rowimport org.apache.spark.sql.hive.HiveConte

(版本定制)第17课:Spark Streaming资源动态申请和动态控制消费速率原理剖析

本期内容: 1.Spark Streaming资源动态分配 2.Spark Streaming动态控制消费速率 为什么需要动态? a)Spark默认情况下粗粒度的,先分配好资源再计算.对于Spark Streaming而言有高峰值和低峰值,但是他们需要的资源是不一样的,如果按照高峰值的角度的话,就会有大量的资源浪费. b) Spark Streaming不断的运行,对资源消耗和管理也是我们要考虑的因素. Spark Streaming资源动态调整的时候会面临挑战: Spark Streaming