Spark Streaming实时流处理项目实战

第1章 课程介绍
   1-1 -导学-
   1-2 -授课习惯和学习建议
   1-3 -OOTB环境使用演示
   1-4 -Linux环境及软件版本介绍
   1-5 -Spark版本升级
第2章 初识实时流处理
   2-1 -课程目录
   2-2 -业务现状分析
   2-3 -实时流处理产生背景
   2-4 -实时流处理概述
   2-5 -离线计算和实时计算对比
   2-6 -实时流处理框架对比
   2-7 -实时流处理架构及技术选型
   2-8 -实时流处理在企业中的应用
第3章 分布式日志收集框架Flume
   3-1 -课程目录
   3-2 -业务现状分析
   3-3 -Flume概述
   3-4 -Flume架构及核心组件
   3-5 -Flume&JDK环境部署
   3-6 -Flume实战案例一
   3-7 -Flume实战案例二
   3-8 -Flume实战案例三(重点掌握)
第4章 分布式发布订阅消息系统Kafka
   4-1 -课程目录
   4-2 -Kafka概述
   4-3 -Kafka架构及核心概念
   4-4 -Kafka单节点单Broker部署之Zookeeper安装
   4-5 -Kafka单节点单broker的部署及使用
   4-6 -Kafka单节点多broker部署及使用
   4-7 -Kafka容错性测试
   4-8 -使用IDEA+Maven构建开发环境
   4-9 -Kafka Producer Java API编程
   4-10 -Kafka Consumer Java API编程
   4-11 -Kafka实战之整合Flume和Kafka完成实时数据采集
第5章 实战环境搭建
   5-1 -课程目录
   5-2 -Scala安装
   5-3 -Maven安装
   5-4 -Hadoop环境搭建
   5-5 -HBase安装
   5-6 -Spark环境搭建
   5-7 -开发环境搭建
第6章 Spark Streaming入门
   6-1 -课程目录
   6-2 -Spark Streaming概述
   6-3 -Spark Streaming应用场景
   6-4 -Spark Streaming集成Spark生态系统的使用
   6-5 -Spark Streaming发展史
   6-6 -从词频统计功能着手入门Spark Streaming
   6-7 -Spark Streaming工作原理(粗粒度)
   6-8 -Spark Streaming工作原理(细粒度)
第7章 Spark Streaming核心概念与编程
   7-1 -课程目录
   7-2 -核心概念之StreamingContext
   7-3 -核心概念之DStream
   7-4 -核心概念之Input DStreams和Receivers
   7-5 -核心概念之Transformation和Output Operations
   7-6 -案例实战之Spark Streaming处理socket数据
   7-7 -案例实战之Spark Streaming处理文件系统数据
第8章 Spark Streaming进阶与案例实战
   8-1 -课程目录
   8-2 -实战之updateStateByKey算子的使用
   8-3 -实战之将统计结果写入到MySQL数据库中
   8-4 -实战之窗口函数的使用
   8-5 -实战之黑名单过滤
   8-6 -实战之Spark Streaming整合Spark SQL操作
第9章 Spark Streaming整合Flume
   9-1 -课程目录
   9-2 -Push方式整合之概述
   9-3 -Push方式整合之Flume Agent配置开发
   9-4 -Push方式整合之Spark Streaming应用开发
   9-5 -Push方式整合之本地环境联调
   9-6 -Push方式整合之服务器环境联调
   9-7 -Pull方式整合之概述
   9-8 -Pull方式整合之Flume Agent配置开发
   9-9 -Pull方式整合之Spark Streaming应用开发
   9-10 -Pull方式整合之本地环境联调
   9-11 -Pull方式整合之服务器环境联调
第10章 Spark Streaming整合Kafka
   10-1 -课程目录
   10-2 -Spark Streaming整合Kafka的版本选择详解
   10-3 -Receiver方式整合之概述
   10-4 -Receiver方式整合之Kafka测试
   10-5 -Receiver方式整合之Spark Streaming应用开发
   10-6 -Receiver方式整合之本地环境联调
   10-7 -Receiver方式整合之服务器环境联调及Streaming UI讲解
   10-8 -Direct方式整合之概述
   10-9 -Direct方式整合之Spark Streaming应用开发及本地环境测试
   10-10 -Direct方式整合之服务器环境联调
第11章 Spark Streaming整合Flume&Kafka打造通用流处理基础
   11-1 -课程目录
   11-2 -处理流程画图剖析
   11-3 -日志产生器开发并结合log4j完成日志的输出
   11-4 -使用Flume采集Log4j产生的日志
   11-5 -使用KafkaSInk将Flume收集到的数据输出到Kafka
   11-6 -Spark Streaming消费Kafka的数据进行统计
   11-7 -本地测试和生产环境使用的拓展
第12章 Spark Streaming项目实战
   12-1 -课程目录
   12-2 -需求说明
   12-3 -用户行为日志介绍
   12-4 -Python日志产生器开发之产生访问url和ip信息
   12-5 -Python日志产生器开发之产生referer和状态码信息
   12-6 -Python日志产生器开发之产生日志访问时间
   12-7 -Python日志产生器服务器测试并将日志写入到文件中
   12-8 -通过定时调度工具每一分钟产生一批数据
   12-9 -使用Flume实时收集日志信息
   12-10 -对接实时日志数据到Kafka并输出到控制台测试
   12-11 -Spark Streaming对接Kafka的数据进行消费
   12-12 -使用Spark Streaming完成数据清洗操作
   12-13 -功能一之需求分析及存储结果技术选型分析
   12-14 -功能一之数据库访问DAO层方法定义
   12-15 -功能一之HBase操作工具类开发
   12-16 -功能一之数据库访问DAO层方法实现
   12-17 -功能一之将Spark Streaming的处理结果写入到HBase中
   12-18 -功能二之需求分析及HBase设计&HBase数据访问层开发
   12-19 -功能二之功能实现及本地测试
   12-20 -将项目运行在服务器环境中
第13章 可视化实战
   13-1 -课程目录
   13-2 -为什么需要可视化
   13-3 -构建Spring Boot项目
   13-4 -Echarts概述
   13-5 -Spring Boot整合Echarts绘制静态数据柱状图
   13-6 -Spring Boot整合Echarts绘制静态数据饼图
   13-7 -项目目录调整
   13-8 -根据天来获取HBase表中的实战课程访问次数
   13-9 -实战课程访问量domain以及dao开发
   13-10 -实战课程访问量Web层开发
   13-11 -实战课程访问量实时查询展示功能实现及扩展
   13-12 -Spring Boot项目部署到服务器上运行
   13-13 -阿里云DataV数据可视化介绍
   13-14 -DataV展示统计结果功能实现
第14章 Java拓展
   14-1 -课程目录
   14-2 -使用Java开发Spark应用程序
   14-3 -使用Java开发Spark Streaming应用程序

百度网盘下载

原文地址:https://www.cnblogs.com/liuhuanping/p/9650833.html

时间: 09-14

Spark Streaming实时流处理项目实战的相关文章

【慕课网实战】Spark Streaming实时流处理项目实战笔记十之铭文升级版

铭文一级: 第八章:Spark Streaming进阶与案例实战 updateStateByKey算子需求:统计到目前为止累积出现的单词的个数(需要保持住以前的状态) java.lang.IllegalArgumentException: requirement failed: The checkpoint directory has not been set. Please set it by StreamingContext.checkpoint(). 需求:将统计结果写入到MySQLcre

【慕课网实战】Spark Streaming实时流处理项目实战笔记十五之铭文升级版

铭文一级:[木有笔记] 铭文二级: 第12章 Spark Streaming项目实战 行为日志分析: 1.访问量的统计 2.网站黏性 3.推荐 Python实时产生数据 访问URL->IP信息->referer和状态码->日志访问时间->写入到文件中 本地与虚拟机都要装了python才能运行 重要代码: #coding=UTF-8 #数组最后一个没有"," url_paths = [ "class/128.html", "class

【慕课网实战】Spark Streaming实时流处理项目实战笔记十八之铭文升级版

铭文一级: 功能二:功能一+从搜索引擎引流过来的 HBase表设计create 'imooc_course_search_clickcount','info'rowkey设计:也是根据我们的业务需求来的 20171111 +search+ 1 项目打包:mvn clean package -DskipTests 报错:[ERROR] /Users/rocky/source/work/sparktrain/src/main/scala/com/imooc/spark/project/dao/Cou

【慕课网实战】Spark Streaming实时流处理项目实战笔记八之铭文升级版

铭文一级: Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streams. Spark Streaming个人的定义: 将不同的数据源的数据经过Spark Streaming处理之后将结果输出到外部文件系统 特点 低延时 能从错误中高效的恢复:fault-toler

【慕课网实战】Spark Streaming实时流处理项目实战笔记十六之铭文升级版

铭文一级: linux crontab 网站:http://tool.lu/crontab 每一分钟执行一次的crontab表达式: */1 * * * * crontab -e */1 * * * * /home/hadoop/data/project/log_generator.sh 对接python日志产生器输出的日志到Flumestreaming_project.conf 选型:access.log ==> 控制台输出 exec memory logger exec-memory-log

【慕课网实战】Spark Streaming实时流处理项目实战笔记二十之铭文升级版

铭文一级: Spring Boot整合Echarts动态获取HBase的数据1) 动态的传递进去当天的时间 a) 在代码中写死 b) 让你查询昨天的.前天的咋办? 在页面中放一个时间插件(jQuery插件),默认只取当天的数据2) 自动刷新展示图 每隔多久发送一个请求去刷新当前的数据供展示 统计慕课网当天实战课程从搜索引擎过来的点击量 数据已经在HBase中有的 自己通过Echarts整合Spring Boot方式自己来实现 铭文二级: 在Spring Boot项目pom.xml下引入<repo

【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版

铭文一级: 第五章:实战环境搭建 Spark源码编译命令:./dev/make-distribution.sh \--name 2.6.0-cdh5.7.0 \--tgz \-Pyarn -Phadoop-2.6 \-Phive -Phive-thriftserver \-Dhadoop.version=2.6.0-cdh5.7.0 铭文二级: 第五章:实战环境搭建(所有都配置到环境变量) 1.Scala的安装:Download->previous releases  //课程使用2.11.8

【慕课网实战】Spark Streaming实时流处理项目实战笔记十九之铭文升级版

铭文一级:(没有内容) 铭文二级: 创建Spring boot项目: 看官网,Quick Start下面有两个依赖,必须得使用 但是如果用IDEA构建Spring boot,则会自动添加 New Project->Spring Initializr->Next 任意确定: com.imooc.spark web 选版本.点击左边的web->勾上web project name:imooc_web Reference里修改成本地的maven版本 删除多余的文件:mvn.mvnw.mvnw.

【慕课网实战】Spark Streaming实时流处理项目实战笔记三之铭文升级版

铭文一级: Flume概述Flume is a distributed, reliable, and available service for efficiently collecting(收集), aggregating(聚合), and moving(移动) large amounts of log data webserver(源端) ===> flume ===> hdfs(目的地) 设计目标: 可靠性 扩展性 管理性 业界同类产品的对比 (***)Flume: Cloudera/A