深入理解Storm与大数据实战(第一期) 深入理解Storm与大数据实战(第一期)
所属分类:数据分析
  课程名 : 深入理解Storm与大数据实战(第一期)【已结课】 总学费/人 : ¥400 (固定学费:¥100, 逆向学费:¥300) 开课时间 : 2017-01-21 09:00:00 
开课老师 : xch_wang


课程简介:

在大数据的批处理领域,Hadoop是不可撼动的王者,然而在实时性上的延迟,Hadoop却是其天生的不足,为完善大数据实时性处理的需求,业界进行了不少的尝试,如Facebook在2011年发表的论文“Apache Hadoop Goes Realtime at Facebook”中介绍了其基于Hadoop上进行实时性系统的相关改进,同时开发了Puma对网站用户进行实时分析以便对自己的产品或服务进行营销,为解决广告计费(cost-per-click)Yahoo启动了S4用于实时计算、预测用户对广告的可能的点击行为,LinkedIn则基于Kafka开发了Samza用于实时新闻推送、广告和复杂的监控等,而Storm是由Twitter开源的实时计算框架,适用于实时分析、在线机器学习、连续计算、分布式RPC和ETL等场景。


大数据技术的发展日新月异,不断涌现的技术代表着需求的旺盛。在本次课程中,用深入浅出的方法系统介绍了Storm自身的体系架构、技术以及大数据的一些应用。包括如何使用Storm在实时Dashboard统计、反作弊、用户画像与实时推荐等领域的应用。同时介绍整条实时数据处理链路,包括数据收集、传输和计算、以及存储等;实时和离线的整合等内容。


课程大纲:

第一课:实时计算平台介绍
介绍实时系统主要解决的业务问题和面临的挑战;
简要介绍实时平台的主要组件和构成,实时数据的收集通道和数据交互方式
实时数据核心组件Flume、Kafka的介绍,以及Storm在整个平台中所处的位置;
分享部分典型互联网公司实时平台的架构,如大众点评、美团、一号店等

第二课:Storm基本概念和组件介绍
Storm的基本组件:Nimbus、Supervisor、Worker、 Executor和Task的基本介绍;
集群组成:通常一个线上集群的如何构成;
Storm的可靠性:Storm如何保证可靠性以及数据的准确性;
Storm的数据分组和其他特性介绍;

第三课:Storm集群部署和配置
Storm的依赖组件介绍;
Storm的部署软硬件环境要求;
部署ZooKeeper
部署Storm到各个机器节点
配置Storm相关参数,以及核心参数介绍;
启动Storm相关进程;
Storm的守护进程;
提交Topology的过程介绍。

第四课:Storm基本应用的开发
Storm的应用开发和调试过程介绍,包括:
提交示例Topology到集群;
项目代码本地开发环境配置和依赖;
代码编译和打包以及注意事项;
本地代码调试过程;
线上Topology提交过程和问题分析。

第五课:Storm Nimbus和Supervisor深入剖析
Nimbus功能介绍和启动Nimbus服务过程分析;
Nimbus服务的执行过程剖析;
分配Executor的算法;
调度器介绍;
默认调度器DefaultScheduler和均衡调度器EvenScheduler逻辑分析;
Supervisor数据结构分析;
Supervisor的执行过程详解。

第六课:Storm Worker、Executor和Task深入分析
Worker的数据结构和架构;
Worker中的数据流分解;
创建Worker的过程;
Executor的创建过程;
创建Spout的Executor的过程和逻辑;
创建Bolt的Executor的过程和逻辑;
Task的创建过程;
Ack的原理介绍;
Acker Bolt的实现。

第七课:Storm运维和监控
主机信息监控;
日志和监控;
Storm UI和NimbusClient的使用;
Storm Metric的使用;
Storm ZooKeeper的目录详解和功能分析;
Storm Hook的使用。

第八课:Storm的扩展和二次开发
Storm UI原生功能介绍和数据含义;
Storm UI新功能需求实现;
Storm的Thrift接口介绍;
资源隔离方案简介;
基于CGroup的资源隔离的实现;
使用Docker运行Storm集群介绍。

第九课:Storm的实际应用案例分享
实时DAU计算实现;
实时用户画像;
实时个性化推荐;
广告投放的精准化

第十课:Storm使用经验和性能优化
使用经验;
性能优化建议;
自定义metric和性能数据收集

第十一课:其他实时平台介绍
JStorm介绍;
Spark Streaming介绍;
Heron介绍;
Flink介绍;
Storm和其他实时流处理框架的功能和性能对比


相关课程资料下载 DataGuru网络课程学习说明
书面作业及互动作业操作说明

 

GMT+8, 2017-7-21 00:42 , Processed in 0.073223 second(s), 27 queries .