《Spark企业级大数据项目实战》

2017-12-8 17:30| 发布者: 岸岸| 查看: 129626| 评论: 0|原作者: 岸岸

快速报名入口

      本门课程来源于一线生产项目，所有代码都是在现网大数据集群上稳定运行，拒绝Demo。本门课程涵盖了离线分析、实时分析绝大部分的场景，通过三个实际生产项目教授如何优雅地集成Hadoop、Spark、HBase、Kafka、Oracle、ElasticSearch等相关大数据技术，并实际落地。

     本门课程全程实操，不用担心基础不好，老师将会从每个项目的演进过程详细分析，手把手搭建开发环境，每个功能点都有代码实操，拿到生产上可以直接使用。

     本门课程大量生产上的较佳实践，不仅能为技术选型提供参考，也能大幅度提升个人的知识和技术水平，学完可以胜任PB级大数据的开发和优化，面试中说出来都是亮点，是跳槽、转型、加薪的利器，让你轻松实现华丽转身。只要你有一点Hadoop、Spark和Scala基础，并且能保持学习的热情，那么就跟随老师来吧。

课程大纲：
第一课：生产项目的演进和改造思路
1. 三大生产项目（离线日志分析、企业预警实时监控、安全日志上报之Spark Streaming+Kafka保证数据零丢失）业务介绍
2. 离线分析和实时分析的场景介绍
3. 改造思路
4. Hadoop、Spark、Hbase、Kafka、ElasticSearch等项目软件选型

第二课：手把手从零搭建开发环境
1. Hadoop、Spark、Hbase、Kafka、ElasticSearch软件安装
2. IDEA安装
3. Maven工程构建
4. IDEA调试Spark项目
5. Spark源码编译
6. Spark作业提交方式

第三课：安全日志上报之Spark Streaming+Kafka保证数据零丢失（一）
1. Spark Streaming 整合Kafka的几种方式对比
2. 彻底搞懂Kafka 消息检索原理
3. 使用Spark Streaming进行Kafka 的Offset管理（Checkpoints、Hbase、Zookeeper、Kafka）
4. Spark Streaming保存offset到zookeeper乱码处理

第四课：安全日志上报之Spark Streaming+Kafka保证数据零丢失（二）
1. 实时作业的at most once、at least once、exactly once语义
2. 方案选型和对比（四种方案）
3. Spark Streming + Kafka 如何获取每条消息的offset、partition以及每批次的from offset、end offset、count。
4. Spark Streming + Kafka（消费） + Kafka（清洗后入）方案和代码实操

第五课：安全日志上报之Spark Streaming+Kafka保证数据零丢失(三）
1. SQL on Hbase 实现的几种方式
2. Spark Streming + Kafka（消费） + Hbase（清洗后入）实现exactly once语义方案
3. 代码实操
4. SQL on Hbase 性能优化

第六课：安全日志上报之Spark Streaming+Kafka保证数据零丢失(四）
1. Spark 整合Elasticsearch要点和案例实操
2. Spark Streming + Kafka（消费） + Elasticsearch实现exactly once语义方案
3. Spark Streming + Kafka（消费） +Oracle实现exactly once语义方案
4. 代码实操
5 Spark 整合Elasticsearch性能优化

第七课：离线日志分析项目（一）
1. 第一版问题分析
2. ETL流程分析
3. Flume+Nginx整合, 数据采集，日志分割
4. Flume如何实现负载均衡和高可用
5. 日志收集系统架构（可用性、可靠性、可扩展性）

第八课：离线日志分析项目（二）
1. 文件存储格式对比
2. Spark 整合 Hive
3. 第二版项目方案的演进和代码实操
4. 解决小文件问题
5. 数据质量监控

第九课：离线日志分析项目（三）
1. 理解Spark的Stage划分，如何定位导致数据倾斜代码，数据倾斜的场景和需要注意的地方
2. 广播变量使用的坑
3. Spark整合Oracle的表需要注意的地方
4. Spark作业调度异常问题案例汇总

第十课：企业预警实时监控
1. 第一版：使用Spark Streaming清洗数据（Hive动态分区等） + 代码实操
2. 第一版存在的问题分析
3. 第二版项目方案的演进和代码实操
4. 中文乱码问题解决

第十一课：通用解决方案
1. Hbase 二级索引
2. Hbase + ElasticSearch整合，实现海量数据查询
3. 不通场景下， Spark 写数据到Oracle的方案（集群和Oracle服务器网络是否连通等. ）
4. Driver内存调优
5. 其他

授课时间：
课程将于2026年05月08日开课，课程持续时间大约为15周。

授课对象：
了解过Hadoop、Spark的即可。针对Hbase、Kafka、ES等基础不足的同学，讲师会根据项目需要对其核心部分进行详细介绍。

预期收获：
1. 掌握生产上企业级大数据的开发流程。
2. 可以胜任PB级大数据的开发和优化
3. 达到3年大数据从业经验的水平

授课讲师：
cqfrog，一线大数据架构和开发工程师，负责PB级大数据的技术架构和研发，熟悉大数据技术平台选型、规划和实施，  主导了多个大数据项目的迭代和优化，积累了丰富的经验。

课程试听：

新颖的课程收费形式：“逆向收费”约等于免费学习，仅收取100元固定收费+300元暂存学费，学习圆满则全额奖励返还给学员！

本门课程本来打算完全免费，某位大神曾经说过“成功就是正确的方向再加上适度的压力”。考虑到讲师本身要付出巨大的劳动，为了防止一些朋友在学习途中半途而废，浪费了讲师的付出，为此我们计划模仿某些健身课程，使用“逆向收费”的方法。
在报名时每位报名者收取400元，其中100元为固定收费，另外300是暂存学费，即如果学员能完成全部课程要求，包括完成全部的书面和互动作业，则300元全款退回。如果学员未能坚持到完全所有的学习计划任务，则会被扣款。期望这种方式可以转化为大家强烈的学习愿望和驱动力！

课程授课方式：
1、学习方式：老师发布教学资料、教材，幻灯片和视频，学员通过网络下载学习。同时通过论坛互动中老师对学员进行指导及学员之间相互交流。
2、学习作业：老师每周布置书面及互动作业，学员需按时按质完成作业。
3、老师辅导：根据作业批改中发现的问题，针对性给予辅导，帮助大家掌握知识。
4、结业测验：通过测验，完成学业。

您是否对此课程还有疑问，那么请点击进入 FAQ，您的问题将基本得到解答

全国统一咨询热线 136 1033 4399

课程现开始接受报名，报名方式
网上报名请点击：Spark企业级大数据项目实战

咨询Email ：edu01@dataguru.cn，edu02@dataguru.cn
课程入门讨论咨询群：303917420（群内有培训公开课视频供大家免费观看）

咨询QQ： 2222010060 (上班时间在线）

技术热点、 行业资讯，培训课程信息，尽在炼数成金官方微信，低成本传递高端知识！技术成就梦想！欢迎关注！
打开微信，使用扫一扫功能，即刻关注炼数成金官方微信账户，不容错过的精彩，期待您的体验！！！

快速报名入口

普班报名：【普班】Spark企业级大数据项目实战（第23期） (暂未招生)

快班报名：【快班】Spark企业级大数据项目实战 (随报随学)

分享到新浪微博收藏邀请

上一篇：《深入浅出设计模式》下一篇：朝巍讲师介绍

《Spark企业级大数据项目实战》

即将开课

热门文章