Spark大数据分析平台(第五期) Spark大数据分析平台(第五期)
所属分类:分布式系统
  课程名 : Spark大数据分析平台(第五期)【已结课】 总学费/人 : ¥400 (固定学费:¥100, 逆向学费:¥300) 开课时间 : 2017-02-07 09:00:00 
开课老师 : jifeng


课程简介:
2015年, Spark只用了一年多时间,已实现开源到火爆 ,亦逐渐显露出与通用大数据平台Hadoop的分庭抗争之势。在这个大背景下,在大数据领域时代,谁将是独领风骚?Spark无疑是最大的竞争者,无论是 2015 Spark技术峰会 ,还是国内的大数据大会,可以看到中国力量正在崛起,Spark最大的集群来自腾讯——8000个节点,单个Job最大分别是阿里巴巴和 Databricks——1PB,震撼人心!同时,截止2015年6月,Spark的Contributor比2014年涨了3倍,达到730人;总代码 行数也比2014年涨了2倍多,达到40万行,不但大量的互联网企业已经在使用或者正准备使用Spark,而且大量的电信、金融、证券和传统企业已经开始 引入了Spark。

然而作为一个高速发展中的开源项目,其部署过程中存在的门槛和挑战亦不可谓不大,本课程将主要介绍Spark1.4.0,引领大家进入大数据Spark入门。

课程大纲:
第一课:Spark生态和安装部署
Spark概述
Spark现状
安装部署
  Spark安装简介
  Spark的源码编译
  Spark Standalone安装
  Spark Standalone HA安装  
Spark工具
  Spark交互式工具spark-shell
  Spark应用程序部署工具spark-submit

第二课:Spark编程模型和解析

Spark的编程模型  
  RDD的特点、操作、依赖关系
  缓存策略
  广播变量和累加器
Spark编程环境搭建
Spark编程实例

第三课:Spark运行架构和解析
Spark的运行架构
  基本术语
  运行架构(DAGScheduler、TaskSeduler、Task、容错性、推测机制、数据本地性)
  Spark on Standalone运行过程
  Spark on YARN 运行过程

第四课:hive入门
hive的运行架构
hive的安装
hive的实例演示

第五课:SparkSQL原理和实践
Spark的运行架构
  Catalyst
  sqlontext
  hiveContext
ThriftServer和CLI
  ThriftServer
  CLI
SparkSQL的实例演示和编程
  spark-shell实例演示
  spark-sql实例演示
  SparkSQL的编程

第六课:SparkStreaming原理和实践
SparkStreaming原理
  SparkStreaming的原理
  SparkStreaming的运行方式  
  DStream的特点和操作
SparkStreaming实例演示
  网络数据演示
  文本实例演示
  Window操作演示  

第七课:MLlib入门
什么是机器学习
MLlib的架构
Mllib实例演示
  聚类算法演示
  推荐系统演示    

第八课:GraphX入门
图论基础
GraphX的架构
GraphX实例演示
  图的基本操作
  PageRank演示

第九课:Spark运维
Spark On YARN
history server
job server
Spark的监控
Spark UI监控

第十课:scala on Spark

spark常用的scala基础
如何阅读spark源代码
如何构建spark项目

第十一课:Spark编程
RDD的编程
Spark综合实例(SparkSQL+sparkMlib+R)

第十二课:Spark源码研读
Spark源码总体介绍
SparkCore源码细解  
Spark Examples介绍

第十三课:杂谈
Spark相关项目
  BlinkDB简介
  SparkR的安装和实例
  Techyon


相关课程资料下载 DataGuru网络课程学习说明
书面作业及互动作业操作说明

 

GMT+8, 2017-9-26 08:21 , Processed in 0.092611 second(s), 27 queries .