首页 > 选课中心 > 数据仓库 > 【快班】深入BI之Kettle篇
【快班】深入BI之Kettle篇
此课程所属 【大数据攻城狮专业】专业,报名专业套餐,可享受0元学习特惠!点击了解详情
2017年01月16日 15点 共15课 ★☆☆
开课时间 课程周期 难易度
招生中

立即报名
工具 Hadoop 开源 ETL Kettle
课程介绍
有人统计过,在整个数据分析过程里,收集、整理数据的工作大致占全部工作量的90%,建模过程不足10%,可见ETL是数据处理流程中一个非常重要的环节。ETL工程师,在数据仓库类职位中占有很大比例,而且薪水都不差。IT人一下子转型数据分析师可能跳跃度比较大难度高,先转型数据仓库/ETL工程师再择机往更高处走是合理选择之一。在ETL软件中,使用最多的是开源的Kettle,完全免费,功能和性能不弱于datastage这类商业ETL软件,使用Kettle和其它开源数据平台软件,例如Mysql集群,Hadoop集群等组合在一起,是性价比极高的架构选择。本课程系统讲解Kettle及其秘密。

     ETL (Extract,Transformation,Load)工具是构建数据仓库、进行数据整合工作所必须使用的工具。目前市面有多种商业 ETL 工具,如Informatica,Datastage等。目前市场上开源且实用的 ETL 工具比较少,Kettle 就是这不多的开源 ETL 工具之一。 本课程将主要讲解开源 ETL 工具 Kettle 的基本使用和二次开发方法,并结合实际项目案例,讲解 Kettle 如何在实际中应用,以及应用中可能会出现的问题。针对目前大数据的应用情况,本课程也将结合大数据,讲述 Kettle 如何支持 Hadoop、HBase、MongoDB、MapReduce 等大数据技术。除了Kettle 的使用,在本课程的后几个课时,将讲述 Kettle 的二次开发: 包括 Kettle 代码阅读指导, Kettle API 的说明以及使用方法, Kettle 插件的开发方法。
课程大纲
第一课:ETL 的概念,Kettle 的概念、功能、操作
第二课:Kettle 资源库、日志、运行方式
第三课:输入步骤(表输入、文本文件输入、XML 文件输入...)
第四课:输出步骤(表输出、更新、删除、文本文件输出、XML文件输出...)
第五课:转换步骤(过滤、字符串处理、拆分字段、计算器...)
第六课:转换步骤(字段选择、排序、增加校验列、去除重复记录...)
第七课:应用步骤、流程步骤(处理文件、执行程序、发送邮件、空操作、阻塞步骤、中止等...)
第八课:查询步骤、连接步骤(数据库查询、流查询、合并记录、记录集连接、笛卡尔...)
第九课:脚本步骤(Javascript,Java Class、正则表达式...)
第十课:作业项(拷贝、移动、ftp、sftp…)
第十一课:Kettle 的参数和变量、Kettle 集群
第十二课:Kettle 代码编译、代码结构、应用集成、各种配置文件
第十三课:插件开发 - 步骤、作业项 
第十四课:作业设计技巧、错误处理、调试转换、循环和分支
第十五课:大数据插件(Hadoop 文件输入/输出,HBase输入/输出,MapReduce输入/输出,MongoDB输入/输出)
授课讲师
    初建军(网名:Jason),2004年毕业于天津大学计算软件与理论专业,研究生。后进入北京人大金仓信息技术股份有限公司工作,从事国产数据库的研发工作。现就职于北京傲飞商智软件有限公司(Pentaho 公司的官方合作伙伴),专门从事 Pentaho/Kettle 的研究和开发工作。
    Jason 也是 Kettle 项目的代码提交者,积极推动 Pentaho/Kettle 等开源 BI 技术在国内的应用和发展,创办了 Pentaho 中国爱好者社区论坛((pentahochina.com)。
    Jason 作为 Pentaho 顾问为多个企业做过 Pentaho/Kettle 的咨询、培训、实施等服务, 服务过的企业或政府部门包括联想集团(北京)、中国联通系统集成公司、中国电信(某省)、国家地震局地球物理研究所、公安部第一研究所、四维图新、上海定展航运、品众互动网络技术营销有限公司。
课程环境
Windows 和 Linux
授课对象
1. ETL 工程师,Java 开发工程师,
2. 经常要做数据处理的 DBA
3. 有一定数据库基础 和 Java 基础的学生。
收获预期
1. 理解 Kettle 软件的基本功能。
2. 能使用 Kettle 完成基本的数据处理工作。
3. 了解 Kettle 软件的一些高级功能
4. 对有Java 开发经验的同学,对 Kettle 代码结构有一定了解,能开发一些 Java 的基本插件。
课程试听
课程学费
学费:400元(固定学费:300元 + 逆向学费:100元)
新颖的课程收费形式:“逆向收费”约等于免费学习,课程收取300元固定收费 + 100元逆向学费,学习圆满则全额奖励返还给学员!
特别说明如下
本门课程本来打算完全免费,某位大神曾经说过“成功就是正确的方向再加上适度的压力”。考虑到讲师本身要付出巨大的劳动,为了防止一些朋友在学习途中半途而废,浪费了讲师的付出,为此我们计划模仿某些健身课程,使用“逆向收费”的方法。 在 报名时每位报名者收取400元,其中300元为固定 收费,另外100元是暂存学费,即如果学员能完成全部课程要求,包括完成全部的书面作业,则100元全款退回。如果学员未能坚持到完全所有的学习计划任务,则会被扣款。期望这种方式可以转化为大家强烈的学习愿望和驱动力!
课程授课方式

1、 学习方式:老师发布教学资料、教材,幻灯片和视频,学员通过网络下载学习。同时通过论坛互动中老师对学员进行指导及学员之间相互交流。

2、 学习作业:每课均有布置课后作业,学员完成书面作业后则可进入下一课学习。

3、 老师辅导:通过论坛站内信及邮件等多种方式与老师进行一对一互动。

4、 完成课程:最后一课作业交纳后,老师完成作业批改,即可完成课程并取回相应剩余的逆向学费。

联系我们
咨询Email :edu01@dataguru.cnedu02@dataguru.cn
课程入门讨论咨询QQ群:706821899(群内有培训公开课视频供大家免费观看)
咨询QQ: 点击这里给我发消息 点击这里给我发消息
您是否对此课程还有疑问,那么请 点击进入FAQ,您的问题将基本得到解答
全国统一咨询热线: 4008-010-006
最新技术热点、 最新行业资讯,最新培训课程信息,尽在炼数成金官方微信,低成本传递高端知识!技术成就梦想!欢迎关注!
打开微信,使用扫一扫功能,即刻关注炼数成金官方微信账户,不容错过的精彩,期待您的体验!!!

授课老师

初建军初建军
初建军(网名:Jason),2004年毕业于天津大学计算软件与理论专业,研究生。后进入北京人大金仓信息技术股份有限公司工作,从事国产数据库的研发工作。现就职于北京傲飞商智软件有限公司(Pentaho 公司的官方合作伙伴),专门从事 Pentaho/Kettle 的研究和开发工作。

其他快班课程

【快班】JavaScript从入门到精通
【快班】赢在大数据-人工智能的应用实践
【快班】【免费公开课】《数据科学入门手册》——DSX架构与部署
【快班】【免费公开课】数据科学无难事
【快班】【免费公开课】《Hadoop入门手册》之 虚拟机的安装和使用
【快班】【免费公开课】玩转数据艺术-数据展示技巧应用实战
【快班】【免费公开课】玩转数据科学——IBM DSX
【快班】【免费公开课】《Hadoop入门手册》——Apache Hadoop集群安装
【快班】【免费公开课】赢在大数据-数据化运营落地实战
【快班】大数据管理
【快班】Streams流计算引航公开课
【快班】抽样调查
【快班】LATEX公式排版系统引航
【快班】Watson Analytics数据分析应用实战公开课
【快班】数据陷阱解读
【快班】R七种武器之文本挖掘包tm
【快班】R七种武器之可视化JS库HTMLWidgets包
【快班】R七种武器之数据加工厂plyr
【快班】R七种武器之交互化展示包shiny
【快班】R七种武器之网络爬虫RCurl
【快班】R七种武器之数据可视化包ggplot2
【快班】R七种武器之金融数据分析quantmod
【快班】Java经验谈
【快班】Go语言实战编程
【快班】DB2 V11新特性全解析
【快班】DB2数据库引航公开课
【快班】STATA统计分析入门
【快班】初识正则表达式
【快班】perl语言入门
【快班】Scala语言入门
【快班】Puppet 运维自动化
【快班】Qt编程快速入门
【快班】python web框架企业实战详解
【快班】数据治理及数据仓库模型设计
【快班】DevSecOps安全交付应用实战
【快班】JavaScript突击-从精通到项目实战
【快班】R语言魔鬼训练营
【快班】基于案例学习bash脚本编程
【快班】量化投资基础计算与模型
【快班】老板说服术之玩转数据展示
【快班】数据库系统实现技术内幕
【快班】Goldengate从入门到精通
【快班】Oracle 12c特性解读-容器数据库和灾备
【快班】Oracle 12C RAC集群原理与管理实战
【快班】Mycat从入门到精通
【快班】基于案例学SQL优化
【快班】大型电商分布式系统实践
【快班】深入理解Storm与大数据实战
【快班】Java魔鬼训练营
【快班】面试突击-数据结构与算法速成
【快班】Excel数据分析师突击—从入门到精通到项目实战
【快班】自己动手实践神经网络
【快班】自然语言处理软件实验
【快班】Redis技术实战
【快班】推荐系统
【快班】MongoDB实战
【快班】应用系统架构优化方法与案例实战
【快班】HBase从入门到精通
【快班】Hive数据仓库实践
【快班】Hadoop数据分析平台
【快班】数据分析与SAS
【快班】比特币
【快班】机器读心术之文本挖掘与自然语言处理
【快班】机器读心术之神经网络与深度学习
【快班】快速上手Jmeter性能测试工具
【快班】软件性能测试
【快班】软件自动化测试Selenium2
【快班】大数据必知的java基础
【快班】快速数据挖掘平台RapidMiner
【快班】R语言编程技巧
【快班】基于案例学Java服务器端程序设计
【快班】Scala从基础到开发实战
【快班】供应链物流—电商发展的“核”动力
【快班】详解SQL与PL/SQL
【快班】Oracle职业直通车
【快班】深度玩转Excel
【快班】Hadoop应用开发实战案例
【快班】大数据的Linux基础
【快班】机器学习
【快班】量化投资
【快班】SPSS数据分析入门与提高
【快班】Python数据分析
【快班】NoSQL与NewSQL数据库引航
【快班】大数据算法导论
【快班】大数据的矩阵计算基础
【快班】R语言数据分析、展现与实例
【快班】大数据的统计学基础

热招课程

◆ Spark大数据平台应用实战(第六期)
◆ 大数据的统计学基础(第24期)
◆ Qt编程快速入门(第六期)
◆ Python全栈学习——Python基础及Web开发(第二期)
◆ locust性能测试实战(第一期)
◆ 【免费公开课】Julia快速数据分析(第七期)
◆ OpenCV计算机视觉产品实战(第七期)
◆ Oracle DBA从小白到入职实战应用(第九期)
◆ Python金融投资分析实践(第九期)
◆ 深入浅出Spring(第八期)
◆ 深度学习框架Tensorflow学习与应用(第八期)
◆ Elastic Stack实战(第一期)
◆ 【免费公开课】R七种武器之金融数据分析quantmod(第40期)
◆ Python突击—从入门到精通到项目实战(第13期)
◆ MySQL DBA从小白到大神实战(第11期)
◆ 大数据的Linux基础(第23期)
◆ Python金融业数据化运营实战(第二期)
◆ Kafka原理剖析及实战演练(第11期)
◆ 区块链新时代:技术原理与实操(第一期)
◆ 【免费公开课】数据科学无难事(第二期)
◆ 敏捷Agile快速入门(第四期)
◆ 数据库系统实现技术内幕(第13期)
◆ Python自然语言分析(第12期)
◆ 股票投资高手武器系列之缠论系统(第三期)
◆ 测试架构师核心技术(第二期)
◆ 【免费公开课】数据陷阱解读(第35期)
◆ 深入浅出Oracle(第十期)
◆ 深度学习框架Caffe学习与应用(第八期)
◆ 机器学习(第25期)
◆ 大数据必知的java基础(第11期)
◆ Python数据科学商业实践(第二期)
◆ 【百万年薪系列】视觉的盛宴:深度玩转人脸识别(第四期)
◆ 数据科学家养成:从零入门机器学习(第二期)
◆ 大数据算法导论(第17期)
◆ MySQL性能优化最佳实践(第七期)
◆ python网络爬虫应用实战(第四期)
◆ 知识图谱实战(第五期)
◆ OpenAI强化学习实战(第三期)
◆ DL4CV实战——构建基于深度学习的智能图像识别系统(第三期)
◆ 金融的人工智能革命(第七期)
◆ 人脸识别精准安防讲习班(第二期)
◆ 左飞的机器学习十八般算法武艺详解(第七期)
◆ 区块链技术从入门到精通(第九期)
◆ Python数据分析(第16期)
◆ 【免费公开课】R七种武器之网络爬虫RCurl(第20期)
◆ 基于案例学习时间序列分析(第五期)

GMT+8, 2018-11-15 12:55 , Processed in 0.082185 second(s), 37 queries .