炼数成金 门户 大数据 Spark 查看内容

Spark这是要一统江湖的节奏

2017-6-17 12:03| 发布者: 炼数成金_小数| 查看: 12248| 评论: 0|原作者: 朱洁|来自: 大数据和云计算技术

摘要: Spark创始人Matei最近在spark submmit上做了一次演讲,看了内容会发现spark这是要一统江湖的架势,一起来看看都介绍了什么内容。Spark一直以来想做的一个事情就是统一整个大数据分析引擎,高层易用的API是核心竞争力 ...

Python Hadoop 机器学习 深度学习 Spark 培训

Spark创始人Matei最近在spark submmit上做了一次演讲,看了内容会发现spark这是要一统江湖的架势,一起来看看都介绍了什么内容。

Spark一直以来想做的一个事情就是统一整个大数据分析引擎,高层易用的API是核心竞争力。

随着2.2版本出来,看起来又更进了一步。2.2版本重点搞了下面三件事:

1)  CBO:争抢数据仓库市场,解决性能问题。
2)  流引擎:支持毫秒级流处理,解决了原来只能通过mini batch方式支持流,直接PK flink。
3)  支持python api:python易上手的特点,在很多领域一直有应用,的机器学习领域用的最多的也是这个。
 
在spark的规划中,Spark未来会在两个地方发力:深度学习和流处理。

深度学习还处在很初级的阶段,主要是想在tensorflow、keras、bigdl等机器学习引擎的基础上提供更易用和高层的API。

为了可以处理深度学习,提供了一个深度学习库。https://github.com/databricks/spark-deep-learning

 
流处理相对成熟,已经具备生成环境的能力,在2.2会正式商用。

Event-time processing(flink是通过watermark机制来搞定)和支持Exactly once很有意思,回头看下具体是怎么实现的。

下图是spark的流API和kafka流代码对比,明显spark要比kafka好用。

 
在演进最后吹了个牛逼,这个牛逼吹的响:“最早的现在也是最快的”。终于脱掉了流处理不行的帽子了。


Spark还是相当有前途,好好学吧。

欢迎加入本站公开兴趣群
软件开发技术群
兴趣范围包括:Java,C/C++,Python,PHP,Ruby,shell等各种语言开发经验交流,各种框架使用,外包项目机会,学习、培训、跳槽等交流
QQ群:26931708

Hadoop源代码研究群
兴趣范围包括:Hadoop源代码解读,改进,优化,分布式系统场景定制,与Hadoop有关的各种开源项目,总之就是玩转Hadoop
QQ群:288410967 

鲜花

握手
1

雷人

路过

鸡蛋

刚表态过的朋友 (1 人)

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

热门文章

     

    GMT+8, 2018-12-19 23:46 , Processed in 0.322597 second(s), 24 queries .