完美天龙 发表于 2018-6-8 11:01

Spark性能比MapReduce高100倍???

Spark性能比MapReduce高100倍???我的疑问是:
1. 这个测试是如此得出来的?
2. 我想测试是需要环境的。请问硬件配置如何?多少U,多少内存?硬盘是SSD还是HHD?
脱离了环境谈性能,不是耍流氓么?

完美天龙 发表于 2018-6-8 11:02

发现Spark在内存中运行速度快100倍,在磁盘上运行速度快10倍。在十分之一的机器上,它也被用于对100 TB数据进行排序,比Hadoop MapReduce快3倍。特别发现Spark在机器学习应用中更快,例如朴素贝叶斯和k-means。
由处理速度衡量的Spark性能已经发现比Hadoop更优,原因如下:
每次运行MapReduce任务的选定部分时,Spark都不会受到输入输出问题的束缚。事实证明,应用程序的速度要快得多
Spark的DAG可以在步骤之间进行优化。 Hadoop在MapReduce步骤之间没有任何周期性连接,这意味着在该级别不会发生性能调整。
但是,如果Spark与其他共享服务在YARN上运行,则性能可能会降低并导致RAM开销内存泄漏。出于这个原因,如果用户有批处理的用例,Hadoop被认为是更高效的系统。

我找到的资料是这样描述的。看来大家在宣传spark时,都断章取义了,只谈优点不谈局限。

flymoon 发表于 2018-6-8 11:21

当你分别用spark跟MapReduce计算同一份文件的word count的时候,对比的伤害就出来了, 什么东西都有风险,看如何使用

ojsl 发表于 2018-6-10 17:15

这样的对比是在特殊场景的下的,具体的时间还是根据应用和计算能力决定。
页: [1]
查看完整版本: Spark性能比MapReduce高100倍???