MountainG 发表于 2018-6-8 10:20

spark python和scala

使用spark操作机器学习,用惯了python,陡然使用scala好不适应啊,不过python在处理机器学习方面确实优于scala,不知道大家是如何使用的

flymoon 发表于 2018-6-8 10:52

可以用pyspark的, spark的python api

MountainG 发表于 2018-6-8 15:15

目前仅支持Scala、Java API,尚未提供Python的API(所以一定要学习Scala)相比DataFrame,Dataset提供了编译时类型检查,对于分布式程序来讲,提交一次作业太费劲了(要编译、打包、上传、运行),到提交到集群运行时才发现错误,实在是想骂人,这也是引入Dataset的一个重要原因。

MountainG 发表于 2018-6-8 15:21

flymoon 发表于 2018-6-8 10:52
可以用pyspark的, spark的python api

我当然知道,以前用的pyspark,使用dataFrame编译不报错,运行才报错挺不方便的

robertw2011 发表于 2018-6-9 20:12

pyspark,用spark2.x系列的。当然较好是Scala也能用起来,有些环境可能有局限;还有外部库引用可能有问题。
页: [1]
查看完整版本: spark python和scala