绝情G涛涛 发表于 2018-6-10 21:36

Spark在处理停用词的时候有什么好的方法

新手一枚,希望大家能给一些处理停用词的方法和技巧,能有优化的思想较好了

绝情G涛涛 发表于 2018-6-10 21:37

我开始只是把停用词读成一个list,然后处理RDD的时候一个个的取判断的,不知道这样是否有问题

qq741437829 发表于 2018-6-10 23:54

如果你用sql用的多,停用词看做一个表,单词次数看做一个表,可以用 单词次数表 left join 停用词表 on 单词次数表.单词 = 停用词表.单词 where 停用词表.单词 = null ,把这个sql转成spark sql即可

data900 发表于 2018-8-20 21:04

学习了,第一课的作业正好不知道怎么下手

xenron 发表于 2018-8-21 23:39

借助外部csv,可以实现动态修改。
借助hive,进行数据库查询,这样在大量停用词的时候,速度快些。
页: [1]
查看完整版本: Spark在处理停用词的时候有什么好的方法