wangsu 发表于 2018-1-28 09:40

mllib 作业--去停用词不会

mllib 第一课的作业:去停用词不会,作业完成的同学能提示一下吗?

xutao456 发表于 2018-1-28 16:20

其实我也没明白是啥意思

gpnu001 发表于 2018-1-28 20:01

我现在还没做出来,快急死了啊

a2166421 发表于 2018-1-28 21:34

其他做了,就这点没做。。。

universe 发表于 2018-1-29 05:34

在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。 不要把停用词与安全口令混淆。 这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。

停用词
http://blog.csdn.net/shijiebei2009/article/details/39696571

mayi140611 发表于 2018-6-9 11:14

停用词就是一个集合,把集合中的词去掉不要统计就可以了

ojsl 发表于 2018-6-10 17:18

就是一些符号信息,和常规单词不同,会干扰信息,所以需要去掉。具体是使用replace替换掉即可。

mayi140611 发表于 2019-6-10 19:23

直接定义一个list,然后用filter把里面的word过滤掉就可以了吧

mayi140611 发表于 2019-6-10 19:23

直接定义一个list,然后用filter把里面的word过滤掉就可以了吧

lgqydf 发表于 2019-6-14 11:26

就是一些符号信息,和常规单词不同,会干扰信息,所以需要去掉
页: [1]
查看完整版本: mllib 作业--去停用词不会