首页 > 数据分析 > Slickdeals:用户感兴趣的是什么?

[悬赏]Slickdeals:用户感兴趣的是什么? (已翻译89%)

查看 (540次)
英文原文:Slickdeals: What Deals are Users Interested In?
标签: 数据分析
admin 发布于 2017-06-02 09:40:08 (共 9 段, 本文赏金: 14元)
参与翻译(2人): cyt5969858 廿九_ 默认 | 原文

【已悬赏】 赏金: 2元

你可能听说过一个叫SlickDeals的网站。作为一个每月拥有超过一千万用户的网站,这个


拥有各种各样的东西交易分享网站是人们分享和判断优惠和折扣的热点。从大学初期开


始,我几乎每天都会访问这个网站,以跟上感兴趣的商品的价格。当我们在NYC Data


Science的新兵训练营中学会了网络抓取我认为浏览这个网页,看看我还可以了解更多关


于这个流行的交易分享网站是一个很好的想法


注意:如果您对编程方面不感兴趣,对结果更感兴趣,请跳过此帖子的数据、抓取和清洁


部分。



廿九_
翻译于 2018-01-23 13:11:57
 

参与本段翻译用户:
廿九_

显示原文内容

【已悬赏】 赏金: 2元

数据

寻求初步变量

既然SlickDeals很大程度上是一个社区驱动的网站,那么还有什么问题比在用户中流行的问题更好呢?为了衡量受欢迎程度,我想要的数值能够捕捉到这一点。


 在SlickDeals上处理样本后

在查看随机交易页面时,我发现有两个这样的变量:视图计数和交易分数。所以现在我有我的因变量我需要独立的值这样我可以和这两个值进行比较。包括视图计数和交易得分,我最终得到了我希望在数据集中拥有的15个变量(参见Scrapy部分)。但是,我如何将其转换成易于使用的表格格式呢?

廿九_
翻译于 2018-01-29 11:30:35
 

参与本段翻译用户:
廿九_

显示原文内容

【已悬赏】 赏金: 2元

Scrapy

这就是基于Python的Scrapy派上用场的地方。正如其官方GitHub储存库所述:

Scrapy是一种快速的高级网页抓取和网页抓取框架,用于抓取网站和从其网页中提取结构化数据。它可以用于广泛的用途,从数据挖掘到监控和自动化测试。

所以现在我知道了我想从网站上提取的信息,我需要告诉Scrapy我想要它如何接近这个。如果您有兴趣学习如何使用Scrapy,我建议查看本教程。以下是我与 spider的关系的总结:

廿九_
翻译于 2018-01-29 11:33:43
 

参与本段翻译用户:
廿九_

显示原文内容

【已悬赏】 赏金: 1元

工作流程

通常,Scrapy Spider需要知道你想怎样刮擦每个元素。我需要做以下工作:

1. 登录授权

SlickDeals在其交易中使用了一个论坛结构,这带来了一个主要问题:只有成员才能看到所有的帖子。在研究了无数建议的解决方案之后,我最终从我前面提供的教程中的示例中找到了一个可行的解决方案。代码如下:


廿九_
翻译于 2018-01-29 08:51:34
 

参与本段翻译用户:
廿九_

显示原文内容

【已悬赏】 赏金: 1元

2.主要部分

在论坛上,每项交易都有自己的线索/帖子。我想了解有关热交易部分的信息,所以我需要告诉它对每个线程页面提出请求。当它完成从页面上的每个线程收集信息时,spider需要找到下一页,并从那里的交易中提取。一般工作流程指令如下所示:

廿九_
翻译于 2018-01-29 11:35:45
 

参与本段翻译用户:
廿九_

显示原文内容

【已悬赏】 赏金: 1元

3. 解析每个交易页面中的元素

现在是整个过程的关键。为了获得感兴趣的每个元素或变量,Spider需要存储XPath选择器的结果:


现在,spider已经准备好了,我需要Scrapy为我输出一个文件。使用一个项目管道,我Scrapy拥有这些列的CSV输出文件倾倒。这需要大量的尝试和错误,但许多小时后,我得到了一个输出数据集。

廿九_
翻译于 2018-01-29 11:39:48
 

参与本段翻译用户:
廿九_

显示原文内容

【已悬赏】 赏金: 3元

清理数据

因此,为了使用这些数据,我需要更改变量格式,以便可以使用Pandas、Numpy、Matlib和Seborn等包进行一些数据探索和可视化。这就是我试图Scrapy的输出所做的

  • 将列更改为适当的数据类型(例如,strftime、熊猫函数等)

  • DealTitle中提取空白

  • 删除无意义的行(如粘贴柱、规则、“删除”等)

  • 删除不必要的子串(即“交易价格”中的“$”和“”)

  • 删除重复

然而,有几个问题我无法解决,从而导致在分析中使用的变量减少:

  • DealPrice包含了许多非数字的条目。除了用数值从观察中删除‘$’和‘’字符存在问题外,还有许多条目列出了文本,例如“BuyOne Get One Free”或“50%off”名义价格。因我决定取消交易价格。

  • 在一些帖子中,有更多关于发布交易的用户的信息。然而,我无法确定这些内容是什么时候显示的,所以我最终排除了用户声誉和交易,我在文章中列出了我刮过的专栏。

廿九_
翻译于 2018-01-29 11:45:43
 

参与本段翻译用户:
廿九_

显示原文内容

【已悬赏】 赏金: 2元

使用Python的包进行可视化和分析

Pandas和Matplotlib结合使用,我能够得到以下结果:

ViewCount和DealScore的值都呈现右偏,这意味着少数岗位产生最大数目的观点和交易分数。这可能是由于良好交易稀少,以及社区发布了大量边缘或不吸引人的一些交易。


下面是关于哪些类别和商店获得大量观点和交易分数的一些调查结果:

图表



Deal Score


cyt5969858
翻译于 2017-12-06 14:02:56
 

参与本段翻译用户:
cyt5969858

显示原文内容

GMT+8, 2018-9-22 02:03 , Processed in 0.031594 second(s), 11 queries .