炼数成金 门户 商业智能 自然语言处理 查看内容

原创翻译 文本分析:不仅限于大数据

2017-4-21 11:21| 发布者: 炼数成金_小数| 查看: 15856| 评论: 0

摘要: 在所有人都关注于大数据的价值的今天,意识到“小”数据同样有意义且值得分析并去理解,也是很重要的。下面给出一个我个人的例子。 如果你是OdinText的固定读者,很有可能你已经认识公司总裁Tom Anderson了,他写 ...

管理 工具 大数据 数据分析 商业智能

在所有人都关注于大数据的价值的今天,意识到“小”数据同样有意义且值得分析并去理解,也是很重要的。下面给出一个我个人的例子。

如果你是OdinText的固定读者,很有可能你已经认识公司总裁Tom Anderson了,他写了很多关于基于大数据集的文本分析的文章。不错,OdinText很适用于发起快速调查并收集数千份答卷之后进行数据分析的场合。

但是本片博文我将着重于对小量的非传统数据集,即电子邮件的文本分析。

对“小”数据(电子邮件)进行文本分析

我最近作为副总裁加入了OdinText,并和Tom在所有的公司业务上进行了紧密的合作。而我住在Connecticut一个大约有6万人口的小镇上。去年,我和其他40个人一起被选为RTM小组成员, 而今年RTM小组的任务就是研究如何使用镇政府明年大约290万美元的财政预算。

很多市民都会被被选举如该小组的人写邮件,表达他们对财政预算如何使用的愿望,截止到目前我就收到了280份电子邮件。(在继续本文之前,请注意每一份邮件我都是单独回复的 -  因为这些市民花费了时间给我邮件,所以值得我单独回复他们。而且我不会在本篇博文中泄露我是如何对财政预算投票的,也不会泄漏对党派和组织的偏向,更不会泄漏任何人的名字。)

当我不断的收到这方面的邮件时,我不禁想... ...如果我用OdinText对这些邮件数据进行一次分析会怎么样?这个工具会不会帮助我分辨,理解,并量化人们对于我如何投票的愿望?

小数据分析的大致结果

关于分析方法:每份电子邮件都包含市民的名字,邮件地址和文本格式的邮件内容。由于没有像OSAT, CSAT 或者 NPS 那样的关键字衡量标准,我选择了整体观感。从中我了解到了如下信息:

关于预算的邮件显示了市民对镇预算还是比较满意的,但是RTM小组成员们还需要了解他们不满意的地方,以及他们担忧和愤怒的地方。

满意:

“我在Farefield买了自家住宅居住已经37年了,现在有4个孩子,我很热爱这个社区。”

不满意:

“我之所以给您写信是因为对镇子的管理很不满意。

担忧:

“我较大的担心就是我们选出来的人不能节约支出,而是像做生意一样管理镇子。”

愤怒:

“我们住的房子那么小,但该缴的税却那么多。”

用市民自己的话理解分析结果 减税 (90.16%)

“Fairfield的税比周边社区都高”

“Fairfield的税在类似社区里都是比较离谱的”

“镇政府必须停止像发烧一样不断地提税”

“高昂的税收正在慢慢毁掉Fairfield”

再提税会搬走 (25.13%)

“我今年64了,只有(有限的)固定收入,我已经付不起Fairfield的税了。鉴于经济原因和本地房地产市场的情形,我也很难卖掉我的房子。“

“很抱歉的讲,我们大部分的同事和朋友都有离开Fairfield的”撤出计划”。”

“我们的镇子正在失去那些受够了的居民,他们都已经或者正在搬往Westpor或其他税收比较低的镇子。”

节约开支 (33.33%)

“… 把开支控制起来”

“请停止(不必要)的开支”

“… 需要精简机构,关闭(不必要)的服务,节约开支”

“我们必须保持尽可能低的税收 - 即便这意味着节约开支”

不要削减教育开支 (8.74%)

“… 为这里的教育系统自豪”

“… 承诺优秀的公共教育”

“… 财政责任; 但不能以牺牲孩子们的(教育)开支和损害他们获得优秀教育的权利为代价。”

请节约教育开支 (9.83%)

“请削减所有的开支,包括教育开支”

“… 深刻检讨教育开支”

“… 减少教育开支”

“希望能够保护我最珍爱的预算项目 - 图书馆。请在削减了教育,警察和公务员工资之后,最后再削减它的开支。”

时间短,数据小,收获大

这个文本分析只花了我大约30分钟的时间,具有讽刺意味的是,我写这篇博文花费的时间比我量化全部邮件的时间还要长。但我从中获取和理解到的信息却能很好的帮我在重要问题上做出决定。小数据上的小投入却得到了更大意义上的回报。


英文原文:http://www.smartdatacollective.com/tomanderson/493519/text-analytics-it-s-not-just-big-data


欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识

QQ群:81035754


鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2018-9-20 15:31 , Processed in 0.210143 second(s), 24 queries .