大数据、数据挖掘、机器学习和可视化,近来计算界的几件大事好像总也绕不开数据这个主角。从统计学家到软件开发人员,再到图形设计师,一下子所有人都对数据科学产生了兴趣。便宜的硬件、可靠的处理工具和可视化工具,以及海量的免费数据,这些资源的汇集使得我们能够比以往任何一个时期更加精准地、轻松地发现趋势、预测未... 查看全部[ 1.1 新视角 ]
数据清洗是如何融入数据科学中的呢?简短的回答就是,清洗工作是关键的一步,它直接影响在它之前和之后的处理工作。 稍微长一些的回答就得围绕数据科学过程的六个步骤来描述了,请看下面的列表。数据清洗正好处于中间的位置,第三步。但是,请不要以纯线性方式看待这些步骤,简单地认为这是一个从头到尾执行的框架,... 查看全部[ 1.2 数据科学过程 ]
六步处理过程是围绕着问题和解决方案这个故事线组织的,因此,在作为报表框架使用时,它的表现十分优秀。如果你已经决定使用六步框架来实现数据科学过程报表,将发现只有到了第三步你才会真正开始进行与清洗有关的工作。 哪怕你并不需要把数据科学过程制成正式的报告文档,你仍然会发现,认真地记录下曾经按什么顺序... 查看全部[ 1.3 传达数据清洗工作的内容 ]
本书中涉及的数据清洗方法是通用的,适用范围非常广泛。你不需要任何高端专业的数据库产品或是数据分析产品(事实上,这些厂商和产品可能已经提供了数据清洗程序或是解决方法)。我围绕数据处理过程中的常见问题,设计了本书中的清洗教程。而我要展示的都是适用范围较为广泛的开源软件和技术,它们很容易在实际工作中获得和... 查看全部[ 1.4 数据清洗环境 ]
准备好了吗?现在让我们磨好手里的厨刀并结合六步框架来解决一些简单的数据清洗问题吧。这个例子会用到对公众开放的安然(Enron)公司电子邮件数据集。这是一个非常有名的数据集,当中所有的往来邮件都源自现已停业的安然公司前雇员。作为美国政府调查安然公司账目欺诈的一部分,雇员之间的邮件已被公开并可供任何人下... 查看全部[ 1.5 入门示例 ]
当所有工作全都做完的时候,事实印证了《纽约时报》的报道。我们从这个简单的练习中可以看出,即便是回答一个小小的数据问题,数据清洗就占了整个过程80%的工作量(在这个全文共计900个单词的案例中,光是谈论数据清洗的基本原理和方案就用了700个单词) 。数据清洗的的确确是数据科学过程的关键部分,它不仅涉及... 查看全部[ 1.6 小结 ]