干净的数据:数据清洗入门与实践1.4 数据清洗环境_干净的数据:数据清洗入门与实践1.4 数据清洗环境试读-查字典图书网
查字典图书网
当前位置: 查字典 > 图书网 > 算法 > 干净的数据:数据清洗入门与实践 > 1.4 数据清洗环境

干净的数据:数据清洗入门与实践——1.4 数据清洗环境

本书中涉及的数据清洗方法是通用的,适用范围非常广泛。你不需要任何高端专业的数据库产品或是数据分析产品(事实上,这些厂商和产品可能已经提供了数据清洗程序或是解决方法)。我围绕数据处理过程中的常见问题,设计了本书中的清洗教程。而我要展示的都是适用范围较为广泛的开源软件和技术,它们很容易在实际工作中获得和掌握。 下面列出了你需要准备的工具和技术。  几乎在每一章中,我们都会用到终端窗口和命令行界面,比如Mac OS X上的Terminal程序或者是Linux系统上的bash程序。而在Windows上,有些命令可以通过Windows的命令提示符运行,但其他的命令则需要通过功能更强的命令行程序来运行,比如CygWin。   几乎在每一章中,我们还会用到文本编辑器或者是适合程序员使用的编辑器,如Mac上的Text Wrangler,Linux上的vi或emacs,或是Windows上的Notepad++、Sublime编辑器等。   在绝大数章节里,我们需要使用Python 2.7版本的客户端程序,如Enthought Canopy,另外还需要足够的权限来安装一些包文件。其中大部分例子都可以直接在Python 3中运行,但有些不可以,所以如果你安装的是Python 3的话,可以考虑再安装一个2.7版本。   在第3章“数据清洗的老黄牛——电子表格和文本编辑器”中,我们需要使用电子表格程序(主要是Microsoft Excel和Google Spreadsheets)。   在第7章“RDBMS清洗技术”中,我们需要使用MySQL数据库和一个用于访问该数据库的客户端软件。 

展开全文

推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读

《干净的数据:数据清洗入门与实践》其他试读目录

• 1.1 新视角
• 1.2 数据科学过程
• 1.3 传达数据清洗工作的内容
• 1.4 数据清洗环境 [当前]
• 1.5 入门示例
• 1.6 小结