通过四个典型例子初窥R和数据挖掘的门径_数据挖掘与R语言书评-查字典图书网
查字典图书网
当前位置: 查字典 > 图书网 > > 数据挖掘与R语言 > 通过四个典型例子初窥R和数据挖掘的门径
[已注销] 数据挖掘与R语言 的书评 发表时间:2013-03-10 23:03:44

通过四个典型例子初窥R和数据挖掘的门径

## 这是一本适合R和数据挖掘初学者的书。
  我第一次读这本书的时候,只是刚刚了解了R的语法,对数据挖掘也只知道几个经典算法的名称。但是阅读本书并没有太多的障碍。作者在第一章简要介绍了R的语法。后续的章节里,用到的每一个新的命令、算法都会加以解释。只要能够跟随作者的思路,不会遇到太多的问题。

## 这是一本从实例出发的书
  从第二到第五章,作者通过四个例子,一步一步展现数据分析的过程。分析任务是什么?能够获取什么样的数据集?数据集需要进行什么样的预处理以及原因?分析中采用什么样的评价标准?采用什么样的具体分析方法?这些方法各有什么样的优劣?等等这些在分析过程中的每一步可能遇到的问题,作者都给予了详细的解释。
  同时,针对每个例子,作者都提供了完整的实现代码。这些代码既融合在书的字里行间,也可以从本书的网站上下载。
  书中选取的四个例子很有代表性,各有侧重,比较全面的覆盖了几种基本的数据分析问题、对数据的预处理方法、挖掘算法。
  本书侧重实例,相关算法的理论讲解只提供了直观性的解释。但可贵的是一些更深的内容,作者都给出了相关的指针,便于读者深入了解。

## 本书的一些不足

1. 部分代码并不一定直接能运行。
  书中整体代码质量还是有保证的,毕竟算是开源的。但是可能由于一些兼容性的问题,作者能运行的程序,我们可能需要稍加修改。我在阅读过程中主要在连接数据库以及时间序列的处理上遇到了一点问题。
2. 有的代码比较难懂
  作者是R语言高手,对语言的应用非常纯熟精妙。虽然都有针对性的解释,但有一些R语言技巧的使用可能会让初学者略感费解。
3. 有的文字略繁琐
4. 深度不够
  大多数模型和方法都是点到为止,广而不深。

## 附:简要总结书中的例子

### Case 1: Predicting Algae Blooms

* 数据集:水体化学物质浓度数据,七种有害藻类浓度。已划分训练和测试集
* 预测目标:预测有害藻类浓度
* 数据欲处理:
  移除unknown value:
    1. 移出该sample
    2. 根据变量关系填入值
    3. 根据相似变量填入值
    4. 采用能处理未知值的工具
* 评价方法:
    1. mean absolute error (MAE)
    2. mean squared error (MSE)
    3. normalized mean squared error (NMSE)
* 模型:
    1. linear regression
    2. regression trees
* 模型选择:
    k-fold cross-validation

### Case 2: Predicting Stock Market Returns

* 数据集:一个时间段的日级别股价数据
* 预测目标:每天的交易指令
* 数据预处理
    1. 定义indicator:未来k天内价格是否会出现p%以上变动的单一参数
    2. 选择指标重要程度:Random forests
* 评价方法
    1. Precision:交易信号中正确的比例
    2. Recall:所有被找出的交易信号的比例
    3. F-measure:precision和recall的结合
* 模型
    1. 多元回归
    2. Artificial Neural Networks回归或分类
    3. Support Vector Machines回归或分类
    4. Multivariate Adaptive Regression Splines
* 模型选择
    1. sliding window approach
    2. Monte Carlo experiment:随机选择时间点,例如之前10年的数据用来训练,之后5年的数据用来测试。
  
### Case 3: Detecting Fraudulent Transactions

* 数据集:销售员售出物品和价格
* 预测目标:判断有问题的交易,outlier detection
* 数据预处理
    1. 问题:只有少量数据有label,有问题的交易占比少,Imbalanced class distributions
    2. 抽样:SMOTE method / 按照产品比例
* 评价方法
    1. recall更重要
    2. Precision/recall (PR) curves
* 模型
    1. Modied Box Plot Rule
    2. Local Outlier Factors (LOF)
    3. Clustering-Based Outlier Rankings (ORh)
    4. Naive Bayes
    5. AdaBoost
    6. Semi-Supervised Approaches:self-training
* 模型选择
  Hold-out experiments

### Case 4:Classifying Microarray Samples

* 数据集:基因组数据和对应白血病类型
* 预测目标:预测白血病类型
* 数据预处理:
    1. 问题:feature太多,每个sample有超过20000个
    2. feature section
        a. 基于分布性质的filter
        b. ANOVA Filters
        c. Filtering Using Random Forests
        d. Filtering Using Feature Clustering Ensembles
* 评价方法:
    The area under the ROC curve
* 模型
    1. random forests
    2. support vector machines (SVMs)
    3. k-nearest neighbors
* 模型选择
  Leave-One-Out Cross-Validation (LOOCV) method. 因为数据集很小,只有94个observation

展开全文


推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读

对“通过四个典型例子初窥R和数据挖掘的门径”的回应

blbailei 2014-01-20 14:50:09

写的很不错