数据挖掘功能包括发现概念/类描述、关联、分类、预测、聚类、趋势分析、偏差分析和类似性分析。特征化和区分是数据汇总的形式。
数据分类(data classification)是一个两步过程:1)建立一个模型,描述预定的数据类集或概念集。通过分析由属性描述的数据库元组来构造模型。2)使用模型进行分类。
“预测和分类有何不同?”预测(prediction)是构造和使用模型评估无标号样本类,或评估给定样本可能具有的属性值或值区间。在这种观点下,分类和回归是两类主要预测问题,其中分类是预测离散或标称值,而回归用于预测连续或有序值。然而,我们的观点是:用预测法预测类标号为分类,用预测法预测连续值(例如使用回归方法)为预测。这种观点在数据挖掘界被广泛接受。
7.3用判断树归纳分类
判断树(decision tree)是一个类似流程图的树结构,气质每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或者类分布。
chp8 聚类分析
将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。
聚类的方法有:
1)划分方法 partitioning method
2)层次方法hierarchical method
3)基于密度的方法 density-based method
4)基于网格的方法grid-based method
5)基于模型的方法model-based method