1.分类/预测:决策树算法
面向有规则问题时的有效方法,能发现数据中淹没的潜规则。对于分类记录或预测离散结果,决策树是首选。同时,决策树比其他技术需要的数据准备更少,几乎在每个数据挖掘工程中都会被用到。
尽管建树的算法有多种变体,建成的树的形态与效率也有差别,但具有相同的基本过程,即相对于目标变量而言,每一新生节点比其原生节点有更好的纯度。只要达到这个目标,多次迭代后总会得到对数据集的一个划分。
最佳拆分方式的度量:降低发散性,提高纯度。目前的纯度度量有基尼、熵、信息增益率和卡方等。使用基尼准则建立的树更倾向于产生两个纯度都较高的子节点的拆分,而不是一个更纯的加上一个大而不是很纯的子节点的拆分。熵准则更倾向于纯度,即时得到的节点很小。因此熵准则适合于确有清晰的潜在规则的领域,对市场营销这类模糊领域,会导致不稳定的树。
决策树的年轮图是很酷的表示方法,能够应用在商业环境中。
2.预测/分类/聚类:人工神经网络
训练网络的过程实际上是内部调整权重的过程
过拟合:在验证集上,较早几代往往比最终网络更好
前馈网络中要明确的核心问题:激活函数是什么、网络拓扑、反向传播是什么
隐藏层越宽,识别模式的能力越强。副作用是网络可能会记住某一种模式,我们需要网络从训练集中总结,而不是记住模式。
反向传播网络的最优化算法:爬山和模拟退火。危险在于陷入局部最优
神经网络是不透明的,我们无法了解他如何工作,灵敏度分析可以帮助我们观测这个网络(很有意思)
3.推荐与推理:最近邻(协同过滤)
这种算法是一种MBR(Memory-based reasoning),它能够适应不断加入的新数据,但同时也是数据贪婪者,需要大量历史数据
4.关联规则
三个判定规则:置信度、提升度和否定规则
5.链接分析:就是图论,欧拉图和哈密顿图的应用。Pagerank应该放在这部分,不过书中没讲。
6.自动聚类:k均值和GMM
7.市场营销中的风险函数和生存分析
客户行为的重要指标:保有期tenure,客户曾经多久为我们提供了很多信息。客户半衰期:用衰变曲线解读客户。
风险的定义:假设用户已经保有t时间,其在t+1之前离开的概率
常用模型:浴缸型函数
8.遗传算法:通过进化实现最优化的强力技术,显然可以用来训练神经网络。进化功能的关键参数:基因组、适应度函数
9.一个数据挖掘团队需要的知识体系
RDBMS技能(SQL)
工具与编程(SAS、SPSS...)
统计学
机器学习技能
行业知识
数据可视化技能
访问及需求收集技能
展示、写作与沟通