《大数据》读后重整理_大数据书评-查字典图书网

     读技术书于我而言就像高中物理老师说的那样：一看就懂、一说就糊、一写就错。为了不马上遗忘昨天刚刚看完的这本书，决定写点东西以帮助多少年之后还有那么一点点记忆。好吧，开写。
     1. 总体来说，数据挖掘时数据模型的发现过程。而数据建模的方法可以归纳为两种：数据汇总和数据特征提取。其中数据汇总主要包括聚类和PageRank，数据特征提取主要包括相似项发现以及频繁项集。
    2. 相似性发现：在大量集合中发现相似的集合。首先将集合表示为集合矩阵的形式，因为集合矩阵的数据量特别大导致可能无法全部放入内存所以需要通过合理的方式压缩数据。解决方案是使用最小哈希签名矩阵来表示集合矩阵（原理和计算见P50-54）。但是即使签名矩阵中的行数得到了压缩，但是因为列数很庞大所以如果每两个集合都进行比较而计算相似度的话计算量依然很庞大。在这里，作者提到了一种局部敏感哈希算法，采用行条化策略，用来构建候选对（P56-57）。使得候选对较少，计算量大幅度下降。上面所述为Jaccard距离的相似性问题，对于余弦距离的相似性问题主要表示为：集合矩阵--->梗概矩阵-->局部敏感哈希算法（行条化策略）
    3. 频繁项集：在购物篮中出现次数大于一定阈值的项对。
        1）基本概念：支持读，可信度
        2）频繁项对发现算法：
             A-priori算法核心：只有i,j都是频繁项，{i,j}才可能是频繁项。
             PCY算法核心：i,j都是频繁项同时{i,j}哈希到一个频繁桶中才可能作为候选频繁相对。
    4. PageRank：V‘ = BMV+（1-B）e/n的迭代。其中B是一个常量，一般选为0.8~1,；M是链接转移矩阵。大数据的应对措施是使用Map-Reduce工具处理。

《大数据》读后重整理

您对该书评有什么想说的？

推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读

对“《大数据》读后重整理”的回应