大数据的大泡泡
2014-04-01
这是一本介绍大数据的入门级读物。
文章内容比较匮乏。除去近乎狂热的思想宣传和煽动言词外,仅有的几个案例尚不足以支撑大数据将要颠覆传统信息数据分析的趋势。
比较有意思的是今晚读到139页,关于重组数据的数据创新。作者举例丹麦癌症协会在英国医学杂志上发表的论文。
首先,该研究其实是属于流行病学的生态学研究。指的是在大范围的人群内分析两个变量的关联。是不是和大数据很相似?但其实差别就在于样本量的问题。
所以,其次:本书作者所谓“样本=总体”的概念其实在论文中明确指出并非national的数据,而且从95年开始的研究,时间跨度非常局限,所以根本谈不上是总体内的研究“Their comparison of the present study to the two follow ups (6, 12) however is not appropriate; the current update is based on a linkage of the subscriber cohort and a nationwide cohort on social inequality in cancer, therefore the overall study population is smaller than the whole Danish population, as described in the methods of our paper (1)--来自论文作者对评论的回复“。单从这点,就不足以支撑本书作者援引的论证了。
最后,特别有意思的是这篇文发表在British Medical Journal 的文章《Use of mobile phones and risk of brain tumours: update of Danish cohort study》后续的评论,均指出了这项研究在设计上存在的缺陷。特别是case definition和exposure measurement这两个至关重要元素中存在的致命缺陷。
因为研究者cut-off是设定在1996的:在96年之前注册过使用手机的作为暴露组,没有注册的作为非暴露组。但是非常显然,96年之后使用手机的频率在两组之间可能并不均衡,而且可能存在非暴露组使用的手机放射强度更大的问题。(Note:需要考虑的是经济水平在其中的混杂效应-穷人在96年之前手机使用率低,之后虽然可能与研究的暴露组存在同业的使用率,但是手机质量不得不考虑为一个因素,就像在中国那些不合格的山寨机泛滥,信号不达标一样。)
贴出评论,有兴趣的可以参考一下:http://www.bmj.com/content/343/bmj.d6387?tab=responses