尽信“数”不如无“数”_决战大数据书评-查字典图书网
查字典图书网
当前位置: 查字典 > 图书网 > 互联网 > 决战大数据 > 尽信“数”不如无“数”
张浩洪 决战大数据 的书评 发表时间:2015-03-19 15:03:55

尽信“数”不如无“数”

一个数据分析师,在面对海量的数据时,偶尔把自己也当作对象去分析、思考、总结,才能成为一位有那么一点儿味道的数据分析师,才能不断地审视、提升自己分析水平,才能在数据分析的道路上走得更远。
——车品觉 摘自:《数据挖掘和数据化运营实战:思路、方法、技巧与应用》的序言,原书作者:卢辉

作为一个学佛之人,车品觉先生在《决战大数据》这本他的处女作中,以不那么严密的组织的语言谈了一遍他对数据化运营以及运营数据的一些“心性”之法。“心性”之法之表述,兴许容易让人感觉书的内容“高屋建瓴”,以至像舍恩伯格的《大数据时代》一样仅传输一些未经考证之理念而无可实践之抓手,然而,车先生的这本书恰是有力地把握了由高到低,由全局到细节的完美过渡和节奏,使得读者在书中除可了解作者的大理念之同时,亦可习得各种极其实用的实战技巧。深入浅出,层层剖析,晓之以理,这也正是数据分析师所应该具备的基本素质。

整体书的逻辑是先讲如何数据化运营,然后讲如何运营数据,再讲阿里数据化运营和运营数据的所谓内外三把斧,最后,作者以李小龙的“截拳道”思想,为整个思想盖上了“帽子”。老实说,书里内容有点罗嗦,前后很多内容反反复复,这可能跟书中很多内容和思想源自于作者的BLOG有关,但我认为这并不妨碍作者在书中所表达的一些核心思想。

个人认为这些思想主要有以下几点(不一定逻辑完整):

(一)伴随数据”量“的提升,信息量也提升,但同时提升的还有噪音信息,且对数据错误理解的可能性也在不断扩大。大数据这一概念经媒体大肆吹捧后,使得许多人产生了大数据“很牛”的感觉。大数据牛吗?本人认为有牛的地方也有不怎样的地方:目前大数据“牛”的地方仍主要集中于技术(存储和基础计算)层面,Hadoop、云计算、Spark、深度学习(DL)等相信各位也有所耳闻,但是现实是,大数据在应用领域成功的例子非常少,目前大数据在应用方面很少能够为企业和客户产生实在的价值。Netflix花了几百万美元得到的一个推荐算法最终放弃使用,原因是这一通过比赛获取的算法哪怕可提升推荐的准确率,但却因过于复杂,无法应用到实际运营当中。技术进步要转化成生产力的提升,鸿沟通常是巨大的,因为在这些“伟大”的理念中,通常掺和着太多花俏的、不适用、甚至是错误的东西,它们都可以被称之为“噪音”。在大数据时代,当我们面对大量数据时,必须慎之又慎,对数据分析的结果必须持有比小数据时代更多的怀疑,对各种花俏的所谓大数据成功案例,必须擦亮双眼而不被所谓的“时代”忽悠,正如多贝里在《清醒思考的艺术》里面总结的,你想做某件伟大的事情时,请先去看看那些失败者的”坟墓“,读读他们的墓志铭,他们也曾经做过相同的事。

(二) 重点关注数据收集时点目标所处的“场景”是如何的。很多时候,我们看到的数据是只有“骨头”而无”肉“,结果是我们要么无法真正理解一个分析结果,要么就无法解释分析结果。在多屏环境中,要准确地收集到用户的数据将变得越发重要和困难。要准确还原用户的行为(也即场景),首先我们需建立在不同“碎片化”环境下给同一用户打上统一标签的能力,这在移动互联环境中尤其重要(虽然难度愈发提高,因为客户的场景实际上在不断地切换),能够识别用户身份的数据,我们有多少存多少;其次,需要学会多维信息交叉,从更加全面的角度切入,充分利用外部力量(例如新浪微博、腾讯QQ和微信的开放平台),关联出客户唯一标识。作者在书中举了一个很有趣的例子,深刻地剖析了”场景“的重要性:在阿里巴巴内部,通过模型识别的用户性别不是两个,而是18个,很多用户白天的行为是男性,晚上则成为女性(可能是他妻子在使用他的淘宝账号在购买东西),因此,在阿里内部,描述一个用户性别可能是这样的:30%男70%女,80%男20%女,这就是强调场景跳出常规认识的佐证,是活用数据的表现。

(三)大数据的力量来自于触类旁通的关联,千万不要孤立地看待一个数据。罗辑思维有期节目叫《致终将逝去的隐私》,里面讲到了一个非常好的观念:大数据原来不在于它的大,而大于它的全......,对一现象进行分析,我们需要通过多维的交叉复现来验证。前述数据噪音数据需要通过多维信息来校正、删除。以关联的形式去看数据,一来可以发现一些原来隐藏得很深的关联(当然是去掉无关的噪音后),二来会让你能够动态地看一个问题,看到各种表象的动态联动关系,从而可以做出更加合理、准确的预测。这里有一个让我感觉印象很深刻的案例,阿里内部在给客户打标签时,对某一标签的管理是动态关联的而不是静态的(根据作者的理念,静态数据等同于死数据),例如某一个用户因购买孕妇装被标记为“孕妇X月”,然后几个月后会动态地改变为”新手妈妈“然后重点推荐对应阶段的奶粉、尿不湿等,过段时间又会标识/增加”幼儿保险目标“然后推荐各种保险产品等。这让我感受到,一个完美的标签系统是动态的,且应该是基于常识和人性的,这样才可以牢牢把握一个客户价值的完整生命周期。

(四)数据内部的断层,必须通过”混”和“通”来解决。在企业的内部,用数据的人和做数据的人通常会对数据缺乏统一的认识:做数据的人以为自己只要将数据做出来就可以,他们并不知道这些数据能发挥什么样的作用或者可以为组织带来什么样的收益;用数据的人通常不知道数据来源的逻辑,使得数据产生错误的使用或导致错误的决策。在企业内部,由于数据人员和业务、运营、客服、销售等部门在数据化运营的不一致性,通常导致了数据在业务和数据部门的断层,使得数据并不能为企业的实际运营带来增益。对此,作者结合阿里数据化运营的“混”“通”“晒”方法论,即所谓的内三把斧。“混”就是业务线和数据线人需要时刻“混”在一起,各自都要对对方的业务十分熟悉。“通”则强调数据在企业上下层和部门间的流通。“晒”则是数据的展现问题。这些内容本书中都有详细说明,这里借用另外一本书——《数据挖掘和数据化运营》里的一句话(车品觉为这本书作序),我觉得很好地阐释了数据分析师在面对业务线条时的工作职责问题:当企业实现真正的数据化运营......企业数据挖掘团队也不再仅仅局限于单纯的数据挖掘和项目管理工作,而是肩负在企业全员推广普及数据意识、数据运用技巧的责任,这种责任对于企业而言比单纯的一两个数据挖掘项目更有价值,更能体现一个数据挖掘团队或者一个数据挖掘职业人员的水准、眼界及胸怀。

(五)把大数据做小。所有数据分析过程应该针对一些很具体的问题的,为太宽泛的目标收集数据,得到的结果要么无法满足需求方的要求,要么就对决策毫无做用。在我们面对一个问题时,首先我们应该将一个大问题划分成系列的小问题,且假设这些小问题都是可以通过获取数据来解决掉的。解决小问题时,我们需要建立起对应这个问题的”框架“。这个框架,就是解决某一小问题后能够进行决策的逻辑体系。”很多人在没有获取足够数据,并且缺乏对数据理解情况下做出决策,其实是在“享受”自己的无知”。

此外,书中还讲解了许多作者对于自我大数据管理、分析师自我修养之类的话题(就是那个李小龙截拳道思想)。作为一个数据分析师,当我们面临一项任务时,有时候挑战真的不是上级领导、任务难度、数据质量、数据容量等带来的,反而更多地来自我们自身,我们的态度,我们的自信、我们的技巧等。作者在书中的最后一句话,让我这个做了数据分析师多年的人感受深刻:很多时候,决斗对象不是他人,而是自己。

最后PS一句:这本书的所有版税收益作者都捐做慈善。

展开全文
有用 0 无用 0

您对该书评有什么想说的?

发 表

推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读