如何成为一个数据科学家
2013-10-13
本书作者为天睿公司的首席技术官,而天睿公司是美国著名的大数据公司,其不仅在数据存储业务上享有盛誉,在数据的后端分析和挖掘上和SAS公司建立了合作,“库内分析”也是由该公司首先倡导实施的。所以,本书应该是大数据领域中具有实操意义的一本书。
对于书中的“如何成为一个数据科学家”比较感兴趣,相信对于和我一样有志于从事数据研究的同学,本节具有重要意义。一般认为,数据科学家需要拥有数学基础和编码能力,而作者认为以下能力更为重要:
1.创造力:企业面临的问题是多种多样的,不能指望通过常规方法就能得到结果,;同时实际收集到的数据往往是复杂而不完整的,比如性别标识出现了F、M之外的,缺少商品代码等---要从非标准中的数据中获得结果,能够支持决策就可以。(不要因为不完美的数据就对结果有所怀疑,人口普查的结果同样不准,但是反映现状和趋势是没问题的,这和大数据是一致的)
2.商业头脑:数据科学家要对业务感兴趣,对行业有敏感性。书中同时指出,是否行业内的从业经验并无大碍,其他行业的数据分析经验同样可以借鉴到本行业,关键是要有商业头脑。
3.承诺:这是如何向其他相关部门按时交任务的能力。这涉及到项目管理。
4.演讲能力和沟通技巧:如何用大家听得懂的语言解释数据挖掘结果。
5.直觉:没太认真看,高阶技能。
PS:名词解释
MPP:海量并行处理数据库系统,由大量通用微处理器构成的多处理机系统,适合多指令流多数据流处理。通俗的说,就是把海量数据分布到不同的服务器上
Mapreduce:映射-归纳,比如有一个大的任务,分成小的任务在不同的服务器上进行处理,这样就可以处理海量数据了。