驾驭大数据如何成为优秀的分析专家_驾驭大数据如何成为优秀的分析专家试读-查字典图书网
查字典图书网
当前位置: 查字典 > 图书网 > 互联网 > 驾驭大数据 > 如何成为优秀的分析专家

驾驭大数据——如何成为优秀的分析专家

本章开始之前,我们先来做个小测验。测验非常简单,不用紧张。现在坐好了,花几分钟时间想一想顶级分析专家的身上有哪些最重要的特质。被我们称为分析专家的这种人,能够成功地驾驭大数据,有能力完成第7章里描述的那些复杂的分析工作。他们是掌握了高超技巧且受过专业训练的分析专家,他们能够建立预测模型,完成预测或者类似的工作,他们并不是只会做复杂电子表格或报表的那类人。列出你认为最重要的3~5 项特质。好了吗?你的清单应当包含你认为最重要的那些特质,完成后请继续往下阅读。 大部分读者的答案都不会完全正确,都会有这样那样的错误。原因是当我们谈到什么是优秀的分析专家最重要的特质时,会根据一些常识来判断,而这些常识即便说不是完全错误的,也是不完整的。本章将对此进行探讨,讨论究竟是哪些特质让优秀的分析专家脱颖而出。首先,我们要清晰地界定分析专家的含义。 8.1 哪些人是分析专家 被冠以分析专家头衔的人会有很多不同的称呼。以往最常见的称呼是分析专家、数据挖掘工程师、预测建模工程师以及统计人员。最近,数据科学家这个称呼比较流行,尤其是指那些使用MapReduce 工具并分析大数据的人。本书将上述所有人全都认为是分析专家。 事实上,上述分析专家虽然头衔多种多样,但是他们技能的相似程度会大于差异程度。这些分析人员的日常工作都是利用数据解决业务问题。不同类型的分析专家所使用的工具或算法可能会有所不同,但优秀的分析专家会根据需求在不同领域之间自由徜徉。如本章所述,优秀的分析专家之所以与众不同,绝不是因为他们使用了不同的工具、算法或数据。 需要特别指出的是,与传统意义的分析专家相比,数据科学家这个新的群体并没有什么特殊之处。就像以往分析专家关心的是找到新颖有效的方法利用数据解决业务问题一样,数据科学家也是如此。事实上,数据科学家喜欢使用不同的工具、编程语言和数据集,这种做法并没有让他们的目标和意图有所不同。他们使用的都是相同的技能,具备相同的竞争力。 唯一阻碍传统意义上的分析专家成为优秀数据科学家的是培训和学习,反之亦如此。有了一定的基础,任何优秀的分析专家学习一门新的语言、一种新的工具,都不会有什么问题。任何优秀的分析专家都会迫不及待地抓住机会,去了解新的数据源以及它们的使用方法。 凡是认为自己是分析专家的人,无论他们被称为数据科学家还是分析专家,都会认同本章的观点。跟这些分析专家进行交流的那些人肯定也会认同这些观点。分析专家能够理解他们彼此之间有很多共同之处,这一点对他们来说非常重要。这些特质和行为正是所有优秀分析专家的特征。 8.2 对分析专家常见的误解 列出分析专家最重要的特征时,大多数人都会加上学历这一点。通常,我们会认为优秀的分析专家应该是学统计学、数学、计算机科学、运筹学或者其他类似的专业。而且,我们经常还会认为他们得有个硕士学位或者博士学位什么的。我们经常关心的另一点是编程经验。我们认为优秀的分析专家应该可以使用多种语言编程进行分析。这种认识背后的逻辑是,普通分析人员所使用的工具,分析专家肯定用得更好。 人们普遍都会选择列出上述这两点,但这是不正确的。优秀的分析专家需要很强的数学和统计学背景知识。正经八百的学位,其实并非必需。在工作中边干边学,或者通过其他方式学习也是可以的。优秀的分析专家需要一定的编程能力,这是因为所有主流的分析工具都要有一定的编程知识才能用好。但是,具备这些编程能力也不能保证百分之百成功。 这就应了数学上的一句话:必要但非充分。要想成为优秀的分析专家,统计、数学、编程这些技能是绝对必要的,但并不充分。除了这些基础知识以外,分析专家还需要掌握更多的技能。具备数学方面的基础知识和编程能力是一个前提条件。虽然这些能力很重要,但它们并不是区分优秀分析专家和普通分析人员的分水岭,它们仅仅是起点而已。 如果招聘经理把注意力过多地放在技能知识以及学术背景上,结果是他们招到的员工也会把精力放到这些支离破碎的事情上面,而非关注全局。公司在招聘分析专家的时候还要在其他层面上设定一些评价标准。毕竟,我们需要的并不是那种“统计极客”,坐在角落里没日没夜地摆弄奇妙算法的人。招聘那些人并不会保证我们获得成功。 我们需要的是能够融入团队的分析专家。他们能够理解亟待解决的业务问题,理解如何才能有效地帮助业务部门解决他们的问题。如果没有这些顶级人才,我们就无法驾驭大数据浪潮。下面,我们将讨论怎样才能找到这些顶级人才。 8.3 每一位优秀的分析专家都是独特的 这些年最让我吃惊的是,我认识的每一位优秀的分析专家都是独特的,或多或少都会打破一些常规。我圈子里的一些人也有着同样的感觉。为什么优秀的分析专家往往会与众不同呢?列举我们认为优秀分析专家通常应该具备的基本特质,从清单上来看,会发现他们多少都会违背这些特质!在开始讨论更重要的特质之前,我们先来讨论为什么有些特质并非像看上去的那么重要。 8.3.1 教育 有一位多年前曾与我共事过的男士,他是我所认识的最优秀的分析专家之一。他的名字叫Bart,Bart 早于我加入当时我在的那家公司,开始我并不了解他的教育背景。我很快注意到,这个人是真的行家。在我还是新人的时候,我会向他请教编程中遇到的问题,他既能帮助我处理统计方面的难题,还能帮助我掌握公司的业务。更重要的是,他甚至可以帮助我了解客户的业务。 过了一段时间,我才发现他“仅有”一个商科学位,还是本科,Bart 根本没有什么高等学位。他仅仅是在商学院的时候学习了一些统计知识,他也没有接受过任何正规的编程训练,编程完全是他自学的。 Bart 在工作中选修了一些课程,并向其他同事学习了工作所需的统计学基础知识。他还读了一些书,Bart 的编程经验完全是靠实战获得的。最终,他变成了我所认识的最优秀的分析专家之一。但是在技术方面,他并没有受到过什么正规的学院派训练或者参加过什么技术培训。他就属于那种能够驾驭大数据的人。不要把注意力过多地放在正规教育背景上面。我们真正要关心的是分析专家是否拥有满足工作需要的实用分析技能。 8.3.2 行业经验 公司和招聘经理往往会非常关心分析专家或者其他人员的行业背景,这很常见。如果分析专家以前从事的是电信业,他们会认定这个人干不了银行业。如果分析专家以前从事的是银行业,他们会认定这人干不了制造业。如果以前是制造业的,他就干不了零售业。 这种看法是不公正的。假如说有两名合格的候选人,一个了解某行业而另一个不了解某行业,我们当然选择了解某行业的人了。但是,我们面临的选择往往不会这么简单。譬如说下面这样的两名候选人,一个是普通的分析专家,他了解本行业的方方面面,另一个是其他行业里卓越的分析专家,但他对目标行业没有任何了解。这时我们一定要选择后者,一名卓越的分析专家不分行业,他能很快地在新的行业里变得非常优秀。而平庸的分析专家很可能还驻留在原地踏步。此外,了解其他行业里的一些观点也是非常有益的。每一个行业都有自己特定的做事风格。优秀的团队可以从来自其他行业的分析专家身上学到很多新的知识。 放眼外部 招聘分析专家的时候,我们要不停地留意行业外部的情况。优秀的分析专家业务上手的速度会非常快。此外,他们还能带来自己行业里的新鲜思想和方法。从竞争对手那里招聘我们想要的人肯定错不了,但我们要给他们足够多的时间让他们能够更好地融入我们的团队。 下面我们来看一个真实的案例,主人公名叫Mark。在这个案例里,对行业的要求几乎是不能妥协的。Mark 以前在银行业干了好多年。我们团队的人力资源非常紧张,我们需要新的人手来做一个零售业的客户。团队里面每个人都认为Mark 是非常非常优秀的分析专家,但以他的银行业背景,他能干好零售业的项目吗? 优秀的分析专家肯定会认同这样的观点,他们是能跨行业工作的。凡是谈到跨行业工作,肯定是要改变自己以往的思维方式,学习新的术语,计算不同的指标,但他们肯定可以搞定。在其他许多行业中,这种论断也是正确的。Mark 有机会在零售业项目中一展拳脚,他愿意投入额外的时间学习零售业的业务知识,也愿意与指定的零售行业专家紧密协作。第一个项目搞定数月后,当Mark 再与其他零售业的客户见面时,客户甚至认为Mark 已经在零售行业干了很多年。这是因为Mark“掌握”了项目背后的业务知识,能够把自己以往在银行业中学习到的概念灵活运用到零售行业里。Mark 非常主动,有创造力,也很聪明,这才是关键所在。 8.3.3 当心“人力资源清单” 几年前,公司HR 找到我说“我们制定了一些新规矩,你得帮忙更新空缺职位的必备条件和优选条件。从现在开始,任何纸面上写下来的必备条件都是百分百要遵守的绝对必要条件。”换句话说,如果职位描述说候选人要有学士学位,或者统计水平要比较优秀,那我们就不可能面试更不可能招聘不具备这些条件的人员。 考虑再三,我把修改后的清单发给了HR,上面列举了一长串的优先考虑条件。而必备条件只有一项:学士学位,不限行业。要有学士学位的唯一原因是要确保候选人接受过高等教育。坦白地讲,虽然只有一项必备条件,这份清单还是太过苛刻。 HR 打电话给我,“Bill,你是不是搞错了?必备条件咋啥也没写,你是不是漏掉了一些重要的必备条件?”我告诉了他我的想法,我说,“坦白地讲,如果列出我通常认为的必备条件,那团队现有的成员都多少不符合必备条件。如果将某项列成必备条件,就不可能有例外,你说我还敢列出来吗?我不能因为工作描述的限制而冒险错过优秀的候选人。我宁愿写一个模糊的工作描述,这样我才可以找到合适的人选。” 根据知识和技能招聘,而非勾选多选框 招聘行业分析专家,我们可以从列举经验要求和教育背景的详细清单开始。第一轮面试前先准备一些(但非全部)多选框作为选择是合理的。但这种作法并不充分,考核一个优秀的分析专家涉及很多方面,并非只涉及技术因素这么简单。事实上,使优秀的分析专家显得与众不同的更多原因是,我们接下来将要讨论的除了技术因素外的其他因素。 8.4 优秀分析专家身上经常被低估的特质 下面我们讨论优秀分析专家身上最关键的特质。这些特质对其他业务领域也是有价值的,我们这么说并不是要否定它们对于分析的重要性。下述的每种特质都比我们以前讨论过的更重要。维持既有的分析流程会容易一些,如若要寻求新的突破,建立新的分析流程,人才招聘和人才挽留就显得比较重要了。要想成功地驾驭大数据,完成支撑大数据所需要的具有创新性的新业务分析流程,我们需要跨过更高的标杆。 8.4.1 承诺 承诺是普惠每个行业的特质。总会有人愿意挥洒汗水让项目按时交付,使项目获得最终成功。当然也有人不愿意这么卖力地干活。在公司里,我们得弄清楚哪些人靠得住,哪些人靠不住。任何优秀的分析专家都会言出必行。幸运的是,我们在面试过程中通过候选人对自己以前工作和成果的描述,就可以看出这种特质。认真倾听,就能找出可以满足承诺这项要求的候选人。 关于承诺真的不需要讲那么多。我们都知道承诺对于各个领域的重要性,这其中当然也包括分析领域。 8.4.2 创造力 创造力并不是大多数人一想到的分析专家就会想到的特质。大多数人以为分析专家的工作就是处理那些一成不变的统计公式。他们只需要按书本上说的那样做就行了,并不需要创新。事实是这样的吗? 肯定不是。根本原因是我们遇到的每个业务问题都是不同的,而解决各种问题的数据往往都会很复杂且不完整。分析专家必须得想清楚要以怎样一种全新的方式,并利用手头上的数据解决新出现的业务问题,这就需要创造力了。没有哪本书或哪套规则能够说清楚我们要怎样做关于业务问题的大量决策,怎样以正确的方式把事情全部做好。 另外,每次分析专家都会遇到一些不可预见的问题。有时候遇到的只是小问题,有时候会遇到大麻烦。每次遇到“@#%$&*!!!”,分析专家就会意识到碰到大麻烦了。创造力就是解决这类问题的新方法。我们遇到的可能是数据问题,也可能是实际动手分析时才发现自己没有真正理解的业务问题。创造力的存在就是要解决这些困难,并得到最终结果,达成目标。 不要低估分析专家创造力的重要性。创造力在那些自称为分析专家的人身上并不常见。以创造力作为评判标准会筛选掉很多人。如果给你10 个人,有两三个人能满足要求就不错了。有的公司会使用性格测试,有的会让候选人解决随机出现的问题来评判他们是否有创造力。我评判一个人是否有创造力的方法是,让他自己讲在遇到“@#%$&*!!!”这类分析问题时他是怎么做的。有创造力的人讲出来的故事往往很动听,而没有创造力的分析专家只会把自己解决问题的步骤简单地罗列出来。 1. 干净的数据只存在于教科书中 干净的数据真的值得在本节中用单独的一部分讲解吗?我们在这里讲干净的数据是因为,分析专家的数据处理方式必须得有创造性。数据永远不会像我们想的和要求的那样干净,数据永远都会有缺陷、不完整和错误,数据还会违背分析方案中的一些假设条件。 我们在学校上学的时候,都认为数据应该是准确的、干净的、完整的。如果有的数据点不是这样,那我们就会弄清楚原因,然后调整数据。每一个在校生都拥有这个疯狂的想法,教科书的例子反映了他们以后将在商业世界中遇到的情况。但是,商业肯定不是按照教科书的方法在运转。数据永远不可能跟课堂案例一样简单。例如,性别编码除了“M”、“F”、“U”以外,还可能由于某些未知原因而变成“H”。同样,客户也许会在杂货商店购买10 000 000 美元的商品。还有,虽然产品将被卖出,但其产品代码却并不存在。 这些情况会产生严重的问题。换句话说,当数据并不是我们想要的和我们所要求的,我们要怎么办?我们是不是应该忽视那些没有真正发生购买行为的消费者?我们是不是要把“H”变成“U”?产品代码能否被正确识别?弄清楚如何才能最有效地利用分析数据是任何分析工作中最困难的部分,这需要有一定的创造性。如果分析专家发现数据不完整,不能充分地解答我们期待的问题,就应该发挥创造力找到方法让不可能变成可能。在这个过程中,我们可能要弃用其中某部分数据,或者修正一部分数据。我们可以从快速解决问题并取得小小的胜利开始,然后在此基础上不断完善已有的成果。 追求完善,而非完美 解决业务问题时,我们追求的目标应该是不断完善,而非追求完美,理解这一点很重要。如果只要把数据弄得干净一点,就能获得一些工作成果和提升机会,这该有多好。优秀的分析专家关心的是如何完善工作成果,如何从不标准的数据中努力获得他们想要的结果。分析结果本身可能并不完美,但它们足以支撑决策,我们大可以此为基础不断地改进策略,这样就已经很好了。 会员卡分析就是这样一个领域,它的数据永远也会不完美。即使是最忠实的客户也不会记得每次都使用他们的会员卡,这就意味着每位客户的“整体”消费状况都是不完整的。然而,事情还可以补救。真正优质的客户大部分时间还是记得使用他们的会员卡的。对于理解客户消费,这些数据已经够用。事实上,缺少一些数据并不意味着分析就做不了。当然,有的客户可能会因为信息不完整而被略微低估,但我们根据这些数据其实已经足以做出决策了。优秀的分析专家肯定明白这一点。 2. 足够干净的数据 优秀的分析专家都会关心的一个重要问题是,无论数据有多脏,或者多大程度上违背了假设条件,数据是否还足够干净。依靠这些数据我们能得到让人信服的结果吗?我们能通过这些尚可信赖的数据,得到可以使我们真正有所收益的结果吗?如果答案是肯定的,分析专家们肯定会奋力尝试。数据根本不需要过于完美,只要足以支撑我们进行决策就可以了。优秀的分析专家善于创造性地找到验证数据是否干净的方法。 作为一个广泛使用但错误很多的数据源,家庭人口统计已经有数十年历史了。一般来说,人口统计数据供应商都能获得准确的统计信息。但是,我们还是要假设在数据编辑过程中,会遇到家庭数据不准确的情况,但它们并不会妨碍数据的有效性。即使有些家庭的数据有问题,分析所得的粗粒度的模式和发展趋势也是可信的。即使数据不完美,使用这些数据对营销人员来说也是非常有用的。总是有创造性的办法来解决这些已经存在的偏差和问题。如果仅仅是因为数据错误而忽略数据,那许多有价值的分析都会不复存在。 优秀的分析专家会在企业环境中想方设法地让内部数据源产生商业价值。这取决于我们如何看待这件事情,我们可以认为瓶子里面装了半瓶水,也可以觉得瓶子里面空了半瓶水。正如第1 章所述,这种观点对处理大数据也是适用的。大数据往往不够干净,经常会包含需要过滤掉的冗余信息。 8.4.3 商业头脑 优秀的分析专家既能理解他们使用的业务模型,也能理解如何才能有效地使用分析手段解决实际的业务问题。优秀的分析专家既能从业务角度看待重要的业务指标并分析产出,也能从技术角度看待这些指标,他们会花时间努力达到这样的认识高度。不管我们的商业头脑怎么样,我们都得有兴趣,并投入足够的关注和精力才能把分析工作做好。如果我们对理解业务本身根本没有任何兴趣和意愿,我们就不可能变成优秀的分析专家。 请注意,商业头脑和行业经验指的并不是同一件事。行业经验只是一组事实和知识的集合,商业头脑是一组软技能的集合。如果某个分析专家很有商业头脑,那么他在转行的时候一般不会有什么问题。就像前面Mark 那样优秀的分析专家,他们可以把他们的商业头脑运用在其他场合和问题上。我们在面试分析专家的时候,要问清楚他们在以往的项目中是如何进行决策的。如果候选人有商业头脑,他们就会提到自己的一些真实的业务和技术思考。你们之间的讨论肯定会或多或少涉及对解决业务问题方面的考虑。没有商业头脑的分析专家会把精力主要放在技术需求和条件假设上面。 奇异的混合体 优秀的分析专家都是奇异的混合体。在工作中,他们有时会像IT 人员那样做纯技术性的工作,而有时会像真正的商人那样动用商业头脑。跨界思考问题很困难,这也就是为什么成为一个优秀的分析专家会如此困难。 1.适当的粒度 我们所说的商业头脑,其中一方面内容指的是怎样把分析结果和决策粒度联系起来。什么意思呢?比方说,现在有一位商人要求一名分析专家来提升某次市场营销活动的效果,他规定只要构造出来的模型比目前的方法好2 个百分点,就算成功。这就是给分析专家设定的要跨越的标杆。他们要对自己有信心,相信自己的方法的效果至少要比当前的方法好2 个百分点。 他们会在演示结果时说自己的模型比基准效果好5.325 26 个百分点吗?应该不会。如果误差范围是加减2 个百分点他们肯定不会这么说。如果误差范围是加减2 个百分点,还有谁会在乎点估计是5.325 26 ?这个时候百分位纯粹就是干扰位。我们要表达的关键点是,加减2 个百分点,结果会在5 个百分点上再提升一点;最坏情况也是3 个百分点,这样模型才能肯定比2 个百分点的基准效果要好。这就是所有商业人士关心的内容。优秀的分析专家不会让业务团队被更多的细节困扰,他们会采取能够让数据增值的作法。他们会用自己的商业头脑来判断需要提供哪些内容,以及如何定位分析结果。 另一个例子与需求预测有关。几年前,一家厂商曾宣称它的需求预测结果比竞争对手准确得多。这家厂商表示在一般情况下,使用者手头只需要额外预备3 个单位,而竞争对手推荐需要预备4 个单位。项目投资人听到这个当然很高兴,但问了一个问题后,他们就不再那么兴奋了。投资人问的是,他们的最小采购单位是6,现在该怎样来判断两家厂商预测的有效性呢?最小采购单位是6,任何粒度更细的措施都是徒劳的。如果分析专家有很好的商业头脑,并以正确的方式解决问题,就会提前把这些约束条件识别出来作为前期的铺垫。 3. 关注重要的事情 实际数据往往会违背前期的假设条件。例如,很多模型都会假设分布是正态的。从理论出发,我们要考虑这些假设条件会在何时被破坏。但从实际出发,如果两个变量之间有很强的作用关系,不管使用何种方法,这种作用关系都会以某种形式显现出来。这是不是说明在先前的假设被严重违背时,虽然我们选择的建模方法不同,但参数估计和影响预测却仍然是相同的?当然不是。但这并不意味着即使违背了先前的假设条件,并使用了不同的方法,起重要作用的因素就会被发现其重要性。如果粒度本身不需要过细,那粗略的作法就很好。 是否存在这种场景,使用线性回归法证明两个变量之间没有任何关系,但使用U 型曲线却可以完美地阐释变量之间的关系,从而违背了原先的线性假设条件?确实存在这种场景。关键在于这不是不可能的,变量关系在多数情况下还是能以某种方式识别出来的。如果分析项目的甲方要的是二值决策,数据和模型只需要能准确地给出这种二值决策就可以了。优秀的分析专家知道何时要按照需求上调或者下调结果的精度。图8-1 就是这样的一个例子,图中有些数据很明显违背了线性关系的假设条件。但是,如果我们需要的是理解两个变量之间共同变化的趋势,那回归直线就能有效地反映出这种关系的本质。 如何成为优秀的分析专家1

展开全文

推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读

《驾驭大数据》其他试读目录

• 典型大数据源及其价值
• 如何成为优秀的分析专家 [当前]