CP01
数据分析是指用适当的统计反洗方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用
它是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程
数据分析可以分为:
描述性数据分析
探索性数据分析,侧重于在数据之中发现新的特征
验证性数据分析,侧重于验证已有假设的真伪证明
常见方法:
描述性数据分析:对比分析法、平均分析法、交叉分析法等
探索性数据分析和验证性数据分析属于高级阶段,有相关分析、因子分析、回归分析等
三大作用
现状分析 过去发生什么了
揭示企业现阶段的整体运营情况,并衡量运行状态
揭示业务的构成,了解企业各项业务的发展及变动情况,对企业运营状况有更深入的了解
原因分析 为什么发生
一般通过专题分析来完成,根据企业运营情况选择针对某一现状进行原因分析
预测分析 将来会发生什么
一般通过专题分析来完成,通常在制定企业季度、年度计划时使用
六步曲
明确分析目的和思路
分析前要明确:
为什么要开展数据分析?
通过这次数据分析我要解决什么问题?
确定分析思路
梳理分析思路,搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标
分析体系化
所谓的分析体系化,即逻辑化,先要分析什么、后分析什么,使得各个分析点之间具有逻辑联系
体系化方法
使用相关领域的只是,如营销、管理等理论,结合业务情况,搭建分析框架
数据收集
这是按照确定的数据分析框架,收集相关数据的过程,它为数据提供了素材和依据
数据处理
是指对收集到的数据进行加工整理,形成适合数据分析的样式,它是数据分析前必不可少的阶段
目的是从大量、杂乱无章、难以理解的数据中,抽取并推到出对解决问题有价值、有意义的数据
处理过程:数据清洗、数据转化、数据提取、数据计算等处理方法
将原始数据转换为可以分析的形式,并且保证数据的一致性和有效性
数据分析
用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程
一般是通过软件完成,所以不仅要掌握数据分析方法还要熟悉主流数据分析软件的操作
数据分析与数据挖掘本质是一样的,即从数据里面发现关于业务的只是
数据挖掘是高级分析方法:它根据用户的特定要求,从海量数据中找出所需的信息,以满足用户的特定需求。
数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式与规律
数据展现
将数据通过表格或图形方式来呈现
尽量使用图表而不是表格
报告撰写
通过报告,把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考
首先要有一个好的分析框架,并且图文并茂、层次明晰,让阅读者一目了然
另外要有明确的结论
最后一定要有建议或解决方案
三大误区
分析目的不明确,为分析而分析
缺乏业务知识,分析结果偏离实际
一味追求实用高级分析方法, 热衷研究模型
数据分析师要求
懂业务、懂管理、懂分析、懂工具、懂设计
数据分析师基本素质
态度严谨负责、好奇心强烈、逻辑思维清晰、擅长模仿学习、勇于创新
倍数 一个数除以另一个数所得的商,A/B=C,表示A是B的C倍
番数 原来数量的2的N次方倍,翻两番为4倍(2的2次方)
——————————————————————————————
CP02 结构为王——确定分析思路
数据分析方法论主要用来指导数据分析师进行一次完整的数据分析,它更多的是指数据分析思路
数据分析方法论:主要从宏观角度指导如何进行数据分析
数据分析方法:指具体的分析方法,从微观角度指导如何进行数据分析
只有在营销、管理等方法和理论的指导下,结合业务情况,才能确保数据分析维度的完整性,分析结果的有效性及正确性
数据分析方法论作用:
理顺分析思路,确保数据分析结构体系化
把问题分解成相关联的部分,并显示它们之间的关系
为后续数据分析的开展指引方向
确保分析结果的有效性及正确性
常用数据分析方法论
PEST分析法
5W2H
逻辑树分析法
4P
用户行为理论
是指用户为获取、使用物品或服务所采取的各种行动,用户对产品首先需要有一个认知、熟悉的过程,然后试用,再决定是否继续消费使用,最后成为忠实用户
——————————————————————————————
CP03 无米难为巧妇——数据准备
扎实的数据分析基本功不单是指挥使用数据分析工具,更重要的是对数据有深入认识和解读。
字段是事物或现象的某种特征,在统计学中被称为变量
记录是事物或现象某种特征的具体表现,也被称为数据或变量值
一张数据表的制作,可以侧面反映出制作者的数据沉淀及应用水平
数据表设计是否合理,关系着后期数据分析的效率即深度
具体设计方法需要了解数据透视表功能
——————————————————————————————
CP04 三心二意——数据处理
三心 信心、平常心、细心
二意 合意、诚意
数据处理步骤
1 数据清洗 就是将多余重复的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或删除
2 数据加工 清洗完毕后所得数据不一定使我们需要的数据,所以需要对数据字段进行信息提取、计算、分组、转换等加工,让它变成我们想要的数据表
数据处理就是根据数据分析的目标,将收集到的数据,用适当的处理方法进行整理加工,形成适合数据分析的要求样式,它是数据分析前必不可少的阶段
数据清洗步骤
1 清除掉不必要的重复数据
请熟悉Excel操作方式和函数
2 填充缺失的数据
缺失值是指数据集中某个或某些属性的值是不完全的
原因有
机械原因,由于数据收集或保存失败造成的数据缺失
人为原因,由于人的主观失误、历史局限或有意隐瞒造成的数据缺失
常见表现形式是:空值或错误标识符
查找之后处理方式
1 样本统计量替代,常用样本平均值代替缺失值
2 用一个统计模型计算出来的值趋替代缺失值
3 删除
4 记录保留
3 检测逻辑错误的数据
逻辑错误 可以用if+count函数来解决
条件格式错误
利用OR或AND函数处理
数据加工
经过上述过程,数据字段不能满足我们对数据分析的需求,所以需要对现有字段进行抽取、计算或转换,形成我们分析所需要的一列新数据字段
数据抽取
是指保留原数据表中某些字段的部分信息,足组合成一个新字段
字段分列:截取某一字段的部分信息
使用数据分裂选项
函数法 LEFT和RIGHT函数
字段合并:将某几个字段合并为一个新字段
concatenate函数和&运算符
字段匹配:将原数据表没有但其他数据表中有的字段有效地匹配过来
vlookup函数
数据计算
简单计算
函数计算
average
dateif
数据分组
vlookup
数据转换
行列互换
多选题几种录入方式转换
Hlookup
search
数据抽样
普通抽样 指对总体中的对象一一进行观察、访问与记录,确定资料
抽样调查 从调查对象总体中按照随机原则选取一部分对象作为样本进行调查分析
rand
——————————————————————————————
CP05 工欲善其事必先利其器——数据分析
数据分析不单单指会用数据分析工具,你还必须懂数据分析原理,没有理论的知道,就无法知晓从哪方面入手,要分析哪些关键点
数据分析三大作用
分析作用 基本方法 数据分析方法
现状分析 对比 对比分析、平均分析、综合评价分析
原因分析 细分 分组分析、结构分析、交叉分析、杜邦分析、漏斗图分析
矩阵关联分析、聚类分析
预测分析 预测 回归分析、时间序列、决策树、神经网络…
对比分析
任何事物都是既有共性特征,又有个性特征
只有通过对比才能分辨出事物的性质、变化、发展、与别的事物的异同等个性特征,从而更深刻地认识事物的本质和规律
定义 将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的的事物发展变化情况和规律性
分类 静态比较 在同一时间条件下对不同总体指标的比较,也叫横比
动态比较 在同一总体条件下对不同时期指标数值的比较,也叫纵比
Tips 选取对比对象时需要考虑其是否有对比意义
指标的口径范围、计算方法、计量单位必须一致,即要用同一种单位或标准去衡量
对比的对象要有可比性
对比的指标类型必须一致
分组分析
不仅要对总体的数量特征和数量关系进行分析,还要深入总体的内部进行分组分析
这种方法是根据数据分析对象的特征,按照一定的标志,把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在的联系和规律性
目的是便于对比,把总体中具有不同性质的对象区分开,把性质相同的对象合并在一起,保持各组内对象属性的一致性、组与组之间属性的差异性,一遍进一步运用各种数据分析方法来解构内在的数量关系,因此分组法必须与对比法结合运用
关键在于确定组数与组距
结构分析
是指被分析总体内的各部分与总体之间进行对比的分析方法,即总体内各部分占总体的比例,属于相对指标
平均分析法
运用计算平均数的方法来反映总体在一定时间、地点条件下某一数量特征的一般水平
可用于同一现象在不同地区,不同部门或单位间的对比,还可用于同一现象在不同时间的对比
作用
比总量指标对比更具有说服力,更体现差异程度
更能说明发展趋势和规律
交叉分析
通常用于分析两个变量(字段)之间的关系,即同时将两个有一定联系的变量及其数值交叉排列在一张表格内,使各个变量值成为不同变量的交叉结点,形成交叉表,从而分析交叉表中变量之间的关系
综合评价分析
一系列运用多个指标对多个参评单位进行评价的方法,成为多变量综合评价分析方法
步骤
1 确定综合评价指标体系,即包含哪些指标,是综合评价的基础和依据
2 收集数据,并对不同计量单位的指标数据进行标准化处理
3 确定指标体系中各指标的权重,以保证评价的科学性
4 对经处理后的指标再进行汇总,计算出综合评价之术或综合评价分值
5 根据评价指数或分值对参评单位进行排序,并由此得出结论
特点
1 评价过程不是逐个指标顺次完成的,而是通过一些特殊方法将多个指标的评价同时完成
2 在综合评价过程汇总,一般要根据指标的重要性进行加权处理
3 评价结果不再是具有具体含义的统计指标,而以之术或分值表示参评单位综合状况的排序
数据的标准化是指将数据按比例缩放,使之落入一个小的特定区间
在比较和评价某些指标时,经常会用到数据的标准化,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权
最典型的就是0-1标准化,Z标准化
0-1标准化也叫离差标准化
就是对原始数据做线性表换,使结果落到【0,1】区间
权重确定方法
复杂的有专家访谈法、德尔菲法、层次分析法、主成分分析法、因子分析法、回归分析法
简单的有目标优化矩阵表
杜邦分析
漏斗图分析
适合一个业务比较规范、周期比较长、个流程环节涉及复杂业务过程比较多的管理分析工具
矩阵关联分析法
非常重要的分析方法与工具
是指根据事物的两个重要属性作为分析的依据,进行分类关联分析,找出解决问题的一种分析方法,也称为矩阵关联分析法,简称矩阵分析法
在解决问题和资源分配时,为决策者提供重要参考依据
气泡图
高级数据分析方法
-
你的灯亮着吗?
2017-02-07
问题是什么
面对问题时,最需要防范的就是立即提出解决方案、急着给出解答。应该做的是定义问题,定义的范围诸如:问题属于哪一类?谁有问题?问题是什么?究竟什么是问题?等等。
事实情况是日常中的问题很难有一个唯一的、只有单一结果的、完全清晰的定义,如果没有一定的常识或了解,那么解决办法几乎毫无疑问不是针对这个问题的,最后解决的方案就变成了谁的声音大、谁的口才好,或者谁的资源多的那个人的解决方案了。
好的问题解决者被称为准问题解决者,他们面临的问题就是给别人解决问题,解决开始时需要做的就是在心里意识到自己要从一个问题解决者变成多问题的解决者。不断问:谁有问题?再根据这一问题中涉及到的不同群体提问:你的问题的本质是什么?考虑“谁有问题”时,目的是确定谁是顾客,也就是要知道需要取悦谁,搜集一些有用的线索,才能找到合适的解决方案。
以谁有问题为角度将问题进行划分,可以看到问题所涉及的不同群体,进而会知道每个群体针对该问题时的各自痛点是什么,不同群体面的同一个问题所具有的痛点并不一样。
当问题涉及到自身,或者问题的影响波及到某一方时,该方才会知道要去解决问题,这就是常说的当矛盾的双方开始为另一方感到头疼时,就知道问题找到它的解决办法了。
到此,就要知道什么是问题,确切来说问题就是 你期望的东西 和 你体验的东西之间的差别。根据此定义,在分析问题时,可将问题现象分为两个角度:期望方和体验方,通过两方的对比可以查看问题的路径是怎样的。解决问题大致也就分为:要么改变期望、要么改变体验
-------------------------------------------------------------------
这次的问题是什么?
不要把别人的解决方法作为定义问题的方法,原因有二:
1 别人存在将问题定义错误的情况
2 别人可能将解决方法当成问题。
别人寻求问题解决时,往往是基于自己看待问题的解决方法,这些方法本身不见得是最优的,如果把并非最优的方法当成问题本身,那么不见得会真正解决问题,实际很有可能是真实的问题并不需要去解决这些非最佳的方法,正确的路径在别的地方。这意味着,面对问题,了解对方所提出的问题后,进一步去思考对方为什么这么做,然后自己切身做出第一手调出直面问题,这样可能会看到真实的问题是什么。最终解决问题可能有更短的路径——不要局限于别人提供的已有的解决问题的思路和方向。
如果你解决问题太过神速,别人根本不会相信你真的解决了问题
别把问题的解决方案误当作问题的定义,当这个解决方案是由你提出的时候尤其如此。表面上的解决方法,其实很可能不是最好的解决方法
即使问题已经解决,你也无法确定你的问题定义是正确的
不要仓促下结论,但也不要忽视第一印象。问题很重要,问题的答案一定也很重要,但是这个不对。因为只有当你自欺欺人地想,你已经找到了问题最终的、正确的定义的时候,你才会相信你找到了最终的解决方案。如果这么想,可能就错了,因为从来没有什么东西是最终的解决方案
你永远无法确定已经找到的问题定义是正确的,但是永远不要停下寻找正确定义的脚步
-------------------------------------------------------------------
问题到底是什么?
通过改变“状态”解决一个问题时,常常会制造出一个或几个新的问题,实际上,一次产生少于三个新问题的情况才是罕见,所以每个方案基本都是下一批问题的来源。
问题、解决方案和新问题不断循环出现,构成一个无尽的链条。这样也就推动了事物不断地发展,很多新问题基本都是在无意识情况下产生的,新问题也很难得到确切的预测。
因此,对于问题来说,最困难的部分就是意识到、发现到问题的存在
对于准问题解决者来说,应该记住的是,面对一个问题的解决方案,要想到至少三点潜在的风险或可能引出的新问题,否则,都是对问题没有真正理解到位的表现。
在任何一个问题定义中,都有几百个点有可能被忽略。如果连三个疑点都找不出来,那么你要么是不会思考,要么就是不愿意思考。
生活中很多问题的产生都是事物或方法的设计者与使用者之间信息不对称产生的。所谓的不对称是指,设计者与使用者的出发点不一样,所掌握的信息角度也不一样造成的不协调的匹配。这些不协调都是需要解决的问题。然而,只有当这些不对称对某一方造成极大负担及负面影响时才会爆发出来,使之成为问题。
多数不对称的情况一经发现就很容易解决,但难处就在于不易发掘。其中的原因有几个:
1 人具有极强的适应性。
面对这些不协调时人们会自动自我调整与之相适应,直到无法容忍相关不协调。
2 对第一印象不协调的退化。
在初次接触事物或方案时,人们很容易因为陌生感而注意到种种不协调,但很快就开始适应这些问题,进而忽略不对称的地方。
所以不要仓促下结论,也不要抛弃第一印象
对此可行的做法是:
1 记录第一印象
2 外援求救:尝试向非相关人员解释某个设计或方案,以及问题的定义是怎么看的,这个过程自己本身就会用新的角度看待问题,这样就会发现新的不对称地方
3 聆听反馈:通过向外国人、盲人、儿童等,与相关范围内落差较大的人群沟通,从他们角度来看待各种不对称
每次转换视角,都会发现新的不协调之处
当你沿着定义问题的道路疲惫前行时,过一会儿就要回头看看,确认自己没有走错路。人们会首先把问题放到自己觉得最舒服的语义层面进行表述,这些表述对后续问题的解决会产生很大的影响。所以在解决问题时不断回头看看最初的问题现象,看看自己是否是误入歧途。
注意你所表达的含义:一旦你将一个问题描述成了文字,做些文字游戏,以确保每个人对问题的理解可以统一
-------------------------------------------------------------------
问题该由谁解决
当分析是谁的问题时,会得到很多相关方,但是并不是对所有相关方,问题的重要程度都是一样的,这进而会影响问题是否能得到最后的解决。
这里有几个原则需要注意:
1 当别人可以妥善解决自己的问题时,不要越俎代庖;如果这是别人的问题,就把它当成是别人的问题。这是因为问题相关方对问题了解更深入、感受更真切、也因为在他们自己提出解决方案之后,更愿意参与到执行的过程中去。
2 如果一个人处于解决问题的位置,却并不受问题困扰,那就采取一些行动使他能亲身体验到问题。改变对一个问题的看法,从我们的问题变成我的问题。为了改变局面,试着把责任归到自己身上,哪怕只有一会儿也行
3 一个小小的提醒可能比复杂的解决方案更有效
-------------------------------------------------------------------
问题来自哪里
通过解决问题的根源,了解这一根源诱发问题的原因,我们就可以消灭问题或找到办法减轻问题。确定问题的根源确实重要,但是有几种特殊的问题根源需要注意:
1 将问题的根源具体化。
很多时候,人们常常把问题归结于各种主义、自然规律或者是人的天性,这个时候就无法解决了。因为这些根源看起来很遥远,人们无力解决,不过这样很容易逃避解决问题的责任。
当人们能把问题的根源归结到人的身上,或者鬼节到一件真实的物品、一个真实的行为上的时候,总有机会找到可行的解决办法。所以面对问题是,要防止将问题归结为一些笼统的概念上,而应该仔细去分析问题。
2 反思根源是否是在自己身上。
面对问题时,常常会关注问题所带来的不良影响,进而按照自己的期望来要求问题的解决。然而有时候是自己的一些错误观点或行为导致的问题,自己却无法认识到。
如果确定了问题从何而来,尤其是知道了是自己造成的,那么解决问题就会变得很简单
3 问题来自于问题中间环节
问题的最终根源可能根本不存在,反倒是解决问题的过程、人员或者机构自身也可能成为问题
常见的情况是:
世界上有两种人,一种人做事,另一种人制造出事来让其他人做。原理那些找事让别人做的人,你就能好好过日子了
在这个世界上有两种人,第一种人做事,第二种人享受荣誉。待在第一种人中间——那里的竞争要少得多
如何对付闲着找茬的人:写下“这是一个迷人的想法,让我们讨论一下”,拉长流程,让文件在官僚系统里流浪即可
4 是问题还是谜题?
很多通常称作问题解决的情况其实是解谜题。谜题故意设计得有难度,但也暗示题目背后有一个出题人。你一定知道,如果谜题没有一点不寻常的困难之处,出题人就不会把这道题拿出来了。
对于一个沉浸在问题解决思维模式中的人来说,显而易见的解决方法无异于当头一棒。
所以,面对问题的时候,问问:问题是谁出的?他乡对我做什么?这样就能识别出那些是真正问题,那些只是为了分散精力而提出的没用的谜题罢了。
-------------------------------------------------------------------
你真的想解决问题吗
从最后的情况看,想要真正解决问题的人并不是很多,因为有时一得出解决方案,就发现它根本不受欢迎,问题解决者也许会因此丢到工作。即使真的想得到解决方案,人们可能没有注意到,每个解决方案都伴随着不可避免的额外后果。
解决问题前,应该问问:我真的想找到解决方案吗?
问题是由感觉决定的,绝大多数人会从感觉上认为自己面临问题,当你自己认为自己遇到问题了,就是真的碰到问题了。
感觉问题是一回事,知道问题是什么就又是另一回事了,虽然很多遇到问题的人觉得自己知道问题是什么,不过他们经常是错误的
另外,要知道不管看上去如何,人们很少知道他们想要什么,直到你给了他们想要的东西
解决问题时,总是不会有充足时间把它做好,但是没关系,还会有足够的机会去完善。同样,人们也总是没有足够的时间去思考解决方案是不是他们想要的,然而,他们却永远有足够的时间去为之后悔。
为了防止后悔,面对问题时,不要直接解决问题,这里涉及几个现象:
1 不是在学校解决问题
面对问题,人们常习惯看到貌似是对问题的第一个表述时,就开始尽快解决问题。在教育中,这是可以被理解的,毕竟学校中的问题是要检验大家能否运用相关知识迅速解决问题的能力。但生活中,这种能力仅仅只是问题后续的环节。
2 成就感
蒙眼跳的现象是指没有找到真正问题所在就去尝试解决问题的方法,这会让人有一种极高的成就感。但这样很可能导致错误的结果。
3 习惯化导致无法看到真实的问题
当一种刺激重复出现时,人类对它的反应逐步递减。习惯化使人们能忽略环境中恒定不变的东西,从而简化自己IDE生活。当人们生活的小环境中刚出现什么新事物时,刺激性是非常强的。如果它停留一小段时间,既不制造危险也不创造机遇,就会变成环境或者背景的一部分,最终被完全剔除出去
在人们思考问题的时候,已经习以为常的事物总会被忽略,不纳入考虑范围。只有当解决方案出现、那些习惯了的因素被移除的时候,人们才会感到震惊。
问题解决者也是一个和想象中的世界打交道的艺术家。从很早的时候开始,其实是从最初开始,问题解决者就必须努力看到水,而其他参与者都是无意识地在其中游来游去。当问题最终解决的时候,水也变成了沙。
记住:鱼总是最后一个看到水的
4 道德影响的偏差
面对问题时,人们可能会忽略另一个问题:道德问题,即处于道德原因支持某一个方案,这需要在解决问题前,考虑道德问题,并抛弃掉感性因素。