有趣的统计1.1 不可不知的秘密_有趣的统计1.1 不可不知的秘密试读-查字典图书网
查字典图书网
当前位置: 查字典 > 图书网 > 数学 > 有趣的统计 > 1.1 不可不知的秘密

有趣的统计——1.1 不可不知的秘密

统计学家用来探索世界、回答问题和解决难题的工具其实并不多,关键在于他们利用概率或者正态分布知识的方法,让他们能在千变万化的情境中解决问题。本章将为你介绍这些基本的Hack。 将已知的分布信息表述成概率[Hack #1],这是统计黑客常用的基本技艺,与之类似的还有用小样本数据来准确描述数量较大总体中个体的分值[Hack #2]。懂得计算概率[Hack #3]的基本规则很重要。此外,如果你想基于统计作决策[Hack #4和Hack #8],必须通晓显著性检验。 使估计中的错误[Hack #5]和得分中的错误[Hack #6]最小化,正确地解释数据[Hack #7],是在不同情境下做到事半功倍的核心策略。成功的统计黑客能够轻而易举地识别出任何有组织观测的结果或实验操作的真正含义[Hack #9和Hack #10]。 弄懂这些核心工具的用法,学习和掌握后面的Hack将变得轻而易举。 1.1 不可不知的秘密 统计学家怎么让自己看起来比其他人聪明? 统计学作为一种科学方法,主要目的是对分数样本做概率解释。在深入学习前,需要简单了解一些术语,以便理解这个Hack,也为理解其他Hack打下基础。 样本是你目前收集到,就摆在你眼前的数值,用来表示既不在你眼前也没收集到的更大的数值总体。因为这些值几乎总是用来表示某一特征的存在或程度的数字,所以测量界把这些值称为分数。概率解释是对某件事情发生的可能性的解释。 概率是统计学的核心和灵魂。实际上,对统计学家的一种普遍看法就是,他们主要计算某些备受关注的事情(比如中彩票或是被雷击)发生的精确可能性。经验告诉我们,有办法计算骰子游戏结果可能性的人,同样有办法用为数不多的汇总统计数据来描述一大群人。 所以,通常统计学的教学中至少会花点时间来讲述概率的原理:计算不同组合的出现概率或者各种可能结果排列的方法。但是,统计学中更为常见的是描述性统计或是推断性统计,前者用以描述分数群组,后者仅用样本中包含的少量信息对分数总体进行估计。在社会科学中,“分数”常被用来描述人或是发生在人身上的事件。 当然,研究人员和测量人员(现实生活中最有可能使用统计的人)不局限于计算某种组合和排列的可能性。他们根本不需要计算连续3次扔一对骰子得到7的概率,他们能够运用不同的统计程序来回答复杂程度不同的问题。 如果你刚刚拿起骰子,那么这个概率是0.005 或是1%的1/2。如果你已经扔到了两个7,就有16.6%的概率扔到第三个7。 1.1.1 秘密 概率对统计学家的工作如此重要,关键原因是他们喜欢对实际或理论分布的分数进行概率解释。 分数的分布会列出一系列不同的值,有些情况下,还会给出每个值的数量。 比如,假设你知道刚刚参加的一次测验中,分数分布是25%的人得到10分,那我可能会说,我不需要认识你,也不需要了解与你有关的任何情况,就能知道你有25%的可能性得到10分。我同样可以说,你有75%的几率不得10分。我所做的只是获得关于某些值分布的已知信息,将其表述成概率。这是一种技巧,是所有统计学家都知道的秘密。实际上,这几乎是统计学家们所做的一切! 统计学家获取关于某些值分布的已知信息并将其表述成概率。我们有必要再次强调这句话(严格来说,这是第三遍):统计学家获取关于值分布的已知信息并将其表述成概率。 天啊!这我们都能做到!这有何难?假设有一个空咖啡罐,里面有三个弹珠。再假设你知道其中只有一个弹珠是蓝色的。现在分布信息包含三个值:一个蓝色弹珠还有另外两个其他颜色的弹珠,这三个值构成了一个样本。三个弹珠里有一个是蓝色。噢,统计学家,闭上你的眼睛,请问我首次取出蓝色弹珠的几率是多少?1/3。33%。 说句公道话,统计学家最常用的值及其分布通常比刚才那个从咖啡罐里取弹珠的场景稍微复杂或抽象一些,所以统计学家的工作看起来不是那么浅显易懂。比如,应用社会科学领域的研究人员总是用“值”来表示不同群体平均分之间的差异,或者两个或两个以上分数集的关系度量。其内在过程和刚才所举的咖啡罐的例子并无不同,不过是参考已知的值分布信息,做出对值的概率解释。 当然,关键是怎样才能知道这些奇特的、让统计学家感兴趣的值的分布?怎样才能了解平均差的分布或两组变量间关系程度的分布?方便的是,研究人员和数学家前辈已经发明或发现了多种公式和定理、经验法则、思想体系和假说,让我们了解到研究者最常用到的复杂值的分布情况。这些工作前人已经为我们做好了。 1.1.2 不太光彩的小秘密 统计学家获得分数分布的已知信息、将其表述为概率的方法中,多数必须满足一些前提,才能够确保概率解释的准确。其中一个几乎永恒不变的必要前提就是:样本值必须从分布中随机抽取。 请注意,在叙述咖啡罐的例子时,我插了一句“闭上你的眼睛”。如果抽样过程不是随机的,而是被其他一些因素所引导,那么得出的相应概率就错了;最糟糕的是,我们无法了解错误的程度。现今,也许绝大部分应用心理学和教育学研究都不是随机采样的。 比如,选修《心理学导论》课程的大学生,构成了很多心理学研究的样本。由于贪图便利,教育研究人员常用自家附近的小学生充作样本。这是社会科学研究者常常容忍、忽略或担心的一个问题,但不管怎样,非随机抽样是很多社会科学研究中存在的一个局限。

展开全文

推荐文章

猜你喜欢

附近的人在看

推荐阅读

拓展阅读

《有趣的统计》其他试读目录

• 1.1 不可不知的秘密 [当前]
• 1.2 仅用两个数字描述世界
• 1.3 计算概率
• 1.4 否定虚无假设
• 1.5 增加样本量以减少误差
• 无
• 1.6 精确测量
• 1.7 提高测量尺度
• 1.8 提高检验力
• 1.9 展示因果
• 1.10 敏锐识别效应值