本书介绍的大部分统计解决方案和工具之所以行之有效,只因为你能通过样本对总体进行精确推断。获得以上推断技巧需要用到的元工具、主要指导方针和所有秘密之最就是中心极限定理。 每当你试图描述一组分数时,统计学都能为你提供解决方案。有时你想描述的整组分数全都摆在眼前,这时完成该任务的方法称作描述性统计。更常见的情形是,你只能看到欲描述的一组分数中的一部分,但仍想描述整个组。这种概括性方法称作推断性统计。在推断性统计中,你想要推断的整个分数群组叫做总体,其中能看到的那一部分叫做样本。 从定义上看,不经直接观察就能有把握地描述由多个值构成的总体,想来颇似一种奇妙的把戏。然而,你只消运用三条信息——两个样本值和一个总体分数分布形态的假设,便可自信而准确地描述那不可见的总体,其结果准得令人称奇。这样一套推断程序就是所谓的中心极限定理。 1.2.1 统计学基础一点通 推断性统计用两个值来描述总体:平均数和标准差。 1. 平均数 若要描述值的样本,报告一组分数的合理概要比展示每个分数更高效。这个数值应该能够代表群组中所有分数以及它们的共性。因此,这个数值被视为一组分数的趋中趋势。 由于种种原因,通常情况下对趋中趋势的最佳度量是平均数[Hack #21]。平均数是所有分数的算术平均,即把群组中所有值相加求和并除以群组中值的数量。相比其他趋中度量(比如中位数、众数等),平均数可以提供关于群组分数的更多信息。 实际上,从数学上看,平均数具有一个有趣的属性。其计算方式(所有分数相加并除以分数的数量)所导致的副效应就是产生了一个和其他所有分数尽可能接近的数字。这个平均数会和群组中的一些分数比较接近,和另一些分数距离较远。但是如果你将这些距离相加,得到的总数是最小的。其他任何数字,无论是真实的还是想象的,与群组中各个分数的距离总和都不会比它更小。 2. 标准差 仅仅知道某一分布的平均值还不够,我们还需要知道有关分数变异性的信息。是多数接近平均数还是多数远离平均数?两个非常不同的分布可能有着相同的平均数,但变异度却大为不同。最常用的变异度量概括了每个分数和平均数的距离。 像平均数一样,承载更多信息的变异度量能用到分布内的所有数值。标准差就是这样一种变异度量。标准差是每个分数和平均数的平均距离。它统计某一分布中所有的距离并算出平均值:这里的“距离”是每个分数和平均数的距离。 另一个经常用于概括分布变异性的值是方差。方差是标准差的平方,在描述单一分布时并不是特别有用,但对比较不同分布的差异性很有帮助。方差常用作统计运算值,比如独立t检验[Hack #17]。 标准差公式看起来复杂得超出必要,但求和距离(当平均数被当做分割点时,负向距离总会抵消正向距离)在数学上的确有些复杂。故而有以下的方程式: 其中Σ表示求和。x表示每个分数,n表示分数的数量。 1.2.2 中心极限定理 中心极限定理非常简单,但非常强大。该定理表述如下: 如果你从总体中随机抽取多个样本,那么每一样本的平均数趋于正态分布。 由此定理衍生出一系列的数学规则,用以准确估计上述虚构的样本平均数分布的描述值。 这些平均数的平均数(念起来真拗口)等于总体的平均数。凭借单样本的平均数,可对平均数的平均数做出很好的估计。 这些平均数的标准差等于样本标准差除以样本量的平方根(以字母n表示): 样本集合内的样本数量越大,这些数学规则产生的结果越准确,分布也更接近于正态曲线。 当样本数为30或30以上时,应用中心极限定理似乎足以得出准确结果。 1.2.3 那又如何 好吧,中心极限定理看起来有那么一点儿智力趣味性,并且毫无疑问能让统计学家们兴奋不已,但那又意味着什么呢?怎样才能用它来做点酷酷的事? 正如1.1节[Hack #1]中讨论的,这个所有统计学家都知道的有效秘诀是:获取一些值分布的已知信息,并将其表述为概率解释。当然,关键是怎样才能知道引起统计学家兴趣的不同类型值的分布?又该如何得知平均差异的分布或是两组变量关系大小的分布?答案是:中心极限定理。 比如,为了估计任何两个群组在某个变量上出现一定差异的概率,我们需要知道样本对应的总体平均数的分布。而当总体平均数不可见,甚至只是理论存在时,如何能够了解分布的状态?小伙子,答案就是中心极限定理!当样本可能从无限可能相关性的总体中抽取时,如何能够知道相关性(衡量两个变量间相关强度的指标)的分布?听说过中心极限定理吗,老兄? 既已知道正态曲线上值的比例[Hack #23],中心极限定理又告诉我们这些概括性的值为正态分布,因此我能对每个统计结果标出概率。我能在我的结论和决策中用这些概率表示统计显著性水平(置信水平)。如果没有中心极限定理,我几乎无法做出任何关于统计显著性的解释。那将是何等乏味而悲哀的生活。 1.2.4 中心极限定理的实际应用 该定理在实际应用中,只需从总体中随机抽取几个样本值。例如,假设我手下新增了8个童子军。我的职责是教会他们打绳结。我猜在我指导过的童子军学员当中,这一批孩子并不是最聪明的。 在开口要求增加学费之前,我想要判断他们是否真的有点笨。我想知道他们的智商。我知道童子军的总体平均智商是100,但我注意到这8个童子军学员里没有一个智商超过100的。按理说,总该有个别超出这一水平的。这一组人是从平均总体里刻意选出的吗?也许,只是我的样本有点不同,并不代表所有童子军?如果使用中心极限定理的统计方法,就会提问道: 这个样本所代表的总体平均IQ可能是100吗? 如果我想知道我这组童子军是从什么样的整体中抽出来的,可以使用中心极限定理相当准确地估计总体的平均IQ和总体的标准差。我同样可以计算出样本平均IQ和总体平均IQ有多大差异。 我需要从手下的童子军那里获得一些数据以便进行以上计算。表1-1提供了一些不错的信息。 表1-1:童子军聪明程度 童子军 IQ 吉米 100 佩里 95 克拉克 90 莱克斯 92 尼尔 85 比利 88 格雷格 93 约翰 91 这8个IQ分数样本的描述性统计是: 平均IQ=91.75 标准差=4.53 于是我知道在我的样本组中,大部分个体的IQ分数在91.75的 左右。不过,我更感兴趣的是他们所来自的那个未知的总体。利用中心极限定理我能够估计这一总体的平均数、标准差,更重要的是,能估计样本平均数在多大程度上偏离总体平均数。 平均IQ 我们的样本平均数可作为最好的估量依据,所以总体平均数很可能接近91.75。 总体中IQ分数的标准差 计算样本标准差的公式是专为估计总体标准差而设计的,所以推测总体标准差是4.53。 平均数的标准差 这才是真正关注的值。我们知道样本的平均数小于100,但那可能是偶然的吗?当从总体中随机抽取这含有8个数的样本时,样本的平均数会在多大程度上偏离总体平均数?这里要用到之前提过的方程式。输入样本值计算平均数的标准差,这通常称为平均数的标准误差: 由于中心极限定理,我们现在知道,8个童子军中大多数样本的平均数是在总体平均数±1.6个IQ点的范围内。所以,这个平均数为91.75的样本不太可能是从平均数为100的总体中抽取出来的。总体平均数为93或者94,但不是100。 因为我们知道这些平均数是正态分布的,所以可以利用关于正态分布形态的知识[Hack #23]来生成一个精确的概率,即从平均数为100的总体中抽取出平均数为91.75的样本的概率。这种情况发生的概率低于1/100 000。看来我手下这批学习打绳结的孩子要比普通人难教一些。我也许可以多收一点学费。 1.2.5 其他生效领域 中心极限定理的一个模糊版本指出: 受很多随机作用和无关事件影响的数据最终呈正态分布。 因为这几乎适用于我们度量的所有事物,所以可以应用正态分布特征对多数可见和不可见概念做概率解释。 至此,我们还没有说到中心极限定理最厉害一条的推论:无论总体分布形态如何,从总体中随机抽取的平均数均呈正态分布。好好想想。即便你从中抽取样本的总体不是正态分布的,甚至走到了正态的反面(就像我的叔叔弗兰克那样),样本的平均数仍会是正态分布。 这是自然界相当了不起和便利的特征。不管我描述的总体是正态还是非正态、在地球上还是在火星上,这一要诀始终有效。