我会中彩票吗?我会在一天内被雷击中又被公交车撞到吗?我所在的棒球队会在NCAA锦标赛中提前遇到令我们头疼的对手吗?统计学的核心要点就是判断事件发生的可能性,并回答诸如此类的问题。计算概率的基本规则令统计学家有能力预测未来。 本书充满了有趣的难题,都可以通过绝妙的统计技巧解决。这些Hack中展示的方法在不同情境中以不同方式运用,同时,这些聪明解决方案中使用的很多程序能够起作用,是因为一个核心的元素:概率定律。 上述定律是一组简单、确定的关键原理,表明概率如何起作用,以及应当如何计算。以下两个基本定律可被视为一套基础入门工具,就像锤子和螺丝刀一样,大概足以解决大多数问题。 加法定律 几个互斥事件中任何一个发生的概率是各个事件发生的概率之和。 相乘定律 一系列独立事件都发生的概率是每个独立事件概率的乘积。 有了这两个工具,就足以回答日常生活中大部分关于“几率是多少”的问题。 1.3.1 关于未来的问题 当一个统计学家说出“1/10的可能性”这类话时,他就是对未来进行了一次预测。这或许是对一系列永远都无法检验的事件所做的假设性陈述,或许是对即将发生的事件不掺半点水分的如实解说。不管是哪种,他都是在对可能的结果进行统计学解释,所有的统计学家所说的话都无非如此[Hack #1]。 如果你能够理解以下表述,那么你就具有了像统计黑客一样行动和思考的必备能力:“如果有10件事情可能要发生,并且这10件事情发生的可能性相等,那么这10件事中任何一件发生的几率是1/10。” 科学研究中充满了可用统计来回答的问题,当然,还有概率定律的运用,但在实验室之外还有很多难题,比愚笨陈旧的科学问题更加重要的问题,比如骰子游戏。假设你是一名业余赌徒,家里的小孩想要双新鞋子。你下次掷出一对骰子的值会决定你的未来。那你也许想知道骰子扔出各种结果的可能性,而且是非常准确地知道这种可能性! 只凭这两件概率工具,就能回答你可能问到的三类最重要的概率问题。你提出的问题很可能是以下三种类型之一。 下一步出现某个特定结果的可能性是多少?比如,下面会掷出一个7吗? 下一步出现某组结果的可能性是多少?比如,下面会出现7或11吗? 下一步出现一系列结果的可能性是多少?比如,一对没被动过手脚的骰子真的能够整晚都不出现7吗(我说的是永远都不出现)?我的意思是,那真的可能吗?可能吗?! 概率术语 在谈论概率以及如何计算概率前,我们需要学会如何像统计学家一样说话。记得之前的“1/10的可能性”这句话吗?针对“几率是多少”的问题,共有三种回答方式。 用百分比来表示 1/10可以表述成10%。 用概率来表示 在可能性为1/10的情况下,成功概率就是1比9,即9分输1分赢。 用比例来表示 10%可以表述成0.10。从技术上讲,概率就该以比例来表述,否则就应当改用其他的名称。 1.3.2 特定结果发生的可能性 若你对某件事发生的可能性感兴趣,那么这里的“某件事”可以叫做获胜事件(在游戏情境中),或者只是一个你关注的结果(游戏以外的情境)。概率中的主要原则是用所关注的结果数除以全部结果的总数。全部结果的总数有时用大写的S表示(英文字母Set的首字母,代表集合),各种关注结果都用大写的A表示。(我猜这可能是因为A是字母表里的首字母,我是谁,数学家吗?) 于是有以下的概率基本公式: 计算任何特定结果或事件的几率,就是要算出这些结果的数量,并算出所有可能的结果数量,然后对两者进行比较。如果可能的结果为数很少,或者对获胜结果的描述很简单,仅包含单一事件,那么上述方法大抵很容易操作。 要回答一个典型的扔骰子问题,我们可以通过计算出两枚骰子点数之和等于期望数值的组合数量,来计算下次投掷时出现任何特定值的几率。然后,用那个数除以所有可能结果的总数。两个六面骰子,总共有36种可能的投掷结果。 比如,共有六种方式掷出7(我提前偷看了表1-2),6/36=0.167,所以任意一次投掷中掷出7的几率约为17%。 通过把每个骰子的总面数相乘,能够计算出可能投掷结果的总数:6×6=36。 1.3.3 出现一组结果的可能性 如果你对一组特定结果发生的可能性感兴趣,但并不关心具体发生的是哪一个,那么按照加法定律,可以把所有个体概率相加来计算总概率。为了回答我们的骰子问题,表1-2从“玩骰子行大运”[Hack #43]当中引用了一些信息,以便用比例表示掷出各种结果的几率。 表1-2:独立骰子投掷概率表 骰子投掷得数 结果的数量 概率 2 1 0.028 3 2 0.056 4 3 0.083 5 4 0.111 6 5 0.139 7 6 0.167 8 5 0.139 9 4 0.111 10 3 0.083 11 2 0.056 12 1 0.028 总数 36 1.0 表1-2提供了关于不同结果的信息。比如,有两种不同的方式掷出3 。两个获胜结果除以所有可能的结果总数36,得到0.056这个比例。所以,用两个骰子掷一次,大约有6%的几率掷出3。同时也请注意,所有可能事件的概率之和正好为1.0。 假设我们必须掷出几种结果中的一种,才能在赌局中获胜,那么让我们运用加法定律来查看这种情况下的获胜几率。比方说,只要你掷出了10、11、12中的任意一个就能赢,那么我们将这三个独立的概率相加: 0.083+0.056+0.028=0.167 你将有大约17%的概率掷出10、11或者12中任何一个。此处运用了加法定律,因为你关注于几个独立事件中的任意一件能否发生。 1.3.4 一系列结果发生的可能性 当概率问题变为“是否有若干件事情发生”,又将如何?当你想知道一连串特定事件是否发生时,这个问题总是被问到。事件发生的顺序通常不重要。 我们依然使用表1-2中的数据,以及之前例子中的三个值(10、11、12),就能够计算特定事件序列发生的几率。在给定连掷三次骰子的情况下,你连续掷得10、11、12的概率是多少?基于乘法定律,可将这三个独立概率相乘: 0.083×0.056×0.028=0.00013 这个非常特定的结果不太可能发生,其概率低于1‰ ,或者说1%的1/10。此处用到乘法定律,因为你感兴趣的是几个独立事件是否都会发生。 1.3.5 概率意味着什么 就本节介绍的Hack而言,概率即某事发生的可能性。我已将讨论限定在分析可能结果的背景下,这是思考概率的一个恰当方法。许多哲学家和社会科学家花费很多时间思考各种概念,诸如几率、未来和午饭该吃什么,在他们中间对概率有两种不同的视角。 分析视角。这是认识概率的经典视角,也是数学家和本条Hack所用方法的视角。分析视角识别所有可能的结果并计算获胜结果占所有结果的比例。这一比例就是概率。 我们通过概率解释来预测未来,预测的准确性不太可能被检验。就像天气预报说有60%的几率下雨。如果没下雨,我们就不公平地说天气预报错了,当然我们并没有真正检验过概率解释的准确性。 相对频率视角。在这种与分析视角对立的视角框架下,事件的概率是通过收集数据,观察实际发生了什么及其发生的频率来计算的。如果我们将一对骰子掷上1000次,发现出现10、11或12点的几率是17%,那我们就会说得到这三个值其中一个的几率约是17%。 我们的陈述将是真正关于过去的解释,而不是对将来的预测。也许有人会说过去的事件能够对未来提供很好的参考,但是谁说得准呢?(那些对概率持分析视角的人,他们能够确定。)