测试需要综合诸多要素得出分数,经典的测试理论针对其中每一个要素提供了很好的分析。该理论的一个有用结果就是能对测试分数的精确程度进行估计和报告。 一个良好的教育或心理学测试产生的分数是有效度的和可信的。效度(validity)是测试分数能在多大程度上体现你希望测量的特征,以及对测量意图的有用程度。为了证明效度,你必须提供证据和理论来支持测试分数的解释是正确的。 信度(reliability)是对同一个人多次重复测量得到相同测试分数的一致性程度。要证明信度,就是要收集重复测量的数据并用统计学方法加以分析。 1.6.1 经典测试理论 经典测试理论,或者说信度理论,研究测试分数的概念。想想你某次参加测验的观测分数(你得到的分数)。按经典测试理论的定义,这个分数由两部分构成,用下列理论方程式表示: 观测分数=真分数+误差分数 这个方程式包含以下几个要素。 观测分数 你在测验中取得的实际分数。这通常等于正确回答的项目数,或者更通俗地说,测试中获得的点数。 真分数 真分数指你本该得到的分数。虽然这不是你应得的分数,或者说,这不是最有效的分数。真分数被定义为你无数次参加同一个测试,所得到的平均分数。注意,这个定义意味着真分数只是代表平均表现,或许能反映测试设计测量的特质,或许不能反映测试设计测量的特质。换句话说,一场测试也许会产生真分数,但未产生有效的分数。 误差分数 指你的观测分数和真分数的差距。 依据本理论,我们假定任何测试的分数表现都容易出现随机误差。你可能在自己实际上不知道答案的情况下,在社会学研究测验中猜对一道题。在这种情况下,是随机误差帮了你。 请注意,尽管这提高了你的分数,但依然是一个测量“误差”。 你也许在做早饭的时候遇到了一枚臭鸡蛋,结果心情不好,在应聘笔试时甚至根本没注意到最后那组题。这里,就是随机误差伤害了你。这些误差被认为是随机的,因为它们不是系统的,它们也和希望测量的特质无关。这些误差之所以被认为是误差是因为它们改变了你的分数,使之距真分数更远了。 如果进行多次测量,这些随机误差有时会提高你的分数,有时会降低你的分数,但是,纵观整个测试,误差的出现率应该比较平均。根据经典测试理论,信度[Hack #31]是测试分数随机波动的程度。代表信度的数字通常是通过观察测试中项目间的相关性来计算。这个指数范围分布在0.0和1.0之间,1.0表示一组没有任何随机误差的分数。指数越接近1.0,分数随机波动的程度越小。 1.6.2 标准误差的测量 尽管随机误差应该在多次测试情境下彼此消长达到平衡,但不完美信度依旧受到关注,因为决策几乎总是基于单次测试所得到的分数。比如在SAT考试中,如果你旁座的考生洒了古龙香水使你注意力不集中,结果考砸了,这种情况下,知道从长远来看自己的考试成绩会反映你的真分数也毫无意义。 测量学专家已经发明出了一套公式,用来计算你的真实分数水平落入的区间范围。这个公式利用了一个叫做“测量标准误差”的值。在一个测试分数总体中,测量的标准误差是每个人的观测分数与其真分数之间的平均距离。测量标准误差是利用测试的信度信息和群组观测分数的变异量(用标准差来反映)信息来估计的[Hack #2]。 计算测量标准误差的公式是: 以下的例子说明了如何应用这一公式。许多研究生院根据GRE测验的分数制定录取决策。GRE中的文字推理(Verbal Reasoning)的分数范围是200分到800分,平均值为500分(实际上,近年来的平均分比这个要低一点),标准差是100。 GRE测试分数的估测信度通常在0.92左右,这个值是相当高的。如果你参加GRE测验,得到了520分,那么恭喜你啦,高于平均分。520分是你的观测分数,但你的成绩容易受到随机误差影响。520分有多接近你的真分数呢?使用标准误差测量公式,可以计算如下: (1) 10.92=0.08 (2) 0.08的平方根是0.28 (3) 100×0.28=28 GRE测验的标准误差约为28分,所以你的本次成绩520分很可能处于多次测验所得平均分上下28分的区间内。 1.6.3 建立置信区间 观测分数很可能在真分数的一个测量标准误差范围内,这是什么意思?如果有68%的几率,观测分数在真分数的一个测量标准差内,那么这是测量统计学家所接受的。然而应用统计学家喜欢超过68%,他们更愿描述为有95%的可能性包含真分数的观测分数区间。 想要说有95%的把握分数区间包含了个体的真分数,那么报告的分数区间应该是由加减大约两个测量标准误差构成。图表1-1显示了GRE的520的置信区间。 图1-1:GRE得分为520分的置信区间 1.6.4 生效原理 使用测量标准误差构建置信区间的方法是基于如下假设:误差(或误差分数)是随机的且这些随机误差呈正态分布。这里展示的正态曲线[Hack #25]就跟全世界凡有人类的地方所展示的一样。它的形状被大家所熟知并已被精确定义好了。有了精确性,就能够计算精确的置信区间。 测量标准误差是一个标准差。在这种情况下,它是误差分数距真分数的标准差。在正态曲线下,68%的值都在平均数的一个标准差之内,95%的分数都大约在两个标准差内(更准确地说,是1.96个标准差)。就是这套广为人知的概率使得测量人员能够讨论95%或者68%的置信度。 1.6.5 意义讨论 知道测试分数95%的置信区间有什么用呢?如果是你要求学生参考并根据测试分数来做决策,那么你就能判断参考者的能力是否在你所设定的成功标准范围内。 如果你是参考者,那么你就能蛮有把握地知道自己的真分数在某个区间内。这可能会激励你再次参加考试,对自己凭运气可能取得的更好表现有一个合理的预期。如果你这次的GRE分数是520分,那么你就有95%的把握说,假如你马上再考一回,新分数可能会高达576分,当然,也有可能低到464分。