评委打分,在社会实践中是经常遇到的,比如组织投票鉴定、人员考核测评、各种竞赛评比等。在形式上,是组成一个评委群体,由各个评委根据评分标准和程序,对测评对象逐一评定,给出相应分数,然后在统计处理的基础上,确定每一测评对象的最终成绩。
影响评分结果有多方面的因素,主要有测评对象的实际情况和应试行为反应,考评环境的影响,考评程序、标准、方法等技术性因素,评委方面的因素。在评分体系规则(如评分项目和要素、标准、程序、方法等)确定之后,影响评分主要是评委的因素。评委的知识能力水平的高低、动机态度是否端正公平、有无心理偏见、身心状态是否疲劳等等,都会十分微妙而顽强地影响着评分结果。概要地说,评委打分主要受自己的能力和动机的影响,也就是“德”和“才”的影响,因此,评委打分有很强的主观性,特别是测评指标本身具有很强的模糊性和主观性更是如此。常常因为评委的不公正性,引起测评对象的不满,也损害了考评的严肃性和权威性。
为了抑制评委打分的消极影响,一般的处理方式是:
1)增加评委的人数,扩大评委群体,用一个民主化的群体结构,形成评分的随机分布,抵消或淡化评分的误差。
2)实行回避原则,测评对象认为评委可能有失公正的,可以按照规定程序,申请回避。
3)确立“独立评委制”,选择具备评委资格、与测评对象无任何可能影响公正评价之关系、不带有个人倾向性的人选担任评委。实行“双盲测验”,评委之间、评委与测评对象之间“背靠背”,如采用通讯评审、空间隔离方式,评分中互不干扰,各自独立评分。
4)限制评分区间,确定评分的上限和下限,规定超过评分区间的评分视为无效,以便限制极大值或极小值对平均数的影响。
5)计算简单算术平均数,对评委群体打出的分数予以统计处理,采取去掉最高分和最低分,然后将剩余分数累加求和,计算平均数,以此为评委群体确定的最终分数,计算公式为:∑Xi/N(式中,∑Xi为去掉最高分和最低分后的全部分数之和,N为去掉最高分和最低分后的剩余评委人数。
6)计算加权平均数,根据客观公正和知情懂行的“德”“才”标准,对评委群体中的不同成员评分乘以不同的权重,突出更加具有公正性、权威性的评委的作用,计算公式为:∑Xi•Pi(式中,Xi为各个评委给出的具体分数,Pi是各个评委的评分权重,权重累加之和为100%)。
但是,需要进一步解决的问题是:如何发现评分结果有较大的偏误,如何发现评委的失职作弊行为?通常的做法是在对考评对象事先有所了解的情况下,根据以往经验和已知事实,发现评分结果有失偏颇的迹象,进一步追查个别评委的不公正问题(如对“明星”的评比)。但是,如果事先对考评对象并不了解(比如用人单位招聘测试新人),就无从发现问题。
笔者考虑:能否运用统计学的基本知识,对评分结果进行多层次、多侧面的考察,从中找出发现问题的几个关键因素。
首先,选择和设计有关统计指标,从评分结果中寻找值得研究的问题。
1. 选择标准差系数考察样本平均数的代表性。标准差是反映一组数据分布的离
散程度的统计指标,以绝对值表示。考虑到多组数据的可比性,采用标准差系数,用相对值表示。标准差系数是标准差与平均数的比值,用百分比表示。标准差系数与样本数据的离散程度成正相关,与样本数据的集中趋势成负相关。也就是说,标准差系数越大,说明样本分布的离散程度越大,平均数反映样本的集中趋势则越不明显。具体来说,当一组评委给两个测评对象的平均分相同时,但是,二者的标准差系数不同,评委对标准差系数大的测评对象的看法差异更大。
运用标准差系数,可以分别从两个角度考查评分结果:
1) 比较每个测评对象的标准差系数。即以全体评委对每一个测评对象给出
的分数为基础,计算每一个测评对象的平均数和标准差,再据以计算标准差系数。这里,每个测评对象的平均数,实际上已经是评委们确定的“最后得分”。如果测评对象A比测评对象B的标准差系数大,说明评委对测评对象A的意见差异更大,即使测评对象A和B的平均分相同,测评对象A的评分问题上存在较大争议,应当慎重考虑,再做研究。比如,测评对象A和B的最后得分(根据评委评分计算的平均数)都是85分,但A的标准差系数为0.3,B的标准差为0.1,说明评委对B的看法比较一致,在对A的看法上有较大的分歧,A就是有争议的测评对象,对A评价应当慎重,需要进一步考察。
2) 比较每个评委打分的标准差系数。即以每个评委对全部测评对象给出的
分数为基础,分别计算每个评委的平均数和标准差,再据以计算标准差系数。这里每个评委的平均数,说明每个评委对全体测评对象的整体水平的评价,标准差,则是每个评委对全体测评对象的整体水平是否整齐接近的评价,而使用标准差系数,就更能准确比较各个评委的评价意见。如果评委C比评委D的标准差系数大,即使两人认为这一批测评对象的整体水平都在80分(平均数),评委C的标准差系数为0.4,评委D的标准差系数为0.2, 说明评委C更加倾向于认为,测评对象的整体水平很不整齐,相互之间的差异更明显。
3) 在上述基础上,可以进一步分别计算上述两种标准差系数的平均值,也
就是测评对象的标准差系数平均值和评委的标准差系数平均值,作为相对衡量标准,进而发现争议较大的测评对象和评分不稳定的评委。比如,高于测评对象的标准差系数平均值的测评对象,评委对其的评价意见有较大分歧;而高于评委的标准差系数平均值的某一评委,他的评分更加不够稳定。
2. 评委的离差绝对值之和
将各个评委对每一测评对象的评分,分别减去该对象的平均分,即得到该评
委对该测评对象的离差,将全部离差的绝对值累加求和,得出该评委的离差绝对值之和,离差绝对值之和的大小反映各个评委对测评对象整体水平的看法,离差绝对值之和与测评对象整体水平成负相关,离差绝对值之和越大,测评对象整体水平越不整齐,内部差异即离散程度则越大。
3. 评委的离差代数和
将各个评委对每一测评对象的评分,分别减去该对象的平均分,即得到该评
委对该测评对象的离差,将全部离差累加求和,即得到该评委的离差代数和,离差代数和没有直接意义,必须与离差绝对值之和结合起来考察,才有实际意义。
4. 离差绝对值之和与离差代数和之比
将每个评委的离差绝对值之和与其离差代数和进行比较,可以计算二者的比
值,简称为“绝代比”。绝代比的比值,有以下几种情况。一种情况是“绝代比”等于1,这是因为每一离差均取正值或负值,其代数和不存在正负抵消现象,正好与离差绝对值之和一致,这种情况只有该评委的评分全部低于或高于平均分时才出现。另一种情况则是“绝代比”的比值很高,也就是说,离差绝对值之和远远大于离差代数和的绝对值,这种情况,往往因为该评委的评分往往远离总体平均分,同时,具体评分由围绕平均分上下波动,因此,离差正负相抵后所得的代数和,其数值较小,两相比较,“绝代比”的数值较大。“绝代比”到底在多大区间内比较合理?是否可以假定“绝代比”越大,其中值得研究的问题或疑点就越多,在实践中尚且有待进一步的研究。
由于离差代数和可以去正值或负值,所以,“绝代比”也有正负之分。取负值的“绝代比”,是该评委对测评对象全体的评价低于全体评委的总体评价(平均分),是比较“苛刻”的评委,反之,取正值的“绝代比”,该评委是比较“宽松”的评委。
其次,从直观的角度,观察和比较评委评分线与总体平均分线的形态及其关
系,进一步研究评委的评分行为规律。将所有测评对象的平均分自高而低排列,形成测评对象的平均分线,各个评委所给出的测评对象的成绩也可排出若干条评分线,将平均分线与各个评委的评分线绘制成直角坐标图,就可以进行相应的直观比较。如果某评委始终按照自己稳定的主观倾向标准打分,即使所给分数始终高于或低于平均分,也能够反映其评分规律。这时,该评委的离差绝对值和等于离差代数和,二者之比值为1。这反映其始终按照自己的主观倾向掌握评分标准,从严评价者,所给的分数,始终低于平均分,宽宏大度者,始终以高于平均分线的水平给分。但是,当评委的给分围绕平均分线起伏波动时,就会形成时而高于时而低于平均分线的评分线。这时,离差绝对值之和将大于离差代数和,二者之间的比值将大于1,甚至比值相当大。比值的大小,取决于评委评分线围绕平均分线的波动幅度。如果进一步计算“绝代比”的平均值,再考查每一个评委的“绝代比”与“绝代比”平均值的大小,凡是“绝代比”大于“绝代比”平均值的评委,应当是重点研究和考察的对象。
从经验角度看,观察评委的评分线与平均分线的关系,实际上有这样几种评
委的评分倾向:
第一,评委的评分线始终低于或高于全体评委打分确定的平均分线,与平均分线呈近似平行的关系。这种评委是一种带有主观色彩的“公正”评委,有一个稳定的主观倾向在理解和掌握评分标准,坚持按从严或偏松的倾向打分,其离差绝对值之和等于离差代数和的绝对值,“绝代比”比值为1,而且,离差绝对值之和越大,偏离平均分线的平均距离则越大,反之,则越小。如果测评结果按照分数高低进行比较确定人选或排序的话,评委的主观倾向将影响评分结果的客观性。比如,当“公正”而又“严格”的评委在评委群体中占多数并起主导作用时,按照平均分的绝对标准来进行评价比较,可能“合格者”为数了了,反之,良好和优秀者将大量产生。
第二,评委的评分线围绕平均分线做小幅波动,没有明显的规律,呈“拧麻花”形态。这种评委试图按照客观标准掌握评分标准,保持客观公允态度,谨慎小心,离差绝对值较小,即使在平均分线上下波动,但起伏不大,其离差绝对值之和与离差代数和的比值虽大与1,但比较接近1,或者比值在1~2之间。从经验角度看,这类评委的评分水平比较高,主观倾向与客观实际相接近,是比较理想的评委。所以,在评委中间,习惯于将自己的分数与当场公布的平均分进行比较,来检查自己评分的主观倾向与客观结果的一致性和相似性。
第三,评委的评分线始终在一个极小的极差范围内波动,始终保持水平状态,最为典型的是处在中等分数水平,但又不同于第一、第二种情况,与平均分线没有规律性的关系。这种评委主要是缺乏知识能力,或抱以马虎敷衍的态度,不能如实比较鉴别测评对象的实际差别,评分结果缺乏区分度。最典型的是“老好人”式的评委,本着“你好我好大家好”“谁也不得罪”的心理,其评分线呈现“中等”或“良好”层次的水平状态。
第四,评委的评分线与平均分线的关系有明显的不规则性形态。这里最常见的情况是,该评委给出的大多数对象的分数与平均分线呈一有规律的吻合,但是在少数个别分数上出现明显的跳跃,远离平均分线。似乎在有意压低其他大多数测评对象的分数,而故意抬高自己看好或是有特殊关系的个别测评对象的分数。该评委给出的分数往往是该测评对象的最高分,在统计处理时很容易被“去掉”,但是,如果这一类评委事先有“合谋”且“人多势众”,对该对象的最后得分是有很大“帮助”的。
简单总结本短文,主要的结论是:
运用平均数与标准差的比较关系,研究评委群体的专业水平是否整齐,是否具有公正性,对评委给出的评分线与以评委评分线为基础计算出来的平均分线进行比较,总结归纳出几种典型的评委评分类型,发现其对最终评分结果的影响状况,。但是,统计检验只是发现问题的一种有效方法,以此为线索,寻找可能影响评分“失真”的人为因素。真正要解决评委的客观公正性问题,还需要在制度、程序和方法上做进一步的探索研究。