内容试读 | 第17章噪声源:偏差是引人注目的图形,而噪声是不受我们关注的背景哪里有判断,哪里就有噪声,希望你现在也同意这一观点。我们也希望,对你而言,这已不再是一件超乎想象的事。也正是这一目的激励我们着手研究该项目。经过多年的努力,我们对这个问题的思考已经逐渐深入和完善。现在,让我们来回顾一下,我们已经学习过的噪声成分、这些成分对噪声的重要影响以及它们各自在判断中所起的作用。噪声成分图16是我们在第5、第6和第16章中介绍的三个方程的一个组合图。该图展示了对误差的三个连续的分解:将误差分解为偏差和系统噪声,将系统噪声分解为水平噪声和模式噪声,将模式噪声分解为稳定模式噪声和情境噪声。现在,你可以看到MSE如何被分解为偏差,以及(我们曾讨论过的)三种噪声成分的平方。图16:误差,偏差和噪声成分当我们开始着手这一研究项目时,我们关注偏差和噪声在总误差中所占的相对权重。我们很快得出结论:在误差中,噪声通常比偏差更多,因此,噪声非常值得我们进一步去探索。我们早期对噪声成分的思考是基于复杂的噪声检测的框架。在该框架中,多个人对多个案例做出判断;联邦法官的研究,以及惩罚性赔偿的研究,都是这样的例子。从这些研究中获得的数据,能够对水平噪声进行可靠的估计。另一方面,虽然每个参与者都对每个案例进行判断,但只进行了一次判断,因此无法判断残差——我们将其称之为模式误差——是变化的还是稳定的。依据统计分析的保守性原则,通常将残视为随机误差。换句话说,模式噪声被完全默认为情境噪声。lt;pgt;lt;stronggt;第lt;/stronggt;lt;stronggt;17lt;/stronggt;lt;stronggt;章lt;/stronggt;lt;stronggt;lt;/stronggt;lt;stronggt;噪声源:lt;/stronggt;lt;/pgt;
lt;pgt;lt;stronggt;偏差是引人注目的图形,而噪声是不受我们关注的背景lt;/stronggt;lt;/pgt;
lt;pgt;lt;stronggt;lt;/stronggt;lt;/pgt;
lt;pgt;哪里有判断,哪里就有噪声,希望你现在也同意这一观点。我们也希望,对你而言,这已不再是一件超乎想象的事。也正是这一目的激励我们着手研究该项目。经过多年的努力,我们对这个问题的思考已经逐渐深入和完善。现在,让我们来回顾一下,我们已经学习过的噪声成分、这些成分对噪声的重要影响以及它们各自在判断中所起的作用。lt;/pgt;
lt;pgt;lt;stronggt;噪声成分lt;/stronggt;lt;/pgt;
lt;pgt;图16是我们在第5、第6和第16章中介绍的三个方程的一个组合图。该图展示了对误差的三个连续的分解:lt;/pgt;
lt;ulgt;
lt;ligt;将误差分解为偏差和系统噪声,lt;/ligt;
lt;ligt;将系统噪声分解为水平噪声和模式噪声,lt;/ligt;
lt;ligt;将模式噪声分解为稳定模式噪声和情境噪声。lt;/ligt;
lt;/ulgt;
lt;pgt;现在,你可以看到MSE如何被分解为偏差,以及(我们曾讨论过的)三种噪声成分的平方。lt;/pgt;
lt;pgt;lt;/pgt;
lt;pgt;图16:误差,偏差和噪声成分lt;/pgt;
lt;pgt;当我们开始着手这一研究项目时,我们关注偏差和噪声在总误差中所占的相对权重。我们很快得出结论:在误差中,噪声通常比偏差更多,因此,噪声非常值得我们进一步去探索。lt;/pgt;
lt;pgt;我们早期对噪声成分的思考是基于复杂的噪声检测的框架。在该框架中,多个人对多个案例做出判断;联邦法官的研究,以及惩罚性赔偿的研究,都是这样的例子。从这些研究中获得的数据,能够对水平噪声进行可靠的估计。另一方面,虽然每个参与者都对每个案例进行判断,但只进行了一次判断,因此无法判断残差——我们将其称之为模式误差——是变化的还是稳定的。依据统计分析的保守性原则,通常将残视为随机误差。换句话说,模式噪声被完全默认为情境噪声。lt;/pgt;
lt;pgt;很长一段时间以来,这种将模式噪声解释为随机误差的传统做法,限制了我们的思维。专注于水平噪声(严厉和宽容的判断者之间、或乐观和悲观的预测者之间的稳定性差异)似乎是自然而然的事。但是,有证据表明,那些无关的、变化的环境也会影响判断,从而产生情境噪声,这引起了我们的研究兴趣。lt;/pgt;
lt;pgt;这些证据让我们逐渐认识到,不同人做出的判断充满噪声,很大程度既不是因为普遍性的偏差,也并非是由于变化的或随机的因素所致:特定个体对多重特征的稳定的、个性化的反应,决定了他们对特定案例的反应。我们终得出结论,我们应该摈弃将模式噪声视作随机变化的观点。lt;/pgt;
lt;pgt;虽然我们很想谨慎一点,尽量避免基于有限的案例做出过度性概括。然而,整合我们研究后发现,稳定的模式噪声实际上比系统噪声的其他成分都更为重要。由于我们很少在同一研究中全面地探究误差的各个组成部分,因此需要进行精确的分析才能得出这样一个暂时性的结论。简而言之,以下就是我们所知道的和所不知道的。lt;/pgt;
lt;pgt;lt;stronggt;成分的大小lt;/stronggt;lt;/pgt;
lt;pgt;首先,我们对水平噪声和模式噪声的相对权重进行了几种估算。总体而言,模式噪声似乎比水平噪声对系统噪声的贡献更大。例如,在第2章提到的保险公司的例子中,不同核保人在平均保费上的差异仅占总体系统噪声的20%,剩余的80%都是模式噪声。在第6章提到的联邦法官的例子中,水平噪声(平均严厉程度的差异)仅占总体系统噪声的一半以下,而模式噪声则占一半以上。在惩罚性赔偿的实验中,系统噪声的总量在不同量尺(惩罚倾向、愤怒程度或美元罚款金额)上有所不同,但模式噪声的占比却基本恒定:三种量尺下,模式噪声分别约占总体系统噪声的63%、62%和61%。在本书第5部分中,我们将介绍的其他一些研究,特别是有关人事决策的研究,其研究的结果都与这一暂时性的结论相一致。lt;/pgt;
lt;pgt;在这些研究中,水平噪声通常都不是系统噪声的主要成分;这一事实已经传递了一个非常重要的信息,因为水平噪声是一种(有时)无需组织进行噪声检测就可以监测到的噪声。当案例或多或少地被随机分配给各个专业人员时,他们决策的平均差异就是水平噪声。例如,针对专利局的研究发现,审查员授予专利的平均倾向性存在很大差异,进而影响了专利的诉讼发生率。同样,儿童保护部门的官员决定将儿童安置在寄养机构的倾向性也有所不同,这会对儿童的福祉产生长期影响。这些观测都仅仅是基于水平噪声的评估。这些研究所揭示的噪声问题已经令人震惊了,但是,如果模式噪声多于水平噪声,那么噪声问题的严重性至少被低估了两倍。(这一暂时性结论也有例外。法官在是否给予政治庇护的裁决中出现的巨大变异,几乎可以肯定更多地源于水平噪声,而非模式噪声;但我们怀疑这里的模式噪声也很大。)lt;/pgt;
lt;pgt;下一步我们通过对模式噪声的两种成分进行分解,来对其进行分析。我们有充分的理由认为,模式噪声的主要成分是稳定的模式噪声而非情境噪声。对联邦法官判决的噪声检测展示了我们的推理过程。我们首先假设了一种情况,即所有的模式噪声都是完全随机变化的。在这一假设前提下,法官们的量刑会随着时间的推移变得十分不稳定和不一致,乃至达到不可能的程度:我们不得不预期,同一法官在不同情境中对同一案件量刑的平均差异达到2.8年左右。法官之间在平均量刑上的差异已经令人震惊了,要是同一名法官在不同情境下的量刑也存在这么大的差异,那就实在是太荒唐了。因此,得出以下结论似乎更为合理:法官们会对不同的被告和不同的罪行做出有差异的反应;这种差异虽极具个性化,但却是稳定的。lt;/pgt;
lt;pgt;为了更准确地对模式噪声中有多少是稳定的,有多少是情境噪声进行量化,我们需要让同一名法官对每个案例进行两次独立评估。我们发现,在判断研究中通常不可能获得两个独立的判断,因为很难保证对案例的第二次判断完全独立于次判断。尤其当判断很复杂时,个体很可能会辨认出是同一个问题,从而重复初的判断。lt;/pgt;
lt;pgt;由亚历山大·托多罗夫(AlexanderTodorov)带领的普林斯顿大学的一组研究人员设计了一个巧妙的实验范式,从而克服了这一难题。他们从亚马逊土耳其机器人(AmazonMechanicalTurk;一个网站,人们可以通过在上面提供一些短期服务,如填答问卷,来获取报酬)上招募了参与者。在他们的一个实验中,参与者观看了一些面孔图片(由计算机程序生成,但与真人面孔无异),并对这些面孔的各项属性进行了评分,比如喜爱程度、信赖程度等。一周后,该实验用相同的面孔和相同的受访者重复了该实验。lt;/pgt;
lt;pgt;我们有理由认为,本实验中判断的连贯性程度会低于专业人士的判断(如法官量刑)。虽然差不多每个人都会同意,有些人极具吸引力,而有一些人则令人反感;但在很大范围内,我们可以预期,对面孔的反应存在很大的个体差异。确实,观察者之间几乎没有共识:例如,在信赖程度的评分上,由于面孔图片之间的差异所导致的变异仅占判断变异的18%,剩余的82%的变异都是噪声。lt;/pgt;
lt;pgt;我们也有理由预期,这些判断的稳定性较差,因为实验参与者只是为了赚钱而参与在线答题,其判断质量会远低于专业判断。然而,实验结果发现,噪声的组成部分还是稳定的模式噪声。第二大成分才是水平噪声,即不同的观察者在面孔信赖度的平均评分上的差异。情境噪声虽然也很大,却占比小。lt;/pgt;
lt;pgt;要求参与者做出其他判断时,例如,有关汽车或食物的偏好,或者回答一些接近专业判断的问题,研究人员也得出了相同的结论。比如,在第15章中讨论的惩罚性赔偿的重复性研究中,参与者针对十个人身伤害案件评定了他们的惩罚倾向,两次评分之间间隔一周。同样的,稳定的模式噪声是的组成部分。在所有这些研究中,判断者之间彼此不一致,但他们自身的判断仍保持稳定。这种“缺乏共识的稳定性”,用研究人员的话说,为稳定的模式噪声提供了清晰的证据。lt;/pgt;
lt;pgt;关于稳定的模式噪声的有力证据,来自于我们在第10章中提到的对保释法官的大规模研究。在这项杰出研究的一部分内容中,作者创建了一个统计模型,该模型可以模拟每位法官如何使用手头的线索来决定,是否批准被告人被保释。他们建立了173名法官的个性化模型。然后,他们运用模型来模拟法官对141833个案例进行的判决,每个案例产生了173个判决——总计判决超过2400万个。应我们的要求,作者慷慨地进行了特定分析,他们将判断的变异分为三部分:每个案例平均决策的“真实”变异、在保释倾向上由于法官们的差异所导致的水平噪声,以及剩下的模式噪声。lt;/pgt;
lt;pgt;这一分析的结果与我们的观点相符,因为该研究中所测得的模式噪声是完全稳定的。由于这是对预测法官决策的模型进行的分析,因而无法体现情境噪声的随机变异性。数据中仅包括可检验的、稳定的个体预测规则。lt;/pgt;
lt;pgt;结论非常明确:稳定的模式噪声几乎是水平噪声的四倍之多(稳定的模式噪声占总变异的26%,而水平噪声占总变异的7%)。这种可识别的、稳定的、特异性的个体模式,要比法官之间审判严格程度的差异大得多。lt;/pgt;
lt;pgt;所有这些证据与我们在第7章中讨论的有关情境噪声的研究结果是一致的:尽管情境噪声的存在让人惊讶,甚至不安,但没有迹象表明个体内部的变异大于个体间的变异。系统噪声中主要的成分,恰恰是开始被我们忽略的成分:稳定的模式噪声,即法官们对特定案例所做判决的变异性。lt;/pgt;
lt;pgt;考虑到相关研究较为匮乏,我们的结论只是暂时性的;但它们反映了我们对噪声态度(以及如何应对)的改变。从原则上说,水平噪声——即法官之间简单的、全面的个体差异——应该是一个相对容易测量和解决的问题。如果有异常“严格”的评分者,或异常“谨慎”的儿童监护权法官,或异常“风险规避”的贷款人,雇用他们的机构可以试图使他们判断维持在平均水平。例如,大学会要求教授们在评分时遵守事先确定好的成绩分布来进行评分。lt;/pgt;
lt;pgt;不幸的是,我们发现,专注于水平噪声会使得我们遗漏掉很大一部分个体差异。大多数噪声都不是水平差异的产物,而是交互的产物:不同的法官如何对待特定的被告,不同的老师如何对待特定的学生,不同的社会工作者如何对待特定的家庭,不同的领导如何对待特定的公司愿景。噪声主要是我们的独特性或“判断人格”所产生的副产品。降低水平噪声依旧是一个有价值的目标,但仅达到此目标仍然未能解决大部分系统噪声的问题。lt;/pgt;显示全部信息
|