评分者间的可靠性有多可靠?| Psychreg

引用这

奈杰尔·麦克伦南教授(2021年9月24日)。评分者间的可靠性有多可靠?Psychreg关于人格心理学．//www.mums-channel.com/how-reliable-inter-rater-reliability/

阅读时间:5分钟

你可以听音频版这篇文章。

什么是评分者间的信度?通俗地说，它是人们对任何事情打分时的一致程度。当评分者之间有高水平的一致性时，就说存在高水平的评分者之间的可靠性，而低水平的一致性表明低可靠性。

如何测量评分者之间的信度?在最简单的情况下，通过百分比一致或相关性。更有力的措施包括Kappa。

需要注意的是，如果你问15世纪的西方宗教领袖，太阳是否围绕地球旋转，你会得到100%的肯定。对地球是否平坦的真实性进行评级，也会得到同样的结果，就像问17世纪的奴隶贩子这是否合法一样。

也就是说，高的评分者之间的可靠性可以证明，一个危险的信号，有很多更严重的问题正在发生。

什么时候使用评级方法?通常是在客观事实和科学可靠的措施无法使用或无法获得时。当被评分的内容是主观的;见仁见智。当进行客观或科学评估的时间或成本效益不佳时，也可以使用评级。只要有发表意见的余地，差别几乎是肯定的。

甚至目击者的陈述非常不可靠。十个人同时在同一地点目睹同一件事，你会对发生的事情有15种不同的看法。也就是说，即使对一组固定的事实进行了物理观察，也会有不同的意见。在没有明确事实的情况下，还有多少变化?是什么导致了这种变化?

归因

归因理论(和研究)探索人们如何以及为什么将不同的原因归因于他人的行为。人们倾向于外部他们自己行为的原因，以及内部他人行为的原因。换句话说:“我不为自己的行为负责，外部事件迫使我这样做，但你要为自己的行为负责。”

如果评分者同情被评分者，他们更有可能将失败归咎于外部原因。如果他们没有同情心，他们会把原因归结为内因。

这就引出了评级的本质。评分问题是将评分者的注意力集中在内部因果关系还是外部因果关系上?如果是这样，就会影响结果和可靠性。如果没有，它就把不可靠性留给了评分者的归因偏好。由于我们每个人都有自己的归因偏好，在不同的语境中，有内在的，不可避免的，内部评分不可靠．

注意

当人们只关注事件的一个方面时，他们就会忽视同时发生的其他方面。即使其他方面非常响亮，如果他们的注意力集中在他们关心的一个方面，大多数人也不会处理它们。

你可能看过大猩猩走过某个场景的视频。被要求去处理其他事情的人根本看不到大猩猩。

更能说明问题的是，当人们看到视频并事先被告知其他人不能看到大猩猩时，他们很难理解为什么有人会错过这么明显的事件。

这告诉了我们很多评分者之间的可靠性:

人们只能给他们所关注的事物打分。
他们对自己不关心的事情视而不见。
人们无法理解为什么有人会忽视他们所关注的方面。

处理

即使当人们关注被评价事物的相同方面时，他们也会通过自己的范式和过滤器来处理客观现实中存在的东西。例如，如果有人认为所有的政客都是骗子，如果让他们给一个政客打分，你可以想象，无论这个人有多熟练，“完美骗子”的镜头都会影响评分。

同样地，如果被打分的人被普遍认为非常有吸引力，那么在完全相同的表现下，他们的得分会高于相貌平平的人。这种评分者的偏见被称为光环效应．似乎一个评分者发现的人越有吸引力，光环效应对他们正面评分偏见的影响就越大。

先前的情感经历

全世界的广告商都在努力给他们的目标受众带来愉快的情感体验。为什么?因为他们知道，如果能给受众留下积极的情感体验，目标买家对产品或服务的评价会高于竞争对手，即使竞争对手客观上有更好的产品或服务。积极的情感体验当我们做出购买决定时，它会使我们产生心理倾向。我们在很大程度上没有意识到，我们购买是因为那种产品或服务能唤起愉快的感觉;因为情绪的光环效应。

在评级的情况下，就像在购买决定中一样，先前对被评级的东西的情感体验很重要。如果一名经理正在接受360度反馈的评估，而他们刚刚宣布了一些所有员工都喜欢的事情，那么在评估之前，评分会比原本的水平更高就不足为奇了。

动机

人们诋毁、贬低和破坏反对他们的东西，夸大他们认为符合他们最大利益的东西。

政客们在民意调查中被打分，他们知道要获得支持，他们只需要告诉人们他们想听的话;他们迎合人们的动机。如果评级者有不同的动机，我们应该在他们给出的评级中发现这一点。当评价与评分者的动机一致的东西时，他们会给它的评分高于与他们动机相反的东西或人。既然我们都有动机，评价者不可靠是内置的。

语言的意义

英语中最常被误用的单词之一是“strategy”(战略)。它被用来、误用和滥用来指代各种各样的东西。很多(如果不是大多数的话)单词都有多重含义，而且对于我们经常随意使用的单词，很少有人能给出精确到字典上的定义。在任何评级系统中，如果任何两个评级者对任何一个词的理解稍有不同，那么评级的可靠性就会受到另一个障碍。大多数评级系统由大量的单词组成，因此引入了更多的机会，甚至更多的评级者之间的可靠性问题。