信度

信度（英语：reliability）又称可信度，指的是测量方法的品质，即对同一现象进行重复观察之后是否可以得到相同资料值^[1]。科学研究者试图使用一系列的指标来测量个人或社会现象。可信度概念是研究者们提出用来测量的量度工具稳定的程度。比如说如果用磅秤来测量一个人的体重，如果第一次称重是100公斤，而第二次称重是150公斤，那么很明显用这台磅秤来反应体重不是很可信的办法。这个类比也适用于其他的社会科学测量方式，比方各种问卷调查、心理量表、以及更广义上的观察。

分类[编辑]

主要信度是研究量度工具是否能重复显示同一个结果或数值。形式如下^[2]：

再测信度（英语：test–retest reliability)：用同一个测验但不同时间点测试同一群受试者^[3]。例如，上下学期的考试，早上与夜上会一样“外向”
复本信度（英语：inter-method reliability)：用不同相似工具来量度同一个项目，例如用迈尔斯-布里格斯性格分类测验及大五测验人格。
内部一致性信度（英语：internal consistency reliability)：同一个测验中不同子项目是否一致^[4]，例如量度“外向”，可以用“朋友数目”、“友善程度”、“经常笑”等来测。一般可用克隆巴赫系数（英语：Cronbach's alpha）来检验^[5]。
评分者间信度（英语：inter-rater reliability)：由于个人因素的影响（如情绪、既有观念等），有些测验不能以客观的方法进行鉴定，例如作文考试。所评的分数通常受评分者的主观感受而受到影响，因此要由2人或以上各自根据标准评分，再求大家分数是否大致相同。

影响信度的因素[编辑]

通常因以下因素影响^[6]^[7]：

目标的短暂特征，如健康、身高、疲倦
目标的特质：语言能力、答题技巧
测试环境：如有没有干扰、指示是否清晰、考试员的身份

可观察的数值等于测量误差再加上真实分数。而信度则评估有多少变化是各自来自这两者。解决方法可以

标准化步骤（英语：constant scripted procedure）：实验员要一字不漏地根据剧本来给予指示
聚合（英语：Aggregation）：用多个相关项目来量度同一事物。例如香港大学的相片研究将不同学生的相片叠加之后揭示甚么是华人的“大众面”^[8]。

与有效度的分别[编辑]

可信度高并不意味着一种测量方式更准确，这是有效度（英语：validity)的问题。可信度所讨论的是针对同样或者类似的现象，一种测量方式能否忠实地反应现实（每次都可否量度相同结果），而后者讨论的是，是否能量度想要量度的问题（试想像用天秤来量度高度，或用某工具去量度一个人高1.8米的人只得1.5米）。虽然可信度高并不完全代表着有效度高，可信度依然可以一定程度上限制一种测量方式的有效度。不论是对于测量人的某种特质，抑或是对于一个标准的预测性判断，如果一种测量方式并不可信，那么它的有效度也一定不高。一个可信度高的测试并不一定有很高的有效度，但是可信度低的测试一定没有。一个例子是：如果一个秤一直在真实的重量上多一斤，这个秤的可信度依然很高，因为能够持续的给一个秤重的物体提供相同的结果，但是它的有效度并不高，因为它所展示的并不是真实的重量。

参见[编辑]

参考文献[编辑]

^ 艾尔·巴比《社会研究方法》（第十一版）p143. 华夏出版社
^ Wang Peiling,; 王珮玲,. 幼兒發展、學習評量與輔 6. Xinbei shi. ISBN 9789861917337. OCLC 1035718843.
^ JCGM 100:2008. Evaluation of measurement data – Guide to the expression of uncertainty in measurement (PDF), Joint Committee for Guides in Metrology, 2008 [2019-04-02], （原始内容存档 (PDF)于2019-09-28）
^ Types of Reliability （页面存档备份，存于互联网档案馆） The Research Methods Knowledge Base. Last Revised: 20 October 2006
^ Cortina, J.M., (1993). What Is Coefficient Alpha? An Examination of Theory and Applications. Journal of Applied Psychology, 78(1), 98–104.
^ Davidshofer, Kevin R. Murphy, Charles O. Psychological testing : principles and applications 6th. Upper Saddle River, N.J.: Pearson/Prentice Hall. 2005. ISBN 0-13-189172-3.
^ Davidshofer, Kevin R. Murphy, Charles O. Psychological testing : principles and applications 6th. Upper Saddle River, N.J.: Pearson/Prentice Hall. 2005. ISBN 0-13-189172-3.
^ 存档副本. www.faceoftomorrow.com. [2019-04-02]. （原始内容存档于2015-08-01）.

[1] 艾尔·巴比《社会研究方法》（第十一版）p143. 华夏出版社

[2] Wang Peiling,; 王珮玲,. 幼兒發展、學習評量與輔 6. Xinbei shi. ISBN 9789861917337. OCLC 1035718843.

[GUM-3] JCGM 100:2008. Evaluation of measurement data – Guide to the expression of uncertainty in measurement (PDF), Joint Committee for Guides in Metrology, 2008 [2019-04-02], （原始内容存档 (PDF)于2019-09-28）

[socialresearchmethods-4] Types of Reliability （页面存档备份，存于互联网档案馆） The Research Methods Knowledge Base. Last Revised: 20 October 2006

[Cortina-5] Cortina, J.M., (1993). What Is Coefficient Alpha? An Examination of Theory and Applications. Journal of Applied Psychology, 78(1), 98–104.

[David-6] Davidshofer, Kevin R. Murphy, Charles O. Psychological testing : principles and applications 6th. Upper Saddle River, N.J.: Pearson/Prentice Hall. 2005. ISBN 0-13-189172-3.

[David2-7] Davidshofer, Kevin R. Murphy, Charles O. Psychological testing : principles and applications 6th. Upper Saddle River, N.J.: Pearson/Prentice Hall. 2005. ISBN 0-13-189172-3.

[8] 存档副本. www.faceoftomorrow.com. [2019-04-02]. （原始内容存档于2015-08-01）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]