使用者:Pdeantihuman/Mean opinion score
平均意見分數(MOS)是在體驗質量和通信工程領域中使用的衡量標準,代表刺激或系統的整體質量。它是所有受試者「在一個預先定義的範圍內,一個受試者分配給他對系統質量表現的意見」的算術平均數。
MOS 是一種常用的視頻、音頻和視聽質量評估方法。 ITU-T 在建議 P.800.1 中定義了幾種引用MOS的方式,區別於分數是從視聽、會話、聽、說還是視頻質量測試中獲得的。
評分量表和數學定義
[編輯]MOS 由一個有理數表示,通常範圍在1–5之間,其中1表示最低感知質量,5表示最高感知質量。MOS 的範圍取決於在基礎測試中使用的評級量表。 絕對類別評分標準非常常用,它將壞的和優秀之間的評分映射為1到5之間的數字,如下表所示。
評分 | 標籤 |
---|---|
5 | 優秀 |
4 | 良好 |
3 | 一般 |
2 | 較差 |
1 | 壞的 |
ITU-T建議中存在其他標準化質量評級量表(例如 P.800或P.910 )。例如,可以使用 1-100 之間的連續刻度。使用哪種量表取決於測試的目的。在某些情況下,使用不同的量表對相同刺激評價,獲得的評分沒有統計學上的顯著差異。 [1]
MOS 的計算方法是人類受試者在主觀質量評估測試中對給定刺激進行的單個評分的算術平均值。因此:
公式中 是受試者對給定刺激的評分, 是受試者的數量。
MOS的屬性
[編輯]MOS 受制於某些數學性質和偏差。MOS 用一個純量值去量化體驗質量的做法是否有用,存在持續的爭論。 [2]
當使用分類評級量表獲得 MOS 時,它基於 - 類似於李克特量表的 - 序數量表。在這種情況下,評級中的選項的順序是已知的,但選項之間的間隔是未知的。因此,為了獲得中心趨勢而計算個人評分的平均值在數學上是不正確的;應該使用中位數。 [3]但是,在實踐中以及在 MOS 的定義中,計算算術平均值被認為是可以接受的。
存在研究表明,對於分類評分量表(例如 ACR),受試者會認為量表中的選項是不等距的。例如,良好和一般之間的「差距」可能比 良好和優秀之間的「差距」更大。感知距離也可能取決於翻譯量表的語言。 [4]然而,研究表明無法證明量表翻譯對所得結果存在顯著影響。 [5]
通常獲取 MOS 分數的測試方法中還存在另外幾個偏差。 [6]除了上面提到的非線性感知的量表問題之外,還有一個所謂的「範圍均衡偏差」:在主觀實驗過程中,受試者傾向於給出的分數橫跨整個評分量表。如果兩個主觀測試提供的樣本質量範圍不同,就不能比較這兩個主觀測試。換句話說,MOS 並不是質量的絕對量度,MOS 是相對於獲得它的測試的。
由於上述原因 - 以及由於其他幾個影響主觀測試中感知質量的上下文因素 - 只有在已知並報告了收集值的上下文時才應該報告 MOS 值。因此,不應直接比較從不同環境和測試設計中收集的 MOS 值。 ITU-T P.800.2建議書規定了如何報告 MOS 值。具體來說,P.800.2 中寫道:
直接比較不同實驗產生的 MOS 值是沒有意義的,除非這些實驗被明確設計用於比較,即使這樣,也應該對數據進行統計分析以確保這種比較是有效的。
用於語音和音頻質量估計的 MOS
[編輯]MOS 歷史上源於主觀測量,聽眾會坐在「安靜的房間」中,並根據他們的感知對電話通話質量進行評分。這種測試方法已在電話行業使用了數十年,並在ITU-T建議P.800中標準化。它規定「講話者應坐在安靜的房間內,音量在 30 到 120 立方米之間,混響時間小於 500 毫秒(最好在 200 到 300 毫秒範圍內)。室內噪音水平必須低於 30 dBA,並且頻譜中沒有主峰。」稍後在國際電聯的建議中類似地規定了對其他模式的要求。
使用質量模型的 MOS 估計
[編輯]獲得 MOS 評級可能既耗時又昂貴,因為它需要招聘人工評估員。對於各種用例,例如編解碼器開發或服務質量監控目的——應該重複和自動估計質量——也可以通過客觀質量模型來預測 MOS 分數,這些模型通常是使用人類 MOS 評級開發和訓練的。使用此類模型產生的一個問題是產生的 MOS 差異是否對用戶來說是顯而易見的。例如,當以五點 MOS 等級對圖像進行評分時,MOS 等於 5 的圖像的質量預計會明顯優於 MOS 等於 1 的圖像。與此相反,MOS 等於 3.8 的圖像的質量是否明顯優於 MOS 等於 3.6 的圖像尚不清楚。為確定用戶對數碼照片可感知的最小 MOS 差異進行的研究表明,為了使 75% 的用戶能夠檢測到更高質量的圖像,需要大約 0.46 的 MOS 差異。 [7]然而,圖像質量期望,因此 MOS,隨著用戶期望的變化而隨著時間的推移而變化。[7]分析方法確定的最小顯著 MOS 差異可能會隨時間而變化。
參見
[編輯]參考文獻
[編輯]
- ^ Huynh-Thu, Q.; Garcia, M. N.; Speranza, F.; Corriveau, P.; Raake, A. Study of Rating Scales for Subjective Quality Assessment of High-Definition Video. IEEE Transactions on Broadcasting. 2011-03-01, 57 (1): 1–14. ISSN 0018-9316. doi:10.1109/TBC.2010.2086750.
- ^ Hoßfeld, Tobias; Heegaard, Poul E.; Varela, Martín; Möller, Sebastian. QoE beyond the MOS: an in-depth look at QoE via better metrics and their relation to MOS. Quality and User Experience. 2016-12-01, 1 (1): 2. ISSN 2366-0139. arXiv:1607.00321 . doi:10.1007/s41233-016-0002-1 (英語).
- ^ Jamieson, Susan. "Likert scales: how to (ab) use them." Medical education 38.12 (2004): 1217-1218.
- ^ Streijl, Robert C., Stefan Winkler, and David S. Hands. "Mean opinion score (MOS) revisited: methods and applications, limitations and alternatives." Multimedia Systems 22.2 (2016): 213-227.
- ^ Pinson, M. H.; Janowski, L.; Pepion, R.; Huynh-Thu, Q.; Schmidmer, C.; Corriveau, P.; Younkin, A.; Callet, P. Le; Barkowsky, M. The Influence of Subjects and Environment on Audiovisual Subjective Tests: An International Study (PDF). IEEE Journal of Selected Topics in Signal Processing. October 2012, 6 (6): 640–651. ISSN 1932-4553. doi:10.1109/jstsp.2012.2215306.
- ^ Zielinski, Slawomir, Francis Rumsey, and Søren Bech. "On some biases encountered in modern audio quality listening tests-a review." Journal of the Audio Engineering Society 56.6 (2008): 427-451.
- ^ 7.0 7.1 Katsigiannis, S.; Scovell, J. N.; Ramzan, N.; Janowski, L.; Corriveau, P.; Saad, M.; Van Wallendael, G. Interpreting MOS scores, when can users see a difference? Understanding user experience differences for photo quality. Quality and User Experience. 2018-05-02, 3 (1): 6. ISSN 2366-0139. doi:10.1007/s41233-018-0019-8.