視頻多方法評估融合

維基百科,自由的百科全書

視頻多方法評估融合 (Video Multimethod Assessment Fusion,VMAF ) 是Netflix南加州大學南特大學IPI/LS2N 實驗室以及德克薩斯大學奧斯汀分校圖像和視頻工程實驗室 (LIVE) 合作開發的客觀的全參考視頻質量指標。它根據參考和失真的視頻序列預測主觀視頻質量。該指標可用於評估不同視頻編解碼器、編碼器、編碼設置或傳輸變體的質量。

歷史[編輯]

該指標基於南加州大學 C.-C. Jay Kuo 教授小組的初步工作。[1][2][3] 他們研究了使用 支持向量機 融合不同視頻質量指標的可實現性,從而產生了「FVQA(基於融合的視頻質量評估)指數」,該指標已被證明在主觀上優於現有的圖像質量指標視頻質量資料庫。

該方法已與 Netflix 合作進一步開發,使用不同的主觀視頻數據集,包括 Netflix 擁有的數據集(「NFLX」)。隨後更名為「視頻多方法評估融合」,它於 2016 年 6 月在 Netflix 技術博客上宣布[4],參考實現的 0.3.1 版在許可的開源許可下提供。[5]

2017 年,該指標進行了更新,以支持自定義模型,其中包括對手機屏幕查看的調整,從而為相同的輸入材料生成更高的質量分數。 2018 年,發布了一個預測高達4K解析度內容質量的模型。訓練這些模型的數據集尚未向公眾提供。

2021 年,Beamr、Netflix、南加州大學德克薩斯大學奧斯汀分校、SSIMWAVE、迪士尼、谷歌、Brightcove 和 ATEME 因開發視頻編碼優化的開放感知指標而獲得了技術與工程艾美獎英語Technology & Engineering Emmy Awards。這是大學 20 年來第二次獲得艾美獎。這也是法國大學第一次獲得一個。 [6] [7]

組件[編輯]

VMAF 使用現有的圖像質量指標和其他功能來預測視頻質量:

  • 視覺信息保真度(VIF):考慮四個不同空間尺度的信息保真度損失
  • 細節損失指標 (DLM): [8]衡量細節損失和分散觀眾注意力的損傷
  • Mean Co-Located Pixel Difference (MCPD):測量 亮度分量 上幀之間的時間差異

上述特徵使用基於 SVM 的回歸進行融合,以提供每個視頻幀0-100 範圍內的單個輸出分數,其中 100 的質量與參考視頻相同。然後使用算術平均值在整個視頻序列上臨時匯集這些分數,以提供整體差分平均意見分數(DMOS)。

由於訓練原始碼(「VMAF Development Kit」,VDK)的公開可用性,可以根據不同的視頻數據集和特徵對融合方法進行重新訓練和評估。

抗噪信噪比(AN-SNR) 在早期版本的 VMAF 中用作質量指標,但隨後被放棄。 [9]

表現[編輯]

與主觀評分相比,早期版本的 VMAF 在四個數據集中的三個數據集上的預測準確性已被證明優於其他圖像和視頻質量指標,例如SSIMPSNR -HVS 和 VQM-VFD。 [4] 在另一篇論文中也對其性能進行了分析,發現 VMAF 在視頻數據集上的性能並不優於 SSIM 和 MS-SSIM。[10] 2017 年, 來自RealNetworks的的工程師報告稱,網飛的性能論文具有良好的可重複性。[11]

軟體[編輯]

C語言Python編寫的參考實現(「VMAF 開發工具包,VDK」)根據 BSD+專利許可條款作為自由軟體發布 。[12]其原始碼和其他材料可在GitHub上獲得。[5]

參見[編輯]

參考文獻[編輯]

  1. ^ Liu, Tsung-Jung; Lin, Joe Yuchieh; Lin, Weisi; Kuo, C.-C. Jay. Visual quality assessment: recent developments, coding applications and future trends. APSIPA Transactions on Signal and Information Processing. 2013, 2. ISSN 2048-7703. doi:10.1017/atsip.2013.5可免費查閱. 
  2. ^ Lin, Joe Yuchieh; Liu, T. J.; Wu, E. C. H.; Kuo, C. C. J. A fusion-based video quality assessment (FVQA) index. Signal and Information Processing Association Annual Summit and Conference (APSIPA), 2014 Asia-Pacific. December 2014: 1–5. ISBN 978-6-1636-1823-8. S2CID 7742774. doi:10.1109/apsipa.2014.7041705. 
  3. ^ Lin, Joe Yuchieh; Wu, Chi-Hao; Ioannis, Katsavounidis; Li, Zhi; Aaron, Anne; Kuo, C.-C. Jay. EVQA: An ensemble-learning-based video quality assessment index. Multimedia & Expo Workshops (ICMEW), 2015 IEEE International Conference on. June 2015: 1–5. ISBN 978-1-4799-7079-7. S2CID 6996075. doi:10.1109/ICMEW.2015.7169760. 
  4. ^ 4.0 4.1 Blog, Netflix Technology. Toward A Practical Perceptual Video Quality Metric. Netflix TechBlog. 2016-06-06 [2017-07-15]. (原始內容存檔於2019-12-04). 
  5. ^ 5.0 5.1 vmaf: Perceptual video quality assessment based on multi-method fusion, Netflix, Inc., 2017-07-14 [2017-07-15], (原始內容存檔於2022-07-13) 
  6. ^ 72nd Annual Technology & Engineering Emmy® Awards Recipients – The Emmys. theemmys.tv. [2021-02-08]. (原始內容存檔於2022-05-19) (美國英語). 
  7. ^ PATRON, Julien. Technologie : l'Université de Nantes récompensée d'un Emmy Award !. UNNEWS. [2021-02-08]. (原始內容存檔於2021-06-17) (法語). 
  8. ^ Li, S.; Zhang, F.; Ma, L.; Ngan, K. N. Image Quality Assessment by Separately Evaluating Detail Losses and Additive Impairments. IEEE Transactions on Multimedia. October 2011, 13 (5): 935–949. ISSN 1520-9210. S2CID 8618041. doi:10.1109/tmm.2011.2152382. 
  9. ^ Zhili, Henry. Removal of AN-SNR. Github. [2022-01-24]. (原始內容存檔於2022-05-07). 
  10. ^ Bampis, Christos G.; Bovik, Alan C. Learning to Predict Streaming Video QoE: Distortions, Rebuffering and Memory. 2017-03-02. arXiv:1703.00633可免費查閱 [cs.MM]. 
  11. ^ Rassool, Reza. VMAF reproducibility: Validating a perceptual practical video quality metric (PDF). 2017 IEEE International Symposium on Broadband Multimedia Systems and Broadcasting (BMSB). 2017: 1–2 [2017-11-30]. ISBN 978-1-5090-4937-0. S2CID 5449498. doi:10.1109/BMSB.2017.7986143. (原始內容存檔 (PDF)於2022-05-19). 
  12. ^ 存档副本. [2022-01-24]. (原始內容存檔於2022-07-16).