基於內容的圖像檢索

維基百科,自由的百科全書

基於內容的圖像檢索(英語:Content-based image retrievalCBIR;或content-based visual information retrieval),屬於圖像分析的一個研究領域。基於內容的圖像檢索目的是在給定查詢圖像的前提下,依據內容信息或指定查詢標準,在圖像數據庫中搜索並查找出符合查詢條件的相應圖片。

互聯網絡上傳統的搜尋引擎,包括GoogleYahoo以及MSN都推出相應的圖片搜索功能,但是這種搜索主要是基於圖片的文件名建立索引來實現查詢功能(也許利用了網頁上的文字信息)。這種從查詢文字,文件名,最後到圖片查詢的機制並不是基於內容的圖像檢索基於內容的圖像檢索指的是查詢條件本身就是一個圖像,或者是對於圖像內容的描述,它建立索引的方式是通過提取底層特徵,然後通過計算比較這些特徵和查詢條件之間的距離,來決定兩個圖片的相似程度。

技術細節[編輯]

基於內容的圖像檢索通常包括以下幾個部分:

特徵提取[編輯]

可提取的特徵可以包括顏色、紋理、平面空間對應關係、外形,或者其他統計特徵。 圖像特徵的提取與表達是基於內容的圖像檢索技術的基礎。從廣義上講,圖像的特徵包括基於文本的特徵(如關鍵字、註釋等)和視覺特徵(如色彩、紋理、形狀、對象表面等)兩類。視覺特徵又可分為通用的視覺特徵和領域相關的視覺特徵。前者用於描述所有圖像共有的特徵,與圖像的具體類型或內容無關,主要包括色彩、紋理和形狀;後者則建立在對所描述圖像內容的某些先驗知識(或假設)的基礎上,與具體的應用緊密有關,例如人的面部特徵或指紋特徵等。

相似性(非相似性)的定義[編輯]

從圖像中提取的特徵可以組成一個向量,兩個圖像之間可以通過定義一個距離或者相似性的測量度來計算相似程度。

彌補語義鴻溝[編輯]

在傳統的基於文字的查詢技術中,不存在這個問題,因為查詢關鍵字基本能夠反映查詢意圖。但是在基於內容的圖像查詢中,就存在一個底層特徵和上層理解之間的差異(這也就是著名的semantic gap)。主要原因是底層特徵不能完全反映或者匹配查詢意圖。彌補這個鴻溝的技術手段主要有:

  • 相關反饋(relevance feedback):按照最初的查詢條件,查詢系統返回給用戶查詢結果,用戶可以人為介入(或者自動)來選擇幾個最符合他查詢意圖的返回結果(正反饋),也可以選擇最不符合他查詢意圖的幾個返回結果(負反饋)。這些反饋信息被送入系統用來更新查詢條件,重新進行查詢。從而讓隨後的搜索更符合查詢者的真實意圖。
  • 圖像分割(image segmentation):圖像的特徵可以包括全局特徵和局部特徵。如果進行一定程度的圖像分割,劃分出不同的分割區域,這樣可以增加局部特徵的信息量,也可能在一定程度彌補語義鴻溝。
  • 建立複雜的分類模型:一些比較複雜的非線性分類模型,比如支持向量機(Support Vector Machine)本身就可以起到一定程度的效果來彌補語義鴻溝。


查詢模式[編輯]

  • 按例查詢(QBE-Query By Example):用戶提供一個查詢圖片,在數據庫中搜索相似圖片。
  • 按繪查詢(Query by sketch):用戶在類似畫筆的接口上面進行簡單的繪畫,依次為標準進行查詢。
  • 按描述查詢:例如,指定條件可以是30%的黃色,70%的藍色等。

應用和研究[編輯]

最早成功應用基於內容的圖像檢索技術的是IBM的QBIC系統。這個系統是為一個俄國博物館製作的繪畫作品查詢系統。QBIC系統的網站為IBM的QBIC系統。除了IBM的QBIC系統之外,比系較著名的反向圖像搜索統還包括UIUC大學的MARS系統、MIT的Photo book、UC Berkeley的Digital Library Project,加拿大的TinEye.com, 以及Columbia大學的VisualSEEk等。

參見[編輯]

外部連結[編輯]