向量空間模型
维基百科,自由的百科全书
向量空間模型 (或 詞組向量模型) 是一個應用於資訊過濾, 資訊擷取l, 索引 以及評估相關性的代數模型。 SMART是首個使用這個模型的資訊檢索系統。
文件(語料)被視為索引詞(關鍵字)形成的多次元向量空間, 索引詞的集合通常為文件中至少出現過一次的詞組。
搜尋時,輸入的檢索詞也被轉換成類似於文件的向量,這個模型假設,文件和搜尋詞的相關程度,可以經由比較每個文件(向量)和檢索詞(向量)的夾角偏差程度而得知。
實務上,計算夾角向量之間的餘弦比直接計算夾角容易:
餘弦為零表示檢索詞向量垂直於文件向量,即沒有符合,也就是說該文件不含此檢索詞。
目录 |
[编辑] 範例
由Salton,Wong and Yang提出的古典的向量空間模型,一個詞組在文件向量中的權重,為區域和全域參數的乘積。即所謂的TF-IDF (詞頻-逆向文件頻率 ),文件 d 的權重向量為
,其中
並且
- tft 是詞組"t"的在文件"d"出現的次數(區域參數)
是反文件頻(全域參數)。 | D | 是文件的總數;
是含有詞組"t" 的文件數。
在比較簡單的詞組計數模式中,詞組的權重並沒有考慮到全區參數。只是單純地計算詞組出現的次數:wt,d = tft。
[编辑] 向量空間的假設及限制
向量空間有以下的限制:
- 不適合處理過長的文件,因為近似值不理想(過小的純量積以及過高的次元)。
- 檢索詞組必須要完全符合文件中出現的詞組;不完整詞組(子字串)會产生false positive。
- 語言敏感度不佳;情境相同但使用不同語彙的文件無法被關連起來,這產生所謂的false negative 。
[编辑] 向量空間模型的擴充
- 一般化向量空間模型
- 基於主題的向量空間模型
[编辑] 進階閱讀
- G. Salton, A. Wong, and C. S. Yang (1975), "[http://www.cs.uiuc.edu/class/fa05/cs511/Spring05/other_papers/p613-
salton.pdf A Vector Space Model for Automatic Indexing]," Communications of the ACM, vol. 18, nr. 11, pages 613–620. (The article
in which the vector space model was first presented)
- Description of the vector space model
- Description of the topic-based vector space model
- [http://www.miislita.com/term-vector/term-vector-3.html Description of the classic vector space model by Dr E Garcia, a noted authority
in IR, SEO and SEM vector theories - also known as the Mi Islita website]


是反文件頻(全域參數)。
是含有詞組"t" 的文件數。