向量空間模型

维基百科,自由的百科全书
跳转到: 导航, 搜索

向量空間模型 (或 詞組向量模型) 是一個應用於資訊過濾, 資訊擷取l, 索引 以及評估相關性的代數模型。 SMART是首個使用這個模型的資訊檢索系統。

文件(語料)被視為索引詞(關鍵字)形成的多次元向量空間, 索引詞的集合通常為文件中至少出現過一次的詞組。

搜尋時,輸入的檢索詞也被轉換成類似於文件的向量,這個模型假設,文件和搜尋詞的相關程度,可以經由比較每個文件(向量)和檢索詞(向量)的夾角偏差程度而得知。

實務上,計算夾角向量之間的餘弦比直接計算夾角容易:


\cos{\theta} = \frac{\mathbf{v_1} \cdot \mathbf{v_2}}{\left\| \mathbf{v_1} \right\| \left \| \mathbf{v_2} \right\|}

餘弦為零表示檢索詞向量垂直於文件向量,即沒有符合,也就是說該文件不含此檢索詞。

目录

[编辑] 範例

Salton,Wong and Yang提出的古典的向量空間模型,一個詞組在文件向量中的權重,為區域和全域參數的乘積。即所謂的TF-IDF (詞頻-逆向文件頻率 ),文件 d 的權重向量為 \mathbf{v}_d = [w_{1,d}, w_{2,d}, \ldots, w_{N,d}]^T,其中


w_{t,d} = \mathrm{tf}_t \cdot log{\frac{|D|}{|\{t \in d\}|}}

並且

  • tft 是詞組"t"的在文件"d"出現的次數(區域參數)
  • log{\frac{|D|}{|\{t \in d\}|}} 是反文件頻(全域參數)。 | D | 是文件的總數; |\{t \in d\}| 是含有詞組"t" 的文件數。

在比較簡單的詞組計數模式中,詞組的權重並沒有考慮到全區參數。只是單純地計算詞組出現的次數:wt,d = tft

[编辑] 向量空間的假設及限制

向量空間有以下的限制:

  1. 不適合處理過長的文件,因為近似值不理想(過小的純量積以及過高的次元)。
  2. 檢索詞組必須要完全符合文件中出現的詞組;不完整詞組(子字串)會产生false positive
  3. 語言敏感度不佳;情境相同但使用不同語彙的文件無法被關連起來,這產生所謂的false negative

[编辑] 向量空間模型的擴充

[编辑] 進階閱讀

salton.pdf A Vector Space Model for Automatic Indexing]," Communications of the ACM, vol. 18, nr. 11, pages 613–620. (The article

in which the vector space model was first presented)

in IR, SEO and SEM vector theories - also known as the Mi Islita website]

[编辑] 參見

个人工具
名字空间
操作
导航
帮助
工具
其他语言