全文檢索

维基百科,自由的百科全书

跳转到: 导航, 搜索

從文本或資料庫中,不限定資料欄位,自由地萃取出訊息的技術。


執行全文檢索任務的程式,一般稱作搜尋引擎,它將使用者隨意輸入的文字,試圖從資料庫中,找到符合的內容。

目录

[编辑] 全文索引的相關議題

  • 語根處理 (stemming)
  • 符素解析器 (token parser) 1-gram, 2-gram , n-gram
  • 斷詞/分詞 word segmentation
  • 反向索引 inverted index

[编辑] 演算法、搜尋策略之模型

  • 布林式 boolean
  • 統計模型 Probabilistic model
  • 向量空間模型 vector base model
  • 隱性語義模型 Latent semantic model

[编辑] 評量之準則

  • 查全率(recall rate),查準率(precision)

[编辑] 開放原始碼之全文檢索系統

  • lucene
  • xapian

[编辑] 和中文有關的議題

  • 斷詞
  • 語法解析
  • 古籍議題
  • 多語言混合

[编辑] 優化

  • 剔除字(Stopwords)
  • 詞性標註
  • 權威檔(authority file)
  • 知識體系,本體論(ontology)
  • 超連結分析(page rank)技術

[编辑] 歷史及未來之趨勢

  • 自由語句搜尋

[编辑] 參考

个人工具