全文检索

本页使用了标题或全文手工转换
维基百科,自由的百科全书

从文本或资料库中,不限定资料栏位,自由地萃取出讯息的技术。

执行全文检索任务的程式,一般称作搜寻引擎,它将使用者随意输入的文字,试图从资料库中,找到符合的内容。

全文索引的相关议题[编辑]

  • 语根处理 (stemming)
  • 符素解析器 (token parser) 1-gram, 2-gram , n-gram
  • 断词/分词 word segmentation
  • 倒排索引 inverted index

演算法、搜寻策略之模型[编辑]

  • 布林式 boolean
  • 统计模型 Probabilistic model
  • 向量空间模型 vector base model
  • 隐性语义模型 Latent semantic model

评量之准则[编辑]

  • 查全率(recall rate),查准率(precision)

开放原始码之全文检索系统[编辑]

和中文有关的议题[编辑]

  • 断词
  • 语法解析
  • 古籍议题
  • 多语言混合

优化[编辑]

  • 剔除字(Stopwords)
  • 词性标注
  • 规范文件(authority file)
  • 知识体系,本体论(ontology)
  • 超连结分析(page rank)技术

历史及未来之趋势[编辑]

  • 自由语句搜寻

参考[编辑]