相关反馈

维基百科,自由的百科全书
跳转至: 导航搜索

相关反馈,起源于信息检索系统领域,其思路是将给定查询最先返回的结果,和这些结果是否与新查询是否相关的信息利用起来。区别三种类型的反馈将很有意义:显式反馈、隐式反馈和盲式或伪反馈。

显式反馈[编辑]

显式反馈是从相关性评估者那里获取的,这里的相关性表示检索文档与查询的相关程度。只有当评估者(或系统的其他用户)清楚所提供的反馈是被解释为相关性判断依据时,这种类型的反馈才能称为是显式的。

用户可能将相关性用二元分级的相关机制来显式表示。二元相关反馈表示文档相对于给定的查询要么相关,要么不相关。而分级的相关反馈则使用数字、字母或其它描述(如“不相关”,“一点相关”,“相关”,或“很相关”)来表示文档与查询的相关程度。当评估者将结果中的文档按照相关性排序(通常时降序)时,分级的相关反馈也需要使用这种由评估者创建的文档序号形式,Google在搜索网站中实现的SearchWiki就是这样一个例子,

相关反馈信息需要结合原始查询才能提高检索性能,如著名的Rocchio算法

性能度量在2005年左右变得流行起来,其用来衡量排名算法的有用性,其中基于显式相关反馈的性能度量是NDCG,其它的度量包括k上查准率平均查准率

隐式反馈[编辑]

隐式反馈是从用户行为中推断出来的,这些行为比如观察用户选择查看或不查看哪些文档,查看文档所持续的时间,或者浏览页面、卷动滚动条操作[1]

隐式反馈与显式反馈最主要的区别包括[2]

  1. 用户并不需要为了考虑IR系统需要而去评估相关性,而只关注自己的需要能否满足即可;
  2. 并不需要告知用户他们的行为会被用于相关反馈。

其中的一个例子是Surf Canyon浏览器扩展,基于用户交互(点击图标)和搜索结果链接页面上的时间花费,来提前从结果集中的后续页面中搜索结果。

盲式反馈[编辑]

伪相关反馈,也称之为盲式相关反馈,提供的是一种自动局部分析方法,它可以自动化相关反馈的手动操作部分,因此用户可不用参与额外的交互也可以获得更好的检索性能。这种方法首先通过普通检索从最相关的文档中寻找到一个初始结果,然后假定其中的前"k"排名文档是相关的,最后在这个假设条件下像前面一样进行相关反馈。过程步骤如下:

  1. 把初始查询返回的结果当成相关结果(在大多数实验中仅前k个,k位于10和50之间的数);
  2. 使用如TF-IDF权重的方法从这些文档中选择前20-30(象征性的数字)个词语;
  3. 执行查询扩展,将这些词语加入到查询中,然后再去匹配查询所返回的文档,最终返回最相关的文档。

一些实验,如发表在(Buckley et al.1995)的Cornell SMART系统,在TREC 4实验环境中使用伪相关反馈提升了其检索系统的性能。

这种自动化技术在大多数情况下都工作正常,有证据表明甚至好于全局分析。[1] 通过查询扩展,一些在初始查询中错过的文档能被重新获得,从而提高了整体性能。很显然,这种方法的效果非常依赖于所选择的扩展词语的质量,目前已经发现它在TREC即席任务中提高了性能[來源請求]。但是它又避免了自动处理过程的危险,例如,如果需要查询的是铜矿,而且位于前面的一些文档都是关于智利的铜矿,那么在查询方向上会逐渐偏向于那些与智利有关的文档。[2] 然而,如果加入原始查询的词语与查询主题并不相关,检索质量有可能会下降,尤其是在Web搜索中,Web文档经常会覆盖多个不同的主题。

使用相关性信息[编辑]

利用相关性信息,可使用相关文档的内容来调整原始查询中词语的权重,也可使用这些内容将词语加入到查询中,相关性反馈经常使用Rocchio算法实现。

更多阅读[编辑]

参考文献[编辑]

  1. ^ Jinxi Xu and W. Bruce Croft, Query expansion using local and global document analysis, in Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR), 1996.
  2. ^ Yuanhua Lv and ChengXiang Zhai, Positional relevance model for pseudo-relevance feedback, in Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval (SIGIR), 2010.