讨论:Tf-idf
外观
本条目页依照页面评级标准评为初级。 本条目页属于下列维基专题范畴: |
|||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
本条目有内容译自英语维基百科页面“Tf–idf”(原作者列于其历史记录页)。 |
Tf-idf曾于2007年5月19日通过新条目推荐投票,登上维基百科首页的“你知道吗?”栏位。 |
此条目已被学术论文引用。该论文为:
|
新条目推荐
[编辑]- ~移动自Wikipedia:新条目推荐/候选~(最后修订)
搜寻引擎常用哪种权重来计算网页与用户查询之间的相关程度?(自荐,原作者User:Jasonzhuocn,由360 bytes扩充到4,018 bytes)—小峰 2007年5月17日 (四) 15:41 (UTC)- 搜寻引擎常用哪种权重作为计算网页与用户查询之间的相关程度的基础?—小峰 2007年5月18日 (五) 06:18 (UTC)
- (!)意见恐怕不是所有搜寻引擎都用这种算法吧?问题外延过宽。--蒙人 ->敖包相会 2007年5月17日 (四) 15:52 (UTC)
- (:)回应事实上,TF-IDF权重的各种变化形经常被搜寻引擎用作计算网页与用户查询相关度的基础,可参阅
- What's new on the web?: the evolution of the web from a search engine perspective一文中的Introduction部分有提到"Search engines typically use variations of TF.IDF distance metric to evaluate the relevance of a page to a query"。
- Google黑板报 - 数学之美 系列九 -- 如何确定网页和查询的相关性一文亦提到TF-IDF“在搜索、文献分类和其他相关领域有广泛的应用。”—小峰 2007年5月17日 (四) 16:36 (UTC)
- (:)回应事实上,TF-IDF权重的各种变化形经常被搜寻引擎用作计算网页与用户查询相关度的基础,可参阅
- (+)支持—bstlee☻talk 2007年5月17日 (四) 20:57 (UTC)
- (+)支持——顾心阳 2007年5月18日 (五) 14:26 (UTC)
- (+)支持→现在不啰唆的阿佳 2007年5月19日 (六) 06:06 (UTC)
- (+)支持—Iflwlou [ M { 2007年5月19日 (六) 07:53 (UTC)
- (!)意见恐怕不是所有搜寻引擎都用这种算法吧?问题外延过宽。--蒙人 ->敖包相会 2007年5月17日 (四) 15:52 (UTC)
- ~移动完毕~—天上的云彩 云端对话 2007年5月19日 (六) 12:12 (UTC)
对log的底数的疑问
[编辑]再将得到的商取以2为底的对数得到
,这里可能应该是以10为底,可以参考英文版。同时跟下方实例中lg(10,000,000/1,000)=4对应。
或者可以理解为这里的底数可以作为参数,根据实际需要来调整?--Erimus Koo(留言) 2024年2月5日 (一) 06:22 (UTC)