討論:Tf-idf
外觀
本條目頁依照頁面評級標準評為初級。 本條目頁屬於下列維基專題範疇: |
|||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
本條目有內容譯自英語維基百科頁面「Tf–idf」(原作者列於其歷史記錄頁)。 |
Tf-idf曾於2007年5月19日通過新條目推薦投票,登上維基百科首頁的「你知道嗎?」欄位。 |
此條目已被學術論文引用。該論文為:
|
新條目推薦
[編輯]- ~移動自Wikipedia:新條目推薦/候選~(最後修訂)
搜尋引擎常用哪種權重來計算網頁與用戶查詢之間的相關程度?(自薦,原作者User:Jasonzhuocn,由360 bytes擴充到4,018 bytes)—小峰 2007年5月17日 (四) 15:41 (UTC)- 搜尋引擎常用哪種權重作為計算網頁與用戶查詢之間的相關程度的基礎?—小峰 2007年5月18日 (五) 06:18 (UTC)
- (!)意見恐怕不是所有搜尋引擎都用這種算法吧?問題外延過寬。--蒙人 ->敖包相會 2007年5月17日 (四) 15:52 (UTC)
- (:)回應事實上,TF-IDF權重的各種變化形經常被搜尋引擎用作計算網頁與用戶查詢相關度的基礎,可參閱
- What's new on the web?: the evolution of the web from a search engine perspective一文中的Introduction部分有提到"Search engines typically use variations of TF.IDF distance metric to evaluate the relevance of a page to a query"。
- Google黑板報 - 數學之美 系列九 -- 如何確定網頁和查詢的相關性一文亦提到TF-IDF「在搜索、文獻分類和其他相關領域有廣泛的應用。」—小峰 2007年5月17日 (四) 16:36 (UTC)
- (:)回應事實上,TF-IDF權重的各種變化形經常被搜尋引擎用作計算網頁與用戶查詢相關度的基礎,可參閱
- (+)支持—bstlee☻talk 2007年5月17日 (四) 20:57 (UTC)
- (+)支持——顧心陽 2007年5月18日 (五) 14:26 (UTC)
- (+)支持→現在不囉唆的阿佳 2007年5月19日 (六) 06:06 (UTC)
- (+)支持—Iflwlou [ M { 2007年5月19日 (六) 07:53 (UTC)
- (!)意見恐怕不是所有搜尋引擎都用這種算法吧?問題外延過寬。--蒙人 ->敖包相會 2007年5月17日 (四) 15:52 (UTC)
- ~移動完畢~—天上的雲彩 雲端對話 2007年5月19日 (六) 12:12 (UTC)
對log的底數的疑問
[編輯]再將得到的商取以2為底的對數得到
,這裏可能應該是以10為底,可以參考英文版。同時跟下方實例中lg(10,000,000/1,000)=4對應。
或者可以理解為這裏的底數可以作為參數,根據實際需要來調整?--Erimus Koo(留言) 2024年2月5日 (一) 06:22 (UTC)