User:Mandudu123/沙盒

维基百科,自由的百科全书

Word2vec為一群用來產生詞嵌入的模型。這些模型為淺、雙層神經網路


訓練完成之後,word2vec模型可用來映射每個詞到一個向量,可用來表示詞對詞之間的關係。該向量為神經網路之隱藏層[1]

Word2vec依賴skip-grams或continuous bag of words (CBOW)來建立神經詞嵌入。Word2vec為Tomas Mikolov at Google帶領的研究團隊創造。該演算法漸漸被其他人所分析和解釋[2][3]

Skip-grams 和 CBOW[编辑]

Skip-gram 把其中一個詞從詞窗剔除。在skip-grams下給定n 詞圍繞著詞 w,word2vec預測一個句子中其中一個缺漏的詞c,i.e.以機率來表示。相反地,CBOW 給定詞窗中的文本,預測當前的詞

延伸[编辑]

Analysis[编辑]

對word2vec框架為何做文字嵌入如此成功知之甚少,Goldberg 和Levy 指出word2vec 的功能導致相似文本擁有相似的嵌入(用 cosine similarity計算)並且和 J. R. Firth 的distributional hypothesis有關 They also note that this explanation is "very hand-wavy".

實作[编辑]

參見[编辑]

參考[编辑]

  1. ^ Mikolov, Tomas; et al. Efficient Estimation of Word Representations in Vector Space (PDF). [2015-08-14]. 
  2. ^ Goldberg, Yoav; Levy, Omar. word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method (PDF). [2015-08-14]. 
  3. ^ Řehůřek, Radim. Word2vec and friends (Youtube video). [2015-08-14].