Word2vec

Word2vec是一群用來產生詞向量的相關模型。這些模型為淺層雙層的神經網絡，用來訓練以重新建構語言學之詞文本。網絡以詞表現，並且需猜測相鄰位置的輸入詞，在word2vec中詞袋模型假設下，詞的順序是不重要的。

訓練完成之後，word2vec模型可以把每個詞映射到一個向量，來表示詞與詞之間的關係。該向量為神經網絡的隱藏層^[1]。

Word2vec依賴skip-grams或連續詞袋（CBOW）來建立神經詞嵌入。Word2vec為托馬斯·米科洛夫（Tomas Mikolov）在Google帶領的研究團隊創造。該演算法漸漸被其他人所分析和解釋^[2]^[3]。

Skip-grams和CBOW

CBOW把一個詞從詞窗剔除。在CBOW下給定 $n$ 詞圍繞着詞 $w$ ，word2vec預測一個句子中其中一個缺漏的詞 $c$ ，即以概率 $p(c|w)$ 來表示。相反地，Skip-gram給定詞窗中的文本，預測當前的詞 $p(w|c)$ 。

延伸

Word2vec用來建構整份文件（而分獨立的詞）的延伸應用已被提出^[4]，該延伸稱為paragraph2vec或doc2vec，並且用C、Python^[5]^[6]和 Java/Scala^[7]實做成工具（參考下方）。Java和Python也支援推斷文件嵌入於未觀測的文件。

分析

對word2vec框架為何做詞嵌入如此成功知之甚少，約阿夫·哥德堡（Yoav Goldberg）和歐莫·列維（Omer Levy）指出word2vec的功能導致相似文本擁有相似的嵌入（用餘弦相似性計算）並且和約翰·魯伯特·弗斯的分佈假說（英語：Distributional semantics）有關。

實作

參見

向量空間模型

參考文獻

^ Mikolov, Tomas; et al. Efficient Estimation of Word Representations in Vector Space (PDF). [2015-08-14]. （原始內容 (PDF)存檔於2022-05-09）.
^ Goldberg, Yoav; Levy, Omar. word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method (PDF). [2015-08-14]. （原始內容 (PDF)存檔於2022-01-22）.
^ Řehůřek, Radim. Word2vec and friends (Youtube video). [2015-08-14]. （原始內容存檔於2020-05-22）.
^ Le, Quoc; et al. Distributed Representations of Sentences and Documents. (PDF). [2016-02-18]. （原始內容 (PDF)存檔於2021-11-23）.
^ Doc2Vec tutorial using Gensim. [2015-08-02]. （原始內容存檔於2021-01-23）.
^ Doc2vec for IMDB sentiment analysis. [2016-02-18]. （原始內容存檔於2020-01-07）.
^ Doc2Vec and Paragraph Vectors for Classification. [2016-01-13]. （原始內容存檔於2015-12-31）.

[mikolov-1] Mikolov, Tomas; et al. Efficient Estimation of Word Representations in Vector Space (PDF). [2015-08-14]. （原始內容 (PDF)存檔於2022-05-09）.

[explain-2] Goldberg, Yoav; Levy, Omar. word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method (PDF). [2015-08-14]. （原始內容 (PDF)存檔於2022-01-22）.

[extensions-3] Řehůřek, Radim. Word2vec and friends (Youtube video). [2015-08-14]. （原始內容存檔於2020-05-22）.

[doc2vec-4] Le, Quoc; et al. Distributed Representations of Sentences and Documents. (PDF). [2016-02-18]. （原始內容 (PDF)存檔於2021-11-23）.

[doc2vec_python-5] Doc2Vec tutorial using Gensim. [2015-08-02]. （原始內容存檔於2021-01-23）.

[doc2vec_imdb-6] Doc2vec for IMDB sentiment analysis. [2016-02-18]. （原始內容存檔於2020-01-07）.

[doc2vec_java-7] Doc2Vec and Paragraph Vectors for Classification. [2016-01-13]. （原始內容存檔於2015-12-31）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

閱論編自然語言處理
一般術語	語料庫口語語料庫停用詞詞袋完全人工智能（英語：AI-complete） n元語法（雙字母組、三元語法（英語：Trigrams））
文本挖掘	文本分割詞性標註（英語：Part-of-speech tagging）拆句處理（英語：Shallow parsing）複合詞處理（英語：Compound term processing）搭配提取（英語：Collocation extraction）詞幹提取詞形還原命名實體識別指代文本情感分析概念挖掘（英語：Concept mining）語法分析詞義消歧術語提取（英語：Terminology extraction）真實大小寫處理（英語：Truecasing）
自動摘要（英語：Automatic summarization）	多文檔摘要（英語：Multi-document summarization）句子抽取（英語：Sentence extraction）文本簡化（英語：Text simplification）
分佈語義（英語：Distributional semantics）模型	潛在語義學 Seq2Seq模型 Word2vec 語言模型大型語言模型基礎模型 LLaMA ChatGPT GPT-4 文心一言詞嵌入
機器翻譯	電腦輔助翻譯基於實例（英語：Example-based machine translation）基於規則（英語：Rule-based machine translation）
自動識別與數據採集	語音識別語音合成光學字符識別自然語言生成提示工程
主題模型	彈珠分佈（英語：Pachinko allocation）隱含狄利克雷分佈潛在語義索引
計算機輔助審查（英語：Computer-assisted reviewing）	自動作文評分（英語：Automated essay scoring）語料庫檢索工具（英語：Concordancer）文法檢查器（英語：Grammar checker）預測文本（英語：Predictive text）拼寫檢查語法猜測（英語：Syntax guessing）
自然語言用戶界面（英語：Natural language user interface）	自動在線助手聊天機械人文字冒險遊戲問答系統