Word2vec

Word2vec是一群用来产生词向量的相关模型。这些模型为浅层双层的神经网路，用来训练以重新建构语言学之词文本。网路以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。

训练完成之后，word2vec模型可以把每个词映射到一个向量，来表示词与词之间的关系。该向量为神经网路的隐藏层^[1]。

Word2vec依赖skip-grams或连续词袋（CBOW）来建立神经词嵌入。Word2vec为托马斯·米科洛夫（Tomas Mikolov）在Google带领的研究团队创造。该演算法渐渐被其他人所分析和解释^[2]^[3]。

Skip-grams和CBOW

CBOW把一个词从词窗剔除。在CBOW下给定 $n$ 词围绕著词 $w$ ，word2vec预测一个句子中其中一个缺漏的词 $c$ ，即以机率 $p(c|w)$ 来表示。相反地，Skip-gram给定词窗中的文本，预测当前的词 $p(w|c)$ 。

延伸

Word2vec用来建构整份文件（而分独立的词）的延伸应用已被提出^[4]，该延伸称为paragraph2vec或doc2vec，并且用C、Python^[5]^[6]和 Java/Scala^[7]实做成工具（参考下方）。Java和Python也支援推断文件嵌入于未观测的文件。

分析

对word2vec框架为何做词嵌入如此成功知之甚少，约阿夫·哥德堡（Yoav Goldberg）和欧莫·列维（Omer Levy）指出word2vec的功能导致相似文本拥有相似的嵌入（用余弦相似性计算）并且和约翰·鲁伯特·弗斯的分布假说（英语：Distributional semantics）有关。

实作

参见

向量空间模型

参考文献

^ Mikolov, Tomas; et al. Efficient Estimation of Word Representations in Vector Space (PDF). [2015-08-14]. （原始内容 (PDF)存档于2022-05-09）.
^ Goldberg, Yoav; Levy, Omar. word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method (PDF). [2015-08-14]. （原始内容 (PDF)存档于2022-01-22）.
^ Řehůřek, Radim. Word2vec and friends (Youtube video). [2015-08-14]. （原始内容存档于2020-05-22）.
^ Le, Quoc; et al. Distributed Representations of Sentences and Documents. (PDF). [2016-02-18]. （原始内容 (PDF)存档于2021-11-23）.
^ Doc2Vec tutorial using Gensim. [2015-08-02]. （原始内容存档于2021-01-23）.
^ Doc2vec for IMDB sentiment analysis. [2016-02-18]. （原始内容存档于2020-01-07）.
^ Doc2Vec and Paragraph Vectors for Classification. [2016-01-13]. （原始内容存档于2015-12-31）.

[mikolov-1] Mikolov, Tomas; et al. Efficient Estimation of Word Representations in Vector Space (PDF). [2015-08-14]. （原始内容 (PDF)存档于2022-05-09）.

[explain-2] Goldberg, Yoav; Levy, Omar. word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method (PDF). [2015-08-14]. （原始内容 (PDF)存档于2022-01-22）.

[extensions-3] Řehůřek, Radim. Word2vec and friends (Youtube video). [2015-08-14]. （原始内容存档于2020-05-22）.

[doc2vec-4] Le, Quoc; et al. Distributed Representations of Sentences and Documents. (PDF). [2016-02-18]. （原始内容 (PDF)存档于2021-11-23）.

[doc2vec_python-5] Doc2Vec tutorial using Gensim. [2015-08-02]. （原始内容存档于2021-01-23）.

[doc2vec_imdb-6] Doc2vec for IMDB sentiment analysis. [2016-02-18]. （原始内容存档于2020-01-07）.

[doc2vec_java-7] Doc2Vec and Paragraph Vectors for Classification. [2016-01-13]. （原始内容存档于2015-12-31）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

查论编自然语言处理
一般术语	语料库口语语料库停用词词袋完全人工智慧（英语：AI-complete） n元语法（双字母组、三元语法（英语：Trigrams））
文本挖掘	文本分割词性标注（英语：Part-of-speech tagging）拆句处理（英语：Shallow parsing）复合词处理（英语：Compound term processing）搭配提取（英语：Collocation extraction）词干提取词形还原命名实体识别指代文本情感分析概念挖掘（英语：Concept mining）语法分析词义消歧术语提取（英语：Terminology extraction）真实大小写处理（英语：Truecasing）
自动摘要（英语：Automatic summarization）	多文档摘要（英语：Multi-document summarization）句子抽取（英语：Sentence extraction）文本简化（英语：Text simplification）
分布语义（英语：Distributional semantics）模型	潜在语义学 Seq2Seq模型 Word2vec 语言模型大型语言模型基础模型 LLaMA ChatGPT GPT-4 文心一言词嵌入
机器翻译	电脑辅助翻译基于实例（英语：Example-based machine translation）基于规则（英语：Rule-based machine translation）
自动识别与数据采集	语音识别语音合成光学字符识别自然语言生成提示工程
主题模型	弹珠分布（英语：Pachinko allocation）隐含狄利克雷分布潜在语义索引
计算机辅助审查（英语：Computer-assisted reviewing）	自动作文评分（英语：Automated essay scoring）语料库检索工具（英语：Concordancer）文法检查器（英语：Grammar checker）预测文本（英语：Predictive text）拼写检查语法猜测（英语：Syntax guessing）
自然语言用户界面（英语：Natural language user interface）	自动在线助手聊天机器人文字冒险游戏问答系统