用户:Mandudu123/沙盒 - 维基百科，自由的百科全书

机器学习与数据挖掘

范式监督学习无监督学习线上机器学习元学习（英语：Meta-learning (computer science)）半监督学习自监督学习强化学习基于规则的机器学习（英语：Rule-based machine learning）量子机器学习
问题统计分类生成模型回归分析聚类分析降维密度估计（英语：density estimation）异常检测数据清洗自动机器学习关联规则学习语意分析结构预测（英语：Structured prediction）特征工程表征学习排序学习（英语：Learning to rank）语法归纳（英语：Grammar induction）本体学习（英语：Ontology learning）多模态学习（英语：Multimodal learning）
监督学习 (分类 · 回归) 学徒学习（英语：Apprenticeship learning）决策树学习集成学习 Bagging 提升方法随机森林 k-NN 线性回归朴素贝叶斯人工神经网络逻辑斯谛回归感知器相关向量机（RVM）支持向量机（SVM）迁移学习微调
聚类分析 BIRCH CURE算法（英语：CURE algorithm）层次 k-平均 Fuzzy 期望最大化（EM） DBSCAN OPTICS 均值飘移（英语：Mean shift）
降维因素分析 CCA ICA LDA NMF（英语：Non-negative matrix factorization） PCA PGD（英语：Proper generalized decomposition） t-SNE（英语：t-distributed stochastic neighbor embedding） SDL
结构预测（英语：Structured prediction）图模式贝氏网络条件随机域隐马尔可夫模型
异常检测 RANSAC k-NN 局部异常因子（英语：Local outlier factor）孤立森林（英语：Isolation forest）
人工神经网络自编码器认知计算深度学习 DeepDream（英语：DeepDream）多层感知器 RNN LSTM GRU（英语：Gated recurrent unit） ESN（英语：Echo state network）储备池计算（英语：reservoir computing）受限玻尔兹曼机 GAN SOM CNN U-Net Transformer Vision transforme（英语：Vision transformer）脉冲神经网络（英语：Spiking neural network） Memtransistor（英语：Memtransistor）电化学RAM（英语：Electrochemical RAM）（ECRAM）
强化学习 Q学习 SARSA 时序差分（TD）多智能体（英语：Multi-agent reinforcement learning） Self-play（英语：Self-play (reinforcement learning technique)） RLHF
与人类学习主动学习（英语：Active learning (machine learning)）众包 Human-in-the-loop（英语：Human-in-the-loop）
模型诊断学习曲线（英语：Learning curve (machine learning)）
数学基础内核机器（英语：Kernel machines）偏差–方差困境（英语：Bias–variance tradeoff）计算学习理论（英语：Computational learning theory）经验风险最小化奥卡姆学习（英语：Occam learning） PAC学习（英语：Probably approximately correct learning）统计学习 VC理论
大会与出版物 NeurIPS ICML（英语：International Conference on Machine Learning） ICLR ML（英语：Machine Learning (journal)） JMLR（英语：Journal of Machine Learning Research）
相关条目人工智能术语（英语：Glossary of artificial intelligence）机器学习研究数据集列表（英语：List of datasets for machine-learning research）机器学习概要（英语：Outline of machine learning）
查论编

Word2vec为一群用来产生词嵌入的模型。这些模型为浅、双层神经网络

训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。该向量为神经网络之隐藏层^[1]

Word2vec依赖skip-grams或continuous bag of words (CBOW)来建立神经词嵌入。Word2vec为Tomas Mikolov at Google带领的研究团队创造。该算法渐渐被其他人所分析和解释^[2]^[3]

Skip-grams 和 CBOW[编辑]

Skip-gram 把其中一个词从词窗剔除。在skip-grams下给定 $n$ 词围绕着词 $w$ ，word2vec预测一个句子中其中一个缺漏的词 $c$ ，i.e.以几率 $p(c|w)$ 来表示。相反地，CBOW 给定词窗中的文本，预测当前的词 $p(w|c)$

延伸[编辑]

Analysis[编辑]

对word2vec框架为何做文字嵌入如此成功知之甚少，Goldberg 和Levy 指出word2vec 的功能导致相似文本拥有相似的嵌入(用 cosine similarity计算)并且和 J. R. Firth 的distributional hypothesis有关 They also note that this explanation is "very hand-wavy".

实作[编辑]

参见[编辑]

参考[编辑]

^ Mikolov, Tomas; et al. Efficient Estimation of Word Representations in Vector Space (PDF). [2015-08-14].
^ Goldberg, Yoav; Levy, Omar. word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method (PDF). [2015-08-14].
^ Řehůřek, Radim. Word2vec and friends (Youtube video). [2015-08-14].

查论编自然语言处理

一般术语	语料库口语语料库停用词词袋完全人工智能（英语：AI-complete） n元语法（双字母组、三元语法（英语：Trigrams））

文本挖掘	文本分割词性标注（英语：Part-of-speech tagging）拆句处理（英语：Shallow parsing）复合词处理（英语：Compound term processing）搭配提取（英语：Collocation extraction）词干提取词形还原命名实体识别指代文本情感分析概念挖掘（英语：Concept mining）语法分析词义消歧术语提取（英语：Terminology extraction）真实大小写处理（英语：Truecasing）

自动摘要（英语：Automatic summarization）	多文档摘要（英语：Multi-document summarization）句子抽取（英语：Sentence extraction）文本简化（英语：Text simplification）

分散式语意模型	潜在语义学 Seq2Seq模型 Word2vec 语言模型大型语言模型基础模型 LLaMA ChatGPT GPT-4 文心一言

机器翻译	电脑辅助翻译基于实例（英语：Example-based machine translation）基于规则（英语：Rule-based machine translation）

自动识别与数据采集	语音识别语音合成光学字符识别自然语言生成提示工程

主题模型	弹珠分布（英语：Pachinko allocation）隐含狄利克雷分布潜在语义索引

计算机辅助审查（英语：Computer-assisted reviewing）	自动作文评分（英语：Automated essay scoring）语料库检索工具（英语：Concordancer）文法检查器（英语：Grammar checker）预测文本（英语：Predictive text）拼写检查语法猜测（英语：Syntax guessing）

自然语言用户界面（英语：Natural language user interface）	自动在线助手聊天机器人文字冒险游戏问答系统