User:Mandudu123/沙盒 - 维基百科，自由的百科全书

机器学习与数据挖掘

范式监督学习無監督學習線上機器學習元学习（英语：Meta-learning (computer science)）半监督学习自监督学习强化学习基于规则的机器学习（英语：Rule-based machine learning）量子機器學習
问题统计分类生成模型迴歸分析聚类分析降维密度估计（英语：density estimation）异常检测数据清洗自动机器学习关联规则学习語意分析结构预测（英语：Structured prediction）特征工程表征学习排序学习（英语：Learning to rank）语法归纳（英语：Grammar induction）本体学习（英语：Ontology learning）多模态学习（英语：Multimodal learning）
监督学习 (分类 · 回归) 学徒学习（英语：Apprenticeship learning）决策树学习集成学习 Bagging 提升方法随机森林 k-NN 線性回歸朴素贝叶斯人工神经网络邏輯斯諦迴歸感知器相关向量机（RVM）支持向量机（SVM）迁移学习微调
聚类分析 BIRCH CURE算法（英语：CURE algorithm）层次 k-平均 Fuzzy 期望最大化（EM） DBSCAN OPTICS 均值飘移（英语：Mean shift）
降维因素分析 CCA ICA LDA NMF（英语：Non-negative matrix factorization） PCA PGD（英语：Proper generalized decomposition） t-SNE（英语：t-distributed stochastic neighbor embedding） SDL
结构预测（英语：Structured prediction）圖模式貝氏網路條件隨機域隐马尔可夫模型
异常检测 RANSAC k-NN 局部异常因子（英语：Local outlier factor）孤立森林（英语：Isolation forest）
人工神经网络自编码器認知計算深度学习 DeepDream（英语：DeepDream）多层感知器 RNN LSTM GRU（英语：Gated recurrent unit） ESN（英语：Echo state network）储备池计算（英语：reservoir computing）受限玻尔兹曼机 GAN SOM CNN U-Net Transformer Vision transforme（英语：Vision transformer）脉冲神经网络（英语：Spiking neural network） Memtransistor（英语：Memtransistor）电化学RAM（英语：Electrochemical RAM）（ECRAM）
强化学习 Q学习 SARSA 时序差分（TD）多智能体（英语：Multi-agent reinforcement learning） Self-play（英语：Self-play (reinforcement learning technique)） RLHF
与人类学习主动学习（英语：Active learning (machine learning)）众包 Human-in-the-loop（英语：Human-in-the-loop）
模型诊断学习曲线（英语：Learning curve (machine learning)）
数学基础内核机器（英语：Kernel machines）偏差–方差困境（英语：Bias–variance tradeoff）计算学习理论（英语：Computational learning theory）经验风险最小化奥卡姆学习（英语：Occam learning） PAC学习（英语：Probably approximately correct learning）统计学习 VC理论
大会与出版物 NeurIPS ICML（英语：International Conference on Machine Learning） ICLR ML（英语：Machine Learning (journal)） JMLR（英语：Journal of Machine Learning Research）
相关条目人工智能术语（英语：Glossary of artificial intelligence）机器学习研究数据集列表（英语：List of datasets for machine-learning research）机器学习概要（英语：Outline of machine learning）
查论编

Word2vec為一群用來產生詞嵌入的模型。這些模型為淺、雙層神經網路

訓練完成之後，word2vec模型可用來映射每個詞到一個向量，可用來表示詞對詞之間的關係。該向量為神經網路之隱藏層^[1]

Word2vec依賴skip-grams或continuous bag of words (CBOW)來建立神經詞嵌入。Word2vec為Tomas Mikolov at Google帶領的研究團隊創造。該演算法漸漸被其他人所分析和解釋^[2]^[3]

Skip-grams 和 CBOW[编辑]

Skip-gram 把其中一個詞從詞窗剔除。在skip-grams下給定 $n$ 詞圍繞著詞 $w$ ，word2vec預測一個句子中其中一個缺漏的詞 $c$ ，i.e.以機率 $p(c|w)$ 來表示。相反地，CBOW 給定詞窗中的文本，預測當前的詞 $p(w|c)$

延伸[编辑]

Analysis[编辑]

對word2vec框架為何做文字嵌入如此成功知之甚少，Goldberg 和Levy 指出word2vec 的功能導致相似文本擁有相似的嵌入(用 cosine similarity計算)並且和 J. R. Firth 的distributional hypothesis有關 They also note that this explanation is "very hand-wavy".

實作[编辑]

參見[编辑]

參考[编辑]

^ Mikolov, Tomas; et al. Efficient Estimation of Word Representations in Vector Space (PDF). [2015-08-14].
^ Goldberg, Yoav; Levy, Omar. word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method (PDF). [2015-08-14].
^ Řehůřek, Radim. Word2vec and friends (Youtube video). [2015-08-14].

查论编自然语言处理

一般术语	语料库口语语料库停用词词袋完全人工智慧（英语：AI-complete） n元语法（双字母组、三元语法（英语：Trigrams））

文本挖掘	文本分割词性标注（英语：Part-of-speech tagging）拆句处理（英语：Shallow parsing）复合词处理（英语：Compound term processing）搭配提取（英语：Collocation extraction）词干提取词形还原命名实体识别指代文本情感分析概念挖掘（英语：Concept mining）语法分析词义消歧术语提取（英语：Terminology extraction）真实大小写处理（英语：Truecasing）

自动摘要（英语：Automatic summarization）	多文档摘要（英语：Multi-document summarization）句子抽取（英语：Sentence extraction）文本简化（英语：Text simplification）

分散式語意模型	潜在语义学 Seq2Seq模型 Word2vec 語言模型大型语言模型基础模型 LLaMA ChatGPT GPT-4 文心一言

机器翻译	電腦輔助翻譯基于实例（英语：Example-based machine translation）基于规则（英语：Rule-based machine translation）

自动识别与数据采集	语音识别语音合成光学字符识别自然语言生成提示工程

主题模型	弹珠分布（英语：Pachinko allocation）隐含狄利克雷分布潜在语义索引

计算机辅助审查（英语：Computer-assisted reviewing）	自动作文评分（英语：Automated essay scoring）语料库检索工具（英语：Concordancer）文法检查器（英语：Grammar checker）预测文本（英语：Predictive text）拼寫檢查语法猜测（英语：Syntax guessing）

自然语言用户界面（英语：Natural language user interface）	自动在线助手聊天機器人文字冒险游戏問答系統