词袋模型

在自然語言處理和信息檢索裏，词袋模型（英語：Bag-of-words model）是一個簡化的表達模型。在此模型下，一段文本（比如一个句子或是一个文档）可以用一個装着这些词的袋子来表示，這種表示方式不考慮文法以及詞的順序。最近词袋模型也被應用在電腦視覺領域。^[1]

词袋模型被廣泛應用在文件分類，詞語出現的頻率可以用來當作訓練分類器的特徵。

關於「词袋」這個用字的由來可追溯到澤里格·哈里斯（英语：Zellig Harris）於1954年在《Distributional Structure》的文章。^[2]

範例

下列文件可用词袋表示:

以下是兩個簡單的文件:

(1) John likes to watch movies. Mary likes movies too.

(2) John also likes to watch football games.

基於以上兩個文件，可以建構出下列清單:

[
    "John",
    "likes",
    "to",
    "watch",
    "movies",
    "also",
    "football",
    "games",
    "Mary",
    "too"
]

此處有10個不同的詞，使用清單的索引表示長度為10的向量:

(1) [1, 2, 1, 1, 2, 0, 0, 0, 1, 1] (2) [1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

每個向量的索引內容對應到清單中詞出現的次數。

舉例來說，第一個向量（文件一）前兩個內容索引是1和2，第一個索引內容是"John"對應到清單第一個詞並且該值設定為1，因為"John"出現一次。

此向量表示法不會保存原始句子中詞的順序。該表示法有許多成功的應用，像是郵件過濾。

Term weighting

在上述的範例，文件向量包含term頻率。

在信息檢索和文字分類常用不同方法量term權重。常見方法為tf-idf。

範例：垃圾郵件過濾

分類一個郵件訊息，一個貝氏垃圾郵件分類假設訊息是一堆字並且隨機倒在兩堆袋子其中一個袋子裡，之後使用貝氏機率去決定哪個「袋子」（「垃圾郵件袋子」還是「正常郵件袋子」）是較有可能的。

参考文献

^ Sivic, Josef. Efﬁcient visual search of videos cast as text retrieval (PDF). IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 31, NO. 4. IEEE: 591–605. April 2009 [2016-03-06]. （原始内容存档 (PDF)于2016-02-22）.
^ Harris, Zellig. Distributional Structure. Word. 1954, 10 (2/3): 146–62. And this stock of combinations of elements becomes a factor in the way later choices are made ... for language is not merely a bag of words but a tool with particular properties which have been fashioned in the course of its use

參見

w-shingling（英语：w-shingling）
n元语法
向量空間模型
自然語言處理
Additive smoothing（英语：Additive smoothing）
文件分類
機器學習
Document-term matrix（英语：Document-term matrix）
Hashing trick（英语：Hashing trick）
最小哈希
特徵擷取

[sivic-1] Sivic, Josef. Efﬁcient visual search of videos cast as text retrieval (PDF). IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 31, NO. 4. IEEE: 591–605. April 2009 [2016-03-06]. （原始内容存档 (PDF)于2016-02-22）.

[2] Harris, Zellig. Distributional Structure. Word. 1954, 10 (2/3): 146–62. And this stock of combinations of elements becomes a factor in the way later choices are made ... for language is not merely a bag of words but a tool with particular properties which have been fashioned in the course of its use

[1]

[2]

查论编自然语言处理
一般术语	语料库口语语料库停用词词袋完全人工智慧（英语：AI-complete） n元语法（双字母组、三元语法（英语：Trigrams））
文本挖掘	文本分割词性标注（英语：Part-of-speech tagging）拆句处理（英语：Shallow parsing）复合词处理（英语：Compound term processing）搭配提取（英语：Collocation extraction）词干提取词形还原命名实体识别指代文本情感分析概念挖掘（英语：Concept mining）语法分析词义消歧术语提取（英语：Terminology extraction）真实大小写处理（英语：Truecasing）
自动摘要（英语：Automatic summarization）	多文档摘要（英语：Multi-document summarization）句子抽取（英语：Sentence extraction）文本简化（英语：Text simplification）
分佈語義（英语：Distributional semantics）模型	潜在语义学 Seq2Seq模型 Word2vec 語言模型大型语言模型基础模型 LLaMA ChatGPT GPT-4 文心一言词嵌入
机器翻译	電腦輔助翻譯基于实例（英语：Example-based machine translation）基于规则（英语：Rule-based machine translation）
自动识别与数据采集	语音识别语音合成光学字符识别自然语言生成提示工程
主题模型	弹珠分布（英语：Pachinko allocation）隐含狄利克雷分布潜在语义索引
计算机辅助审查（英语：Computer-assisted reviewing）	自动作文评分（英语：Automated essay scoring）语料库检索工具（英语：Concordancer）文法检查器（英语：Grammar checker）预测文本（英语：Predictive text）拼寫檢查语法猜测（英语：Syntax guessing）
自然语言用户界面（英语：Natural language user interface）	自动在线助手聊天機器人文字冒险游戏問答系統