文字分割

本頁使用了標題或全文手工轉換
維基百科,自由的百科全書

文字分割(Text segmentation)將書面文字分割成有意義單位的過程,如單詞、句子或主題。這個術語既適用於人類閱讀文字時的心理過程,也適用於在電腦中實現的人工過程,後者屬於自然語言處理的領域。一些書面語言有明確的單詞分界標記,例如英語的詞之間有空格標識,阿拉伯語有獨特的首、中、末字母形狀,但這種標記不是所有書面語言都有。

分割問題[編輯]

分詞[編輯]

分詞(Word segmentation)是將一串書面語言分成其組成詞的問題。中文分詞指的是使用電腦自動對中文文字進行詞語的切分,即像英文那樣使得中文句子中的詞之間有空格以標識。中文分詞被認為是中文自然語言處理中的一個最基本的環節。

Unicode聯盟已經發表了一個關於文字分割的標準附件[1]

意圖分割[編輯]

意圖分割(Intent segmentation)是將書面語言分割為關鍵詞(2個或2個以上的詞組)的問題。

參考文獻[編輯]

  1. ^ UAX #29. [2020-10-07]. (原始內容存檔於2020-12-16). 

外部連結[編輯]