自然语言处理

维基百科,自由的百科全书
跳转至: 导航搜索

自然語言處理英语Natural Language Processing,簡稱NLP)是人工智慧語言學領域的分支學科。在這此領域中探討如何處理及運用自然語言;自然語言認知則是指讓電腦「懂」人類的語言

自然語言生成系統把計算機數據轉化為自然語言。自然語言理解系統把自然語言轉化為計算機程序更易于處理的形式。

任務和限制[编辑]

理論上,NLP是一種很吸引人的人機交互方式。早期的语言处理系统如SHRDLU,当它们处于一个有限的“积木世界”,运用有限的词汇表会话时,工作得相当好。这使得研究员们对此系统相当乐观,然而,当把这个系统拓展到充满了现实世界的含糊与不确定性的环境中时,他们很快丧失了信心。

由於理解(understanding)自然語言,需要關於外在世界的廣泛知識以及運用操作這些知識的能力,自然語言認知,同時也被視為一個人工智慧完備(AI-complete)的問題。同時,在自然語言處理中,"理解"的定義也變成一個主要的問題。有关理解定义问题的研究已经引发关注[1]

實際問題[编辑]

一些NLP面臨的問題實例:

  • 句子“我們把香蕉給猴子,因為它們餓了”和“我們把香蕉給猴子,因為它們熟透了”有同樣的結構。但是代詞“它們”在第一句中指的是“猴子”,在第二句中指的是“香蕉”。如果不了解猴子和香蕉的屬性,無法區分。

自然語言處理的主要範疇[编辑]

自然語言處理研究的難點[编辑]

單詞的邊界界定
在口語中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是取用能讓給定的上下文最為通順且在文法上無誤的一種最佳組合。在書寫上,漢語也沒有詞與詞之間的邊界。
詞義的消歧
許多字詞不單只有一個意思,因而我們必須選出使句意最為通順的解釋。
句法的模糊性
自然語言文法通常是模稜兩可的,針對一個句子通常可能會剖析(Parse)出多棵剖析樹(Parse Tree),而我們必須要仰賴語意及前後文的資訊才能在其中選擇一棵最為適合的剖析樹。
有瑕疵的或不規範的輸入
例如語音處理時遇到外國口音或地方口音,或者在文本的處理中處理拼寫,語法或者光學字元識別(OCR)的錯誤。
语言行为与计划
句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要比回答“没人没通过”好。

当前自然语言处理研究的发展趋势[编辑]

第一,传统的基于句法-语义规则的理性主义方法受到质疑,随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为自然语言处理的主要战略目标。

第二,统计数学方法越来越受到重视,自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。

第三,浅层处理与深层处理并重,统计与规则方法并重,形成混合式的系统。

第四,自然语言处理中越来越重视词汇的作用,出现了强烈的“词汇主义”的倾向。词汇知识库的建造成为了普遍关注的问题。

統計自然語言處理[编辑]

統計自然語言處理運用了推測學機率統計的方法來解決上述,尤其是針對容易高度模糊的長串句子,當套用實際文法進行分析產生出成千上萬筆可能性時所引發之難題。處理這些高度模糊句子所採用消歧的方法通常運用到語料庫以及馬可夫模型(Markov models)。統計自然語言處理的技術主要由同樣自人工智慧下與學習行為相關的子領域:機器學習資料採掘所演進而成。

外部鏈接[编辑]

相關實例[编辑]

参见[编辑]