漢語自動句法分析

維基百科,自由的百科全書

漢語自動句法分析包含對漢語句法的定義以及自動分析方法。

對於如何定義,從漢語語言學家的角度來看,往往是考慮如何生成句子的問題;從計算語言學家的角度來看,則往往是一個思考如何拆分句子的問題。計算語言學家需要為輸入的句子實現一個自動拆分方法,這是句法分析的實現形式。[1]

句子的拆分[編輯]

指定義拆分單元的集合,將輸入的句子拆分為該集合的一個子集。一個拆分單元由兩部分組成,一個部分是載體,是句子的片段;另一個是載體承載的信息,用於將載體組合成句子。例如:在依存句法分析方法下,拆分單元是(詞,依存關係),其中『詞』是載體,『依存關係』是詞承載的信息;在某些依賴語義的句法分析方法下,拆分單元是(短語,語義功能)。

在一個有窮的拆分單元集合下,一個句子往往有多種拆分,即使不考慮由切分載體引起的歧義(例如依存句法分析的分詞歧義),一個切分為n個載體的句子有m個拆分,m為載體信息集合的大小。同時,一個句子一般只有一個正確拆分。因此需要選擇最好的拆分。這個問題往往轉化為從中選擇概率最大的拆分。[2]

依存句法分析[編輯]

依存語法最早由法國語言學家L.Tesniere英語Lucien_Tesnière在其著作《結構句法基礎》(1959年)中提出,對語言學的發展產生了深遠的影響,特別是在計算語言學界備受推崇。它將句子分析成一顆依存句法樹,描述出各個詞語之間的依存關係。也即指出了詞語之間在句法上的搭配關係,這種搭配關係是和語義相關聯的。

依存語法存在一個共同的基本假設:句法結構本質上包含詞和詞之間的關係。這種關係稱為依存關係 (Dependency Relations)。一個依存關係連接兩個詞,分別是核心詞 (Head) 和修飾詞 (Dependent)。依存關係可以細分為不同的類型,表示兩個詞之間的句法關係 (Dependency Relation Types)。

依存語法通過分析語言單位內成分之間的依存關係揭示其句法結構,主張句子中核心動詞是支配其它成分的中心成分,而它本身卻不受其它任何成分的支配,所有受支配成分都以某種依存關係從屬於支配者。

參考文獻[編輯]

  1. ^ 劉群. 汉语词法分析和句法分析技术综述 (PDF). 第一屆學生計算語言學研討會(SWCL2002)專題講座. 北京大學計算語言學研究所 中國科學院計算技術研究所. [2017-10-16]. (原始內容 (pdf)存檔於2017-10-17). 
  2. ^ 劉挺; 馬金山. 汉语自动句法分析的理论与方法. 當代語言學 (北京: 哈爾濱工業大學). 2009年, 11 (2): 100-112.