日本无码中文字幕片|日本精品在线观看无码视频|国产精品免费啪啪|Av无码一区二区|亚洲在线黄片免费观看|亚洲日韩中文字幕在线观看|熟女激情乱伦在线观看a黄片|成年人观看毛片网址|AV色色色色日韩性草|国产高清无码免费

論述規(guī)則和統(tǒng)計相結合的句法分析一致性檢驗論文

時間:2025-08-21 11:18:25 論文范文 我要投稿

論述規(guī)則和統(tǒng)計相結合的句法分析一致性檢驗論文

  句法分析就是對詞語的語法功能和句子的結構進行分析。句法分析的研究方向通常是依據(jù)一個大規(guī)模的句法分析樹庫,通過分析研究,建立統(tǒng)計模型。如果句法樹庫的準確率不高,將會降低句法樹庫模型的學習效果,進而影響自動標注句法分析結果的質量。目前出現(xiàn)的漢語句法分析自動標注的模型較多,但是完全句法分析自動標注的準確率不是太理想,為了構建高質量的大規(guī)模樹庫,需要投入大量的人工和時間。通過遍歷完全句法分析樹庫發(fā)現(xiàn),人工標注結果存在的不一致現(xiàn)象非常普遍。為了提高句法樹庫質量,本文采用的方法是通過分析標注錯誤的現(xiàn)象,編寫規(guī)則和建立統(tǒng)計模型,自動查找標注錯誤的地方,對于單個標注錯誤的地方自動修正。

論述規(guī)則和統(tǒng)計相結合的句法分析一致性檢驗論文

  國外許多研究者在建立句法分析模型方面做出了很多探索。斯坦福大學的Roger Levy等人提出了分析漢語語料的困難,他們通過分析漢語語料庫發(fā)現(xiàn),一些類型的標注錯誤是由于漢語語法內在的歧義引起的。有些錯誤是標注經(jīng)驗導致的。通過最大似然估計PCFG特征模型,能夠提高句法分析的準確率。針對漢語樹庫完全句法分析一致性檢驗的研究,目前國內不是太多,較多的是關于句法分析自動標注的解決方法。詹衛(wèi)東等人分析句法格式,總結了很多句法結構歧義類型,分析特征,并通過檢查樹庫統(tǒng)計了典型類型的數(shù)量。魏莉等人分析完全句法分析語料庫,探索分詞標注、詞性標注和句法結構標注三個方面的錯誤現(xiàn)象,發(fā)現(xiàn)并修正。這些研究方法對于句法分析一致性檢驗有很好的借鑒作用。

  本文采用的方法是選擇完全句法分析樹庫的部分語料進行研究,分析標注錯誤的現(xiàn)象,從單個句法分析標記不一致和句法分析層次結構標注不一致的現(xiàn)象中學習,使用基于規(guī)則和統(tǒng)計相結合的方法檢查發(fā)現(xiàn)不一致問題,并通過人工或機器自動修正。

  一、完全句法分析不一致現(xiàn)象

  遍歷完全句法樹庫,通過分析發(fā)現(xiàn),可以總結為兩種類型的不一致現(xiàn)象,一種是單個的句法標記,另一種是句法結構標注。完全句法分析樹庫中的標注一般有兩類,功能標記和結構標記。功能標注主要是分析句法成分的組合關系。結構標記主要是體現(xiàn)句子的語義關系。

  引起人工標注的完全句法分析語料庫不一致現(xiàn)象的原因有很多,包括標注者對標記的理解程度,標注經(jīng)驗,以及標注的專注程度。由于參與構建大規(guī)模句法樹庫的人員眾多,理解方式的不一致很容易引起標注不一致。不同標注者可能發(fā)生標注不一致,同一標注者可能標注前后不一致。因此很有必要通過機器進行檢查,修正這些現(xiàn)象,提高完全句法樹庫的準確率。

  (一)單個句法分析標記標注不一致

  對于人工標注的標記符號錯誤的地方,可以直接設計算法,抽取所有標記一一和標記庫進行對比。完全句法分析樹庫的兩種標記功能標記和結構標記都有可能出現(xiàn)標注不一致現(xiàn)象。通過遍歷樹庫發(fā)現(xiàn)不一致,并進行分析。

  由于漢語中有很多兼類詞,因此會出現(xiàn)同一詞匯標注的詞性不一樣,進而功能標記和結構標記都會發(fā)生變化。例如短語“臨出發(fā)”“陸”是一個兼類詞。臨這個字在語料中出現(xiàn)了標注不一致現(xiàn)象,一種標注為動詞,相應為述賓結構,動詞性短語;另一種標注為介詞,相應為介賓結構,介詞短語。按照漢語語法“陸”放置在動詞“出發(fā)”前,應該理解為做介詞用。因此正確的標注應該是介詞,介賓結構,介詞短語?梢姡骖愒~是檢查的重點,詞性標注錯誤可能會導致功能標記和結構標記標注錯誤。

  (二)句法分析結構標注不一致

  完全句法分析與淺層句法分析不同,分析標注的是整個句子的結構關系。各個詞語之間的層次關系可能會出現(xiàn)組合順序的不一致。特別是嵌套的句法結構,很容易有歧義。

  例如短語“喜歡說話的女孩”?梢杂袃煞N理解。一種是描述一個女孩她喜歡說話,理解為“喜歡說話”是用來修飾“女孩”的,此短語整體看是定中結構。另一種可能是某人喜歡的是說話的女孩,而不是沒說話的女孩,僅“說話”這個詞修飾“女孩”,此短語整體看述賓結構。

  可見,不同的理解句法分析標注的結構會出現(xiàn)不一致的現(xiàn)象。這就需要根據(jù)上下文語境,判斷應該是哪種標注結果。

  二、完全句法分析一致性檢驗策略

  完全句法分析一致性檢驗的目的是發(fā)現(xiàn)不一致現(xiàn)象,并修正錯誤的句法分析標注。引起不一致的原因是多元的,但是可以歸結為以上兩種,通過分析這些錯誤標注的不一致現(xiàn)象,我們發(fā)現(xiàn)需要選用不同的檢查方式來處理。

  (一)基于錯誤驅動的單個標記不一致校驗

  針對單個句法分析標注不一致的問題,可以使用基于錯誤驅動的方法來發(fā)現(xiàn)不一致現(xiàn)象并修正。錯誤驅動的方法是指分析提取錯誤標注的特征,編寫相應的轉換規(guī)則,使用規(guī)則去檢查整個語料,自動發(fā)現(xiàn)錯誤標注現(xiàn)象,并進行修正。單個句法分析標注的問題是結構標記和功能標記標注不同引起的。修改單個句法分析標注并不影響句法結構層次的變化,可以使用句法標記規(guī)則統(tǒng)一修改。

  具體的操作步驟可以通過一個例子進行觀察。例如“陸出發(fā)”這個短語,他是介詞加動詞的結構,檢查上述結構類型的句法和功能標記的標注問題。當遍歷句法分析樹庫時,如果發(fā)現(xiàn)有標錯的現(xiàn)象,即介詞加動詞的結構,但沒有被標注成介詞短語,介賓結構,就可以針對錯誤的標記,通過錯誤轉化方法,使用規(guī)則檢查并修改成正確的標記。用這個規(guī)則去檢查其他的標注錯誤現(xiàn)象并自動修正。此方法可以歸納為三個步驟:找到錯誤,編寫規(guī)則和修正錯誤。

  (二)句法分析結構標注不一致校驗策略

  完全句法分析剖析的是整個句子的結構。僅僅基于規(guī)則的句法標注檢查是不可靠的,基于大規(guī)模語料的統(tǒng)計的方法更為有效。張浩等人也是通過分析語境,選用中心詞作為切入點,建立PCFG模型句法分析器,使得句法分析器的效果得到提升。此外,周強等人也提出通過分析句法結構中組合的先后次序,使用概論統(tǒng)計模型來判斷句法分析標注結果,使得句法分析的準確率得到提高。針對本文探索的問題,如何判斷句法分析標注的層次標注問題也是需要分析語境,根據(jù)句子的語義,詞語之間的關系,分析詞語是如何組成短語,短語是如何組成句子的。針對句子層次結構組合的不一致不可能通過規(guī)則的方法修正,但是可以通過建立統(tǒng)計概率模型,發(fā)現(xiàn)可能出現(xiàn)句法層次結構標注錯誤的地方,然后進行人工修正,這樣節(jié)省了時間和人力。

  句法層次結構和句中詞語之間的緊密程度有關。句中的某一個詞語是先和左邊的詞語結合,還是先和右邊的詞語結合,這是一個二選其一的問題,除了句子的首個詞語和末尾詞語。我們通常認為,在語境相同的情況下應該有相同的結合順序。對于大規(guī)模完全句法樹庫,我們可以利用分類的方法,支持向量機(SVM)來解決。核函數(shù)可以選擇高斯核函數(shù)。

  建立概率統(tǒng)計模型,需要選擇特征作為判斷的依據(jù)。完全句法分析樹庫的基層標注信息是分詞和詞性。Dan Klein等人提出了非詞匯的PCFG模型,取得的句法分析效果也較詞匯化模型更簡單?梢,詞語即詞的外部形態(tài)千變萬化,不容易把握規(guī)律。但是詞性的標記卻能反映詞語內在的功能,影響功能標注和語法標注的結果。針對句法分析中左右組合的問題,可以通過核心詞語及待判斷詞語它的詞性及其上下文詞性環(huán)境來做出統(tǒng)計,建立特征模型。

  首先要界定語境的范圍,通過實驗發(fā)現(xiàn)選用前后四個詞語進行統(tǒng)計時,計算的空間和時間代價比較合適。然后遍歷完全句法分析樹庫,通過概論統(tǒng)計的方法,計算這些詞語的詞性和詞語轉移概率,這樣可以看出詞語間優(yōu)先組合的頻率。訓練數(shù)據(jù)得到后,將核函數(shù)引入,通過參數(shù)的調節(jié),尋找一個超平面將高維空間分割成兩半。用這個訓練得到的結果再去分析測試語料,就可以給出左右結合的判斷結果。如果樹庫語料的組合結果與概率模型的統(tǒng)計結果不一致,就需要人工進行判斷,進而修正標注。

  三、結論

  我們對10000句完全句法分析樹庫進行測試,實驗結果顯示,單個句法分析標注不一致的現(xiàn)象占到整個檢測結果的31%,句法分析結構標注不一致的現(xiàn)象占到69%。句法分析不一致檢查的準確率為87.6%,召回率為94.8%。

  關于準確率的問題,通過分析發(fā)現(xiàn)主要是有兩方面原因。針對單個句法分析標注不一致的問題,使用的修正規(guī)則中有些是不適用的,有些問題不能一刀切。針對句法分析結構標注不一致的檢查,我建立的統(tǒng)計概率模型考慮的特征還不夠多,沒能真正反映左右組合的規(guī)律。需要進行深入反復的研究實驗。

  召回率的結果反映出,單個句法分析標注和句法分析結構標注的問題確實是不一致現(xiàn)象的根源,通過錯誤驅動的方法和概率統(tǒng)計模型的方法能較好地完成檢查不一致的任務,對于單個句法標記的問題可以查找并自動修正,但是對于句法分析結構問題仍需要人工修正。

  為了構建高質量的完全句法分析樹庫,進行句法分析的一致性檢查是一項必要的工作。如果樹庫存在大量的不一致現(xiàn)象,必然影響完全句法自動分析器的訓練效果。針對漢語的語言現(xiàn)象進行句法分析是一項較難的課題,由于漢語的語法形式豐富,語義多樣。如何提高句法分析的準確率,還需要進一步研究。

【論述規(guī)則和統(tǒng)計相結合的句法分析一致性檢驗論文】相關文章:

醫(yī)學檢驗論文08-08

醫(yī)學檢驗論文[精華]08-09

醫(yī)學檢驗論文15篇(經(jīng)典)08-11

醫(yī)學檢驗論文15篇[熱門]08-12

(通用)醫(yī)學檢驗論文15篇08-16

醫(yī)學檢驗論文優(yōu)選(15篇)08-22

醫(yī)學檢驗論文15篇[精華]08-09

醫(yī)學檢驗論文必備15篇08-14

醫(yī)學檢驗的進展與臨床應用論文10-22

醫(yī)學檢驗論文匯總[15篇]08-15

  • 相關推薦