基于二元語(yǔ)義規(guī)則的語(yǔ)義排歧

您當(dāng)前的位置：首頁(yè) > 教學(xué)天地 > 學(xué)習(xí)交流

基礎(chǔ)部　呂洋

　　語(yǔ)言是人類(lèi)進(jìn)行溝通的基礎(chǔ)，尤其是隨著國(guó)際化發(fā)展程度越來(lái)越高，不同國(guó)家之間的往來(lái)越來(lái)越頻繁，不同語(yǔ)言之間的翻譯也變得愈加重要。在國(guó)際化發(fā)展迅速的今日，單純依靠人工翻譯已經(jīng)不能滿足人們?nèi)粘贤�、閱讀的需求，因此機(jī)器翻譯應(yīng)運(yùn)而生。近年來(lái)，隨著國(guó)內(nèi)外研究學(xué)者對(duì)機(jī)器翻譯系統(tǒng)的開(kāi)發(fā)和改進(jìn)，機(jī)器翻譯已經(jīng)在各個(gè)領(lǐng)域中都出現(xiàn)了廣泛的應(yīng)用。

　　然而，機(jī)器翻譯的質(zhì)量還不能夠滿足特殊領(lǐng)域的需求，例如對(duì)于某些學(xué)術(shù)論文、文學(xué)作品中的專(zhuān)有詞匯的翻譯準(zhǔn)確度還較低，因此機(jī)器翻譯系統(tǒng)的語(yǔ)言分析和處理技術(shù)還有待進(jìn)一步發(fā)展。若要提升機(jī)器翻譯的質(zhì)量，消除詞語(yǔ)的歧義是首要任務(wù)[6-10]。通常一個(gè)詞語(yǔ)具有多種詞義，這種歧義稱(chēng)為詞匯歧義。而詞語(yǔ)在與其他詞匯構(gòu)成短語(yǔ)時(shí)，受到固定搭配，通過(guò)短語(yǔ)構(gòu)造的句法語(yǔ)義規(guī)律可以消除這一歧義;除了詞匯歧義外，自然語(yǔ)言中還存在著結(jié)構(gòu)歧義，是同形短語(yǔ)產(chǎn)生的歧義，通常需要從語(yǔ)義關(guān)系和句法結(jié)構(gòu)方面進(jìn)行消除。

　　語(yǔ)義規(guī)則是一種常用于剔除歧義的規(guī)則，對(duì)于外顯型歧義除了可以運(yùn)用上下文的句法關(guān)系進(jìn)行歧義剔除，還可以直接利用語(yǔ)義知識(shí)進(jìn)行語(yǔ)法分析來(lái)排除歧義;對(duì)于內(nèi)含型歧義，無(wú)法通過(guò)句法關(guān)系進(jìn)行歧義剔除，只能依靠語(yǔ)義知識(shí)進(jìn)行歧義剔除。本文設(shè)計(jì)了一種基于數(shù)據(jù)挖掘的二元語(yǔ)義算法，發(fā)掘詞語(yǔ)組合的語(yǔ)義規(guī)律并轉(zhuǎn)換成二元語(yǔ)義規(guī)則集。將二元語(yǔ)義規(guī)則模式與句法分析規(guī)則進(jìn)行結(jié)合后，應(yīng)用于機(jī)器翻譯的歧義消除中，并對(duì)其應(yīng)用效果進(jìn)行了評(píng)價(jià)。

　　本系統(tǒng)是基于XMMT系統(tǒng)進(jìn)行優(yōu)化后的二元語(yǔ)義模式規(guī)則排歧，其排歧規(guī)則與XMMT系統(tǒng)類(lèi)似。傳統(tǒng)XMMT系統(tǒng)排歧是由兩部分組成，CFG產(chǎn)生式和偽等式，分別是描述短語(yǔ)、句子的組成模式和約束條件、分析結(jié)果的構(gòu)造過(guò)程。只要是合理的LISP表達(dá)式，均可以出現(xiàn)在偽等式中，所以可以將語(yǔ)義評(píng)價(jià)函數(shù)加入到原有的句法分子規(guī)則中。優(yōu)化后的排歧規(guī)則是將二元語(yǔ)義模式庫(kù)中的規(guī)則與語(yǔ)義組合進(jìn)行匹配，將不合語(yǔ)義項(xiàng)、組合、句法排除，然后將所有可能的組合保存為中間結(jié)果并評(píng)分，經(jīng)進(jìn)一步分析得到最終排歧結(jié)果。本系統(tǒng)所嵌入的語(yǔ)義評(píng)價(jià)函數(shù)為Semantic Value函數(shù)，進(jìn)行語(yǔ)義評(píng)價(jià)的算法。首先調(diào)用Semantic Value算法進(jìn)行句法和語(yǔ)義分析，在二元語(yǔ)義模式規(guī)則庫(kù)中找出相應(yīng)的二元語(yǔ)義模式規(guī)則集;計(jì)算待歸約成分中每一項(xiàng)組合與二元語(yǔ)義模式規(guī)則集的語(yǔ)義匹配度;如果二者之間的最高匹配度規(guī)則Best.rule高于閾值θrule，那么則認(rèn)為結(jié)果合理;否則，則認(rèn)為該項(xiàng)不符合語(yǔ)義;將合理的結(jié)果利用Best.rule規(guī)則進(jìn)行處理并進(jìn)行計(jì)分，若結(jié)果最終得分高于最小語(yǔ)義評(píng)價(jià)得分閾值θresult，則結(jié)果合理;否則返回fail。

　　基于XMMT系統(tǒng)進(jìn)行優(yōu)化，設(shè)計(jì)了一種基于數(shù)據(jù)挖掘的二元語(yǔ)義算法，發(fā)掘詞語(yǔ)組合的語(yǔ)義規(guī)律并轉(zhuǎn)換成二元語(yǔ)義規(guī)則集，在漢英翻譯中展現(xiàn)了較好的排歧效果，主要結(jié)論如下：

　　1) 獲取二元語(yǔ)義模式規(guī)則包括子目標(biāo)發(fā)現(xiàn)和二元語(yǔ)義模式規(guī)則集兩個(gè)步驟，通過(guò)關(guān)聯(lián)規(guī)則挖掘，可以由子目標(biāo)模式獲取二元語(yǔ)義模式規(guī)則集;

　　2) 嵌入的語(yǔ)義評(píng)價(jià)函數(shù)Semantic Value，進(jìn)行句法和語(yǔ)義分析，進(jìn)行匹配度計(jì)算，完成排歧過(guò)程;

　　3) 優(yōu)化后的系統(tǒng)排歧效果得到改善，詞義排歧正確率為79.9%，結(jié)構(gòu)排歧正確率為85.7%，比原系統(tǒng)分別提高了8.6%和3.9%。

最后更新

熱門(mén)點(diǎn)擊

亚洲综合AV一区二区三区,日韩系列一97人妻,亚洲可观看,爽片免费

基于二元語(yǔ)義規(guī)則的語(yǔ)義排歧