基于漢語構(gòu)架網(wǎng)的語義角色自動(dòng)標(biāo)注——自動(dòng)標(biāo)注算法研究 畢業(yè)論文

基于漢語構(gòu)架網(wǎng)的語義角色自動(dòng)標(biāo)注——自動(dòng)標(biāo)注算法研究 畢業(yè)論文

ID:281678

大小:217.13 KB

頁數(shù):6頁

時(shí)間:2017-07-18

基于漢語構(gòu)架網(wǎng)的語義角色自動(dòng)標(biāo)注——自動(dòng)標(biāo)注算法研究  畢業(yè)論文_第1頁
基于漢語構(gòu)架網(wǎng)的語義角色自動(dòng)標(biāo)注——自動(dòng)標(biāo)注算法研究  畢業(yè)論文_第2頁
基于漢語構(gòu)架網(wǎng)的語義角色自動(dòng)標(biāo)注——自動(dòng)標(biāo)注算法研究  畢業(yè)論文_第3頁
基于漢語構(gòu)架網(wǎng)的語義角色自動(dòng)標(biāo)注——自動(dòng)標(biāo)注算法研究  畢業(yè)論文_第4頁
基于漢語構(gòu)架網(wǎng)的語義角色自動(dòng)標(biāo)注——自動(dòng)標(biāo)注算法研究  畢業(yè)論文_第5頁
資源描述:

《基于漢語構(gòu)架網(wǎng)的語義角色自動(dòng)標(biāo)注——自動(dòng)標(biāo)注算法研究 畢業(yè)論文》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、山西大學(xué)商務(wù)學(xué)院BUSINESSCOLLEGEOFSHANXIUNIVERSITY2015屆本科畢業(yè)論文基于漢語構(gòu)架網(wǎng)的語義角色注釋姓名指導(dǎo)教師專業(yè)軟件工程學(xué)院名稱信息學(xué)院二〇一六年十一月基于漢語構(gòu)架網(wǎng)的語義角色自動(dòng)標(biāo)注——自動(dòng)標(biāo)注算法研究?jī)?nèi)容摘要:基于構(gòu)架的語義角色標(biāo)注是根據(jù)一個(gè)文本句中的目標(biāo)謂詞所激起的構(gòu)架與相關(guān)句子成分之間的語義關(guān)系而賦予這些句子成分一定的語義信息的方法。論文在基于漢語構(gòu)架網(wǎng)(CFN)的基礎(chǔ)上,提出了基于PT-GF匹配和最大熵分類器的語義角色自動(dòng)標(biāo)注方法,并對(duì)該方法進(jìn)行了有效性驗(yàn)證。關(guān)鍵詞:構(gòu)架本體語義標(biāo)注文本匹配最大熵1.引言語義標(biāo)

2、注,從本體角度是添加實(shí)例,豐富本體的過程;從語義網(wǎng)的角度是語義信息的發(fā)布過程,即用戶依據(jù)一定的本體為頁面添加語義信息?;跇?gòu)架的語義角色標(biāo)注(SemanticRoleLabeling)是淺層語義分析的一種可行性方案,通過分析句子的論元結(jié)構(gòu),標(biāo)記出句子中某個(gè)動(dòng)詞的所有論元,根據(jù)句子中的目標(biāo)謂詞所激起的構(gòu)架與相關(guān)的句子成分之間的語義關(guān)系而賦予這些句子成分的語義角色信息。國(guó)外的基于構(gòu)架下的語義角色標(biāo)注開始于DanGildea和DanJurafsky,他們實(shí)驗(yàn)所用的語料是Berkeley大學(xué)開發(fā)的FrameNet。FrameNet是以構(gòu)架語義為標(biāo)注的理論基礎(chǔ),對(duì)英

3、語國(guó)家的語料庫進(jìn)行部分標(biāo)注,試圖描述一個(gè)詞匯單元(主要為動(dòng)詞)的構(gòu)架以及這些構(gòu)架之間的關(guān)系。國(guó)內(nèi)的語義角色標(biāo)注研究起步較晚,較早的研究者劉挺等主要參照英文進(jìn)行標(biāo)注;劉懷軍等主要進(jìn)行“語義角色分類研究”。本體構(gòu)架網(wǎng)是一個(gè)支持性內(nèi)容,它構(gòu)建了某一領(lǐng)域本體的大體構(gòu)架,給出了這一領(lǐng)域知識(shí)的宏觀結(jié)構(gòu)。它類似于詞典,構(gòu)建了一個(gè)某一領(lǐng)域所有本體的構(gòu)架網(wǎng)絡(luò)體系,這些本體構(gòu)架根據(jù)其之間的不同聯(lián)系,構(gòu)成了縱向的繼承關(guān)系、總分關(guān)系;橫向的因果關(guān)系、起始關(guān)系、參見關(guān)系等;詞元即目標(biāo)詞,詞元庫包含了某一構(gòu)架下所有的目標(biāo)謂詞,當(dāng)文本中出現(xiàn)了這些詞時(shí),我們優(yōu)先將其選擇為中心詞;語義角色

4、標(biāo)注例句庫是語料庫的核心內(nèi)容,具體標(biāo)記了所有例句中目標(biāo)詞和其論元成分在文本中的位置、路徑等特征和<構(gòu)架元素、短語類型、句法功能>三元組的具體標(biāo)注,并對(duì)同一個(gè)目標(biāo)詞的各個(gè)特征進(jìn)行了總結(jié)。2.CFN語義角色的自動(dòng)標(biāo)注CFN中語義角色自動(dòng)標(biāo)注是在對(duì)語料庫例句進(jìn)行統(tǒng)計(jì)、分析和自動(dòng)學(xué)習(xí)的基礎(chǔ)上,利用一定的算法和模型給輸入文本的各個(gè)謂語參數(shù)賦予語義的過程。語義角色自動(dòng)標(biāo)注一般分為3個(gè)階段:·首先分詞、·詞性標(biāo)注、·語義角色標(biāo)注圖1計(jì)算機(jī)圖2軟盤2.1CFN語義角色自動(dòng)標(biāo)注流程由于漢語構(gòu)架網(wǎng)的建設(shè)仍然處于初級(jí)階段,本文所講的自動(dòng)標(biāo)注是在已知給定文本的目標(biāo)詞及其所屬構(gòu)架前

5、提下,并對(duì)各短語進(jìn)行識(shí)別、詞性標(biāo)注和句法分析等技術(shù)的基礎(chǔ)上,探討語義角色進(jìn)行自動(dòng)標(biāo)注問題,所采用流程如圖3所示。2.2PT-GF的語義角色匹配運(yùn)算基于PT-GF的語義角色自動(dòng)標(biāo)注是綜合考慮短語類型、短語相對(duì)于目標(biāo)詞位置、句法功能三個(gè)因素以及這三個(gè)方面對(duì)句子相似度影響的權(quán)重,利用余弦算法對(duì)輸入文本和例句文本的相似度進(jìn)行計(jì)算。2.2.1語義角色自動(dòng)標(biāo)注最大熵原理是在1957年由E.T.Jaynes提出的,主要思想是在只掌握關(guān)于未知分布的部分知識(shí)時(shí),應(yīng)該選取符合這些知識(shí)但熵值最大的概率分布。最大熵語義角色標(biāo)注是在統(tǒng)計(jì)學(xué)的基礎(chǔ)上發(fā)展起來的,以句子中詞、短語或語塊為

6、標(biāo)注的基本單元,根據(jù)一定語言學(xué)知識(shí)列出該詞匯單元的各種特征,標(biāo)注單元與該單元的語義角色類型組成學(xué)習(xí)實(shí)例,使用某種學(xué)習(xí)算法對(duì)這些實(shí)例進(jìn)行自動(dòng)學(xué)習(xí),以對(duì)新的實(shí)例進(jìn)行預(yù)測(cè)。參照我國(guó)現(xiàn)有的最大熵研究成果,簡(jiǎn)單特征、復(fù)合特征和擴(kuò)展特征總結(jié)如表1所示表一數(shù)據(jù)表分析算法數(shù)據(jù)集C4.5SPRINTILASDT總數(shù)MONK46301995BalanceScale17414254370Breast7557261582.2.2相似度計(jì)算利用余弦算法分別對(duì)輸入文本和例句文本的短語類型、短語相對(duì)于目標(biāo)詞位置、句法功能的相似度進(jìn)行計(jì)算。3.基于PT-GF算法的標(biāo)注實(shí)例我們以“我縣不少

7、單位和個(gè)人以私自戶外接電等手段偷大肆電?!弊鳛檩斎胛谋荆?jīng)過預(yù)處理處理后。4.結(jié)語在文中我們基于漢語構(gòu)架網(wǎng)以法律領(lǐng)域?yàn)槔謩e用PT-GF匹配和最大熵模型對(duì)輸入文本進(jìn)行了自動(dòng)標(biāo)注。在PT-GF匹配模型中,我們以短語為基本單位根據(jù)權(quán)重對(duì)文本短語的詞性、相對(duì)于目標(biāo)詞位置和句法功能進(jìn)行匹配,因此分詞和短語選擇技術(shù)對(duì)結(jié)果影響比較大。在最大熵模型中,我們以語義角色特征或組合特征為條件進(jìn)行概率統(tǒng)計(jì),因此特征提取的準(zhǔn)確度以及組合特征的選擇比較關(guān)鍵。因此如何克服這些技術(shù)的缺陷和約束,成為我們以后研究自動(dòng)語義角色標(biāo)注的方向。參考文獻(xiàn)[1]周慶榮,張澤廷,朱美文,等.固體溶質(zhì)在

8、含夾帶劑超臨界流體中的溶解度[J].化工學(xué)報(bào).[2]Mesquit

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。