資源描述:
《基于海量文本的語義構(gòu)建方法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、基于海量文本的語義構(gòu)建方法研究學位論文完成日期:指導教師簽字:答辯委員會成員簽字:謹以此論文獻給我的恩師徐建良教授、我的父母以及一直默默支持著我的愛人董晶!——袁冬獨創(chuàng)聲明本人聲明所呈交的學位論文是本人在導師指導下進行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含其他教育機構(gòu)的學位或證書使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示謝意。學位論文作者簽名:簽字日期:20!Z年門月g日學位論文版權(quán)使用授權(quán)書本學位論文作者完全了解學
2、校有關(guān)保留、使用學位論文的規(guī)定,并同意以下事項:1、學校有權(quán)保留并向國家有關(guān)部門或機構(gòu)送交論文的復印件和磁盤,允許論文被查閱和借閱。2、學校可以將學位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索,可以采用影印、縮印或掃描等復制手段保存、匯編學位論文。同時授權(quán)清華大學“中國學術(shù)期刊(光盤版)電子雜志社”用于出版和編入CNKI《中國知識資源總庫》,授權(quán)中國科學技術(shù)信息研究所將本學位論文收錄到《中國學位論文全文數(shù)據(jù)庫》。(保密的學位論文在解密后適用本授權(quán)書)靴敝儲戤:粼導師粹薦遣良簽字日期:20t2年膽月g日簽字日期沙『2年/嘲滬日基于海量文本的語義構(gòu)建方
3、法研究摘要隨著互聯(lián)網(wǎng)的快速發(fā)展和信息量的急劇增加,如何快速、有效的獲取信息越來越受到人們的關(guān)注。傳統(tǒng)的自然語言處理方法已經(jīng)逐漸不能人們的要求,如何使用智能化的手段對信息進行加工和處理已經(jīng)成為一個十分重要的問題。對文本信息進行自動化處理的基礎(chǔ)和關(guān)鍵是理解文本的語義,即使用形式化的語義結(jié)構(gòu)表示文本的含義,并且這種語義結(jié)構(gòu)應(yīng)該是可以被計算機所理解和處理的。目前將文本轉(zhuǎn)化為語義結(jié)構(gòu)的方法主要有基于專家知識的方法和基于數(shù)據(jù)統(tǒng)計的方法兩種,但由于自然語言文本和形式化的語義結(jié)構(gòu)之間存在巨大的差距,因此難以實現(xiàn)良好的轉(zhuǎn)換效果。為了避免直接從自然語言映射到語義結(jié)構(gòu)十
4、分困難的問題,研究人員提出了以“謂詞一論元結(jié)構(gòu)”為核心的淺層語義分析理論,又稱語義角色標注。該理論著眼于詞匯層面,主要目的是建立語句中各詞匯或短語等句法成分之間的語義關(guān)系。淺層語義分析可以被看作是一種通用的語義抽取技術(shù),并且可以作為深層語義分析的基礎(chǔ),因此得到了快速的發(fā)展,并被廣泛應(yīng)用于自然語言處理的各個相關(guān)領(lǐng)域中。本文在以上成果的基礎(chǔ)上,對基于淺層語義分析的海量文本語義構(gòu)建方法進行了研究,主要包括以下幾方面工作:1.提出了一個基于海量文本的語義構(gòu)建框架。該框架以“謂詞一論元結(jié)構(gòu)”為核心,通過語義角色歸納實現(xiàn)了對海量文本的語義角色標注,然后根據(jù)“謂
5、詞一論元結(jié)構(gòu)”與語義結(jié)構(gòu)之間的映射關(guān)系,實現(xiàn)了文本的深層語義構(gòu)建。2.提出了一種基于多特征的語義角色歸納算法。該方法將語義角色歸納視為一個聚類問題,對于給定的謂詞,首先從大規(guī)模文本中找到給定謂詞的所有論元,然后根據(jù)論元的語法結(jié)構(gòu)復雜程度將論元集合劃分為簡單論元和復雜論元兩種類型,并針對不同類型論元,使用不同的特征進行對論元集合進行劃分。然后使用一種經(jīng)過改進的層次聚類算法對劃分結(jié)果進行進一步合并,最終聚類所得的每一個簇代表謂詞的一個語義角色。該方法不需要人工標注的數(shù)據(jù),能夠自動從大規(guī)模文本中得到各謂詞的“謂詞一論元結(jié)構(gòu)”。3.提出了一種基于語義相似度
6、的謂詞一論元結(jié)構(gòu)與本體的映射算法。本文使用本體作為文本語義的描述方式。面向語義構(gòu)建的本體大多以事件為核心進行組織。本文提出的方法通過計算“謂詞一論元結(jié)構(gòu)”與本體中謂詞相關(guān)事件的語義相似度,建立了“謂詞一論元結(jié)構(gòu)”到本體中事件的映射關(guān)系,這一映射關(guān)系將語言層面的內(nèi)容與語義層面的內(nèi)容聯(lián)系在一起。對于文本來說,在經(jīng)過句法分析和語義角色標注后,可以通過該映射關(guān)系轉(zhuǎn)化為語義結(jié)構(gòu),形成一個完成的語義構(gòu)建過程。4.提出了一種語義構(gòu)建結(jié)果的自評價機制。針對不同的語義構(gòu)建算法對不同文本適用能力不同的現(xiàn)象,本文提出了一種自評價機制。該機制從三個層面對整個語義構(gòu)建過程中
7、不同階段的結(jié)果進行評價,給出了結(jié)果的可信度的度量辦法。利用該可信度,可以從結(jié)果集中篩選出相對正確的部分。本文提出海量文本語義構(gòu)建方法一方面利用海量文本的規(guī)模優(yōu)勢,實現(xiàn)了文本語義角色的無監(jiān)督標注,克服了有監(jiān)督的方法需要大量訓練數(shù)據(jù)的問題,使得語義標注可以在不同領(lǐng)域和語言之問方便的擴展。另一方面,通過“謂詞一論元結(jié)構(gòu)”到本體映射關(guān)系的自動建立,實現(xiàn)了從淺層語義分析到深層語義分析的轉(zhuǎn)換,形成了一個完整的文本語義構(gòu)建過程。關(guān)鍵詞:文本語義構(gòu)建;海量文本;語義角色歸納;本體;自然語言理解;IlTheResearchofSemanticConstruction
8、MethodBasedOnNassiyeTextAbstractWiththerapiddevelopmentoftheI