資源描述:
《基于本體地自然語言檢索研究.pdf》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、科技信息計算機與網(wǎng)絡(luò)基于本體的自然語言檢索研究大連民族學院圖書館寇清華鄭巧紅[摘要]本文分析了自然語言檢索的優(yōu)缺點,介紹了自然語言檢索與本體結(jié)合的優(yōu)勢,對本體的構(gòu)建規(guī)則進行了介紹,最后提出了構(gòu)建本體的方法。[關(guān)鍵詞]自然語言檢索本體本體構(gòu)建隨著計算機、網(wǎng)絡(luò)與信息技術(shù)的迅猛發(fā)展,信息的產(chǎn)生、發(fā)布速度Studer等人在對本體做了深入研究后,擴展了Gruber的定義,認為“本日新月異,使得現(xiàn)在的Internet和Web上具有海量的信息資源。而隨著體是共享概念模型的明確的形式化規(guī)范說明”。這一定義已被大多數(shù)人計
2、算機和網(wǎng)絡(luò)的普及,人們的信息意識也在不斷增強。各行各業(yè)的人們認同,該定義包含了四層含義:都深刻意識到信息的重要性,對信息的需求也越來越迫切,信息用戶群(1)概念模型(Conceptualization),即本體是通過抽象客觀世界的概從原來的只有少數(shù)專業(yè)人員范圍發(fā)展到了全民范圍。面對龐大的網(wǎng)絡(luò)念而得到的模型,該模式定義了概念間的相關(guān)關(guān)系;信息資源如何進行有效地組織,并提供快捷、方便的檢索服務(wù),已經(jīng)成(2)明確性(Explicit),即本體所使用的概念及這些概念的上位類之為信息檢索領(lǐng)域亟待解決的問題。常規(guī)的
3、全文檢索方式雖然可以保證間都應(yīng)該有明確的定義和說明,沒有二義性;查全率,但是查準率卻大大降低,而基于數(shù)據(jù)庫的檢索方法,其性能取(3)形式化(Formal),即本體是計算機可處理的,而不是自然語言;決于所使用的字段標識方法和用戶對方法的理解,對于大多數(shù)沒有經(jīng)(4)共享(Shared),即本體體現(xiàn)的是共同認可的知識,反映的是相關(guān)過檢索培訓(xùn)的用戶來講,操作起來費時費力,具有很大的局限性,也不領(lǐng)域中公認的概念集合,應(yīng)該被整個領(lǐng)域的群體所接受。能滿足用戶在語義上和知識上的需求。而自然語言檢索具有方便、快本體的目標
4、是捕獲相關(guān)的領(lǐng)域的知識,提供對該領(lǐng)域知識的共同捷、易于操作的特點,成為信息檢索領(lǐng)域一大發(fā)展趨勢。現(xiàn)在自然語言理解,確定該領(lǐng)域內(nèi)共同認可的詞匯,并從不同層次的形式化模式上給檢索系統(tǒng)可望掃除人與計算機系統(tǒng)的接口障礙,只是對自然語言如何出這些詞匯和詞匯之間相互關(guān)系的明確定義,利用本體概念化、形式進行分解取得準確的語義問題還有待更深入地研究[1]。從2001年開始,化、明確性、共享性的特性來提高信息檢索的準確性與覆蓋率,從而將一些專家、學者開始把本體理論應(yīng)用到自然語言檢索領(lǐng)域。本體具有能Web上的所有信息,連結(jié)
5、成一個巨大的數(shù)據(jù)庫。通過概念之間的關(guān)系來表達概念語義的能力,因而在信息檢索,特別是3自然語言檢索與本體結(jié)合的優(yōu)勢在基于知識的檢索中支持知識上、語義上的匹配,對檢索系統(tǒng)的查全率本體是關(guān)于領(lǐng)域知識的概念化、形式化的明確規(guī)范,是對領(lǐng)域知識與查準率有更好的保障。本體的最大優(yōu)勢還在于本體將某個或多個特的共同理解與描述,它和情報檢索語言一樣由概念及其之間的相互關(guān)定領(lǐng)域的概念和術(shù)語規(guī)范化,提供了人機交流的機制,使得機器可以理系構(gòu)成,所不同的是構(gòu)成本體的概念更加系統(tǒng)、全面地揭示概念之間的解語義,達成機器與機器之間、機器
6、與人之間的語義互操作。要實現(xiàn)對相互關(guān)系,具有更強的表達能力。因而本體更適用于網(wǎng)絡(luò)環(huán)境下的信息Web上的知識信息的重用與共享,充分挖掘語義Web的潛力,就需要資源組織與檢索。其優(yōu)勢主要體現(xiàn)在:大規(guī)模采用基于本體的方法來組織信息資源。本文首先介紹了自然語(1)本體同樣也具有標引功能、信息組織功能、對信息進行集中并言檢索的優(yōu)缺點及本體的概念,然后論述了自然語言檢索與本體論結(jié)顯示其相關(guān)性的功能,本體可以替代情報檢索語言對自然語言加以更合的優(yōu)勢,最后提出了開發(fā)本體的方法。好的控制。1自然語言檢索的優(yōu)缺點(2)本體
7、比傳統(tǒng)的情報檢索語言更加深入、全面、細致地反映了概1.1自然語言檢索的優(yōu)點念之間的關(guān)系,同時在組織結(jié)構(gòu)上,本體中的概念構(gòu)成了一個語義網(wǎng)使用自然語言檢索不受繁瑣的檢索規(guī)則限制,檢索標識從源文的絡(luò),提供了一個共享的詞匯庫,以達到人機之間交流順暢、且不會丟失題名、文摘和正文中提取,符合大多數(shù)用戶的檢索習慣,用戶使用自然曲解交流信息所包含的語義。語言描述他們的信息需求,用能準確反映自己意圖的詞語作為檢索標(3)本體中的概念用自然語言或半自然語言表達,應(yīng)用更廣。本體識[2]。自然語言檢索的優(yōu)點可歸納為三個方面:的
8、描述能力可以解決同名異義及異名同義,描述概念間的相互關(guān)系,顯(1)自然語言檢索不受詞表限制,可以輸入新生詞匯,更有效地跟示描述概念的語義,支持相關(guān)信息源之間的信息交換,提高應(yīng)用的互操蹤新事物的發(fā)展。作性,促進領(lǐng)域知識共享和重用,可以實現(xiàn)基于本體的語義檢索或自然(2)自然語言檢索以源文的內(nèi)容作為檢索標識,符合大多數(shù)用戶的語言檢索。檢索習慣,不受專業(yè)及使用檢索系統(tǒng)能力的限制,能更快、更準確地命(4)本體是一個開放的體系,其概念集可以隨著學科領(lǐng)域