資源描述:
《轉(zhuǎn)載關(guān)于聲像電子檔案歸檔本體在城建檔案信息管理系統(tǒng)中的應(yīng)用》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、本體在城建檔案信息管理系統(tǒng)中的應(yīng)用孫慶輝霍建飛[內(nèi)容提要]本體,作為一種能在語義和知識層次上描述信息系統(tǒng)的概念模型的建模工具,已在許多領(lǐng)域得到了廣泛的應(yīng)用。本文應(yīng)用基于本體的方法來建立城建檔案信息管理系統(tǒng)的分析設(shè)計(jì)工作,借鑒該領(lǐng)域內(nèi)現(xiàn)有的本體研究,提煉出了檔案信息系統(tǒng)模型,闡述了本體在城建檔案信息系統(tǒng)中的應(yīng)用情況實(shí)例。[關(guān)鍵詞]本體系統(tǒng)模型城建檔案信息系統(tǒng)一、引言本體,作為一種能在語義和知識層次上描述信息系統(tǒng)的概念模型的建模工具,迅速成為信息系統(tǒng)與人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),并在許多領(lǐng)域得到了廣泛的應(yīng)用,如知識工程,軟件復(fù)用,信息系統(tǒng)間異構(gòu)信息處理,自然語言理解等。特別是在信
2、息檢索領(lǐng)域,本體提供了一種對信息和知識進(jìn)行規(guī)范化描述和建模方法,在構(gòu)建智能化的檢索系統(tǒng)、構(gòu)建語義等方面具有重要的意義[1]。二、本體的基本知識2.1本體的定義本體是由Neches與Fikes在1991年提出的[2],是領(lǐng)域術(shù)語及其關(guān)系的外在形式化表示,術(shù)語及其聯(lián)系是現(xiàn)實(shí)世界的提取。本體作為一種服務(wù)方式作用于領(lǐng)域知識的抽取、描述、傳遞與共享[3]。本體能使智能代理更加清晰地理解相關(guān)的元素、關(guān)系以及概念,使知識表示更加合理與方便,幫助人們作出更恰當(dāng)?shù)倪x擇。2.2基于本體的信息檢索的基本原理本體是把現(xiàn)實(shí)世界中的某個(gè)應(yīng)用領(lǐng)域抽象成一組概念及概念間的關(guān)系。在傳統(tǒng)信息檢索技術(shù)中融入本體,
3、既能夠發(fā)揮概念信息檢索的優(yōu)勢,又可以克服概念信息檢索的局限性,即它不能對概念關(guān)系進(jìn)行處理。由于本體能夠?qū)Ω拍铌P(guān)系進(jìn)行處理,并通過概念之間的關(guān)系來表達(dá)概念語義,所以檢索的查全率和查準(zhǔn)率會得到提高?;诒倔w的個(gè)性化信息檢索是對需求集合和信息集合進(jìn)行了匹配與選擇,并在其中加入了本體的元素。三、本體在城建檔案信息管理系統(tǒng)的中的應(yīng)用利用本體理論指導(dǎo)并開發(fā)城建檔案信息管理系統(tǒng),目的是使城建檔案管理的過程信息化、現(xiàn)代化,以適應(yīng)當(dāng)前工作的需要。城建檔案信息管理系統(tǒng)是以城建檔案為核心,以館藏檔案資源為基礎(chǔ),以計(jì)算機(jī)技術(shù)為載體,用本體理論來建立檔案信息的檢索模型,將現(xiàn)代的計(jì)算機(jī)技術(shù)與傳統(tǒng)檔案查詢
4、服務(wù)方式相融合。它不僅做到了統(tǒng)一、完整,而且還具有容量大、速度快等特點(diǎn),還能夠做到較為準(zhǔn)確的查詢,充分開發(fā)城建檔案信息資源、提高了工作效率和管理水平。3.1本體知識在城建檔案信息檢索中的應(yīng)用由于城建檔案系統(tǒng)數(shù)據(jù)量大且復(fù)雜繁瑣,為減少數(shù)據(jù)檢索時(shí)間,提高數(shù)據(jù)的匹配效率,故引入本體知識來改善檢索的效率。信息檢索過程涉及3個(gè)方面:用戶任務(wù)(用戶需求)、文獻(xiàn)的邏輯表示(文檔替代物)、相關(guān)性判斷。為了提高系統(tǒng)的響應(yīng)速度,信息檢索系統(tǒng)一般不直接進(jìn)行用戶需求和文檔的相關(guān)性分析,而是使用表現(xiàn)形式既簡單又相似的需求替代物和文檔替代物進(jìn)行相關(guān)性匹配。文檔替代物,如關(guān)鍵詞向量,可以通過人工標(biāo)引或者自
5、動標(biāo)引獲得,生成之后一般不再更新;需求替代物,如查詢表達(dá)式,一般由用戶或者檢索系統(tǒng)輔助構(gòu)造而成。文檔替代物是檔案的元數(shù)據(jù),文檔類的替代物是文檔類的元數(shù)據(jù)。從檢索效率的角度來看,標(biāo)引能顯著提高全文數(shù)據(jù)庫的查全率和查準(zhǔn)率,并能縮短檢索時(shí)間。檢索結(jié)果可以是題名、知識、概念含義水平上的信息或全文等多種形式。城建檔案文本標(biāo)引工作至少應(yīng)該包含主題標(biāo)引和實(shí)體關(guān)系標(biāo)引兩個(gè)方面,因?yàn)槲谋緝?nèi)部既包含主題信息,又包含實(shí)體關(guān)系信息,這是兩類不同類型的信息,文本信息檢索系統(tǒng)應(yīng)該提供這兩類信息的檢索入口。到目前為止,主題標(biāo)引技術(shù)已經(jīng)比較成熟,被廣泛用于信息檢索系統(tǒng)之中,實(shí)體關(guān)系標(biāo)引技術(shù)還需進(jìn)一步完善。城
6、建檔案信息檢索引入本體技術(shù)的一個(gè)重要目的是變關(guān)鍵詞(或者主題詞)匹配為基于語義的匹配,使系統(tǒng)在查全率和查準(zhǔn)率上有更好的保證。然而,現(xiàn)有的基于本體的信息檢索系統(tǒng)在標(biāo)引過程中對本體的利用過于簡單,只是借助于領(lǐng)域本體,判斷文檔所屬的領(lǐng)域,對文檔按領(lǐng)域進(jìn)行分類。領(lǐng)域本體能否在標(biāo)引過程中發(fā)揮更多的作用,有沒有必要對標(biāo)引功能進(jìn)行相應(yīng)的改造,例如,使用本體描述檔案文檔,用本體作為檔案文檔的替代物,這些都有待繼續(xù)進(jìn)行研究。在標(biāo)引過程中,本體技術(shù)可以發(fā)揮更多的作用。但是,應(yīng)該將領(lǐng)域本體分為兩類:一類是反映特定領(lǐng)域內(nèi)概念之間關(guān)系的本體,簡稱概念關(guān)系本體;一類是反映特定領(lǐng)域內(nèi)實(shí)體之間關(guān)系的本體,簡
7、稱實(shí)體關(guān)系本體。這兩類領(lǐng)域本體的作用不同。實(shí)體關(guān)系標(biāo)引屬于信息抽取技術(shù),可視為信息檢索技術(shù)的一個(gè)深化。在標(biāo)引過程中,實(shí)體關(guān)系本體可以充當(dāng)信息抽取框架。實(shí)體關(guān)系標(biāo)引的過程可以按以下幾個(gè)步驟進(jìn)行:1.標(biāo)引系統(tǒng)對城建檔案進(jìn)行主題標(biāo)引,識別文本中所包含的主題,并根據(jù)文本主題將文本按照領(lǐng)域進(jìn)行歸類。2.利用文本的領(lǐng)域歸屬信息從文本中識別出命名實(shí)體。3.利用信息抽取模板將特定的描述信息與實(shí)體聯(lián)系起來。4.在實(shí)體識別的基礎(chǔ)之上標(biāo)注出實(shí)體之間的關(guān)系。對文本信息檢索系統(tǒng)而言,沒有必要使用本體形式的文檔替代物,因?yàn)槲臋n的多