資源描述:
《大數(shù)據(jù)環(huán)境下領(lǐng)域本體構(gòu)建框架研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、summarizesconclusionsforconstructionofdomainontologyforbigdata,proposesmethodologicalframeworksforbuildingdomainontologythatcanbuildaYangshengdomainontology.Comparedwithotherdomainontology,thedomainontologyofYangshengaccordingtomethodologyhassomeoutstandingfeatures,suchasreusability,s
2、calability,etc..Therefore,thispaperprovidesreferencetoquicklybuilddomainontologyinthebigdataera.Keyword:Bigdata;Domainontology;Knowledgeorganization;Yangsheng;Received:2017年6月[引用本文格式]付苓.大數(shù)據(jù)環(huán)境下領(lǐng)域本體構(gòu)建框架研宂[JL圖書館,2017(11):66—711引言大數(shù)據(jù)環(huán)境下,信息資源呈幾何速度増長且高速變化,數(shù)據(jù)源多樣并且價值密度低。由于數(shù)據(jù)的數(shù)量、多樣性、速度和價值密度,在大
3、數(shù)據(jù)環(huán)境下處理相關(guān)數(shù)據(jù)變得越來越困難。大數(shù)據(jù)的主要挑戰(zhàn)是從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中提取有價值信息。為了處理它們的復(fù)雜性,必須將數(shù)據(jù)分解為知識。木體為此提供了解決方案,因為本體提供了某一領(lǐng)域的明確的和機器可理解的概念化說明。本體是某一領(lǐng)域的共享概念化的規(guī)范說明m,提供特定領(lǐng)域的共享和對重用的知識。一般來說,本體旨在向原始數(shù)據(jù)添加語義,解決異質(zhì)性問題,允許推理和推斷。因此,基于大數(shù)據(jù)構(gòu)建領(lǐng)域木體是非常有趣的。隨著網(wǎng)上和各領(lǐng)域有效木體數(shù)量大量增加,木體構(gòu)建成為再利用過程m。木體復(fù)用關(guān)注點不同,如:(1)其他本體,DOLCE1位1,SUM0B1,0B0X51;(2)本體模塊
4、[6-8];(3)非本體資源,如敘詞表,詞表和分類表等,導(dǎo)致本體復(fù)用水平不同。本體開發(fā)可表述為構(gòu)建一個本體網(wǎng)絡(luò)M,但由于本體構(gòu)建過程中缺乏統(tǒng)一清晰、規(guī)范完善的框架和依據(jù),目前已有領(lǐng)域本體復(fù)用和整合效果較弱,面對數(shù)據(jù)量巨大、數(shù)據(jù)類型多、價值密度低、高速變化[10]的大數(shù)據(jù),從構(gòu)建過程、生命周期、支持構(gòu)建過程的方法、技術(shù)和工具等方面建立統(tǒng)一的領(lǐng)域本體構(gòu)建方法論,從應(yīng)用角度方面實現(xiàn)領(lǐng)域本體構(gòu)建是亟待解決的問題。為了滿足用戶從巨量數(shù)據(jù)中快速有效獲取有價值信息的需求,本文提出了一種適合大數(shù)據(jù)特征的本體構(gòu)建方法。2相關(guān)研究NeOn提出一種棊于場景的本體構(gòu)建方法,支持不同本體開
5、發(fā)過程,支持分布式環(huán)境中網(wǎng)絡(luò)化本體的動態(tài)演化,支持不同人員(領(lǐng)域?qū)<液蜆?gòu)建人員等)在本體開發(fā)過程的不同階段闡述知識M,旨在通過本體網(wǎng)絡(luò)進(jìn)行大規(guī)模語義應(yīng)用。NeOn項目設(shè)計了9個木體構(gòu)建場景:從頭開始創(chuàng)建;重用和重建非木體資源;重用本體資源;重用和重構(gòu)本體資源;重用和整合本體資源;重用、整合、重構(gòu)本體資源;重用本體設(shè)計模型;重組本體資源;本體資源本地化[11]。浼業(yè)本體化網(wǎng)絡(luò)mi首先確定本體領(lǐng)域的范圍及包括的數(shù)據(jù),然后根據(jù)場景1、2、3、7、5構(gòu)建本體,包括HGIS的漁業(yè)時間序列參考表、AGROVOC、ASFA、漁業(yè)和水產(chǎn)的分面表、FAO地理木體。基于參考表數(shù)據(jù)重組
6、為木體,用來索引時間序列,是核心木體。STKOS項目組[13]在NeOn本體構(gòu)建方法基礎(chǔ)上提出了STKOS本體構(gòu)建方法。馬雨萌等ill!提出丫構(gòu)建STKOS屮學(xué)科領(lǐng)域本體模型的3層架構(gòu),并以屮國科學(xué)院植物研宄所為例,闡述領(lǐng)域本體模型3層架構(gòu)模型在構(gòu)建植物多樣性領(lǐng)域本體的應(yīng)用。根據(jù)概念是否面向?qū)W科領(lǐng)域及其描述層次,領(lǐng)域本體研究層次主要分為無只體學(xué)科特征的頂層木體、表達(dá)學(xué)科共有特征的領(lǐng)域上層木體、面向具體建設(shè)目標(biāo)的領(lǐng)域應(yīng)用本體三方面[15]。Abbes和Gargouriii虹認(rèn)為手工構(gòu)建本體是非常困難和容易出錯的工作,提出了一種自動化本體構(gòu)建方法,它是基于MongoD
7、B數(shù)據(jù)庫中的數(shù)據(jù)獲取OWL本體。從MongoDB數(shù)據(jù)庫學(xué)習(xí)本體的方法是基于將MongoDB結(jié)構(gòu)映射到OWL本體的轉(zhuǎn)換規(guī)則U21,伍括五個主要步驟:創(chuàng)建木體框架:學(xué)習(xí)概念屬性;識別個體:推導(dǎo)出類公理、屬性公理和約束;用類定義運算符(交、并、補)來豐富本體。最后使用“NorthWind”數(shù)據(jù)庫通過工具M(jìn)20nto(MongoDB到本體)驗證了此方法的有效性。表1大數(shù)據(jù)和大規(guī)模語義應(yīng)用中木體構(gòu)建方法比較Jirkovsky等[18]和Bansal等提出了大數(shù)據(jù)集成應(yīng)用中本體構(gòu)建方法。Jirkovskf等提出了創(chuàng)建共享本體解決大數(shù)據(jù)語義異質(zhì)性問題。首先,處理不同類型的數(shù)據(jù)源
8、,如文本文