基于spark的語義數(shù)據(jù)并行推理策略研究

基于spark的語義數(shù)據(jù)并行推理策略研究

ID:8322428

大?。?.21 MB

頁數(shù):51頁

時間:2018-03-19

基于spark的語義數(shù)據(jù)并行推理策略研究_第1頁
基于spark的語義數(shù)據(jù)并行推理策略研究_第2頁
基于spark的語義數(shù)據(jù)并行推理策略研究_第3頁
基于spark的語義數(shù)據(jù)并行推理策略研究_第4頁
基于spark的語義數(shù)據(jù)并行推理策略研究_第5頁
資源描述:

《基于spark的語義數(shù)據(jù)并行推理策略研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、基于Spark的語義數(shù)據(jù)并行推理策略研究摘要伴隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,語義Web數(shù)據(jù)大規(guī)模出現(xiàn)。海量語義數(shù)據(jù)的隱含信息通常需要推理方能得到。語義數(shù)據(jù)的推理過程極具挑戰(zhàn)性。其中的難點(diǎn)在于數(shù)據(jù)量大、計算耗時長。顯然,運(yùn)行于單機(jī)環(huán)境下的傳統(tǒng)推理工具難以適用于如此大規(guī)模的語義數(shù)據(jù)。并且單節(jié)點(diǎn)推理引擎面對日益增長的數(shù)據(jù)存在計算性能和可擴(kuò)展性不足等問題。由此,如何實現(xiàn)海量語義數(shù)據(jù)在云環(huán)境下的高效推理已成為當(dāng)前語義領(lǐng)域的研究熱點(diǎn)。論文基于開源并行框架Spark采用RDF/RDFS、OWL、HDFS等語義Web相關(guān)技術(shù)研究海量語義數(shù)據(jù)的推理策

2、略,實現(xiàn)海量語義數(shù)據(jù)的高效推理。針對現(xiàn)有推理系統(tǒng)存在的相關(guān)問題,提出了基于RDFS推理規(guī)則的語義數(shù)據(jù)并行推理策略,詳細(xì)闡述了并行推理過程中RDFS語義推理規(guī)則并行執(zhí)行次序、數(shù)據(jù)壓縮以及去除重復(fù)數(shù)據(jù)三個關(guān)鍵問題的實現(xiàn)策略。主要研究工作及成果如下:研究了RDFS推理規(guī)則以及傳統(tǒng)的語義推理引擎,通過對比現(xiàn)有的云計算相關(guān)技術(shù),引出了基于Spark的語義數(shù)據(jù)并行推理,設(shè)計實現(xiàn)了基于MD5的數(shù)據(jù)壓縮算法以及基于Spark的語義數(shù)據(jù)并行化RDFS推理算法。該算法通過優(yōu)化推理執(zhí)行順序及減少推理執(zhí)行步驟,提高了推理執(zhí)行速度;基于內(nèi)存的迭代計算框

3、架避免了中間結(jié)果的重復(fù)讀取,減少了冗余計算;基于MD5的數(shù)據(jù)壓縮,節(jié)約了數(shù)據(jù)導(dǎo)入和存儲時間并降低了計算節(jié)點(diǎn)之間的數(shù)據(jù)通信開銷。論文提出的推理策略解決了現(xiàn)有單機(jī)推理策略難以處理的并行問題以及可擴(kuò)展性問題,并且減少了大量數(shù)據(jù)導(dǎo)入和存儲時間以及大量不必要的數(shù)據(jù)傳輸。實現(xiàn)的語義Web推理引擎可以對海量語義數(shù)據(jù)實現(xiàn)高效的推理響應(yīng)。關(guān)鍵詞:Spark語義數(shù)據(jù)并行推理RDFSIVSemanticDataParallelReasoningResearchwithSparkABSTRACTAlongwiththerapiddevelopment

4、ofnetworktechnology,large-scalesemanticWebdatahaveemerged.Withoutreasoning,hugeamountsofsemanticdatacannotbeavailable.While,theprocessisextremelychallenging.Thedifficultyliesinthelargeamountofdataandlongtimeconsumingincomputing.Obviously,traditionalreasoningtoolsuse

5、dinthesinglemachinedonotapplytosuchlarge-scalesemanticdata.What’smore,inthefaceofsurgingdata,thesinglenodeinferenceenginehasmanyproblemssuchasinsufficientcomputingperformanceandscalability.Thus,howtorealizethatthemassivesemanticdatainacloudenvironmentcanbeefficientl

6、yreasonedhasbecomeacurrenthottopicinthefieldofsemantics.BasedonopensourceparallelframeworkthisthesisusessemanticWebtechnologysuchasRDF/RDFS,OWLandHDFSrelatedtostudylargeamountsofsemanticdatareasoningstrategy,torealizehighreasoningofmassivesemanticdata.Basedonrelevan

7、tproblemsoftheexistingsystem,thisthesisproposesaparallelsemanticdatareasoningstrategybasedonRDFSreasoningrule,elaboratesRDFSsemanticreasoningrulesforparallelexecutionorder,datacompressionandremovingduplicatedatatoachievethreekeyissuesstrategyintheparallelreasoningpr

8、ocess.Themainresearchworkandresultsareasfollows:TostudytheRDFSreasoningrulesandthetraditionalsemanticreasoningengine,bycomparingthecurrent

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。