knowledge+extraction+using+a+semantic+learning+approach

knowledge+extraction+using+a+semantic+learning+approach

ID:33799968

大?。?.42 MB

頁數(shù):54頁

時間:2019-03-01

knowledge+extraction+using+a+semantic+learning+approach_第1頁
knowledge+extraction+using+a+semantic+learning+approach_第2頁
knowledge+extraction+using+a+semantic+learning+approach_第3頁
knowledge+extraction+using+a+semantic+learning+approach_第4頁
knowledge+extraction+using+a+semantic+learning+approach_第5頁
資源描述:

《knowledge+extraction+using+a+semantic+learning+approach》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。

1、基于語義學習的知識抽?、嘀貞c大學碩士學位論文(學術學位)學生姓名:KWABENAAMOAKONUAMAH指導教師:傅鸝教授專業(yè):軟件工程學科門類:工學重慶大學軟件工程學院二O一二年六月KnowledgeExtractionusingaSemanticLearningApproachAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheAwardoftheMaster’SDegreeofEngineeringinSoftwareEn

2、gineeringByKWABENAAMoAKoNUAMAHSupervisedbyProf.FuLiSpecialty:SoftwareEngineeringSchoolofSoftwareEngineering,ChongqingUniversityChongqing,China.Iune2012中文摘要摘要形形色色的數(shù)據(jù)已經(jīng)成為組織和個人數(shù)字生活的一部分。全球的思維也己逐步轉(zhuǎn)到知識經(jīng)濟上。在知識經(jīng)濟中,數(shù)據(jù)是組織最重要的資產(chǎn),即便不是唯一地。大數(shù)據(jù)更是如此。數(shù)據(jù)不僅具有可用金錢衡量的價值,而且對我們?nèi)绾卫斫庵車澜缫灿芯薮笥绊?/p>

3、。我們的數(shù)據(jù)的來源有多種:社會媒體傳播,網(wǎng)絡論壇,博客,電子商務反饋系統(tǒng)。無論哪種,每天收集的數(shù)據(jù)都是海量的。由于這些數(shù)據(jù)往往是非結(jié)構(gòu)化的,其分析和理解通常十分困難。這類數(shù)據(jù)包含人類的自然語言,因而受到如語種、文化以及上下文等諸多因素的影響。這是在自動獲取大規(guī)模文本中的包含的意思時遇到的困難之一。已有一些研究工作朝著在這類數(shù)據(jù)中提取知識的方向努力。提取出來的知識可以作為知識庫供其他系統(tǒng)使用,比如問答系統(tǒng)、診斷系統(tǒng),以及科教系統(tǒng)。從文本中提取知識從而建立知識庫或本體,可使得互聯(lián)網(wǎng)具有更好的語義結(jié)構(gòu),正如語義萬維網(wǎng)所倡導的那樣。本文探索

4、非結(jié)構(gòu)化的文本的無監(jiān)督知識(概念及概念間的關系)提取。作者從三個視角討論知識提?。赫Z義、語法和時間視角。由此提出了知識提取系統(tǒng),可從文本語料庫中找出概念及概念對之間的關系。本文知識提取過程的關鍵環(huán)節(jié)是作者提出的偏好增量聚類算法,加上同現(xiàn)度量計算方法。前者用于識別語料庫中的相似或相關概念,而后者用于找出概念對以便此后進一步確定兩個概念間的關系。作者的目標是建立具有最基本形式的知識庫,即領域概念和關系。通過知識擴展和鏈接,就可以建立更完全的知識庫。本文利用快速索引和語義向量方法,給出了語料庫的計算表示,從而實現(xiàn)了相關計算操作。最終得出了

5、采用OWL2描述的領域本體。關鍵詞:知識抽取,聚類,語義向量,機器學習,本體學習AbstractABSTRACTDataofallkindshavebecomeanintegralpartofbusinesses,organizationsandindividualdigitallives.Ourglobalthinkinghasgraduallyshiftedintotheknowledge—basedeconomy,wheredataisoneof,ifnotthemostimportantassetoforganization

6、s;especiallybigdata.Notonlydoesdatahavemonetaryvalue,butalsohasagreatimpactonhowwellweunderstandtheworldaroundUS.DataiscollectedthroughseveralinstrumentationsaroundUS:socialmediainteractions,websiteforums,blogs,ecommercefeedbacksystemsamongothers,allofwhichcollectvasta

7、mountsofdataonadailybasis.Mostoften,muchofsuchdataareverydifficulttoanalyzeormakesenseofbecausetheyareusuallyunstructured.ItiSmadeupofnaturalhumanlanguagewhichvariesonvariousfactorssuchaslanguage,culture,andcontextoftopicdiscussions.Thisisoneofthemanydi伍cultiesthataree

8、ncounteredwhentryingtomakemeaningoftextualdataautomaticallyandonaverylargescale.Severalresearcheffortshavebeendirecte

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。
相關文章
更多
相關標簽