資源描述:
《knowledge+extraction+using+a+semantic+learning+approach》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。
1、基于語義學習的知識抽?、嘀貞c大學碩士學位論文(學術學位)學生姓名:KWABENAAMOAKONUAMAH指導教師:傅鸝教授專業(yè):軟件工程學科門類:工學重慶大學軟件工程學院二O一二年六月KnowledgeExtractionusingaSemanticLearningApproachAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheAwardoftheMaster’SDegreeofEngineeringinSoftwareEn
2、gineeringByKWABENAAMoAKoNUAMAHSupervisedbyProf.FuLiSpecialty:SoftwareEngineeringSchoolofSoftwareEngineering,ChongqingUniversityChongqing,China.Iune2012中文摘要摘要形形色色的數(shù)據(jù)已經(jīng)成為組織和個人數(shù)字生活的一部分。全球的思維也己逐步轉(zhuǎn)到知識經(jīng)濟上。在知識經(jīng)濟中,數(shù)據(jù)是組織最重要的資產(chǎn),即便不是唯一地。大數(shù)據(jù)更是如此。數(shù)據(jù)不僅具有可用金錢衡量的價值,而且對我們?nèi)绾卫斫庵車澜缫灿芯薮笥绊?/p>
3、。我們的數(shù)據(jù)的來源有多種:社會媒體傳播,網(wǎng)絡論壇,博客,電子商務反饋系統(tǒng)。無論哪種,每天收集的數(shù)據(jù)都是海量的。由于這些數(shù)據(jù)往往是非結(jié)構(gòu)化的,其分析和理解通常十分困難。這類數(shù)據(jù)包含人類的自然語言,因而受到如語種、文化以及上下文等諸多因素的影響。這是在自動獲取大規(guī)模文本中的包含的意思時遇到的困難之一。已有一些研究工作朝著在這類數(shù)據(jù)中提取知識的方向努力。提取出來的知識可以作為知識庫供其他系統(tǒng)使用,比如問答系統(tǒng)、診斷系統(tǒng),以及科教系統(tǒng)。從文本中提取知識從而建立知識庫或本體,可使得互聯(lián)網(wǎng)具有更好的語義結(jié)構(gòu),正如語義萬維網(wǎng)所倡導的那樣。本文探索
4、非結(jié)構(gòu)化的文本的無監(jiān)督知識(概念及概念間的關系)提取。作者從三個視角討論知識提?。赫Z義、語法和時間視角。由此提出了知識提取系統(tǒng),可從文本語料庫中找出概念及概念對之間的關系。本文知識提取過程的關鍵環(huán)節(jié)是作者提出的偏好增量聚類算法,加上同現(xiàn)度量計算方法。前者用于識別語料庫中的相似或相關概念,而后者用于找出概念對以便此后進一步確定兩個概念間的關系。作者的目標是建立具有最基本形式的知識庫,即領域概念和關系。通過知識擴展和鏈接,就可以建立更完全的知識庫。本文利用快速索引和語義向量方法,給出了語料庫的計算表示,從而實現(xiàn)了相關計算操作。最終得出了
5、采用OWL2描述的領域本體。關鍵詞:知識抽取,聚類,語義向量,機器學習,本體學習AbstractABSTRACTDataofallkindshavebecomeanintegralpartofbusinesses,organizationsandindividualdigitallives.Ourglobalthinkinghasgraduallyshiftedintotheknowledge—basedeconomy,wheredataisoneof,ifnotthemostimportantassetoforganization
6、s;especiallybigdata.Notonlydoesdatahavemonetaryvalue,butalsohasagreatimpactonhowwellweunderstandtheworldaroundUS.DataiscollectedthroughseveralinstrumentationsaroundUS:socialmediainteractions,websiteforums,blogs,ecommercefeedbacksystemsamongothers,allofwhichcollectvasta
7、mountsofdataonadailybasis.Mostoften,muchofsuchdataareverydifficulttoanalyzeormakesenseofbecausetheyareusuallyunstructured.ItiSmadeupofnaturalhumanlanguagewhichvariesonvariousfactorssuchaslanguage,culture,andcontextoftopicdiscussions.Thisisoneofthemanydi伍cultiesthataree
8、ncounteredwhentryingtomakemeaningoftextualdataautomaticallyandonaverylargescale.Severalresearcheffortshavebeendirecte