字串圖形結(jié)構(gòu)偵測方法 - 國立政治大學(xué)

字串圖形結(jié)構(gòu)偵測方法 - 國立政治大學(xué)

ID:12368638

大?。?.88 MB

頁數(shù):132頁

時間:2018-07-16

 字串圖形結(jié)構(gòu)偵測方法 - 國立政治大學(xué)_第1頁
 字串圖形結(jié)構(gòu)偵測方法 - 國立政治大學(xué)_第2頁
 字串圖形結(jié)構(gòu)偵測方法 - 國立政治大學(xué)_第3頁
 字串圖形結(jié)構(gòu)偵測方法 - 國立政治大學(xué)_第4頁
 字串圖形結(jié)構(gòu)偵測方法 - 國立政治大學(xué)_第5頁
資源描述:

《 字串圖形結(jié)構(gòu)偵測方法 - 國立政治大學(xué)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、國立政治大學(xué)資訊科學(xué)系DepartmentofComputerScienceNationalChengchiUniversity碩士論文Master’sThesis中文資訊擷取結(jié)果之錯誤偵測ErrorDetectiononChineseInformationExtractionResults研究生:鄭雍瑋指導(dǎo)教授:劉吉軒中華民國九十五年七月July2006122中文資訊擷取結(jié)果之錯誤偵測ErrorDetectiononChineseInformationExtractionResults研究生:鄭雍瑋Student:Yung-WeiCheng指導(dǎo)教授

2、:劉吉軒Advisors:Jyi-ShaneLiu國立政治大學(xué)資訊科學(xué)系碩士論文AThesisSubmittedtoDepartmentofComputerScienceNationalChengchiUniversityInpartialfulfillmentoftheRequirementsfortheDegreeofMasterinComputerScience中華民國九十五年七月July2006122中文資訊擷取結(jié)果之錯誤偵測摘要資訊擷取是從自然語言文本中辨識出特定的主題或事件的描述,進而萃取出相關(guān)主題或事件元素中的對應(yīng)資訊,再將其擷取之結(jié)果

3、彙整至資料庫中,便能將自然語言文件轉(zhuǎn)換成結(jié)構(gòu)化的核心資訊。然而資訊擷取技術(shù)的結(jié)果會有錯誤情況發(fā)生,若單只依靠人工檢查及更正錯誤的方式進行,將會是耗費大量人力及時間的工作。在本研究論文中,我們提出字串圖形結(jié)構(gòu)與字串特徵值兩種錯誤資料偵測方法。前者是透過圖形結(jié)構(gòu)比對各資料內(nèi)字元及字元間關(guān)聯(lián),接著由公式計算出每筆資料的比對分?jǐn)?shù),藉由分?jǐn)?shù)高低可判斷是否為錯誤資料;後者則是利用字串特徵值,來描述字串外表特徵,再透過SVM和C4.5機器學(xué)習(xí)分類方法歸納出決策樹,進而分類正確與錯誤二元資料。而此兩種偵測方法的差異在於前者隱含了圖學(xué)理論之節(jié)點位置與鄰點概念,直接比對

4、原始字串內(nèi)容;後者則是將原始字串轉(zhuǎn)換成特徵數(shù)值,進行分類等動作。在實驗方面,我們以「總統(tǒng)府人事任免公報」之資訊擷取成果資料庫作為測試資料。實驗結(jié)果顯示,本研究所提出的錯誤偵測方法可以有效偵測出不合格的值組,不但能節(jié)省驗證資料所花費的成本,甚至可確保高資料品質(zhì)的資訊擷取成果產(chǎn)出,促使資訊擷取技術(shù)更廣泛的實際應(yīng)用。關(guān)鍵字:錯誤偵測、資訊擷取、文本資料描述122ErrorDetectiononChineseInformationExtractionResultsAbstractGivenatargetedsubjectandatextcollection,

5、informationextractiontechniquesprovidethecapabilitytopopulateadatabaseinwhicheachrecordentryisasubjectinstancedocumentedinthetextcollection.However,evenwiththestate-of-the-artIEtechniques,IEtaskresultsareexpectedtocontainerrors.Manualerrordetectionandcorrectionarelaborintensive

6、andtimeconsuming.ThisvalidationcostremainsamajorobstacletoactualdeploymentofpracticalIEapplicationswithhighvalidityrequirement.Inthispaper,weproposestringgraphstructureandstringfeature-basedmethods.Theformertakesadvantageofgraphstructuretocomparecharactersandtherelationbetweenc

7、haracters.Nextstep,wecountthecorrespondingscoreviaformula,andthenthescoresaretakestoestimatethedatacorrectness.Thelatterusesstringfeaturestodescribeacertaincharacteristicsofeachstring,afterthatdecisiontreeisgeneratedbytheC4.5andSVMmachinelearningalgorithms.Andthenclassifythedat

8、aisvalidornot.Thesetwodetectionmethodshavetheabilityto

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。