資源描述:
《 字串圖形結(jié)構(gòu)偵測方法 - 國立政治大學(xué)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、國立政治大學(xué)資訊科學(xué)系DepartmentofComputerScienceNationalChengchiUniversity碩士論文Master’sThesis中文資訊擷取結(jié)果之錯誤偵測ErrorDetectiononChineseInformationExtractionResults研究生:鄭雍瑋指導(dǎo)教授:劉吉軒中華民國九十五年七月July2006122中文資訊擷取結(jié)果之錯誤偵測ErrorDetectiononChineseInformationExtractionResults研究生:鄭雍瑋Student:Yung-WeiCheng指導(dǎo)教授
2、:劉吉軒Advisors:Jyi-ShaneLiu國立政治大學(xué)資訊科學(xué)系碩士論文AThesisSubmittedtoDepartmentofComputerScienceNationalChengchiUniversityInpartialfulfillmentoftheRequirementsfortheDegreeofMasterinComputerScience中華民國九十五年七月July2006122中文資訊擷取結(jié)果之錯誤偵測摘要資訊擷取是從自然語言文本中辨識出特定的主題或事件的描述,進而萃取出相關(guān)主題或事件元素中的對應(yīng)資訊,再將其擷取之結(jié)果
3、彙整至資料庫中,便能將自然語言文件轉(zhuǎn)換成結(jié)構(gòu)化的核心資訊。然而資訊擷取技術(shù)的結(jié)果會有錯誤情況發(fā)生,若單只依靠人工檢查及更正錯誤的方式進行,將會是耗費大量人力及時間的工作。在本研究論文中,我們提出字串圖形結(jié)構(gòu)與字串特徵值兩種錯誤資料偵測方法。前者是透過圖形結(jié)構(gòu)比對各資料內(nèi)字元及字元間關(guān)聯(lián),接著由公式計算出每筆資料的比對分?jǐn)?shù),藉由分?jǐn)?shù)高低可判斷是否為錯誤資料;後者則是利用字串特徵值,來描述字串外表特徵,再透過SVM和C4.5機器學(xué)習(xí)分類方法歸納出決策樹,進而分類正確與錯誤二元資料。而此兩種偵測方法的差異在於前者隱含了圖學(xué)理論之節(jié)點位置與鄰點概念,直接比對
4、原始字串內(nèi)容;後者則是將原始字串轉(zhuǎn)換成特徵數(shù)值,進行分類等動作。在實驗方面,我們以「總統(tǒng)府人事任免公報」之資訊擷取成果資料庫作為測試資料。實驗結(jié)果顯示,本研究所提出的錯誤偵測方法可以有效偵測出不合格的值組,不但能節(jié)省驗證資料所花費的成本,甚至可確保高資料品質(zhì)的資訊擷取成果產(chǎn)出,促使資訊擷取技術(shù)更廣泛的實際應(yīng)用。關(guān)鍵字:錯誤偵測、資訊擷取、文本資料描述122ErrorDetectiononChineseInformationExtractionResultsAbstractGivenatargetedsubjectandatextcollection,
5、informationextractiontechniquesprovidethecapabilitytopopulateadatabaseinwhicheachrecordentryisasubjectinstancedocumentedinthetextcollection.However,evenwiththestate-of-the-artIEtechniques,IEtaskresultsareexpectedtocontainerrors.Manualerrordetectionandcorrectionarelaborintensive
6、andtimeconsuming.ThisvalidationcostremainsamajorobstacletoactualdeploymentofpracticalIEapplicationswithhighvalidityrequirement.Inthispaper,weproposestringgraphstructureandstringfeature-basedmethods.Theformertakesadvantageofgraphstructuretocomparecharactersandtherelationbetweenc
7、haracters.Nextstep,wecountthecorrespondingscoreviaformula,andthenthescoresaretakestoestimatethedatacorrectness.Thelatterusesstringfeaturestodescribeacertaincharacteristicsofeachstring,afterthatdecisiontreeisgeneratedbytheC4.5andSVMmachinelearningalgorithms.Andthenclassifythedat
8、aisvalidornot.Thesetwodetectionmethodshavetheabilityto