資源描述:
《序列數(shù)據(jù)挖掘的模型和算法研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、重慶大學博士學位論文序列數(shù)據(jù)挖掘的模型和算法研究姓名:楊虎申請學位級別:博士專業(yè):計算機軟件及理論指導教師:程代杰20031205重慶大學博士學位論文中文摘要摘要短短的幾年時間,數(shù)據(jù)挖掘風靡全球,成為rr業(yè)近年來非常熱門和前沿的研究方向之一,由于數(shù)據(jù)挖掘融合了人工智能、統(tǒng)計學、數(shù)據(jù)庫、機器學習等各個領域的理論與技術,使得不同學科領域的學者對DM的研究表現(xiàn)出了前所未有的熱情和參與精神,在世紀交替的特殊時期,這是又一輪規(guī)??涨暗膶W科大融合。數(shù)據(jù)挖掘目的是在大量的數(shù)據(jù)中發(fā)現(xiàn)令人感興趣的模式,用以認識規(guī)律,提高效率,預測未來,其核心技術具有很大的挑戰(zhàn)性,由于數(shù)據(jù)的適時性和時間
2、特征,諸如Web挖掘、金融挖掘、電子商務和市場調查等不可避免的會面臨序列數(shù)據(jù)的處理,其中以時間為序的又稱為時間序列,因此序列數(shù)據(jù)挖掘就應運而生了,但和目前其它分支不一樣的是這方面的研究對模型的依賴嚴重得多,而眾所周知時間序列分析在統(tǒng)計中就以復雜和抽象著稱,尤其是涉及到另一個挖掘中困難的課題:異常挖掘,并且還要考慮序列中的異常挖掘,即使在統(tǒng)計學中也是非常艱難的,至今并沒有很好的解決方案。金融數(shù)據(jù)挖掘是另一個非常困難的方向,雖然金融數(shù)學提供了豐富的理論和方法,但很多方法太抽象,實證效果也并不理想,作為普及方法推廣是不現(xiàn)實的,數(shù)據(jù)挖掘作為rr技術,簡單快速是必不可少的,因此
3、更多的從模型出發(fā)、以算法為基礎,建立切實可行的序列數(shù)據(jù)挖掘技術和理論體系是本文的目的。我們在第一章的緒論中除了介紹相關的概念、基礎知識和國內外研究現(xiàn)狀外,介紹了統(tǒng)計中非常實用的線性模型方法及在序列數(shù)據(jù)挖掘中的應用。第二章主要研究了線性模型的參數(shù)估計方法,得到了很多非常深入的新結果。第三章主要介紹了數(shù)據(jù)的可視化和序列數(shù)據(jù)的聚類研究、線性模式挖掘和異常挖掘,同時應用于證券數(shù)據(jù)的挖掘,取得了不錯的實證效果。第四章我們主要研究了序列數(shù)據(jù)挖掘的預測問題,同樣在證券實證分析中獲得有力的支持。第五章針對實際更多出現(xiàn)的數(shù)據(jù)缺失深入研究了EM算法等數(shù)據(jù)修補技術和插值技術,結果非常令人滿
4、意,最后進一步研究了向前搜索算法,通過聚類的預處理,既節(jié)約時間又避免錯誤的發(fā)生,效果也比較理想。序列數(shù)據(jù)挖掘的廣博領域顯然不是本研究所能窮盡的,我們在文末展望了該方向今后的發(fā)展和進一步有待研究的若干問題。關鍵詞:序列數(shù)據(jù)挖掘,異常挖掘,數(shù)據(jù)可視化,聚類,EM算法重慶大學博士學位論文英文摘要ABSTRACTInrecentyearsdatamininggetsmoreandmoreattentionandbecomesoneofthehottestspotinITresearchfield.Researchersfromvariousfieldsshowgreatent
5、husiasmforthesubjectsindataminingandarewillingtodevotethemselvestothenewfieldbecausedataminingsyncretizesartificialintelligence,statistics,database,andmachinestudy.Atthebeginningofthisnewcentury,itisalarge—scaleamalgamationofsubjects.Thepurposeofdataminingistofindouttheinterestingmodelf
6、romagreatdealofdatainordertofigureouttheregulation,improvetheefficiencyandpredictthefutureThepivotaltechnologyofdataminingisofgreatchallenge.Duetothedata’Stimingandtimefeature,thingssuchaswebmining,financedatamining,e-businessandmarketresearchwillhavetOdealwithserialdata.Theserialdatami
7、ningisbinhtomeettheneedsofanalyzingthisdataontheorderoftime.Thedifferencebetweenserialdataminingandotherbranchesisthattheserialdataminingdependsonmodelmuchmorethanthelatter.Asweallknow,timeserialanalysisiswellknownforitscomplexityandabstract,especiallyforitsrelationshiptoanothe