資源描述:
《地震前兆數(shù)據(jù)流的增量式數(shù)據(jù)挖掘方法研究》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。
1、上海大學碩士學位論文地震前兆數(shù)據(jù)流的增量式數(shù)據(jù)挖掘方法研究姓名:馮文超申請學位級別:碩士專業(yè):計算機軟件與理論指導教師:吳紹春20070101上海大學碩士學位論文摘要隨著計算機、通信、網(wǎng)絡技術的迅猛發(fā)展,許多應用領域出現(xiàn)了海量、高速、動態(tài)的數(shù)據(jù),如交通工程和網(wǎng)絡監(jiān)控、電信記錄管理和分析、商業(yè)交易管理和分析、金融信息監(jiān)控、傳感器網(wǎng)絡監(jiān)控等。區(qū)別于傳統(tǒng)數(shù)據(jù)庫中相對靜態(tài)的數(shù)據(jù),這類海量、持續(xù)、有序、快速和突變的數(shù)據(jù),稱為數(shù)據(jù)流。如何對這種全新的數(shù)據(jù)模型進行管理與分析,是一個嚴峻挑戰(zhàn):而時間序列數(shù)據(jù)流的分析與管理是其
2、中一個重要研究方向。隨著地震監(jiān)測技術日趨完善,各級地震臺網(wǎng)收集了大量的觀測數(shù)據(jù),每天都有大量的數(shù)據(jù)不斷流入。這些海量的歷史觀測數(shù)據(jù)和實時數(shù)據(jù)流統(tǒng)稱為“地震前兆監(jiān)測數(shù)據(jù)”。如何探測這些數(shù)據(jù)背后隱藏的地震前兆規(guī)律,是迫切需要解決的問題。本文在分析時間序列和時間序列數(shù)據(jù)流特點的基礎上,根據(jù)地震前兆監(jiān)測數(shù)據(jù)的實際應用需求,著重對時間序列數(shù)據(jù)流的挖掘與相似性查找等一些關鍵技術進行了研究。具體包括特征模式的并行挖掘、在線增量式并行挖掘、在線相似性模式查找等。本文所做的工作和取得的創(chuàng)新成果體現(xiàn)在以下三個方面:1)時間序列特
3、征模式并行挖掘研究提出了一種建立在集群式高性能計算機上基于互關聯(lián)后繼樹(Inter-RelevantSuccessiveTreesIlLSD的并行時序模式挖掘算法,將數(shù)據(jù)線段化、樹的建立及模式發(fā)現(xiàn)在多處理機上進行并行處理,有效地改進了算法的執(zhí)行效率。實驗結果表明,此算法較之串行算法有較高的效率。2)時間序列數(shù)據(jù)流在線增量式并行挖掘算法研究根據(jù)IRST提出了一種并行的增量式數(shù)據(jù)流挖掘算法:著重從時間序列數(shù)據(jù)流挖掘目的和實用角度出發(fā),采用滑動窗口窗口技術來處理最近數(shù)據(jù)序列,并在其上面建立一種基于互關聯(lián)后繼樹的索引
4、SIP.ST(SequenceInter-RelevantSuccessiveTrees),利用索引查找來發(fā)現(xiàn)頻繁模式;為了提高算法效率,隨著數(shù)據(jù)流的不斷變化,動態(tài)更新索引模型SIRST,并引入數(shù)據(jù)交疊技術和并行計算技術來進一步提高算法的精度和效率。最后,將結果返回給用戶,并利用挖掘結果實時更新模式庫。3)動態(tài)時間序列在線模式的相似性查找研究針對時間序列在線分析的需要,給出了一種動態(tài)時間序列的在線相似性查找算法。該算法采用了一種動態(tài)模式匹配距離作為相似性度量方式,為了提高查找效率和縮短響應時間,在計算模式距離
5、時引入了窗口路徑限制技術和早放棄技術本文的研究內(nèi)容得到如下項目的支持:國家地震科學聯(lián)合基金項目。地震預報中數(shù)據(jù)挖掘方法的研究”(104090).上海市自然科學基金項目“地震預報中并行數(shù)據(jù)挖掘方法研究”(03ZRl4038).上海大學硬士學位論文來提高匹配距離計算效率,并將各指定的模式發(fā)送到各個處理器,進行并行的相似性匹配計算來提高響應時間。通過在地震前兆監(jiān)測數(shù)據(jù)上的模擬試驗表明,該算法比基于歐式距離和動態(tài)時間彎曲距離作為相似性度量方式的查找算法有較高的準確性,其效率雖然不如基于歐式距離作為相似性度量方式的查找
6、算法,但比基于動態(tài)時間彎曲距離作為相似性度量方式的查找算法卻提高了很多。關鍵詞:數(shù)據(jù)挖掘,增量式,數(shù)據(jù)流,時間序列,并行計算,相似性匹配Ⅱ上海大學碩士學位論文ABSTRACTWiththerapiddevelopmentofthecomputerscience,communationtechnologyandnetwork,hugeamountofdynamicdatasentwithahighspeedcomeforthinmanyapplicationfiel凼.suchasperformancemeas
7、urementinthe恤伍c勰dnetworkmonitoring;mmlagcmentandanalyseofrecordsintelecommunicationandtransactioninbusiness;6啪ceinformationmonitoring;Seq[IS01rmonitoringand∞011.Di丘;cmntfromtherelativelystaticdamintraditionaldatabase,suchlarge—scale,continuous,rapidarriving
8、andfluctuatingdataalecalledDamStreaming.Itisasedouschallengethathowtomanageandanalysethisbran-newdammodel;endalSO,suchchallengeonthetimeseriesstreamingisenimportnntresearchdirectJon.Now,theseismstation