資源描述:
《數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)論文》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)論文目錄摘要IAbstractII第一章文獻(xiàn)綜述11.1數(shù)據(jù)挖掘發(fā)展簡述11.1.1數(shù)據(jù)豐富與知識(shí)匱乏11.1.2從數(shù)據(jù)到知識(shí)21.1.3數(shù)據(jù)挖掘產(chǎn)生41.2數(shù)據(jù)挖掘基本知識(shí)51.2.1數(shù)據(jù)挖掘深入81.3數(shù)據(jù)挖掘功能91.3.1概念描述:定性與對(duì)比101.3.2關(guān)聯(lián)分析101.3.3分類與預(yù)測(cè)101.3.4聚類分析111.3.5異類分析111.3.6演化分析111.4數(shù)據(jù)挖掘結(jié)果的評(píng)估111.5數(shù)據(jù)挖掘系統(tǒng)131.5.1數(shù)據(jù)挖掘系統(tǒng)分類131.5.2數(shù)據(jù)挖掘系統(tǒng)的應(yīng)用141.6數(shù)據(jù)挖掘研究重點(diǎn)171.7數(shù)據(jù)挖掘課題的選
2、擇20第二章設(shè)計(jì)部分212.1環(huán)境的選擇與搭建212.2系統(tǒng)需要實(shí)現(xiàn)的功能222.3系統(tǒng)用例232.3.1用例圖232.3.2用例描述242.4數(shù)據(jù)庫表設(shè)計(jì)332.5總體類圖342.6異??紤]352.7用例實(shí)現(xiàn)37第三章結(jié)果與討論39第四章結(jié)論與建議424.1結(jié)論424.2建議42參考文獻(xiàn)43致謝4444第一章文獻(xiàn)綜述數(shù)據(jù)挖掘作為一個(gè)新興的多學(xué)科交叉應(yīng)用領(lǐng)域,正在各行各業(yè)的決策支持活動(dòng)扮演著越來越重要的角色。1.1數(shù)據(jù)挖掘發(fā)展簡述1.1.1數(shù)據(jù)豐富與知識(shí)匱乏計(jì)算機(jī)與信息技術(shù)經(jīng)歷了半個(gè)世紀(jì)的發(fā)展,給人類社會(huì)帶來了巨大的變化與影響。在支配人類社會(huì)三大要
3、素(能源、材料和信息)中,信息愈來愈顯示出其重要性和支配力,它將人類社會(huì)由工業(yè)化時(shí)代推向信息化時(shí)代。隨著人類活動(dòng)范圍的擴(kuò)展,生活節(jié)奏的加快,以及技術(shù)的進(jìn)步,人們能以更快速更容易更廉價(jià)的方式獲取和存儲(chǔ)數(shù)據(jù),這就使得數(shù)據(jù)及其信息量以指數(shù)方式增長。早在20世紀(jì)八十年代,據(jù)粗略估算,全球信息量每隔20個(gè)月就增加一倍。而進(jìn)入九十年代,全世界所擁有的數(shù)據(jù)庫及其所存儲(chǔ)的數(shù)據(jù)規(guī)模增長更快。一個(gè)中等規(guī)模企業(yè)每天要產(chǎn)生100MB以上來自各生產(chǎn)經(jīng)營等多方面的商業(yè)數(shù)據(jù)。美國政府部門的一個(gè)典型大數(shù)據(jù)庫每天要接收約5TB數(shù)據(jù)量,在15秒到1分鐘時(shí)間里,要維持的數(shù)據(jù)量達(dá)到300
4、TB,存檔數(shù)據(jù)達(dá)15-100PB。在科研方面,以美國宇航局的數(shù)據(jù)庫為例,每天從衛(wèi)星下載的數(shù)據(jù)量就達(dá)3-4TB之多;而為了研究的需要,這些數(shù)據(jù)要保存七年之久。九十年代互聯(lián)網(wǎng)(Internet)的出現(xiàn)與發(fā)展,以及隨之而來的企業(yè)內(nèi)部網(wǎng)(Internet)和企業(yè)外部網(wǎng)(Extranet)以及虛擬私有網(wǎng)(VPN:VirtualPrivatenetwork)的產(chǎn)生和應(yīng)用,使整個(gè)世界互聯(lián)形成一個(gè)小小的地球村,人們可以跨越時(shí)空地在網(wǎng)上交換信息和協(xié)同工作。這樣,展現(xiàn)在人們面前的已不是局限于本部門,本單位和本行業(yè)的龐大數(shù)據(jù)庫,而是浩瀚無垠的信息海洋。據(jù)統(tǒng)計(jì),1993年
5、全球數(shù)據(jù)存貯容量約為二千TB,到2000年增加到三百萬TB,面對(duì)這極度膨脹的數(shù)據(jù)信息量,人們受到“信息爆炸”、“混沌信息空間”(InformationChaoticSpace)和“數(shù)據(jù)過剩”(Dataglut)的巨大壓力。然而,人類的各項(xiàng)活動(dòng)都是基于人類的智慧和知識(shí),即對(duì)外部世界的觀察和了解,做出正確的判斷和決策以及采取正確的行動(dòng),而數(shù)據(jù)僅僅是人們用各種工具和手段觀察外部世界所得到的原始材料,它本身沒有任何意義。從數(shù)據(jù)到知識(shí)到智慧,需要經(jīng)過分析加工處理精煉的過程。如圖1.1所示,數(shù)據(jù)是原材料,它只是描述發(fā)生了什么事情,并不能構(gòu)成決策或行動(dòng)的可靠基礎(chǔ)
6、。通過對(duì)數(shù)據(jù)進(jìn)行分析找出其中關(guān)系,賦予數(shù)據(jù)以某種意義和關(guān)聯(lián),這就形成所謂信息。信息雖給出了數(shù)據(jù)中一些有一定意義的東西,但它往往和人們需要完成的任務(wù)沒有直接的聯(lián)系,也還不能作為判斷、決策和行動(dòng)的依據(jù)。對(duì)信息進(jìn)行再44加工,即進(jìn)行更深入的歸納分析,方能獲得更有用的信息,即知識(shí)。而所謂知識(shí),可定義為“信息塊中的一組邏輯聯(lián)系,其關(guān)系是通過上下文或過程的貼近度發(fā)現(xiàn)的”。從信息中理解其模式,即形成知識(shí)。在大量知識(shí)積累基礎(chǔ)上,總結(jié)出原理和法則,就形成所謂智慧(Wisdom)。事實(shí)上,一部人類文明發(fā)展史,就是在各種活動(dòng)中,知識(shí)的創(chuàng)造、交流,再創(chuàng)造不斷積累的螺旋式上
7、升的歷史。圖1.1人類活動(dòng)所涉及數(shù)據(jù)與知識(shí)之間的關(guān)系描述計(jì)算機(jī)與信息技術(shù)的發(fā)展,加速了人類知識(shí)創(chuàng)造與交流的這種進(jìn)程,據(jù)德國《世界報(bào)》的資料分析,如果說19世紀(jì)時(shí)科學(xué)定律(包括新的化學(xué)分子式,新的物理關(guān)系和新的醫(yī)學(xué)認(rèn)識(shí))的認(rèn)識(shí)數(shù)量一百年增長一倍,到20世紀(jì)60年代中期以后,每五年就增加一倍。這其中知識(shí)起著關(guān)鍵的作用。當(dāng)數(shù)據(jù)量極度增長時(shí),如果沒有有效的方法,由計(jì)算機(jī)及信息技術(shù)來幫助從中提取有用的信息和知識(shí),人類顯然就會(huì)感到像大海撈針一樣束手無策。據(jù)估計(jì),目前一個(gè)大型企業(yè)數(shù)據(jù)庫中數(shù)據(jù),約只有百分之七得到很好應(yīng)用。因此目前人類陷入了一個(gè)尷尬的境地,即“豐富
8、的數(shù)據(jù)”(datarich)而“貧乏的知識(shí)”(knowledgepoor)。1.1.2從數(shù)據(jù)到知識(shí)早在上個(gè)世紀(jì)八十年代,人