資源描述:
《基于數(shù)據(jù)挖掘技術(shù)的客戶流失分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、南京航空航天大學(xué)碩士學(xué)位論文基于數(shù)據(jù)挖掘技術(shù)的客戶流失分析姓名:楊凱申請學(xué)位級別:碩士專業(yè):計算機應(yīng)用技術(shù)指導(dǎo)教師:高航20040201南京航空航天大學(xué)碩士學(xué)位論文摘要數(shù)據(jù)挖掘是指從大型數(shù)據(jù)庫或者數(shù)據(jù)倉庫中提取具有潛在價值的知識或模式。本文以江蘇移動通信經(jīng)營分析系統(tǒng)作為背景.研究了數(shù)據(jù)挖掘技術(shù)在客戶流失分析主題中的應(yīng)用。作者以CRISP—DM作為數(shù)據(jù)挖掘過程的參考模型。在實施數(shù)據(jù)挖掘過程中,根據(jù)神經(jīng)網(wǎng)絡(luò)和決策樹方法各自固有的優(yōu)點,將神經(jīng)網(wǎng)絡(luò)運用于屬性的規(guī)約,而將決策樹用于產(chǎn)生規(guī)則模型。建立的模型無論在生成速度上,還是在預(yù)測的準(zhǔn)確性以及生成模型的易理解方面都得到了進一步的改進。最后
2、作者給出了模型的應(yīng)用實現(xiàn)。關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò),決策樹,數(shù)據(jù)挖掘,分類基于數(shù)據(jù)挖掘技術(shù)的客戶流失分析AbstractDataminingistheextractionofpatternsrepresentingvaluableknowledgeimplicitlystoredinlargedatabasesordatawarehouses.Thispaperintroduceshowthedataminingtechnologyapplyinthepredictionofcustomerchurn.TheauthortakesCRISP—DMasthereferencedmodelo
3、fthedataminingprocess.Intheexecutionprocessofdatamining,theauthorreducesthedimensionswiththemethodofneuralnetworklearningandproducerulesetswiththemethodofdecisiontreelearning.TheresultingmodeIiSimprovednotonlyonthespeedoftrainingbutalsoontheclassificationprecisionandintelligibility.Lastlythep
4、aperdiscusseshowtodevelopdataminingapplicationswiththemodelandgivestherealizationinarealproject.Keywords:Neuralnetwork,Decisiontree,Datamining,Classification南京航空航天人學(xué)碩士學(xué)位論文1.1研究背景第一章緒論隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多。例如:企業(yè)的信息化程度的提高,科學(xué)研究和政府部門中電子化事務(wù)處理技術(shù)的運用,以及數(shù)據(jù)收集工具和技術(shù)的多元化(從文本掃描到衛(wèi)星遙感)等等。除此之
5、外,互聯(lián)網(wǎng)的發(fā)展更是為我們帶來了海量的數(shù)據(jù)和信息。但存儲在各種數(shù)據(jù)媒介中的海量的數(shù)據(jù),在缺乏強有力的工具的情況下,已經(jīng)遠遠的超出了人的理解和概括的能力。為此,這種大量的原始數(shù)據(jù)和對功能強大的數(shù)據(jù)分析工具的需求共存的局面,被描述為“數(shù)據(jù)豐富,但信息貧乏”(datarichbutinformationpoor)。許多的數(shù)據(jù)庫也就成了“數(shù)據(jù)墳?zāi)埂?datatomb)。換句話說,這些數(shù)據(jù)很少被再訪問。激增的數(shù)據(jù)背后隱藏著許多重要的信息,擁有這些數(shù)據(jù)庫的決策者們,在做決策時不是基于數(shù)據(jù)庫中蘊含的大量信息,而是基于決策者的直覺。因為決策者缺乏從海量數(shù)據(jù)中提取有價值知識的工具。傳統(tǒng)的數(shù)據(jù)庫管理
6、系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入,查詢,統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢,缺乏發(fā)現(xiàn)數(shù)據(jù)背后隱藏的知識的手段。數(shù)據(jù)與信息之間的鴻溝要求有更強用力的數(shù)據(jù)分析工具,將數(shù)據(jù)墳?zāi)罐D(zhuǎn)換成知識“金塊”12“。在數(shù)據(jù)庫技術(shù)飛速發(fā)展的同時,人工智能領(lǐng)域的一個分支——機器學(xué)習(xí)的研究自50年代玎始以來也取得了很大進展。用數(shù)據(jù)庫管理系統(tǒng)來存儲數(shù)據(jù),用機器學(xué)習(xí)的方法來分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后的知Ji:}{,這兩者的結(jié)合促成了數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabases,簡記KDD)的產(chǎn)生。多數(shù)人認為數(shù)據(jù)挖掘(DM)是KDD過
7、程中的一個基本步驟,也是KDD的最重要環(huán)節(jié)12Ⅱ“J?,F(xiàn)在人們往往不加區(qū)分使用KDD和DM這兩個術(shù)語。數(shù)據(jù)挖掘是信息技術(shù)自然演化結(jié)果。信息技術(shù)的發(fā)展大致可以描述為如下的過程:初期的是簡單的數(shù)據(jù)收集和數(shù)據(jù)庫的構(gòu)造;后來發(fā)展到對數(shù)據(jù)的管理,這包括:數(shù)據(jù)存儲,檢索以及數(shù)據(jù)庫事務(wù)處理:再后來發(fā)展到對數(shù)據(jù)的分析和理解,這時候出現(xiàn)了數(shù)據(jù)倉庫技術(shù)和數(shù)據(jù)挖掘技術(shù)。早期的數(shù)據(jù)收集和數(shù)據(jù)庫的建造為數(shù)據(jù)存儲,檢索。和事務(wù)處理的技術(shù)的發(fā)展刨造了必要條件,隨著查詢,事務(wù)處理等成熟技術(shù)被頻繁的應(yīng)用在大量的數(shù)