數(shù)據(jù)挖掘與數(shù)據(jù)倉庫技術(shù)

數(shù)據(jù)挖掘與數(shù)據(jù)倉庫技術(shù)

ID:40641492

大小:27.68 KB

頁數(shù):4頁

時間:2019-08-05

數(shù)據(jù)挖掘與數(shù)據(jù)倉庫技術(shù)_第1頁
數(shù)據(jù)挖掘與數(shù)據(jù)倉庫技術(shù)_第2頁
數(shù)據(jù)挖掘與數(shù)據(jù)倉庫技術(shù)_第3頁
數(shù)據(jù)挖掘與數(shù)據(jù)倉庫技術(shù)_第4頁
資源描述:

《數(shù)據(jù)挖掘與數(shù)據(jù)倉庫技術(shù)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫

1、一、問答題:1.數(shù)據(jù)倉庫和數(shù)據(jù)庫有何不同?它們有哪些相似之處?答:區(qū)別:數(shù)據(jù)倉庫是面向主題的,集成的,不易更改且隨時間變化的數(shù)據(jù)集合,用來支持管理人員的決策,數(shù)據(jù)庫由一組內(nèi)部相關(guān)的數(shù)據(jù)和一組管理和存取數(shù)據(jù)的軟件程序組成,是面向操作型的數(shù)據(jù)庫,是組成數(shù)據(jù)倉庫的源數(shù)據(jù).它用表組織數(shù)據(jù),采用ER數(shù)據(jù)模型。它們都為數(shù)據(jù)挖掘提供了源數(shù)據(jù),都是數(shù)據(jù)的組合.2.什么是數(shù)據(jù)挖掘?請舉例。數(shù)據(jù)挖掘:是從大量數(shù)據(jù)中提取或"挖掘"知識,也就是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫中的數(shù)據(jù)挖掘有趣知識的過程.數(shù)據(jù)挖掘是可以從數(shù)據(jù)庫中提取有趣的知識規(guī)律或高層信息發(fā)現(xiàn)的知識,可以用于決策,過

2、程控制,信息管理,查詢處理.它不是一種從數(shù)據(jù)庫,統(tǒng)計學(xué)和機器學(xué)習(xí)發(fā)展的技術(shù)的簡單轉(zhuǎn)化,它涉及多學(xué)科技術(shù)的集成,包括數(shù)據(jù)庫技術(shù),統(tǒng)計學(xué),機器學(xué)習(xí),高性能計算模式識別,神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)可視化,信息檢索,圖象與信號處理和空間數(shù)據(jù)分析.隨著數(shù)據(jù)庫技術(shù)發(fā)展,數(shù)據(jù)的豐富帶來了對強有力的數(shù)據(jù)分析工具的需求,大量的數(shù)據(jù)被描述為"數(shù)據(jù)豐富,但信息貧乏",所以數(shù)據(jù)挖掘出來了.當把數(shù)據(jù)挖掘看作知識發(fā)現(xiàn)過程時,它涉及的步驟為:1)數(shù)據(jù)清理2)數(shù)據(jù)集成3)數(shù)據(jù)選擇4)數(shù)據(jù)變換5)數(shù)據(jù)挖掘6)模式評估7)知識表示3.試述對于多個異種信息源的集成,為什么許多公司寧愿使用更新驅(qū)動的方法,而不愿使

3、用查詢驅(qū)動的方法。因為對于多個異種信息源的集成,查詢驅(qū)動方法需要復(fù)雜的信息過濾和集成處理,并且與局部數(shù)據(jù)源上的處理競爭資源,是一種低效的方法,開銷很大。而更新驅(qū)動方法為集成的異種數(shù)據(jù)庫系統(tǒng)帶來了高性能,因為數(shù)據(jù)被處理和重新組織到一個語義一致的數(shù)據(jù)存儲中,進行查詢的同時并不影響局部數(shù)據(jù)源上進行的處理,另外,還支持復(fù)雜的多維查詢。當異種數(shù)據(jù)源上的數(shù)據(jù)格式一致或者轉(zhuǎn)換比較容易,并且所要求的查詢比較簡單,不需要復(fù)雜的多維查詢時,查詢驅(qū)動方法可能更受歡迎。4.在現(xiàn)實世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法。答:1)忽略元組2)人工填寫空缺值3

4、)使用一個全局常量填充空缺值4)使用屬性的平均值填充空缺值5)使用與給定元組屬同一類的所有樣本的平均值6)使用最可能的值填充空缺值。其中,方法3到6使數(shù)據(jù)傾斜,填入的值可能不正確。不過,方法6是最常用的方法5.對于類特征化,基于數(shù)據(jù)立方體的實現(xiàn)與諸如面向?qū)傩詺w納的關(guān)系實現(xiàn)之間的主要不同是什么?討論哪種方法最有效,在什么條件下最有效。數(shù)據(jù)立方體方法是基于數(shù)據(jù)倉庫的,面向預(yù)計算的,物化視圖的方法。它在OLAP或數(shù)據(jù)挖掘查詢提交處理之前,脫機計算聚集。面向?qū)傩詺w納是面向關(guān)系數(shù)據(jù)庫查詢的,基于概化的,聯(lián)機的數(shù)據(jù)分析處理技術(shù)。面向?qū)傩詺w納方法更有效,因為在面向?qū)傩詺w納之前

5、進行數(shù)據(jù)聚焦,根據(jù)數(shù)據(jù)挖掘提供的信息進行數(shù)據(jù)收集,選擇相關(guān)的數(shù)據(jù)集不僅使數(shù)據(jù)挖掘更有效,而且與整個數(shù)據(jù)庫挖掘相比,能產(chǎn)生更有意義的規(guī)則?! 《⑻羁疹}:  1.數(shù)據(jù)挖掘是一個多學(xué)科領(lǐng)域,這些學(xué)科包括:,數(shù)據(jù)庫系統(tǒng),統(tǒng)計學(xué),機器學(xué)習(xí),可視化和信息科學(xué)?! ?.數(shù)據(jù)挖掘的功能有概念/類描述,關(guān)聯(lián)分析,分類與預(yù)測,聚類分析,孤立點分析,演變分析。????3.數(shù)據(jù)挖掘的主要問題包括:挖掘方法和用戶交互問題,性能問題,數(shù)據(jù)庫類型的多樣性問題。????4.數(shù)據(jù)挖掘的性能問題包括:數(shù)據(jù)挖掘算法的有效性,算法的可伸縮性,并行、分布式、增量挖掘算法的研究?! ∪?、證明題: Apr

6、iori算法使用子集支持度性質(zhì)的先驗知識。1.證明頻繁集的所有非空子集必須也是頻繁的。證明:根據(jù)定義,如果項集不滿足最小支持度閾值min_sup,則不是頻繁的,即如果想添加到,則結(jié)果項集不可能不更頻繁出現(xiàn)。因此,也不是頻繁的,即矛盾。2.證明項集的任意非空子集的支持度至少和s的支持度一樣大。同理可證。  四、算法分析與擴展任意選擇《數(shù)據(jù)挖掘》書的第一章至第八章中一個算法進行分析與擴展,要求:1.描述該算法的思想,層次結(jié)構(gòu)。2.寫出比較易懂的算法流程圖或偽代碼3.如果讓你用程序來實現(xiàn)算法,你準備采用什么數(shù)據(jù)結(jié)構(gòu)實現(xiàn)(包括怎樣讀入和存放要處理的數(shù)據(jù)以及算法處理流程中

7、需要用到的數(shù)據(jù)結(jié)構(gòu)),并做具體說明。4.指出算法的不足之處,應(yīng)該從哪些方面增強算法的功能和性能。K-平均算法:算法描述:首先,隨機地選擇什對象,每個對象初始地代表了一個簇的平均值或中心。對剩余的每個對象,根據(jù)其與各個簇中心的距離,將它賦給最近的簇。然后重新計算每個簇的平均值。這個過程不斷重復(fù),直到準則函數(shù)收斂。通常,采用平方誤差準則,其定義如下:這里的E是數(shù)據(jù)庫中所有對象的平方誤差的總和,P是空間中的點,表示給定的數(shù)據(jù)對象,m;是簇C;的平均值k和m;都是多維的人這個準則試圖使生成的結(jié)果簇盡可能地緊湊和獨立。這個算法嘗試找出使平方誤差函數(shù)值最小的k個劃分。當結(jié)果

8、簇是密集的,而簇與簇之間

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。