數(shù)據(jù)挖掘與數(shù)據(jù)倉庫技術(shù)

ID：40641492

大小：27.68 KB

頁數(shù)：4頁

時間：2019-08-05

資源描述：

《數(shù)據(jù)挖掘與數(shù)據(jù)倉庫技術(shù)》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、一、問答題：1．數(shù)據(jù)倉庫和數(shù)據(jù)庫有何不同？它們有哪些相似之處？答：區(qū)別：數(shù)據(jù)倉庫是面向主題的,集成的,不易更改且隨時間變化的數(shù)據(jù)集合,用來支持管理人員的決策,數(shù)據(jù)庫由一組內(nèi)部相關(guān)的數(shù)據(jù)和一組管理和存取數(shù)據(jù)的軟件程序組成,是面向操作型的數(shù)據(jù)庫,是組成數(shù)據(jù)倉庫的源數(shù)據(jù).它用表組織數(shù)據(jù)，采用ER數(shù)據(jù)模型。它們都為數(shù)據(jù)挖掘提供了源數(shù)據(jù),都是數(shù)據(jù)的組合.2．什么是數(shù)據(jù)挖掘？請舉例。數(shù)據(jù)挖掘:是從大量數(shù)據(jù)中提取或"挖掘"知識,也就是從存放在數(shù)據(jù)庫,數(shù)據(jù)倉庫或其他信息庫中的數(shù)據(jù)挖掘有趣知識的過程.數(shù)據(jù)挖掘是可以從數(shù)據(jù)庫中提取有趣的知識規(guī)律或高層信息發(fā)現(xiàn)的知識,可以用于決策,過

2、程控制,信息管理,查詢處理.它不是一種從數(shù)據(jù)庫,統(tǒng)計學(xué)和機器學(xué)習(xí)發(fā)展的技術(shù)的簡單轉(zhuǎn)化,它涉及多學(xué)科技術(shù)的集成,包括數(shù)據(jù)庫技術(shù),統(tǒng)計學(xué),機器學(xué)習(xí),高性能計算模式識別,神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)可視化,信息檢索,圖象與信號處理和空間數(shù)據(jù)分析.隨著數(shù)據(jù)庫技術(shù)發(fā)展,數(shù)據(jù)的豐富帶來了對強有力的數(shù)據(jù)分析工具的需求,大量的數(shù)據(jù)被描述為"數(shù)據(jù)豐富,但信息貧乏",所以數(shù)據(jù)挖掘出來了.當把數(shù)據(jù)挖掘看作知識發(fā)現(xiàn)過程時,它涉及的步驟為:1)數(shù)據(jù)清理2)數(shù)據(jù)集成3)數(shù)據(jù)選擇4)數(shù)據(jù)變換5)數(shù)據(jù)挖掘6)模式評估7)知識表示3．試述對于多個異種信息源的集成，為什么許多公司寧愿使用更新驅(qū)動的方法，而不愿使

3、用查詢驅(qū)動的方法。因為對于多個異種信息源的集成，查詢驅(qū)動方法需要復(fù)雜的信息過濾和集成處理，并且與局部數(shù)據(jù)源上的處理競爭資源，是一種低效的方法，開銷很大。而更新驅(qū)動方法為集成的異種數(shù)據(jù)庫系統(tǒng)帶來了高性能，因為數(shù)據(jù)被處理和重新組織到一個語義一致的數(shù)據(jù)存儲中，進行查詢的同時并不影響局部數(shù)據(jù)源上進行的處理，另外，還支持復(fù)雜的多維查詢。當異種數(shù)據(jù)源上的數(shù)據(jù)格式一致或者轉(zhuǎn)換比較容易，并且所要求的查詢比較簡單，不需要復(fù)雜的多維查詢時，查詢驅(qū)動方法可能更受歡迎。4．在現(xiàn)實世界的數(shù)據(jù)中，元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法。答：1）忽略元組2）人工填寫空缺值3

4、）使用一個全局常量填充空缺值4）使用屬性的平均值填充空缺值5）使用與給定元組屬同一類的所有樣本的平均值6）使用最可能的值填充空缺值。其中，方法3到6使數(shù)據(jù)傾斜，填入的值可能不正確。不過，方法6是最常用的方法5．對于類特征化，基于數(shù)據(jù)立方體的實現(xiàn)與諸如面向?qū)傩詺w納的關(guān)系實現(xiàn)之間的主要不同是什么？討論哪種方法最有效，在什么條件下最有效。數(shù)據(jù)立方體方法是基于數(shù)據(jù)倉庫的，面向預(yù)計算的，物化視圖的方法。它在OLAP或數(shù)據(jù)挖掘查詢提交處理之前，脫機計算聚集。面向?qū)傩詺w納是面向關(guān)系數(shù)據(jù)庫查詢的，基于概化的，聯(lián)機的數(shù)據(jù)分析處理技術(shù)。面向?qū)傩詺w納方法更有效，因為在面向?qū)傩詺w納之前

5、進行數(shù)據(jù)聚焦，根據(jù)數(shù)據(jù)挖掘提供的信息進行數(shù)據(jù)收集，選擇相關(guān)的數(shù)據(jù)集不僅使數(shù)據(jù)挖掘更有效，而且與整個數(shù)據(jù)庫挖掘相比，能產(chǎn)生更有意義的規(guī)則?！　《⑻羁疹}：　　1.數(shù)據(jù)挖掘是一個多學(xué)科領(lǐng)域，這些學(xué)科包括：,數(shù)據(jù)庫系統(tǒng)，統(tǒng)計學(xué)，機器學(xué)習(xí)，可視化和信息科學(xué)?！　?.數(shù)據(jù)挖掘的功能有概念/類描述，關(guān)聯(lián)分析，分類與預(yù)測，聚類分析，孤立點分析，演變分析。????3.數(shù)據(jù)挖掘的主要問題包括：挖掘方法和用戶交互問題，性能問題，數(shù)據(jù)庫類型的多樣性問題。????4.數(shù)據(jù)挖掘的性能問題包括：數(shù)據(jù)挖掘算法的有效性，算法的可伸縮性，并行、分布式、增量挖掘算法的研究?！　∪?、證明題：　Apr

6、iori算法使用子集支持度性質(zhì)的先驗知識。1．證明頻繁集的所有非空子集必須也是頻繁的。證明：根據(jù)定義，如果項集不滿足最小支持度閾值min_sup，則不是頻繁的，即如果想添加到，則結(jié)果項集不可能不更頻繁出現(xiàn)。因此，也不是頻繁的，即矛盾。2．證明項集的任意非空子集的支持度至少和s的支持度一樣大。同理可證。　　四、算法分析與擴展任意選擇《數(shù)據(jù)挖掘》書的第一章至第八章中一個算法進行分析與擴展，要求：1.描述該算法的思想，層次結(jié)構(gòu)。2.寫出比較易懂的算法流程圖或偽代碼3.如果讓你用程序來實現(xiàn)算法，你準備采用什么數(shù)據(jù)結(jié)構(gòu)實現(xiàn)（包括怎樣讀入和存放要處理的數(shù)據(jù)以及算法處理流程中

7、需要用到的數(shù)據(jù)結(jié)構(gòu)）,并做具體說明。4.指出算法的不足之處，應(yīng)該從哪些方面增強算法的功能和性能。K-平均算法：算法描述：首先，隨機地選擇什對象，每個對象初始地代表了一個簇的平均值或中心。對剩余的每個對象，根據(jù)其與各個簇中心的距離，將它賦給最近的簇。然后重新計算每個簇的平均值。這個過程不斷重復(fù)，直到準則函數(shù)收斂。通常，采用平方誤差準則，其定義如下：這里的E是數(shù)據(jù)庫中所有對象的平方誤差的總和，P是空間中的點，表示給定的數(shù)據(jù)對象，m；是簇C；的平均值k和m；都是多維的人這個準則試圖使生成的結(jié)果簇盡可能地緊湊和獨立。這個算法嘗試找出使平方誤差函數(shù)值最小的k個劃分。當結(jié)果

8、簇是密集的，而簇與簇之間

當前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 / 4



此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

數(shù)據(jù)挖掘與數(shù)據(jù)倉庫技術(shù)

數(shù)據(jù)挖掘與數(shù)據(jù)倉庫技術(shù)

相關(guān)文章

相關(guān)標簽