資源描述:
《韓家煒-數(shù)據(jù)挖掘:概念與技術(shù)-第2章ppt.pptx》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第二章了解你的數(shù)據(jù)2014.10目錄2.1數(shù)據(jù)對象和屬性類型2.2數(shù)據(jù)的基本統(tǒng)計描述2.3數(shù)據(jù)可視化2.4衡量數(shù)據(jù)相似性和相異性2.5總結(jié)2.1DataObjectsandAttributeTypes2.1.1WhatisanAttribute?2.1.2NominalAttributes2.1.3BinaryAttributes2.1.4OrdinalAttributes2.1.5NumericAttributes2.1.6DiscreteversusContinuousAttributes2.2BasicStatisticalDe
2、sciptionsofData2.3DataVisualization2.4MeasuringDataSimilarityandDissimilarity2.5Summary2.1數(shù)據(jù)對象和屬性類型數(shù)據(jù)集是由數(shù)據(jù)對象構(gòu)成的。一個數(shù)據(jù)對象表示一個實體——在銷售數(shù)據(jù)庫中,對象可以是顧客、商品或者銷售記錄。在醫(yī)學數(shù)據(jù)庫中,數(shù)據(jù)對象可以是病人。在大學數(shù)據(jù)庫中,數(shù)據(jù)對象可以是學生、教授和課程。數(shù)據(jù)對象用屬性來描述。數(shù)據(jù)對象可以是一個抽樣、舉例、實例、數(shù)據(jù)點或者對象。如果數(shù)據(jù)對象存放在數(shù)據(jù)庫中,它們是數(shù)據(jù)元組。即數(shù)據(jù)庫中行對應(yīng)數(shù)據(jù)對象,列對應(yīng)于屬
3、性。2.1.1什么是屬性?一個屬性是一個域,表示一個數(shù)據(jù)對象的一個特征?!皩傩浴?、“維度”、“特征”和“變量”這些詞在語義上是可交換的。“維度”通常被用在數(shù)據(jù)倉庫中,機器學習中傾向于使用“特征”;統(tǒng)計學傾向使用“變量”,數(shù)據(jù)挖掘和數(shù)據(jù)庫經(jīng)常使用“屬性”。屬性描述一個顧客對象,如:顧客ID,姓名,地址。對給定的屬性的可觀察值被稱為觀察??坍嬕粋€給定對象的屬性集合被稱為屬性向量(或特征向量)。包含單個屬性的數(shù)據(jù)分布被稱為單變量的分布;包含2個屬性的被稱為二變量的分布。屬性的類型是有屬性可取的值決定的,有名詞、二進制型、順序值或者數(shù)值類型。
4、2.1.2名詞屬性名詞屬性的值是事物的標號或者名稱。每一個值表示類別、編碼或者狀態(tài)。因此名詞屬性被稱為是分類。值沒有次序信息。在計算機領(lǐng)域,也可以稱為枚舉型。舉例如:發(fā)色和婚姻狀態(tài)。發(fā)色可以是黑色,棕色,紅色,灰色,白色。婚姻狀態(tài)可以是單身、已婚、離異或者喪偶。這些都是名詞屬性。盡管名詞屬性是標號或者名稱,但也可以是數(shù)值的表示形式。比如,發(fā)色,可以用0表示黑色,1表示棕色等。顧客ID可以是數(shù)字。但是,在這種情況,數(shù)字并不被當成數(shù)值來使用。因為名詞屬性不包含任何順序信息也非數(shù)值型,所以不用終止或者平均數(shù)去衡量這類屬性??梢允褂脤傩宰疃喑?/p>
5、現(xiàn)的值,“眾數(shù)”來做中心性測量。2.1.2二進制屬性二進制屬性是只有兩個類別或狀態(tài):0和1.0一般表示屬性缺失,1表示存在。二進制屬性也即bool型,兩個狀態(tài)表示真和假。舉例。如,病人對象的吸煙屬性,1表示吸煙,0表示不吸煙。再比如,病人的某個醫(yī)學檢查結(jié)果有兩種情況。1表示結(jié)果為陽性,0表示為陰性。如果二進制屬性的兩個狀態(tài)是同等有價值的具有相同的權(quán)重,則為對稱的。2個屬性被標為1或者0都可以,比如性別屬性的兩個值男和女。如果兩個狀態(tài)不是同等重要的,則為非對稱的。比如HIV檢查的結(jié)果呈陰性和陽性。通常,用1表示更重要的通常是更稀少的結(jié)果
6、,其他的用0表示。2.1.4次序?qū)傩源涡驅(qū)傩跃哂写涡蚧蛘呒墑e的意義。但是相鄰值的級別未知。舉例:例如飲料尺寸,可以是“小杯”,“中杯”,“大杯”。值有順序的意義,但是不能分辨中杯比大杯大多少。再比如,成績等級A+,A,A-,B+職稱:助理,副教授,教授次序?qū)傩员挥脕砗饬繜o法客觀衡量的屬性,用主觀的評估定質(zhì)量。在調(diào)查中常用來排序。比如,參與者作為顧客,他們的滿意度可以是:0:非常不滿意,1有點不滿意,2中立3滿意4很滿意把數(shù)值數(shù)據(jù)離散化,把它們按照值的范圍分類,也可以得到次序?qū)傩缘臄?shù)據(jù)。次序?qū)傩缘闹行男钥梢杂帽姅?shù)和中值來衡量,但是不能計
7、算平均數(shù)。名詞屬性、二進制屬性和次序?qū)傩远际嵌ㄐ缘摹K鼈冊诿枋鲆粋€對象的特征時不給出具體的尺寸和數(shù)量。值通常是一個詞表示類別,即使以整數(shù)的方式表現(xiàn),也不是表示數(shù)量。2.1.5數(shù)值型屬性數(shù)值型屬性是定量的,是可測量的數(shù)值,為整數(shù)或?qū)崝?shù)。分為間隔尺度和比例尺度。間隔尺度屬性間隔尺度使用同等大小的單元來衡量。間隔尺度屬性有大小,可以是正,0或者負值。除了能對屬性值排序,還可以比較和衡量不同值的差值大小。舉例:溫度屬性是間隔尺度。20攝氏度高于15攝氏度。日歷也是間隔尺度,以及年份。Celsius和Fahrenhet是兩個溫度,沒有絕對0點,
8、并且我們能計算溫度的差值,但是不能說一個值是另一個值的多少倍,例如10攝氏度比5攝氏度溫暖2倍。間隔尺度是數(shù)值型的,可以計算平均值,中值和眾數(shù)。比例尺度比例尺度屬性是數(shù)值型的,有固定的0值。如果一個測量是比例尺度,則可以