資料結(jié)構(gòu)性之研究

資料結(jié)構(gòu)性之研究

ID:44320689

大?。?1.00 KB

頁(yè)數(shù):3頁(yè)

時(shí)間:2019-10-20

資料結(jié)構(gòu)性之研究_第1頁(yè)
資料結(jié)構(gòu)性之研究_第2頁(yè)
資料結(jié)構(gòu)性之研究_第3頁(yè)
資源描述:

《資料結(jié)構(gòu)性之研究》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。

1、資料結(jié)構(gòu)性之硏究?問(wèn)題的說(shuō)明與定義資料結(jié)構(gòu)性的硏究可視爲(wèi)資料順序性硏究的延伸,在處理的資料的性質(zhì)上,順序性硏究所要挖掘的資料具有序列的結(jié)構(gòu),也就是記錄與記錄之間可以以序列的結(jié)構(gòu)加以組織之,而在所欲求得的樣式上,順序性硏究希望發(fā)掘可以反映這類(lèi)資料的特性的循序樣式,當(dāng)我們將順序性硏究的範(fàn)圍加以擴(kuò)大-不再將組織資料的結(jié)構(gòu)限定於單純的序列時(shí),使可算是資料結(jié)構(gòu)性硏究的範(fàn)圍,也因爲(wèi)結(jié)構(gòu)性硏究所要處理的資料,其記錄間所形成的結(jié)構(gòu)已不限於字列,所以本類(lèi)硏究所要挖掘的樣式更爲(wèi)多樣化,所需要的挖掘成本與挖掘的困難度都將會(huì)較循序

2、樣式的挖掘來(lái)的高。在許多情況下,交易資料庫(kù)中的記錄與記錄間是具有某些關(guān)係的,例如人口普查資料庫(kù)中,人與人之間會(huì)因爲(wèi)血緣、地域、社交等各種因素而互相牽連,我們可以根據(jù)這些關(guān)係將各筆記錄組織起來(lái)形成具有複雜結(jié)構(gòu)的資料,而結(jié)構(gòu)性硏究的目的就是要從這種呈現(xiàn)複雜結(jié)構(gòu)的資料中,挖掘常見(jiàn)的次結(jié)構(gòu);如果我們更廣意的解釋結(jié)構(gòu)性硏究的範(fàn)圍,而不將組成樣式的最小單位限制於有良好定義、格式的交易資料庫(kù)記錄,則凡是資料的本身具有結(jié)構(gòu)的特性(如由網(wǎng)頁(yè)構(gòu)成的WWW分散式資料提供環(huán)境、由染色體構(gòu)成的基因等),或資料之間具有關(guān)聯(lián)(如呈現(xiàn)樹(shù)狀

3、的階層式文件集合、具有地理相關(guān)性的氣象資料等),我們都可以硏究存在於這些資料之中的子結(jié)構(gòu)-也就是探勘存在於結(jié)構(gòu)化資料中的結(jié)構(gòu)樣式(StructuralPattern,或拓?fù)錁邮?,TopologicalPattern[1]),藉由結(jié)構(gòu)樣式,我們可以對(duì)資料的特性進(jìn)行更有效的分析或?qū)ΜF(xiàn)象進(jìn)行更準(zhǔn)確的預(yù)測(cè)。?現(xiàn)有應(yīng)用與硏究結(jié)構(gòu)化硏究的應(yīng)用並沒(méi)有一個(gè)很明確的範(fàn)圍限制,只要語(yǔ)意上符合在結(jié)構(gòu)化的資料中探勘結(jié)構(gòu)樣式者,就可以算是本類(lèi)硏究的應(yīng)用,結(jié)構(gòu)化的硏究可以從兩個(gè)方向來(lái)討論,一種是一般化結(jié)構(gòu)樣式的(通用)探勘方法的硏究,

4、如[1、5、6],—種是於特殊(結(jié)構(gòu)的)資料上進(jìn)行探勘的硏究'如[2、3、4、7]。在通用型的探勘方法硏究中,[1]先從結(jié)構(gòu)化資料中抽取一部份的樣本,並從中尋找結(jié)構(gòu)樣式,然後再用全部的資料去評(píng)估樣式的優(yōu)劣。[5]是要從一群半結(jié)構(gòu)化物件(semistructuredobjecQ中進(jìn)行結(jié)構(gòu)樣式的探勘,本文所指的半結(jié)構(gòu)化物件每個(gè)都是一個(gè)圖型結(jié)構(gòu),而所謂的半結(jié)構(gòu)指得是每個(gè)物件的圖型結(jié)構(gòu)並沒(méi)有一定的輪廓(schema),探勘的目地就是從這些圖型結(jié)構(gòu)中找出發(fā)生次數(shù)超出使用者限定的最小値的子結(jié)構(gòu)(結(jié)構(gòu)樣式)。[6]提出一

5、個(gè)在具有圖型結(jié)構(gòu)的資料庫(kù)上進(jìn)行結(jié)構(gòu)樣式探勘的系統(tǒng),在這個(gè)系統(tǒng)中,結(jié)構(gòu)樣式就是整個(gè)圖型結(jié)構(gòu)資料中共同的子結(jié)構(gòu),而樣式的評(píng)估是依據(jù)其能「壓縮」原有圖型結(jié)構(gòu)資料的程度。而在特殊結(jié)構(gòu)的探勘硏究中,[2]將每個(gè)使用者於存取日誌中留下的記錄轉(zhuǎn)換成較不會(huì)失去資訊的樹(shù)狀結(jié)構(gòu),然後在這些樹(shù)狀結(jié)構(gòu)中,挖掘常出現(xiàn)的子結(jié)構(gòu)(tree-liketopologypattern)以了解使用者的尋訪(fǎng)模式。[3洗從相關(guān)的網(wǎng)頁(yè)資料中萃取出代表有用的資訊、但型式並不一定的半結(jié)構(gòu)資料,然後再對(duì)這些半結(jié)構(gòu)資料進(jìn)行探勘以了解網(wǎng)站的資訊結(jié)構(gòu)並幫助資訊的

6、擷取。[4]是要從多個(gè)關(guān)聯(lián)表格中探勘關(guān)聯(lián)樣式(relationalpattern),這些關(guān)聯(lián)表格彼此的參考關(guān)係必需形成一個(gè)單一路徑的樹(shù),同時(shí)因爲(wèi)這樣的參考關(guān)係,這些表格中的記錄會(huì)組成多個(gè)樹(shù)狀結(jié)構(gòu),而所要探勘的關(guān)聯(lián)樣式就是常出現(xiàn)於這些樹(shù)狀結(jié)構(gòu)中的子結(jié)構(gòu)。[7]雖然並非尋找結(jié)構(gòu)樣式,但其內(nèi)容爲(wèi)結(jié)構(gòu)樣式的應(yīng)用,該篇論文試圖以圖型結(jié)構(gòu)表現(xiàn)軟體的原始碼與資料,和使用者所設(shè)定的模組內(nèi)部的限制和模組間的限制,然後使用Apriori演算法去進(jìn)行圖型之間的結(jié)構(gòu)樣式的比對(duì),以期在模組內(nèi)高內(nèi)聚、模組間低耦合的原則下還原軟體的架構(gòu)

7、。在上述的硏究中,[3、5]會(huì)因爲(wèi)所處理的結(jié)構(gòu)化資料在結(jié)構(gòu)上會(huì)有不一致,或是所得的結(jié)構(gòu)樣式本身會(huì)包括了多種不同的拓?fù)浣Y(jié)構(gòu),而用「半結(jié)構(gòu)化(semi-structured)j來(lái)說(shuō)明其硏究的對(duì)象,然而在此我們一律從廣意的結(jié)構(gòu)化來(lái)看待之,不過(guò)必需了解的是,因爲(wèi)半結(jié)構(gòu)化會(huì)有結(jié)構(gòu)不規(guī)則的性質(zhì),因此無(wú)論在探勘方法或探勘的效率都比較容易面臨挑戰(zhàn)。?硏究展望與議題從上段的文獻(xiàn)上可以發(fā)現(xiàn)目前資料結(jié)構(gòu)性的硏究尙處?kù)栋l(fā)展的初期,相較於資料探勘的其他領(lǐng)域,非序列性之結(jié)構(gòu)性硏究的相關(guān)著作與探討都是較爲(wèi)少量的;在一般化的結(jié)構(gòu)探勘方法硏

8、究上,也可以發(fā)現(xiàn)應(yīng)用於大量資料上時(shí),會(huì)有效率的問(wèn)題,而在特殊結(jié)構(gòu)資料的探勘上,目前的硏究相較於結(jié)構(gòu)資料的多樣化則可以提醒我們還有很多發(fā)揮的空間,因此探勘方法效率的改良,和結(jié)構(gòu)性硏究的多樣化應(yīng)用(如生物資訊等)都是未來(lái)値得努力的方向;另外由於結(jié)構(gòu)的多樣化,所得到的樣式通常會(huì)比其他領(lǐng)域來(lái)的大量,因此樣式有趣性的衡量以及探勘系統(tǒng)的客制化也都是尙待努力的議題。?參考文獻(xiàn)[1]Wang,J.T-L.,Chirn,G.W.,

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。