數(shù)據(jù)空間查詢索引分析

數(shù)據(jù)空間查詢索引分析

ID:32198969

大?。?14.00 KB

頁數(shù):32頁

時間:2019-02-01

數(shù)據(jù)空間查詢索引分析_第1頁
數(shù)據(jù)空間查詢索引分析_第2頁
數(shù)據(jù)空間查詢索引分析_第3頁
數(shù)據(jù)空間查詢索引分析_第4頁
數(shù)據(jù)空間查詢索引分析_第5頁
資源描述:

《數(shù)據(jù)空間查詢索引分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。

1、華僑大學碩士論文結(jié)果可能不是最精確的。1.1.2數(shù)據(jù)空間查詢索引技術(shù)雖然數(shù)據(jù)空間中數(shù)據(jù)的內(nèi)容林林總總各不相同,但我們可以從數(shù)據(jù)是否具有結(jié)構(gòu)這一角度將數(shù)據(jù)劃分為三類:文本文檔、圖像、音頻等非結(jié)構(gòu)化數(shù)據(jù),這類數(shù)據(jù)不具有內(nèi)在結(jié)構(gòu);第二類為嚴格遵照模式生成的結(jié)構(gòu)化數(shù)據(jù),以關(guān)系數(shù)據(jù)庫為代表,通過二維的關(guān)系表組織數(shù)據(jù),并通過主外鍵關(guān)系表達數(shù)據(jù)間的關(guān)聯(lián)。第三類是半結(jié)構(gòu)化數(shù)據(jù),它界于前兩種數(shù)據(jù)之間,具有一定的結(jié)構(gòu),但這種結(jié)構(gòu)具有不確定性,XML文檔就屬于這一類型的數(shù)據(jù)。針對這三種類型的數(shù)據(jù)所采用的查詢方法也不盡相同。目前主流的查詢技術(shù)主要有兩類,一是DBMS系統(tǒng)中的結(jié)構(gòu)化查詢

2、。結(jié)構(gòu)化查詢語言有其固定的語法,查詢必須在預先定義好的模式的基礎(chǔ)上進行,從而得出精確的查詢結(jié)果。另一類是信息檢索系統(tǒng)中常用的基于關(guān)鍵字的搜索,這一技術(shù)廣泛應(yīng)用于搜索引擎中。用戶無需知道具體的模式信息,只需通過輸入關(guān)鍵字既可找到相應(yīng)的數(shù)據(jù)片斷。但由于關(guān)鍵字查詢?nèi)狈ο鄳?yīng)的語義信息,其查詢能力和效率都很低。這兩種查詢方式,都不能很好地滿足數(shù)據(jù)的查詢需求,我們需要將關(guān)鍵字搜索和結(jié)構(gòu)化查詢結(jié)合起來,支持更加復雜靈活的查詢需求。1.2論文研究內(nèi)容1.2.1論文的主要工作傳統(tǒng)的數(shù)據(jù)管理系統(tǒng),每一種系統(tǒng)管理一種類型的數(shù)據(jù),而不同類型的數(shù)據(jù)有各自不同的管理及查詢方式。例如數(shù)據(jù)庫

3、中的結(jié)構(gòu)化數(shù)據(jù),因其具有對數(shù)據(jù)管理人員來說是至關(guān)重要的明確的模式信息,使得數(shù)據(jù)管理人員可以根據(jù)這些模式信息對數(shù)據(jù)進行管理。用戶在查詢時,通過結(jié)構(gòu)化查詢語言指定查詢屬性信息,便可得到精確的查詢結(jié)果。但其對以全文檢索方式進行的關(guān)鍵字查詢不能提供良好的支持。與結(jié)構(gòu)化數(shù)據(jù)不同,半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的模式信息是不明確的或根本不存在,他們的存儲管理也是靈活多變的,對這些數(shù)據(jù)的查詢,也因缺乏相關(guān)的模式信息,更偏向于模糊查詢,既返回的查詢結(jié)果并不是精確的,多采用關(guān)鍵字查詢方式,這樣的查詢結(jié)果,存在很大的數(shù)據(jù)冗余。在數(shù)據(jù)空間領(lǐng)域,我們所要管理的數(shù)據(jù)更加復雜,這些數(shù)據(jù)來自不

4、同的數(shù)據(jù)源,數(shù)據(jù)類型也各不相同,既有結(jié)構(gòu)化數(shù)據(jù)也有半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),,如何對這些異質(zhì)的數(shù)據(jù)進行統(tǒng)一的管理成為數(shù)據(jù)空間研究的一大難點。在數(shù)據(jù)空間管理系統(tǒng)中,我們采用基于刻面的數(shù)據(jù)模型,通過對各個數(shù)據(jù)源不同刻面信息2華僑大學碩士論文的描述實現(xiàn)對數(shù)據(jù)源的管理并為用戶提供更好的服務(wù)。本文的研究重點:對數(shù)據(jù)空間中來自不同數(shù)據(jù)源的異構(gòu)數(shù)據(jù)建立統(tǒng)一的索引模型,創(chuàng)建一套新的索引機制,以支持對數(shù)據(jù)空間的查詢搜索,即所建立的索引能將關(guān)鍵字查詢與結(jié)構(gòu)化查詢進行有機的結(jié)合,返回更具語義信息的結(jié)果。1.2.2國內(nèi)外相關(guān)研究非結(jié)構(gòu)化數(shù)據(jù)的關(guān)鍵字檢索信息檢索系統(tǒng)就是幫助用戶查找到特

5、定信息的一種工具。為了達到這一目的,信息檢索系統(tǒng)需要能夠?qū)π畔⑦M行正確的表示、存儲和組織,同時還要提供對于信息的訪問方式。信息檢索技術(shù)實現(xiàn)了對非結(jié)構(gòu)化數(shù)據(jù)的檢索.它首先確定了系統(tǒng)的檢索模型并在這一模型基礎(chǔ)上對文檔進行了查詢和定義,給出查詢的相似度計算公式,最后通過用戶界面返回給用戶。在信息檢索系統(tǒng)中常用的模型包括布爾模型,向量模型和概率模型等。為了提高查詢效率,搜索引擎研究領(lǐng)域給出了一個經(jīng)典的排序算法――PageRank.該算法一種基于被稱為隨機沖浪模型的用戶行為模型:假設(shè)有一個隨機的網(wǎng)絡(luò)沖浪者,他從任意給定的一個網(wǎng)頁開始,持續(xù)點擊鏈接,直至最終厭倦并開始訪問

6、另一個隨機頁面,系統(tǒng)將為每個頁面都有一個特定的權(quán)值,頁面PageRank值的計算公式為:假設(shè)頁面Tl,Tn都有超鏈接指向頁面A。其中PR(A)表示頁面A的PageRank值;參數(shù)d是一個衰減因子,根據(jù)不同情況可以設(shè)定d在0到1之間,通常設(shè)定為0.85。C(T)表示頁面T指向其他頁面的鏈接個數(shù)。半結(jié)構(gòu)化數(shù)據(jù)關(guān)鍵字查詢以XML為代表的半結(jié)構(gòu)化數(shù)據(jù)是介于非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)之間,雖然有一定的模式信息,但這一模式是松散且不確定的。從信息檢索的角度來說,僅僅找出用戶想要的信息是不夠的,而應(yīng)該返回給用戶具有最少無關(guān)信息的適當粒度的結(jié)果。以XML文檔查詢?yōu)槔?,我們通常?/p>

7、其轉(zhuǎn)化為樹模型,通過模式匹配的方法進行查詢,返回元素級的查詢結(jié)果。這一查詢結(jié)果是包含了所有查詢關(guān)鍵字的文檔片斷,它以由這些包含關(guān)鍵字的元素為葉節(jié)點,這些元素的最小公共祖先點為根,通過元素之間的子孫后代之間的關(guān)系連接起來構(gòu)成文檔樹。代表性系統(tǒng)有XRANK、XKeyword、XSEarch和XKSearch。XRANK3華僑大學碩士論文XRANK綜合考慮了沿邊的正向傳播、反向傳播以及元素間引用的影響,借鑒PageRank算法的思想提出了用于計算元素重要性的EIemRank算法。在XRANK系統(tǒng)中的DII算法通過歸并各關(guān)鍵字對應(yīng)的倒排索引列表找出包含全部關(guān)鍵字的元素

8、。通常當關(guān)鍵字的倒排索引列表很長時,輸

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。