數(shù)據(jù)空間查詢索引分析

ID：32198969

大?。?14.00 KB

頁數(shù)：32頁

時間：2019-02-01

資源描述：

《數(shù)據(jù)空間查詢索引分析》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。

1、華僑大學碩士論文結(jié)果可能不是最精確的。1.1.2數(shù)據(jù)空間查詢索引技術(shù)雖然數(shù)據(jù)空間中數(shù)據(jù)的內(nèi)容林林總總各不相同，但我們可以從數(shù)據(jù)是否具有結(jié)構(gòu)這一角度將數(shù)據(jù)劃分為三類：文本文檔、圖像、音頻等非結(jié)構(gòu)化數(shù)據(jù)，這類數(shù)據(jù)不具有內(nèi)在結(jié)構(gòu)；第二類為嚴格遵照模式生成的結(jié)構(gòu)化數(shù)據(jù)，以關(guān)系數(shù)據(jù)庫為代表，通過二維的關(guān)系表組織數(shù)據(jù)，并通過主外鍵關(guān)系表達數(shù)據(jù)間的關(guān)聯(lián)。第三類是半結(jié)構(gòu)化數(shù)據(jù)，它界于前兩種數(shù)據(jù)之間，具有一定的結(jié)構(gòu)，但這種結(jié)構(gòu)具有不確定性，XML文檔就屬于這一類型的數(shù)據(jù)。針對這三種類型的數(shù)據(jù)所采用的查詢方法也不盡相同。目前主流的查詢技術(shù)主要有兩類，一是DBMS系統(tǒng)中的結(jié)構(gòu)化查詢

2、。結(jié)構(gòu)化查詢語言有其固定的語法，查詢必須在預先定義好的模式的基礎(chǔ)上進行，從而得出精確的查詢結(jié)果。另一類是信息檢索系統(tǒng)中常用的基于關(guān)鍵字的搜索，這一技術(shù)廣泛應(yīng)用于搜索引擎中。用戶無需知道具體的模式信息，只需通過輸入關(guān)鍵字既可找到相應(yīng)的數(shù)據(jù)片斷。但由于關(guān)鍵字查詢?nèi)狈ο鄳?yīng)的語義信息，其查詢能力和效率都很低。這兩種查詢方式，都不能很好地滿足數(shù)據(jù)的查詢需求，我們需要將關(guān)鍵字搜索和結(jié)構(gòu)化查詢結(jié)合起來，支持更加復雜靈活的查詢需求。1.2論文研究內(nèi)容1.2.1論文的主要工作傳統(tǒng)的數(shù)據(jù)管理系統(tǒng)，每一種系統(tǒng)管理一種類型的數(shù)據(jù)，而不同類型的數(shù)據(jù)有各自不同的管理及查詢方式。例如數(shù)據(jù)庫

3、中的結(jié)構(gòu)化數(shù)據(jù)，因其具有對數(shù)據(jù)管理人員來說是至關(guān)重要的明確的模式信息,使得數(shù)據(jù)管理人員可以根據(jù)這些模式信息對數(shù)據(jù)進行管理。用戶在查詢時，通過結(jié)構(gòu)化查詢語言指定查詢屬性信息，便可得到精確的查詢結(jié)果。但其對以全文檢索方式進行的關(guān)鍵字查詢不能提供良好的支持。與結(jié)構(gòu)化數(shù)據(jù)不同，半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的模式信息是不明確的或根本不存在，他們的存儲管理也是靈活多變的，對這些數(shù)據(jù)的查詢，也因缺乏相關(guān)的模式信息，更偏向于模糊查詢，既返回的查詢結(jié)果并不是精確的，多采用關(guān)鍵字查詢方式，這樣的查詢結(jié)果，存在很大的數(shù)據(jù)冗余。在數(shù)據(jù)空間領(lǐng)域，我們所要管理的數(shù)據(jù)更加復雜，這些數(shù)據(jù)來自不

4、同的數(shù)據(jù)源，數(shù)據(jù)類型也各不相同，既有結(jié)構(gòu)化數(shù)據(jù)也有半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),，如何對這些異質(zhì)的數(shù)據(jù)進行統(tǒng)一的管理成為數(shù)據(jù)空間研究的一大難點。在數(shù)據(jù)空間管理系統(tǒng)中，我們采用基于刻面的數(shù)據(jù)模型，通過對各個數(shù)據(jù)源不同刻面信息2華僑大學碩士論文的描述實現(xiàn)對數(shù)據(jù)源的管理并為用戶提供更好的服務(wù)。本文的研究重點：對數(shù)據(jù)空間中來自不同數(shù)據(jù)源的異構(gòu)數(shù)據(jù)建立統(tǒng)一的索引模型，創(chuàng)建一套新的索引機制，以支持對數(shù)據(jù)空間的查詢搜索，即所建立的索引能將關(guān)鍵字查詢與結(jié)構(gòu)化查詢進行有機的結(jié)合，返回更具語義信息的結(jié)果。1.2.2國內(nèi)外相關(guān)研究非結(jié)構(gòu)化數(shù)據(jù)的關(guān)鍵字檢索信息檢索系統(tǒng)就是幫助用戶查找到特

5、定信息的一種工具。為了達到這一目的，信息檢索系統(tǒng)需要能夠?qū)π畔⑦M行正確的表示、存儲和組織，同時還要提供對于信息的訪問方式。信息檢索技術(shù)實現(xiàn)了對非結(jié)構(gòu)化數(shù)據(jù)的檢索．它首先確定了系統(tǒng)的檢索模型并在這一模型基礎(chǔ)上對文檔進行了查詢和定義，給出查詢的相似度計算公式，最后通過用戶界面返回給用戶。在信息檢索系統(tǒng)中常用的模型包括布爾模型，向量模型和概率模型等。為了提高查詢效率，搜索引擎研究領(lǐng)域給出了一個經(jīng)典的排序算法――PageRank．該算法一種基于被稱為隨機沖浪模型的用戶行為模型：假設(shè)有一個隨機的網(wǎng)絡(luò)沖浪者，他從任意給定的一個網(wǎng)頁開始，持續(xù)點擊鏈接，直至最終厭倦并開始訪問

6、另一個隨機頁面，系統(tǒng)將為每個頁面都有一個特定的權(quán)值，頁面PageRank值的計算公式為:假設(shè)頁面Tl，Tn都有超鏈接指向頁面A。其中PR(A)表示頁面A的PageRank值;參數(shù)d是一個衰減因子，根據(jù)不同情況可以設(shè)定d在0到1之間，通常設(shè)定為0.85。C(T)表示頁面T指向其他頁面的鏈接個數(shù)。半結(jié)構(gòu)化數(shù)據(jù)關(guān)鍵字查詢以XML為代表的半結(jié)構(gòu)化數(shù)據(jù)是介于非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)之間，雖然有一定的模式信息，但這一模式是松散且不確定的。從信息檢索的角度來說，僅僅找出用戶想要的信息是不夠的，而應(yīng)該返回給用戶具有最少無關(guān)信息的適當粒度的結(jié)果。以XML文檔查詢?yōu)槔?，我們通常?/p>

7、其轉(zhuǎn)化為樹模型，通過模式匹配的方法進行查詢，返回元素級的查詢結(jié)果。這一查詢結(jié)果是包含了所有查詢關(guān)鍵字的文檔片斷，它以由這些包含關(guān)鍵字的元素為葉節(jié)點，這些元素的最小公共祖先點為根，通過元素之間的子孫后代之間的關(guān)系連接起來構(gòu)成文檔樹。代表性系統(tǒng)有XRANK、XKeyword、XSEarch和XKSearch。XRANK3華僑大學碩士論文XRANK綜合考慮了沿邊的正向傳播、反向傳播以及元素間引用的影響，借鑒PageRank算法的思想提出了用于計算元素重要性的EIemRank算法。在XRANK系統(tǒng)中的DII算法通過歸并各關(guān)鍵字對應(yīng)的倒排索引列表找出包含全部關(guān)鍵字的元素

8、。通常當關(guān)鍵字的倒排索引列表很長時，輸

當前文檔最多預覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 32



此文檔下載收益歸作者所有

當前文檔最多預覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學公式或PPT動畫的文件，查看預覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

數(shù)據(jù)空間查詢索引分析

數(shù)據(jù)空間查詢索引分析

相關(guān)文章

相關(guān)標簽