基于圖結(jié)構(gòu)信息檢索算法的研究和實(shí)現(xiàn)

基于圖結(jié)構(gòu)信息檢索算法的研究和實(shí)現(xiàn)

ID:32347965

大?。?.33 MB

頁數(shù):77頁

時(shí)間:2019-02-03

基于圖結(jié)構(gòu)信息檢索算法的研究和實(shí)現(xiàn)_第1頁
基于圖結(jié)構(gòu)信息檢索算法的研究和實(shí)現(xiàn)_第2頁
基于圖結(jié)構(gòu)信息檢索算法的研究和實(shí)現(xiàn)_第3頁
基于圖結(jié)構(gòu)信息檢索算法的研究和實(shí)現(xiàn)_第4頁
基于圖結(jié)構(gòu)信息檢索算法的研究和實(shí)現(xiàn)_第5頁
資源描述:

《基于圖結(jié)構(gòu)信息檢索算法的研究和實(shí)現(xiàn)》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、摘要隨著計(jì)算機(jī)的出現(xiàn)與普及,尤其是上世紀(jì)90年代互聯(lián)網(wǎng)蓬勃興起之后,人們擺脫了信息貧乏的桎梏,進(jìn)入了一個(gè)信息極度豐富的社會,人們能從Intemet獲得數(shù)目驚人的信息。如何快捷準(zhǔn)確地獲取感興趣的信息,就成為人們關(guān)注的主要問題。信息檢索的目的在于提供滿足用戶要求的內(nèi)容,而傳統(tǒng)的文本信息檢索方法的基本思路為查詢式和預(yù)存的文本關(guān)鍵詞的自動匹配工作,兩者相符的文本被檢出。但是由于自然語言的模糊性和多義性,這種通過詞匯簡單匹配檢索出的結(jié)果并不是最優(yōu)的。隨著信息檢索技術(shù)的不斷發(fā)展,挖掘更加有效的信息對檢索的結(jié)果進(jìn)行優(yōu)化成為一個(gè)研究熱點(diǎn)。查詢擴(kuò)展和結(jié)果

2、重排就是兩種常用的利用附加信息進(jìn)行檢索結(jié)果優(yōu)化的方法。但傳統(tǒng)的查詢擴(kuò)展和結(jié)果重排方法都只是從與單個(gè)詞或單個(gè)文檔間的關(guān)系等來進(jìn)行附加信息的考慮,而沒有從概念或主題方面來進(jìn)行考慮。本文對基于圖結(jié)構(gòu)的信息檢索算法進(jìn)行了研究并實(shí)現(xiàn)了一個(gè)原型系統(tǒng)。Markov網(wǎng)絡(luò)是一種較好的表示知識關(guān)聯(lián)的圖形表示方法,可以從實(shí)例數(shù)據(jù)來訓(xùn)練獲得,并且它的無向性能更好地解釋信息檢索中知識之間的關(guān)系,具有強(qiáng)大的學(xué)習(xí)功能和推導(dǎo)能力。通過對文檔集的學(xué)習(xí),詞與詞之間相關(guān)性、文檔與文檔之間的相關(guān)性被提取出來,從而構(gòu)造出詞子空間Markov網(wǎng)絡(luò)及文檔子空間Markov網(wǎng)絡(luò),把從

3、Markov網(wǎng)絡(luò)中挖掘出來的文檔團(tuán)加入到檢索模型中。實(shí)驗(yàn)表明:我們的模型在很大程度上提高了檢索效率。此外,本文在文檔和特征的關(guān)系的二部圖基礎(chǔ)上,提出了基于協(xié)同聚類的兩階段文本聚類方法,實(shí)驗(yàn)結(jié)果表明,我們提出的算法對于文本聚類特征選擇及文本聚類結(jié)果都取得了不錯(cuò)的效果。本文的創(chuàng)新點(diǎn)在于:1.把從Markov網(wǎng)絡(luò)中提取出的文檔團(tuán)加入到檢索模型中。從文檔集中提取的文檔團(tuán)描述著一個(gè)共同的主題,通過提取出的文檔團(tuán),修正檢索過程中每篇文檔的檢索得分以實(shí)現(xiàn)文檔重排,通過實(shí)驗(yàn)驗(yàn)證和分析了基于團(tuán)模型的信息檢索模型的性能,并與一些常用的檢索模型算法及已有的M

4、arkov網(wǎng)絡(luò)信息檢索模型的性能做了比較。本文提出的模型表現(xiàn)比較優(yōu)異,在很大程度上提高了檢索效率。2.提出了基于協(xié)同聚類的兩階段文本聚類方法。該方法分別對文檔和特征進(jìn)行聚類從而得到特征與主題之間的語義關(guān)聯(lián)關(guān)系,然后利用此關(guān)系來相互調(diào)整彼此的聚類結(jié)果;聚類分兩階段進(jìn)行,第一階段對訓(xùn)練集進(jìn)行協(xié)同聚類,第二階段利用第一階段的聚類結(jié)果進(jìn)行有監(jiān)督的特征選擇,然后以所選特征對測試集進(jìn)行協(xié)同聚類。實(shí)驗(yàn)結(jié)果表明,利用特征與主題之間的語義關(guān)聯(lián)關(guān)系能有效地提高聚類性能。3.將本文提出的基于團(tuán)模型的文檔重排算法及基于協(xié)同聚類的兩階段文本聚類方法應(yīng)用于江西省科

5、技攻關(guān)項(xiàng)目(20062184):基于分層的個(gè)性化推薦系統(tǒng)的內(nèi)容推薦模塊中,使本文提出的算法在真實(shí)系統(tǒng)中得到應(yīng)用。關(guān)鍵詞:信息檢索、查詢擴(kuò)展、Markov網(wǎng)絡(luò)、文檔團(tuán)、文本聚類2ABSTRACTW油theappearanceandpopularizationofcomputer,especiallyafterthespringupofIntemetof1990s,peoplehasbreakawayfromtheshackleofInformationnecessity,enterintothetimeswimplentifulinfor

6、mationandpeoplecailachieveamountofinformationfromintemet.Howtogetexactinformationrapidlyandisbecomingaproblemneedbesolvedurgently.TheaimofinformationretrievaliSofferuserthesatisfyinganswer,thebasicthoughtsoftraditionaltextinformationretrievalistheautomaticmatchingofthequ

7、eryandthekeywordstoredpreviously,thenthemathedtextsarecheckedout.However,duetothepolysemiaandtheambiguityofnaturallanguage,theretrievalresultisinefficientbythemethodofterm—simple-match.Withthedevelopmentofinformationtec,miningthemoreefficientinformationtooptimizetheretri

8、evalresultbecomesareseaehhotspot.Queryexpansionanddocumentrerankingarethemethodsoftenusedtooptimizeretr

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。