基于圖結(jié)構(gòu)信息檢索算法的研究和實(shí)現(xiàn)

ID：32347965

大?。?.33 MB

頁數(shù)：77頁

時(shí)間：2019-02-03

基于圖結(jié)構(gòu)信息檢索算法的研究和實(shí)現(xiàn)_第1頁

基于圖結(jié)構(gòu)信息檢索算法的研究和實(shí)現(xiàn)_第2頁

基于圖結(jié)構(gòu)信息檢索算法的研究和實(shí)現(xiàn)_第3頁

基于圖結(jié)構(gòu)信息檢索算法的研究和實(shí)現(xiàn)_第4頁

基于圖結(jié)構(gòu)信息檢索算法的研究和實(shí)現(xiàn)_第5頁

資源描述：

《基于圖結(jié)構(gòu)信息檢索算法的研究和實(shí)現(xiàn)》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、摘要隨著計(jì)算機(jī)的出現(xiàn)與普及，尤其是上世紀(jì)90年代互聯(lián)網(wǎng)蓬勃興起之后，人們擺脫了信息貧乏的桎梏，進(jìn)入了一個(gè)信息極度豐富的社會，人們能從Intemet獲得數(shù)目驚人的信息。如何快捷準(zhǔn)確地獲取感興趣的信息，就成為人們關(guān)注的主要問題。信息檢索的目的在于提供滿足用戶要求的內(nèi)容，而傳統(tǒng)的文本信息檢索方法的基本思路為查詢式和預(yù)存的文本關(guān)鍵詞的自動匹配工作，兩者相符的文本被檢出。但是由于自然語言的模糊性和多義性，這種通過詞匯簡單匹配檢索出的結(jié)果并不是最優(yōu)的。隨著信息檢索技術(shù)的不斷發(fā)展，挖掘更加有效的信息對檢索的結(jié)果進(jìn)行優(yōu)化成為一個(gè)研究熱點(diǎn)。查詢擴(kuò)展和結(jié)果

2、重排就是兩種常用的利用附加信息進(jìn)行檢索結(jié)果優(yōu)化的方法。但傳統(tǒng)的查詢擴(kuò)展和結(jié)果重排方法都只是從與單個(gè)詞或單個(gè)文檔間的關(guān)系等來進(jìn)行附加信息的考慮，而沒有從概念或主題方面來進(jìn)行考慮。本文對基于圖結(jié)構(gòu)的信息檢索算法進(jìn)行了研究并實(shí)現(xiàn)了一個(gè)原型系統(tǒng)。Markov網(wǎng)絡(luò)是一種較好的表示知識關(guān)聯(lián)的圖形表示方法，可以從實(shí)例數(shù)據(jù)來訓(xùn)練獲得，并且它的無向性能更好地解釋信息檢索中知識之間的關(guān)系，具有強(qiáng)大的學(xué)習(xí)功能和推導(dǎo)能力。通過對文檔集的學(xué)習(xí)，詞與詞之間相關(guān)性、文檔與文檔之間的相關(guān)性被提取出來，從而構(gòu)造出詞子空間Markov網(wǎng)絡(luò)及文檔子空間Markov網(wǎng)絡(luò)，把從

3、Markov網(wǎng)絡(luò)中挖掘出來的文檔團(tuán)加入到檢索模型中。實(shí)驗(yàn)表明：我們的模型在很大程度上提高了檢索效率。此外，本文在文檔和特征的關(guān)系的二部圖基礎(chǔ)上，提出了基于協(xié)同聚類的兩階段文本聚類方法，實(shí)驗(yàn)結(jié)果表明，我們提出的算法對于文本聚類特征選擇及文本聚類結(jié)果都取得了不錯(cuò)的效果。本文的創(chuàng)新點(diǎn)在于：1．把從Markov網(wǎng)絡(luò)中提取出的文檔團(tuán)加入到檢索模型中。從文檔集中提取的文檔團(tuán)描述著一個(gè)共同的主題，通過提取出的文檔團(tuán)，修正檢索過程中每篇文檔的檢索得分以實(shí)現(xiàn)文檔重排，通過實(shí)驗(yàn)驗(yàn)證和分析了基于團(tuán)模型的信息檢索模型的性能，并與一些常用的檢索模型算法及已有的M

4、arkov網(wǎng)絡(luò)信息檢索模型的性能做了比較。本文提出的模型表現(xiàn)比較優(yōu)異，在很大程度上提高了檢索效率。2．提出了基于協(xié)同聚類的兩階段文本聚類方法。該方法分別對文檔和特征進(jìn)行聚類從而得到特征與主題之間的語義關(guān)聯(lián)關(guān)系，然后利用此關(guān)系來相互調(diào)整彼此的聚類結(jié)果；聚類分兩階段進(jìn)行，第一階段對訓(xùn)練集進(jìn)行協(xié)同聚類，第二階段利用第一階段的聚類結(jié)果進(jìn)行有監(jiān)督的特征選擇，然后以所選特征對測試集進(jìn)行協(xié)同聚類。實(shí)驗(yàn)結(jié)果表明，利用特征與主題之間的語義關(guān)聯(lián)關(guān)系能有效地提高聚類性能。3．將本文提出的基于團(tuán)模型的文檔重排算法及基于協(xié)同聚類的兩階段文本聚類方法應(yīng)用于江西省科

5、技攻關(guān)項(xiàng)目(20062184)：基于分層的個(gè)性化推薦系統(tǒng)的內(nèi)容推薦模塊中，使本文提出的算法在真實(shí)系統(tǒng)中得到應(yīng)用。關(guān)鍵詞：信息檢索、查詢擴(kuò)展、Markov網(wǎng)絡(luò)、文檔團(tuán)、文本聚類2ABSTRACTW油theappearanceandpopularizationofcomputer,especiallyafterthespringupofIntemetof1990s，peoplehasbreakawayfromtheshackleofInformationnecessity,enterintothetimeswimplentifulinfor

6、mationandpeoplecailachieveamountofinformationfromintemet．Howtogetexactinformationrapidlyandisbecomingaproblemneedbesolvedurgently．TheaimofinformationretrievaliSofferuserthesatisfyinganswer,thebasicthoughtsoftraditionaltextinformationretrievalistheautomaticmatchingofthequ

7、eryandthekeywordstoredpreviously,thenthemathedtextsarecheckedout．However，duetothepolysemiaandtheambiguityofnaturallanguage，theretrievalresultisinefficientbythemethodofterm—simple-match．Withthedevelopmentofinformationtec，miningthemoreefficientinformationtooptimizetheretri

8、evalresultbecomesareseaehhotspot．Queryexpansionanddocumentrerankingarethemethodsoftenusedtooptimizeretr

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 77



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

基于圖結(jié)構(gòu)信息檢索算法的研究和實(shí)現(xiàn)

基于圖結(jié)構(gòu)信息檢索算法的研究和實(shí)現(xiàn)

相關(guān)文章

相關(guān)標(biāo)簽