《布爾檢索模型》PPT課件

ID：41179522

大?。?.32 MB

頁數(shù)：17頁

時(shí)間：2019-08-18

資源描述：

《《布爾檢索模型》PPT課件》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、布爾檢索模型XXXX布爾檢索模型概述布爾檢索法是指利用布爾運(yùn)算符連接各個(gè)檢索詞，然后由計(jì)算機(jī)進(jìn)行邏輯運(yùn)算，找出所需信息的一種檢索方法。設(shè)文本集D中某一文本i,則該文本可表示為:其中為標(biāo)引詞用來反映文本i的內(nèi)容設(shè)另一用戶檢索表達(dá)式為對(duì)于該檢索式，系統(tǒng)響應(yīng)并輸出的一組文本應(yīng)為:它們都含有標(biāo)引詞和或者含有標(biāo)引詞和。布爾運(yùn)算符AND（或*）：邏輯與表示所連接兩個(gè)檢索詞的交集部分。例如檢索同時(shí)含有關(guān)鍵詞A和B的集合C：AANDBOR（或+）:邏輯或表示查找含有檢索詞A和B之一，或同時(shí)包含檢索詞A和B的信息:AORBNOT（或-）:

2、邏輯非表示含有檢索詞A并且不含有檢索詞B的信息：ANOTB布爾運(yùn)算符運(yùn)算符之間的優(yōu)先級(jí)：NOT>AND>OR，如檢索表達(dá)式：雪花NOT啤酒AND歌曲OR小說，搜索結(jié)果為：名字叫《雪花》的歌曲或者小說。利用小括號(hào)（）可以設(shè)置出個(gè)性化的檢索方程。例如檢索出不包含日本在內(nèi)的有關(guān)教育或法律方面的信息：（universityORcollege）AND（educationORLaw）NOTJapan布爾模型在網(wǎng)頁查重中的應(yīng)用網(wǎng)頁中的重復(fù)現(xiàn)象微軟曾作過一個(gè)試驗(yàn)，從網(wǎng)絡(luò)中下載了150000000個(gè)網(wǎng)頁，發(fā)現(xiàn)這些網(wǎng)頁中有29．2％是相似網(wǎng)

3、頁，而且這些相似網(wǎng)頁中還有22．2％是完全重復(fù)的(一字不差)；另外相似網(wǎng)頁十分穩(wěn)定地存在，一對(duì)相似的網(wǎng)頁在1O個(gè)星期以后極有可能還是相似的網(wǎng)頁。網(wǎng)頁重復(fù)的弊端重復(fù)的網(wǎng)頁降低了網(wǎng)頁采集器的工作效率，浪費(fèi)了數(shù)據(jù)挖掘工具的資源，使用戶的工作效率下降，如何能夠盡可能準(zhǔn)確地去除這些重復(fù)的網(wǎng)頁就是我們所面臨的問題。布爾模型在網(wǎng)頁查重中的應(yīng)用※關(guān)于重復(fù)的定義一直以來，對(duì)于重復(fù)的定義都非常模糊，沒有一個(gè)清晰的定義。一字不差可以理解為重復(fù)，字面上意義相近也可以理解為重復(fù)。對(duì)于重復(fù)各人都有自己的定義?！鵆onrad對(duì)于重復(fù)的定義是：如果兩篇

4、文章之間有超過80％的用詞相同，而且長度相差不超過正負(fù)20％，則這兩篇文章就是重復(fù)的。※Pugh(workforGoogle)對(duì)于重復(fù)的定義就要簡單得多：如果兩篇文章之間有超過r個(gè)特征相同，則它們就是相似的。布爾模型在網(wǎng)頁查重中的應(yīng)用在利用布爾模型的查重算法中，對(duì)于重復(fù)的定義就是使用Pugh對(duì)重復(fù)的定義。該算法是利用布爾模型進(jìn)行查重，將每篇文章表示為一個(gè)二進(jìn)制數(shù)，若是符合比較條件的兩篇文章，則將兩個(gè)二進(jìn)制數(shù)異或，結(jié)果中為1的特征則是兩篇文章不同的特征，計(jì)算出兩篇文章中的不同特征個(gè)數(shù)后，再判斷是否需要它們比較。當(dāng)語料集合較

5、大時(shí)，文檔之間兩兩比較的次數(shù)就相當(dāng)巨大，這是所有網(wǎng)頁查重算法的瓶頸。在使用布爾模型的網(wǎng)頁查重算法中，兩篇文檔之間是否需要比較取決于它們的相同特征個(gè)數(shù)而不是文檔長度，當(dāng)特征的總個(gè)數(shù)差別在閾值d之內(nèi)的時(shí)候，就異或其二進(jìn)制碼；否則不需要比較，直接判定它們不同。在得到二進(jìn)制碼異或的結(jié)果（0或1）之后，在讀取文檔的過程中建立一個(gè)索引。(表1)網(wǎng)頁重復(fù)的判定過程:布爾模型在網(wǎng)頁查重中的應(yīng)用▲其中id代表特征的唯一表示，Doic表示出現(xiàn)了該特征的文檔的唯一標(biāo)識(shí)符。當(dāng)兩篇文檔相互比較而相異結(jié)果為1時(shí)，就將它們分別插入它們之間不同的特征鏈

6、表中；否則，插入相同特征鏈表中。▲當(dāng)再有新的文檔需要比較時(shí)，根據(jù)該文檔中出現(xiàn)的特征，選擇應(yīng)該與它相同的集合，以減少比較次數(shù)。布爾模型在網(wǎng)頁查重中的應(yīng)用id1Doic1Doic2Doic4Doic6…id2Doic2Doic5Doic7Doic9…id3Doic1Doic4Doic5Doic6…id4Doic5Doic6Doic7Doic8…………………表一索引數(shù)據(jù)結(jié)構(gòu)使用這種算法的優(yōu)點(diǎn)：由于一些詞在所有文檔中都大量出現(xiàn)，這些詞將不會(huì)作為文檔的特征值，可以忽略大量常用停用詞的影響，如in，and，the等，這樣讀取文檔時(shí)就

7、不需要特別過濾常用詞，節(jié)約了處理文檔和提取特征的時(shí)間。特征值的比較結(jié)果只有1和0兩種狀態(tài)，節(jié)約資源，易于實(shí)現(xiàn)。布爾模型在網(wǎng)頁查重中的應(yīng)用當(dāng)兩篇文檔需要比較時(shí)，最好的情況就是所有的特征均不同，結(jié)果為0，此時(shí)的相異度就為1。當(dāng)有k（比如設(shè)k為0.2）以上特征不同時(shí)，則判定兩篇文檔為非相似文檔；如有0.2以下的特征不同，則需要計(jì)算這些不同特征總的頻度(Tf)。表2為文檔D1和D2相異度的計(jì)算實(shí)例。相異度的計(jì)算:布爾模型在網(wǎng)頁查重中的應(yīng)用?T表示文檔中出現(xiàn)的特征，D表示特征t是否在文檔Doic中出現(xiàn)過(0表示沒有出現(xiàn)，1表示出現(xiàn)

8、了，這就是布爾模型)，Tf表示特征t在文檔中的出現(xiàn)頻率，Result表示兩篇文檔之間D的異或結(jié)果：Result=D1D2。D1D2Tf1Tf2resultT101021T211130T310201T411570T511620表二D1和D2相異度的計(jì)算對(duì)于兩篇文檔i和j，假設(shè)它們符合比較的條件，則它們的相異度計(jì)算公式為

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 17



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

《布爾檢索模型》PPT課件

《布爾檢索模型》PPT課件

相關(guān)文章

相關(guān)標(biāo)簽