基于行為模式進(jìn)行網(wǎng)絡(luò)搜索信息過濾

基于行為模式進(jìn)行網(wǎng)絡(luò)搜索信息過濾

ID:27107751

大小:50.00 KB

頁(yè)數(shù):4頁(yè)

時(shí)間:2018-12-01

基于行為模式進(jìn)行網(wǎng)絡(luò)搜索信息過濾_第1頁(yè)
基于行為模式進(jìn)行網(wǎng)絡(luò)搜索信息過濾_第2頁(yè)
基于行為模式進(jìn)行網(wǎng)絡(luò)搜索信息過濾_第3頁(yè)
基于行為模式進(jìn)行網(wǎng)絡(luò)搜索信息過濾_第4頁(yè)
資源描述:

《基于行為模式進(jìn)行網(wǎng)絡(luò)搜索信息過濾》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)

1、基于行為模式進(jìn)行網(wǎng)絡(luò)搜索信息過濾對(duì)大量信息樣本進(jìn)行的統(tǒng)計(jì)、分析和計(jì)算,建立行為模式數(shù)學(xué)模型,利用這種具有極高行為特征的模型,對(duì)新的信息進(jìn)行分析判定?!   ?.2數(shù)據(jù)挖掘  數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中挖掘出可能有潛在價(jià)值的信息的技術(shù)。這些信息是可能有潛在價(jià)值的,支持決策,可以為企業(yè)帶來利益,或者為科學(xué)研究尋找突破口。  對(duì)于垃圾信息行為模式進(jìn)行信息挖掘,主要是針對(duì)相關(guān)dash;主元分析,這種方法可以有效的找出數(shù)據(jù)中最主要的元素和結(jié)構(gòu),去除噪音和冗余,將原有的復(fù)雜數(shù)據(jù)降維,揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡(jiǎn)單結(jié)構(gòu)。

2、它的優(yōu)點(diǎn)是簡(jiǎn)單,而且無參數(shù)限制,可以方便的應(yīng)用與各個(gè)場(chǎng)合。利用主元分析技術(shù)對(duì)于垃圾信息的不同行為模式,利用應(yīng)用線形代數(shù)知識(shí)進(jìn)行科學(xué)求解,最大程度去掉冗余和干擾,找到垃圾信息的主要行為模式?!   ?.4基于行為模式的垃圾過濾模型  通過行為模式識(shí)別技術(shù)對(duì)網(wǎng)絡(luò)搜索結(jié)果中的垃圾信息進(jìn)行過濾,其思想是對(duì)大量垃圾信息樣本進(jìn)行分析,建立垃圾信息行為特征模型,利用這個(gè)特征模型對(duì)搜索的結(jié)果信息進(jìn)行分析、判斷,過濾其中的垃圾信息。整個(gè)垃圾信息過濾模型,基于信息知識(shí)智能理論指導(dǎo),采用數(shù)據(jù)挖掘方法提取垃圾信息的行為規(guī)則,從而

3、建立垃圾信息過濾模型。信鼠表示事物狀態(tài)變化方式,知識(shí)表示事物狀態(tài)變化規(guī)律,智能表示根據(jù)已知事物變化規(guī)律指定對(duì)未知事物檢測(cè)的規(guī)則?! ≈悄苣P徒⒉襟E:  首先大量收集不同搜索結(jié)果中包含的垃圾信息;根據(jù)Inktomi對(duì)垃圾信息定義對(duì)搜索的信息進(jìn)行分類整理,并進(jìn)行垃圾信息預(yù)處理,通過數(shù)據(jù)格式和內(nèi)容調(diào)整使數(shù)據(jù)更符合數(shù)據(jù)挖掘的需要;根據(jù)數(shù)據(jù)挖掘算法對(duì)垃圾信息行為模式進(jìn)行挖掘;利用主元分析理論,對(duì)垃圾信息的行為特征進(jìn)行計(jì)算分析,找到數(shù)據(jù)中最主要的元素和結(jié)構(gòu);將垃圾信息的主要行為進(jìn)行知識(shí)表示;從生成的知識(shí)中生成求解問

4、題的策略和規(guī)則;利用生成的策略和規(guī)則建立垃圾信鼠過濾模型,從而解決所面對(duì)的實(shí)際問題。  建立模型需要解決的關(guān)鍵問題:  垃圾信息的收集是否全面,能否采集到準(zhǔn)確,真實(shí)的數(shù)據(jù)來是研究基礎(chǔ);垃圾信息中得到的數(shù)據(jù)適應(yīng)性,是否能對(duì)這一類垃圾信息真實(shí)全面反應(yīng);對(duì)垃圾信息的行為模式進(jìn)行數(shù)據(jù)挖掘時(shí)采用的算法;提取垃圾信息各種行為中的主要元素的方法;對(duì)垃圾信息的行為模式特征的分析,產(chǎn)生垃圾信息過濾的規(guī)則集?!   ? 信息過濾系統(tǒng)    如圖1所示,為信息過濾系統(tǒng)結(jié)構(gòu)圖,在原有的網(wǎng)絡(luò)搜索引擎系統(tǒng)中,通過將文本索引中包含的索

5、引信息發(fā)送給過濾服務(wù)器,通過索引信息中鏈接查詢相關(guān)WEB,分析該WEB的行為特征,與垃圾信息行為特征庫(kù)中不同類型的垃圾信息的行為特征進(jìn)行比較,清理掉被判定為垃圾信息的搜索結(jié)果信息,將正常行為信息存入索引數(shù)據(jù)庫(kù)?! ∑渲?,過濾服務(wù)器需要完成4方面的工作,包括信息采樣、行為解析、特征比較、信息過濾。信息采樣:提取文本索引中的信息,包括鏈接,文本信息等信息。行為解析:對(duì)不同信息進(jìn)行分析,提取主要行為特征。特征比較:將不同.擎結(jié)構(gòu),相對(duì)獨(dú)立,易于升級(jí)維護(hù)。搜索結(jié)果相對(duì)公平:由于過濾系統(tǒng)相對(duì)獨(dú)立,可由第三方開發(fā)商設(shè)

6、計(jì)指定,避免網(wǎng)絡(luò)搜索提供商出于自身利益等考慮而為用戶提供的搜索結(jié)果。節(jié)省用戶信息搜索時(shí)間:由于垃圾信息減少,節(jié)省了用戶需要大量打開不同鏈接查詢信息的時(shí)間。先進(jìn)的過濾技術(shù):傳統(tǒng)采用內(nèi)容關(guān)鍵字過濾時(shí),由于某些網(wǎng)站隨意修改關(guān)鍵詞內(nèi)容,這樣原有的詞庫(kù)不能找到匹配的關(guān)鍵詞,從而無法過濾垃圾信息,而行為模式識(shí)別技術(shù)從垃圾信息的特征行為進(jìn)行判定,即使進(jìn)行了關(guān)鍵詞內(nèi)容修改仍可以判定垃圾信息?!   ? 總結(jié)    搜索結(jié)果中的垃圾信息,對(duì)于用戶和搜索引擎自身都帶來了極大的負(fù)面影響,傳統(tǒng)的信息過濾技術(shù)已經(jīng)不能滿足對(duì)垃圾信息

7、的過濾,通過先進(jìn)的行為模式識(shí)別技術(shù)來設(shè)計(jì)過濾系統(tǒng),可以增加垃圾信息過濾的準(zhǔn)確性,提高搜索結(jié)果的正確性,從而滿足用戶對(duì)信息獲得的要求。

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。