資源描述:
《基于行為模式進(jìn)行網(wǎng)絡(luò)搜索信息過濾》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、基于行為模式進(jìn)行網(wǎng)絡(luò)搜索信息過濾對(duì)大量信息樣本進(jìn)行的統(tǒng)計(jì)、分析和計(jì)算,建立行為模式數(shù)學(xué)模型,利用這種具有極高行為特征的模型,對(duì)新的信息進(jìn)行分析判定?! ?.2數(shù)據(jù)挖掘 數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中挖掘出可能有潛在價(jià)值的信息的技術(shù)。這些信息是可能有潛在價(jià)值的,支持決策,可以為企業(yè)帶來利益,或者為科學(xué)研究尋找突破口。 對(duì)于垃圾信息行為模式進(jìn)行信息挖掘,主要是針對(duì)相關(guān)dash;主元分析,這種方法可以有效的找出數(shù)據(jù)中最主要的元素和結(jié)構(gòu),去除噪音和冗余,將原有的復(fù)雜數(shù)據(jù)降維,揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡(jiǎn)單結(jié)構(gòu)。
2、它的優(yōu)點(diǎn)是簡(jiǎn)單,而且無參數(shù)限制,可以方便的應(yīng)用與各個(gè)場(chǎng)合。利用主元分析技術(shù)對(duì)于垃圾信息的不同行為模式,利用應(yīng)用線形代數(shù)知識(shí)進(jìn)行科學(xué)求解,最大程度去掉冗余和干擾,找到垃圾信息的主要行為模式?! ?.4基于行為模式的垃圾過濾模型 通過行為模式識(shí)別技術(shù)對(duì)網(wǎng)絡(luò)搜索結(jié)果中的垃圾信息進(jìn)行過濾,其思想是對(duì)大量垃圾信息樣本進(jìn)行分析,建立垃圾信息行為特征模型,利用這個(gè)特征模型對(duì)搜索的結(jié)果信息進(jìn)行分析、判斷,過濾其中的垃圾信息。整個(gè)垃圾信息過濾模型,基于信息知識(shí)智能理論指導(dǎo),采用數(shù)據(jù)挖掘方法提取垃圾信息的行為規(guī)則,從而
3、建立垃圾信息過濾模型。信鼠表示事物狀態(tài)變化方式,知識(shí)表示事物狀態(tài)變化規(guī)律,智能表示根據(jù)已知事物變化規(guī)律指定對(duì)未知事物檢測(cè)的規(guī)則?! ≈悄苣P徒⒉襟E: 首先大量收集不同搜索結(jié)果中包含的垃圾信息;根據(jù)Inktomi對(duì)垃圾信息定義對(duì)搜索的信息進(jìn)行分類整理,并進(jìn)行垃圾信息預(yù)處理,通過數(shù)據(jù)格式和內(nèi)容調(diào)整使數(shù)據(jù)更符合數(shù)據(jù)挖掘的需要;根據(jù)數(shù)據(jù)挖掘算法對(duì)垃圾信息行為模式進(jìn)行挖掘;利用主元分析理論,對(duì)垃圾信息的行為特征進(jìn)行計(jì)算分析,找到數(shù)據(jù)中最主要的元素和結(jié)構(gòu);將垃圾信息的主要行為進(jìn)行知識(shí)表示;從生成的知識(shí)中生成求解問
4、題的策略和規(guī)則;利用生成的策略和規(guī)則建立垃圾信鼠過濾模型,從而解決所面對(duì)的實(shí)際問題。 建立模型需要解決的關(guān)鍵問題: 垃圾信息的收集是否全面,能否采集到準(zhǔn)確,真實(shí)的數(shù)據(jù)來是研究基礎(chǔ);垃圾信息中得到的數(shù)據(jù)適應(yīng)性,是否能對(duì)這一類垃圾信息真實(shí)全面反應(yīng);對(duì)垃圾信息的行為模式進(jìn)行數(shù)據(jù)挖掘時(shí)采用的算法;提取垃圾信息各種行為中的主要元素的方法;對(duì)垃圾信息的行為模式特征的分析,產(chǎn)生垃圾信息過濾的規(guī)則集?! ? 信息過濾系統(tǒng) 如圖1所示,為信息過濾系統(tǒng)結(jié)構(gòu)圖,在原有的網(wǎng)絡(luò)搜索引擎系統(tǒng)中,通過將文本索引中包含的索
5、引信息發(fā)送給過濾服務(wù)器,通過索引信息中鏈接查詢相關(guān)WEB,分析該WEB的行為特征,與垃圾信息行為特征庫(kù)中不同類型的垃圾信息的行為特征進(jìn)行比較,清理掉被判定為垃圾信息的搜索結(jié)果信息,將正常行為信息存入索引數(shù)據(jù)庫(kù)?! ∑渲?,過濾服務(wù)器需要完成4方面的工作,包括信息采樣、行為解析、特征比較、信息過濾。信息采樣:提取文本索引中的信息,包括鏈接,文本信息等信息。行為解析:對(duì)不同信息進(jìn)行分析,提取主要行為特征。特征比較:將不同.擎結(jié)構(gòu),相對(duì)獨(dú)立,易于升級(jí)維護(hù)。搜索結(jié)果相對(duì)公平:由于過濾系統(tǒng)相對(duì)獨(dú)立,可由第三方開發(fā)商設(shè)
6、計(jì)指定,避免網(wǎng)絡(luò)搜索提供商出于自身利益等考慮而為用戶提供的搜索結(jié)果。節(jié)省用戶信息搜索時(shí)間:由于垃圾信息減少,節(jié)省了用戶需要大量打開不同鏈接查詢信息的時(shí)間。先進(jìn)的過濾技術(shù):傳統(tǒng)采用內(nèi)容關(guān)鍵字過濾時(shí),由于某些網(wǎng)站隨意修改關(guān)鍵詞內(nèi)容,這樣原有的詞庫(kù)不能找到匹配的關(guān)鍵詞,從而無法過濾垃圾信息,而行為模式識(shí)別技術(shù)從垃圾信息的特征行為進(jìn)行判定,即使進(jìn)行了關(guān)鍵詞內(nèi)容修改仍可以判定垃圾信息?! ? 總結(jié) 搜索結(jié)果中的垃圾信息,對(duì)于用戶和搜索引擎自身都帶來了極大的負(fù)面影響,傳統(tǒng)的信息過濾技術(shù)已經(jīng)不能滿足對(duì)垃圾信息
7、的過濾,通過先進(jìn)的行為模式識(shí)別技術(shù)來設(shè)計(jì)過濾系統(tǒng),可以增加垃圾信息過濾的準(zhǔn)確性,提高搜索結(jié)果的正確性,從而滿足用戶對(duì)信息獲得的要求。