基于相關(guān)查詢的搜索引擎查詢自動(dòng)分類研究

基于相關(guān)查詢的搜索引擎查詢自動(dòng)分類研究

ID:39402649

大?。?38.50 KB

頁(yè)數(shù):6頁(yè)

時(shí)間:2019-07-02

基于相關(guān)查詢的搜索引擎查詢自動(dòng)分類研究_第1頁(yè)
基于相關(guān)查詢的搜索引擎查詢自動(dòng)分類研究_第2頁(yè)
基于相關(guān)查詢的搜索引擎查詢自動(dòng)分類研究_第3頁(yè)
基于相關(guān)查詢的搜索引擎查詢自動(dòng)分類研究_第4頁(yè)
基于相關(guān)查詢的搜索引擎查詢自動(dòng)分類研究_第5頁(yè)
資源描述:

《基于相關(guān)查詢的搜索引擎查詢自動(dòng)分類研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、基于相關(guān)查詢的搜索引擎查詢自動(dòng)分類研究周二翠(安徽大學(xué)管理學(xué)院合肥230039)寇廣增(農(nóng)業(yè)部農(nóng)村合作經(jīng)濟(jì)經(jīng)營(yíng)管理總站北京100026)夏晨曦(北京市科學(xué)技術(shù)情報(bào)研究所北京10004)[摘要]如何準(zhǔn)確理解用戶提交的查詢成為搜索引擎面臨的一個(gè)難題,對(duì)查詢進(jìn)行自動(dòng)分類是嘗試解決問題的一種方法。我們提出基于相關(guān)查詢對(duì)查詢進(jìn)行自動(dòng)分類的方法。首先介紹此方法的設(shè)計(jì)思路和流程,同時(shí)對(duì)關(guān)鍵處理步驟進(jìn)行說(shuō)明,然后選擇“百度風(fēng)云榜”的數(shù)據(jù)作為測(cè)試集進(jìn)行測(cè)試驗(yàn)證,查準(zhǔn)率可達(dá)到71.74%,最后分析和總結(jié)方法不足之處以及下一步研究計(jì)劃。[關(guān)鍵詞]查詢;相關(guān)查詢;自動(dòng)分類;搜索引擎;

2、[分類號(hào)]TP391AutomaticClassificationofWebQueriesUsingRelatedQueriesZhouEr’cui(ManagementSchool,AnhuiUniversity,Hefei230039,China)KouGuangzeng(CentralStationofAdministrationonRuralCooperativeEconomy,MinistryofAgriculture,Beijing100026,China)XiaChenxi(BeijingScienceandTechnologyInformati

3、onInstitute,Beijing100048,China)[Abstract]Accurateunderstandingofuserquerieshasbecomingthebottleneckinwebsearchsystems.Automaticclassificationofwebqueriesisamethodforthisproblem.Wetrytouserelatedqueriestoclassifywebqueries.Wefirstgivethedesignideaandprocessesofthismethod,andthenintr

4、oducethekeysteps.Intestsection,weselect“BaiduFengYunBang”astestdatasetsandtheprecisioncanreach71.74%.Finallydiscusssomeshortcomingsandthefurtherstudyforthiswork.[Keywords]webqueries;relatedqueries;automaticclassification;searchengine;1引言搜索引擎已經(jīng)成為人們獲取信息的基礎(chǔ)應(yīng)用,中國(guó)網(wǎng)民的使用率高達(dá)68.0%[1]。然而如何準(zhǔn)確理

5、解用戶提交的查詢(Query)成為搜索引擎面臨的一個(gè)難題[2],尤其是中文搜索引擎。根據(jù)數(shù)據(jù)分析,中文用戶提交的中文查詢平均長(zhǎng)度為1.85個(gè)詞[3],少于英文搜索引擎的英文平均查詢長(zhǎng)度(2.35)[4],這表明中文搜索引擎需要對(duì)查詢進(jìn)行更細(xì)致的分析。對(duì)查詢進(jìn)行自動(dòng)分類是嘗試解決此問題的一種方法,它有助于提高搜索引擎的準(zhǔn)確率和用戶體驗(yàn),而且可以促進(jìn)定向廣告投放、競(jìng)價(jià)排名等商業(yè)應(yīng)用的發(fā)展。國(guó)內(nèi)外對(duì)于查詢自動(dòng)分類有很多嘗試,主要從兩個(gè)方面展開:分類體系和分類方法。Border認(rèn)為查詢?nèi)蝿?wù)決定了查詢需求,并最終反映到查詢上,那么查詢?nèi)蝿?wù)可以分為三類:導(dǎo)航類、信息類和事

6、務(wù)類[5]。當(dāng)用戶的查詢目標(biāo)明確,比如通過(guò)查詢“搜狐”希望檢索出“搜狐網(wǎng)”的網(wǎng)站地址,此類行為稱為導(dǎo)航類。當(dāng)用戶沒有明確的目標(biāo),只是希望了解相關(guān)信息,比如檢索“姚明受傷”,則稱為信息類。而事務(wù)類是用戶希望查找解決某個(gè)問題的相關(guān)信息,比如軟件下載、計(jì)算機(jī)殺毒。Rose等將此分類體系進(jìn)一步細(xì)化,將信息類和事務(wù)類劃分成多個(gè)子類別[6]。Liu等在分析大規(guī)模搜索引擎日志時(shí),則將信息類和事務(wù)類搜索合并,從而達(dá)到更高的準(zhǔn)確率[7]。同時(shí),根據(jù)內(nèi)容也可以對(duì)查詢進(jìn)行自動(dòng)分類,比如KDDCUP2005預(yù)定義了67個(gè)類別,Shen等基于同義詞和統(tǒng)計(jì)關(guān)系構(gòu)建分類器,將查詢映射到這些

7、類別中[8]。在類別預(yù)先定義的情況下,可以利用規(guī)則過(guò)濾、機(jī)器學(xué)習(xí)等方法,根據(jù)鏈接關(guān)系、查詢與鏈接的映射關(guān)系等進(jìn)行分類映射。在類別不明確的情況下,可以通過(guò)對(duì)檢索結(jié)果聚類達(dá)到分類目的。Beeferman等將查詢和URL看作圖的節(jié)點(diǎn),為查詢和URL之間建立雙向圖,如果某個(gè)查詢對(duì)應(yīng)點(diǎn)擊了某個(gè)URL,則為這兩個(gè)節(jié)點(diǎn)增加一條無(wú)向邊,根據(jù)節(jié)點(diǎn)的相似性,采用遞歸算法依次對(duì)查詢和URL節(jié)點(diǎn)分別合并[9]。還有通過(guò)搜索引擎日志數(shù)據(jù)挖掘?qū)Σ樵冞M(jìn)行自動(dòng)分類,比如Fonseca等采用關(guān)聯(lián)規(guī)則算法[10]。相關(guān)查詢是搜索引擎為了提高服務(wù)質(zhì)量和用戶體驗(yàn),把枯燥繁瑣的查詢過(guò)程變得更為快捷,提

8、出“查詢建議(Query/TermSu

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。