資源描述:
《一種基于層次思想的搜索日志聚類算法》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、萬方數(shù)據(jù)中圖分類號:UDC:學(xué)校代碼:10055密級:公開高蕊犬淫碩士專業(yè)學(xué)位論文一種基于層次思想的搜索日志聚類算法ASearchLogClusteringAlgorithmBasedontheIdeaofHierarchy南開大學(xué)研究生院二。一四年五月萬方數(shù)據(jù)南開大學(xué)學(xué)位論文使用授權(quán)書根據(jù)《南開大學(xué)關(guān)于研究生學(xué)位論文收藏和利用管理辦法》,我校的博士、碩士學(xué)位獲得者均須向南開大學(xué)提交本人的學(xué)位論文紙質(zhì)本及相應(yīng)電子版。本人完全了解南開大學(xué)有關(guān)研究生學(xué)位論文收藏和利用的管理規(guī)定。南開大學(xué)擁有在《著作權(quán)法》規(guī)定范圍內(nèi)的學(xué)位論文使用權(quán)
2、,即:(1)學(xué)位獲得者必須按規(guī)定提交學(xué)位論文(包括紙質(zhì)印刷本及電子版),學(xué)??梢圆捎糜坝?、縮印或其他復(fù)制手段保存研究生學(xué)位論文,并編入《南開大學(xué)博碩士學(xué)位論文全文數(shù)據(jù)庫》;(2)為教學(xué)和科研目的,學(xué)??梢詫⒐_的學(xué)位論文作為資料在圖書館等場所提供校內(nèi)師生閱讀,在校園網(wǎng)上提供論文目錄檢索、文摘以及論文全文瀏覽、下載等免費信息服務(wù);(3)根據(jù)教育部有關(guān)規(guī)定,南開大學(xué)向教育部指定單位提交公開的學(xué)位論文;(4)學(xué)位論文作者授權(quán)學(xué)校向中國科技信息研究所及其萬方數(shù)據(jù)電子出版社和中國學(xué)術(shù)期刊(光盤)電子出版社提交規(guī)定范圍的學(xué)位論文及其電子版
3、并收入相應(yīng)學(xué)位論文數(shù)據(jù)庫,通過其相關(guān)網(wǎng)站對外進行信息服務(wù)。同時本人保留在其他媒體發(fā)表論文的權(quán)利。非公開學(xué)位論文,保密期限內(nèi)不向外提交和提供服務(wù),解密后提交和服務(wù)同公開論文。論文電子版提交至校圖書館網(wǎng)站:http://202.113.20.161:8001/index.htm。本人承諾:本人的學(xué)位論文是在南開大學(xué)學(xué)習(xí)期間創(chuàng)作完成的作品,并已通過論文答辯;提交的學(xué)位論文電子版與紙質(zhì)本論文的內(nèi)容一致,如因不同造成不良后果由本人自負。本人同意遵守上述規(guī)定。本授權(quán)書簽署一式兩份,由研究生院和圖書館留存。作者暨授權(quán)人簽字:篋撾是2014年
4、5月29日南開大學(xué)研究生學(xué)位論文作者信息論文題目一種基于層次思想的搜索日志聚類算法姓名侯樹異學(xué)號2120120432答辯日期2014年5月20日論文類別博士口學(xué)歷碩士口碩士專業(yè)學(xué)位囹高校教師口同等學(xué)力碩士口院/系/所計算機與控制工程學(xué)院專業(yè)計算機技術(shù)聯(lián)系電話18920321700Emailhss_130@126.corn通信地址(mg編):天津市南開區(qū)衛(wèi)津路94號南開大學(xué)伯苓樓東區(qū)303(300071)備注:無是否批準(zhǔn)為非公開論文否注:本授權(quán)書適用我校授予的所有博士、碩士的學(xué)位論文。由作者填寫(一式兩份)簽字后交校圖書館,非公
5、開學(xué)位論文須附《南開大學(xué)研究生申請非公開學(xué)位論文審批表》。萬方數(shù)據(jù)南開大學(xué)學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師指導(dǎo)下進行研究工作所取得的研究成果。除文中已經(jīng)注明引用的內(nèi)容外,本學(xué)位論文的研究成果不包含任何他人創(chuàng)作的、已公開發(fā)表或者沒有公開發(fā)表的作品的內(nèi)容。對本論文所涉及的研究工作做出貢獻的其他個人和集體,均己在文中以明確方式標(biāo)明。本學(xué)位論文原創(chuàng)性聲明的法律責(zé)任由本人承擔(dān)。學(xué)位論文作者簽名:送撾昱2014年5月29日非公開學(xué)位論文標(biāo)注說明(本頁表中填寫內(nèi)容須打印)根據(jù)南開大學(xué)有關(guān)規(guī)定,非公開學(xué)位論文須經(jīng)
6、指導(dǎo)教師同意、作者本人申請和相關(guān)部門批準(zhǔn)方能標(biāo)注。未經(jīng)批準(zhǔn)的均為公開學(xué)位論文,公開學(xué)位論文本說明為空白。論文題目申請密級口限制(≤2年)口秘密(≤10年)口機密(≤20年)保密期限20年月日至20年月日審批表編號批準(zhǔn)日期20年月日南開大學(xué)學(xué)位評定委員會辦公室蓋章(有效)注:限制★2年(可少于2年):秘密★10年(可少于10年):機密★20年(可少于20年)萬方數(shù)據(jù)摘要隨著搜索引擎技術(shù)的發(fā)展和網(wǎng)絡(luò)數(shù)據(jù)的膨脹,搜索引擎已經(jīng)成為人們進入互聯(lián)網(wǎng)海量數(shù)據(jù)空間的首要入口。每天搜索引擎都會接收到大量用戶搜索請求并且將用戶的搜索請求詳情保存下
7、來,成為搜索日志。怎樣從海量的搜索引擎日志中挖掘出有意義的知識,是目前工業(yè)界和學(xué)術(shù)界研究的一個熱點。搜索結(jié)果的聚類能夠幫助用戶更容易的獲得所需的內(nèi)容,幫助研究人員對搜索日志進行初步分析。搜索日志一般為短文本,文本字數(shù)較少,使得文本的聚類結(jié)果更容易受到無意義詞語的干擾,降低準(zhǔn)確性。一般方法只是根據(jù)詞語詞性,剔除某些無意義詞性的詞語,例如助詞、狀詞等。本文首先針對已有搜索日志數(shù)據(jù)特點,使用了一種詞語篩選方法對無意義詞語進行了剔除。通過仔細分析整個短文本集的特點,制定詞語剔除規(guī)則。最后從篩選原理、實驗結(jié)果兩個方面說明該方法的有效性。
8、由于搜索日志數(shù)據(jù)量巨大,且在聚類前無法獲知聚類個數(shù),使得很多常用聚類算法如k-means、層次聚類算法AGNES等不適合搜索日志的聚類。本文針對搜索日志聚類的難點,提出了一種基于層次思想的聚類算法,稱為“順序聚類算法”。該算法在時間復(fù)雜度、聚類可靠性、輸入?yún)?shù)等方面取得綜合性