試析基于web的內(nèi)容挖掘技術(shù)研究

試析基于web的內(nèi)容挖掘技術(shù)研究

ID:34832116

大?。?.86 MB

頁數(shù):63頁

時間:2019-03-12

試析基于web的內(nèi)容挖掘技術(shù)研究_第1頁
試析基于web的內(nèi)容挖掘技術(shù)研究_第2頁
試析基于web的內(nèi)容挖掘技術(shù)研究_第3頁
試析基于web的內(nèi)容挖掘技術(shù)研究_第4頁
試析基于web的內(nèi)容挖掘技術(shù)研究_第5頁
資源描述:

《試析基于web的內(nèi)容挖掘技術(shù)研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、哈爾濱工程大學(xué)碩士學(xué)位論文基于Web的內(nèi)容挖掘技術(shù)研究姓名:劉洋申請學(xué)位級別:碩士專業(yè):計算機應(yīng)用技術(shù)指導(dǎo)教師:張健沛20030101哈爾濱工程大學(xué)碩士學(xué)位論文摘要隨著Web文檔數(shù)量的劇增,搜索引擎也暴露了許多問題。對于一般的查詢返回的結(jié)果很多,其中很多是無用或無關(guān)的結(jié)果,為了找到想要的結(jié)果,用戶不得不在搜索引擎返回的大量文檔摘要列表中查找。本文將Web內(nèi)容挖掘技術(shù)應(yīng)用于搜索引擎領(lǐng)域,它依賴于搜索引擎結(jié)果所提供的信息來歸納出聚類,使得在搜索引擎返回的非常大的文檔列表中的過濾操作變得十分方便。PAT—tree是廣泛用于中文關(guān)鍵字抽取和句子分割等領(lǐng)域的一

2、種數(shù)據(jù)結(jié)構(gòu)。本文將PAT-tree應(yīng)用于搜索引擎結(jié)果聚類領(lǐng)域,并在修改的PAT—tree基礎(chǔ)上提出了一個新的中文搜索引擎結(jié)果聚類算法。實驗結(jié)果證明我們的算法是可行的,并且能夠滿足我們給出的搜索引擎結(jié)果聚類技術(shù)的幾個重要指標(biāo)。關(guān)鍵詞:Web內(nèi)容挖掘;聚類;搜索引擎;PAT—Tree墮§:鎏三堡盔蘭堡圭主簦鯊鑾AbstractWebSearchengineshavebecomeincreasJnglyineffectiveasthenumberofdocumentontheWebhavepr01iferated.Usersofwebsearchengin

3、esareoftenforcedtoshiftthroughthelongordered1istofdocument“snippets”returnedbytheengines.ThispaperappliedWebcontentminingtothefieldofsearchengine.SearchengineresultsClusteringteliesontheinformationreturnedbythesearchengine.PAT—treeisadatastructurethatiswidelyusedinhandlingChine

4、seinformationandwordsegmentation.ThispaperappliedPAT—treestructuretotheChineseInformationRetrievalfieldandproposedanewChinesesearchengineresultsc]usteringalgorithmsbasedonourmodifiedPAT—tree.ExperimentresultSdemonstratethatourapproachisfeasibleandcansatisfythetargetsweproposed.

5、Keywords:Webcontentmining,Clustering,Searchengine,PAT—tree哈爾濱工程大學(xué)碩士學(xué)位論文第1章緒論1.1研究課題的來源、目的和意義本課題來源于黑龍江省自然科學(xué)基金項目,即“基于Web的數(shù)據(jù)挖掘技術(shù)的研究”。近年來,計算機網(wǎng)絡(luò)的普及使Internet成為世界上最大的信息網(wǎng),目前已有數(shù)萬個WWW服務(wù)器,而且還以每天兩百多個的速度增加。其蘊藏的數(shù)據(jù)己無法計算。在Web迅猛發(fā)展的同時,我們不能忽視“信息爆炸”的問題,即信息極大豐富而知識相對匱乏。據(jù)估計,Web已經(jīng)發(fā)展成為擁有3億頁面的分布式信息空間,而且

6、這個數(shù)字仍以每4至6個月翻一倍的速度增加。在這些大量、異質(zhì)的Web信息資源中,蘊含著具有巨大潛在價值的知識。人們迫切需要能夠從Web上快速、有效地發(fā)現(xiàn)資源和知識的工具。如何從這些信息中辨別出對自己有用的信息,如何發(fā)現(xiàn)信息背后隱藏的更有價值的知識,是目前簡單的數(shù)據(jù)分析工具所不能完成的。信息檢索界開發(fā)了許多搜索引擎,Web上的搜索引擎部分地解決了資源發(fā)現(xiàn)問題,但那些只維護(hù)由關(guān)鍵字和超級鏈接所構(gòu)成的數(shù)據(jù)庫的搜索引擎越來越難以滿足人們的需要。此外,搜索引擎的目的在于發(fā)現(xiàn)Web上的資源,就Web上的知識發(fā)現(xiàn)而言,即使檢索精度再高,搜索引擎也不能夠勝任。搜索引擎

7、返回很多的結(jié)果,其中很多是無用或無關(guān)的結(jié)果,人們?yōu)榱苏业较胍慕Y(jié)果,瀏覽上百條記錄是常有的事。為此,我們需要開發(fā)比信息檢索層次更高的新技術(shù)。為了從大量數(shù)據(jù)的集合中發(fā)現(xiàn)有效、新穎、有用、可理解的模式,數(shù)據(jù)庫領(lǐng)域采用了數(shù)據(jù)挖掘技術(shù)。但是,數(shù)據(jù)挖掘的絕大部分工作所涉及的是結(jié)構(gòu)化數(shù)據(jù)庫,很少有處理Web上的異質(zhì)、非結(jié)構(gòu)化信息的工作。解決這些問題的一個途徑就是將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)和Web結(jié)合起來,進(jìn)行Web挖掘。Web挖掘作為數(shù)據(jù)挖掘的一個新主題,引起了人們的極大興趣。哈爾濱工程大學(xué)碩士學(xué)位論文1.2Web挖掘的問題與挑戰(zhàn)萬維網(wǎng)目前是一個巨大的、分布廣泛的和全

8、球性的信息服務(wù)中心,它涉及新聞、廣告、消費信息、金融管理、教育、政府、電子商務(wù)和許多其他信息服務(wù)。Web還包

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。