搜索研究論文-聚類系數(shù),小世界,交通,網(wǎng)絡(luò)搜索

搜索研究論文-聚類系數(shù),小世界,交通,網(wǎng)絡(luò)搜索

ID:22294023

大?。?3.50 KB

頁數(shù):10頁

時間:2018-10-28

搜索研究論文-聚類系數(shù),小世界,交通,網(wǎng)絡(luò)搜索_第1頁
搜索研究論文-聚類系數(shù),小世界,交通,網(wǎng)絡(luò)搜索_第2頁
搜索研究論文-聚類系數(shù),小世界,交通,網(wǎng)絡(luò)搜索_第3頁
搜索研究論文-聚類系數(shù),小世界,交通,網(wǎng)絡(luò)搜索_第4頁
搜索研究論文-聚類系數(shù),小世界,交通,網(wǎng)絡(luò)搜索_第5頁
資源描述:

《搜索研究論文-聚類系數(shù),小世界,交通,網(wǎng)絡(luò)搜索》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、搜索研究論文-聚類系數(shù),小世界,交通,網(wǎng)絡(luò)搜索聚類系數(shù),小世界,交通,網(wǎng)絡(luò)搜索1網(wǎng)絡(luò)論壇分析為了整合多個論壇中的信息就需要對多個論壇的信息進(jìn)行分析并抽象出共同的特征。目前,絕大數(shù)論壇都是由板塊和帖子構(gòu)成,即若干主題相關(guān)的帖子聚合形成板塊,若干板塊聚合構(gòu)成論壇。每個論壇中的帖子地址和板塊地址都具有相同的URL地址格式。帖子的URL地址顯示了該帖子的內(nèi)容;而板塊的URL地址顯示的是帖子標(biāo)題列表,由于一個板塊具有多個帖子,所以往往要劃分為多個頁面來顯示,所以這里的板塊URL地址是第一頁,通過翻頁地址可以鏈接到該板塊的下一頁。以“采購經(jīng)理人論壇”網(wǎng)站為例,帖子的

2、URL地址格式如下:/?mod=viewthreadtid={articlEid}extra=page%3D{nextPage?Id}。其中{articleld}是帖子的數(shù)字編號,{nextPageld}是翻頁地址的數(shù)字編號,即當(dāng)前板塊的頁面編號。板塊的URL地址的格式如下:/?mod=forumdisplayfid={boardid}。其中{boardid}是板塊的數(shù)字編號。板塊翻頁URL地址的格式如下:/?mod=forumdisplayfid={boardld}page={nextPageld},這里的{boardld}是板塊的數(shù)字編號而,{nex

3、tPageld}是板塊的頁面編號。因此,本文認(rèn)為一個論壇可以通過論壇名稱、論壇首頁地址、板塊地址格式、帖子地址格式、板塊翻頁地址格式等來描述,從論壇首頁地址出發(fā)可以找出所有與板塊地址格式相匹配的板塊地址,再從板塊地址出發(fā)就可以找到所有與帖子地址格式相匹配的帖子地址,最后由帖子地址即可以得到帖子所包含的信息。2論壇爬蟲設(shè)計論壇爬蟲分析論壇爬蟲的主要任務(wù)是從某個論壇的首頁地址出發(fā)下載該論壇的所有帖子。它涉及到的三個實體類分別為:論壇實體、板塊實體和帖子實體,與之對應(yīng)的JavaBean對象分別為:SiteBean、BoardBean、ArticleBean,具

4、體分析如下:SiteBean是對論壇基本信息的封裝,其屬性包括論壇名稱、論壇地址、板塊地址格式、帖子地址格式、翻頁地址格式。在數(shù)據(jù)庫中使用Sitelnfo數(shù)據(jù)表來存放SiteBean實體類。BoardBean是對板塊信息的封裝,其屬性包含了板塊編號、板塊名稱、板塊地址、帖子列表、論壇地址。這里的articleList是一個數(shù)據(jù)類型為LinkedList的集合。在數(shù)據(jù)庫中使用Boardlnfo數(shù)據(jù)表來存放BoardBean實體類。ArticleBean是對帖子信息的封裝,其屬性包括帖子地址、帖子標(biāo)題、帖子編號、發(fā)表時間、保存時間、帖子標(biāo)識、所屬板塊、所屬論

5、壇。其中visitedFlag字段表示帖子的處理狀態(tài),當(dāng)visitedFlag=O時表示當(dāng)前的帖子是新帖子但還未被保存;當(dāng)visitedFlag==l是表示帖子已經(jīng)被保存但是還沒有被轉(zhuǎn)化為XML文檔;當(dāng)visitedFlag==2時表示該帖子已經(jīng)加入到索引中處理完畢;當(dāng)visitedFlag==-l時,表示該帖子的處理失敗。在數(shù)據(jù)庫中使用ArticleInfo數(shù)據(jù)表來存放ArticleBean實體類。論壇爬蟲還用到兩個非常重要的工具類DownLoader類和HtmlPage類。其中DownLoader類借助于提供的Http協(xié)議訪問功能,接收一個URL地址

6、作為輸入?yún)?shù),下載該URL地址所對應(yīng)的網(wǎng)頁文件,并將該網(wǎng)頁內(nèi)容封裝成HtmlPage類。HtmlPage類則借助于提供的HTML文件解析功能從HTML文件中提取出所需要的內(nèi)容。HtmlPage類的extractBoardUrl方法以SiteBean對象的boardUr1屬性作為板塊地址格式,從論壇首頁中提取出論壇的板塊地址放入BoardBean對象的articleList屬性中。抓取板塊地址一般而言,論壇的所有板塊地址都包含在論壇的首頁中,論壇爬蟲通過讀取論壇首頁并匹配板塊URL地址格式,可以獲取該論壇的板塊地址列表。抓取論壇板塊地址的過程如圖1所示。圖

7、1抓取論壇板塊地址抓取新帖地址通過讀取每個板塊的首頁地址并匹配帖子URL地址格式及翻頁URL地址格式可以獲取該板塊的所有帖子地址列表。抓取帖子的具體過程如圖2所示。在抓取帖子的過程中,為了提高程序運行的效率,在發(fā)現(xiàn)新帖后先將新帖的地址保存到Articleinfo數(shù)據(jù)表中,并將visitedFlag設(shè)置為0,等待下載程序的進(jìn)一步處理。圖2抓取論壇中的帖子下載貼子下載程序的功能是將網(wǎng)絡(luò)論壇中的帖子以html文件的格式保存在本地文件系統(tǒng)中,首先從Articlelnfo數(shù)據(jù)表中讀取所有visit?edFlag==O的記錄,并封裝成ArticleBean實體類;再

8、使用DownLoader類下載ArticleBean所對應(yīng)的網(wǎng)頁并保存到本地文件

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。