社會化網(wǎng)絡(luò)數(shù)據(jù)獲取技術(shù)研究與實現(xiàn)

社會化網(wǎng)絡(luò)數(shù)據(jù)獲取技術(shù)研究與實現(xiàn)

ID:35093294

大小:4.53 MB

頁數(shù):78頁

時間:2019-03-17

社會化網(wǎng)絡(luò)數(shù)據(jù)獲取技術(shù)研究與實現(xiàn)_第1頁
社會化網(wǎng)絡(luò)數(shù)據(jù)獲取技術(shù)研究與實現(xiàn)_第2頁
社會化網(wǎng)絡(luò)數(shù)據(jù)獲取技術(shù)研究與實現(xiàn)_第3頁
社會化網(wǎng)絡(luò)數(shù)據(jù)獲取技術(shù)研究與實現(xiàn)_第4頁
社會化網(wǎng)絡(luò)數(shù)據(jù)獲取技術(shù)研究與實現(xiàn)_第5頁
資源描述:

《社會化網(wǎng)絡(luò)數(shù)據(jù)獲取技術(shù)研究與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、分類號:TP391單位代碼:10183研究生學(xué)號:201於44097密級:公開戀古林大學(xué)碩女學(xué)T立論文專業(yè)単化()社會化網(wǎng)絡(luò)數(shù)據(jù)獲取技術(shù)硏究與實現(xiàn)studyandImplementationofDataAcquisitionTechnologyinSocialNetwork作者姓名:徐恒類別:工程碩dr領(lǐng)域(方向):軟件工程指導(dǎo)教師:左萬利教授培養(yǎng)單位:軟件學(xué)院2016年4月未經(jīng)本論文作者的書面授權(quán),巧法收存和保管本論文書面版本、電子版本

2、的任何單位和個人,均不得對本論文的全部或部分內(nèi)容進行任何形式的復(fù)制、修改、發(fā)行、出租、改編等有礙作者著作權(quán)的商業(yè)性使用(但純學(xué)術(shù)性使用不在此限。)。否則,應(yīng)承擔(dān)侵權(quán)的法律責(zé)任吉林大學(xué)碩±學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:所呈交學(xué)位論文,是本人在指導(dǎo)教師的指導(dǎo)下。除文中已經(jīng)注明引用的內(nèi),獨立進行研巧工作所取得的成果容外,本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的作品成果。對本文的研巧做出重要貢獻的個人和集體,均已在文中W明確方式標(biāo)明。本人完全意識到本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作

3、者簽名:沒扛曰期:〇年月?曰之/6(¥社會化網(wǎng)絡(luò)數(shù)據(jù)獲取技術(shù)的研究與實現(xiàn)StudyandImplementationofDataAcquisitionTechnologyinSocialNetwork作者姓名:徐恒領(lǐng)域(方向):軟件工程指導(dǎo)教師:左萬利教授類別:工程碩士答辯日期:2016年5月28日摘要社會化網(wǎng)絡(luò)數(shù)據(jù)獲取技術(shù)的研究與實現(xiàn)我們生活在大數(shù)據(jù)時代,數(shù)億人花費大量的時間在社會化網(wǎng)絡(luò)上以史無前例的速度分享、交流、聯(lián)系、互動,并且產(chǎn)生了海量的用戶數(shù)據(jù),這些豐富的數(shù)據(jù)為學(xué)術(shù)研究和產(chǎn)品開發(fā)提供了巨大的機會和潛能。對于

4、提供API社會化網(wǎng)絡(luò)平臺,我們可以方便地獲取數(shù)據(jù)進行研究,對于不提供API的社會化網(wǎng)絡(luò)平臺,則需要編寫爬蟲程序來獲取數(shù)據(jù),這也是本文的研究內(nèi)容。本文以國內(nèi)最優(yōu)秀的社會化問答社區(qū)知乎網(wǎng)為研究對象,研究知乎網(wǎng)爬蟲的相關(guān)技術(shù)。本文主要的研究包括:對使用Ajax技術(shù)的網(wǎng)頁的解析、爬蟲爬取策略的研究、網(wǎng)站的模擬登錄、多線程設(shè)計、URL去重設(shè)計等。本文工作如下:首先,分析知乎爬蟲的主要問題并設(shè)計爬蟲的主要模塊。在這一部分本文介紹了爬蟲設(shè)計相關(guān)的知識,如Ajax、URL去重、多線程、網(wǎng)頁解析。也介紹了社會化網(wǎng)絡(luò)的相關(guān)知識,如社會化網(wǎng)絡(luò)的表示

5、方式、中心性、派系等。在這一部分,設(shè)計并實現(xiàn)了知乎爬蟲的的主要模塊,如模擬登錄模塊、用戶解析模塊、問題解析模塊、話題解析模塊、數(shù)據(jù)存儲模塊、控制模塊、用戶網(wǎng)絡(luò)鄰接矩陣生成模塊,并且實現(xiàn)了爬蟲的基本功能。其次,設(shè)計了知乎全網(wǎng)用戶爬蟲和知乎全網(wǎng)問題爬蟲。在這部分主要研究了爬蟲的爬取策略。對于全網(wǎng)用戶爬蟲設(shè)計了深度優(yōu)先爬取策略、廣度優(yōu)先爬取策略和基于知乎話題結(jié)構(gòu)的用戶爬取策略。對于全網(wǎng)問題爬蟲,則是通過知乎全部問題頁面獲取。在爬取到部分數(shù)據(jù)后,對數(shù)據(jù)進行了簡單的分析,如用戶的構(gòu)成,問題答案數(shù)量的分布。最后,設(shè)計了知乎主題爬蟲。這部分

6、主要研究了知乎主題爬蟲的爬取策略,該策略是基于知乎網(wǎng)結(jié)構(gòu)的廣度優(yōu)先爬蟲。在選取一個主題進行爬取并得到數(shù)據(jù)后,對這部分用戶進行了社會化網(wǎng)絡(luò)分析,分析了其用戶網(wǎng)絡(luò)結(jié)構(gòu)、中心性和派系,獲知了知乎社區(qū)的結(jié)構(gòu)特點。關(guān)鍵詞:社會化網(wǎng)絡(luò);爬蟲;多線程IAbstractResearchandImplementationofDataAcquisitionTechnologyinSocialNetworkWeliveintheeraofbigdata,hundredsofmillionsofpeoplespendalotoftimeontheso

7、cialnetworkinanunprecedentedspeedtoshare,exchange,contact,interaction,andgeneratedahugeamountofusers’data,Theseabundantdataprovideagreatopportunityforacademicresearchanddevelopmentofproduct.WiththeAPIsocicialnetworkingplatformsprovide,wecaneasilygetdatatostudy,somep

8、latformsdonotprovideAPI,weneedtowriteacrawlertogetdata,whichisthecontentofthispaper.Inthispaper,wetakethebestsocialonlineQ&AcommunitiesZhi

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。