資源描述:
《基于數(shù)據(jù)挖掘的校園社交網(wǎng)絡(luò)用戶行為分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、1緒論1.1選題背景社交網(wǎng)絡(luò),簡稱SNS(socialnetworkservice),在Web2.0浪潮中已發(fā)展為社會化媒體中一個主要平臺。據(jù)最新的中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)2013年1月15日發(fā)布的第31次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》,截至2012年12月底,我國網(wǎng)民規(guī)模達5.64億,互聯(lián)網(wǎng)普及率為42.1%,較2011年底提升3.8個百分點。同時報告顯示,社交網(wǎng)絡(luò)應(yīng)用持續(xù)呈現(xiàn)增長趨勢,截止2012年12月,國內(nèi)社交網(wǎng)絡(luò)用戶總數(shù)已達2.75億,占到了全部網(wǎng)民人數(shù)的48.8%,增速保持在10%以上。與此同時在2010年之后社交
2、網(wǎng)絡(luò)又出現(xiàn)兩大新增長點:其一微博用戶持續(xù)增長,微博用戶規(guī)模在2012年達到3.09億,較2011年底增長了5873萬。雖然微博急速擴張的階段已經(jīng)結(jié)束,但年增幅仍能達到23.5%;其二用戶逐漸移動化成為了社交網(wǎng)絡(luò)用戶增長的又一亮點,截至2012年12月底,我國手機網(wǎng)民規(guī)模為4.2億,較上年底增加約6440萬人,網(wǎng)民中使用手機上網(wǎng)的人群占比由上年底的69.3%提升至74.5%,隨著手機智能化,相當一部分用戶訪問和發(fā)送微博的行為發(fā)生在手機終端上,為社交網(wǎng)站的進一步發(fā)展提供了可能。此外“社交化”已經(jīng)作為一種重要的功能元素,正在全面融合到各類互聯(lián)網(wǎng)
3、應(yīng)用中。一方面,2012年涌現(xiàn)出大批具備社交基因的新應(yīng)用,包括圖片社交、私密社交、購物分享等,尤其在移動互聯(lián)網(wǎng)領(lǐng)域,由于手機天生的通訊功能,2012年許多熱門移動應(yīng)用都具備社交功能;另一方面,搜索、網(wǎng)購、媒體等互聯(lián)網(wǎng)應(yīng)用正在融合社交因素,以豐富自身的功能、提升用戶體驗,創(chuàng)新服務(wù)和盈利模式。在整個互聯(lián)網(wǎng)都走向社交化的大趨勢下,傳統(tǒng)的實名制社交網(wǎng)站也不斷增加平臺功能,在原有網(wǎng)站基礎(chǔ)上融入以上新型的社交功能組件,尤其是將業(yè)務(wù)發(fā)展重點轉(zhuǎn)向移動終端,進而帶動了2012年社交網(wǎng)站用戶增長,同時也為社交網(wǎng)絡(luò)的進一步發(fā)展提供無限可能?,F(xiàn)行網(wǎng)絡(luò)中較為成熟和
4、流行的社交網(wǎng)站有國外的Facebook,twitter,Google+,Plurk,F(xiàn)lickr,Linked—in等,而國內(nèi)也不乏人人網(wǎng)、開心網(wǎng)、豆瓣、新浪微博、騰訊微博等社交網(wǎng)絡(luò)應(yīng)用或網(wǎng)站。社交網(wǎng)站具有巨大的用戶群和訪問量,并早已成為網(wǎng)絡(luò)上極其重要的組成部分。其中Facebook每月活躍人士已超過7.5億,根據(jù)股價估值也已接近千億級別,已經(jīng)成為互聯(lián)網(wǎng)新巨頭之一。而在國內(nèi)的SNS中,人人網(wǎng)注冊人數(shù)也已經(jīng)超過1.6億,活躍用戶也超過了一半,國內(nèi)互聯(lián)網(wǎng)巨頭阿里巴巴更是出資5.86億美元購得新浪微博18%股份,表現(xiàn)了其對社交網(wǎng)絡(luò)發(fā)展的看好[2
5、]。來自市場研究機構(gòu)eMarketer的最新數(shù)據(jù)顯示:在2012年,全球超過14億人使用社交網(wǎng)絡(luò),比2011年增加了19%。圖1-1社交網(wǎng)站發(fā)展時間表1.2研究意義社交網(wǎng)絡(luò)的流行不僅帶來了信息傳播技術(shù)的革命性變革,并且一步步改變著人們的生活方式、思維方式等,對于社交網(wǎng)絡(luò)的研究也不斷深入。但目前對于社交網(wǎng)絡(luò)的主體——網(wǎng)絡(luò)用戶的行為研究仍然比較冷門,主要研究都偏向于網(wǎng)絡(luò)用戶行為研究,很少有專門對于社交網(wǎng)絡(luò)用戶行為的分析化。目前,社會科學(xué)對網(wǎng)絡(luò)行為的研究,主要集中在以下議題:作為行為場域的網(wǎng)絡(luò)空間的社會特性網(wǎng)絡(luò)行為及其影響因素雖然以上研究都已比
6、較深入,但大多的都從社會學(xué)角度切入研究宏觀網(wǎng)絡(luò)用戶行為,內(nèi)容與社交網(wǎng)絡(luò)契合較少并偏向理論化,方法也大多采用問卷調(diào)查等主觀性較強的方式,很少有通過技術(shù)手段采集客觀數(shù)據(jù)并通過軟件分析等方式進行研究的文獻。而本文則通過網(wǎng)絡(luò)爬蟲采集相關(guān)數(shù)據(jù),并通過數(shù)據(jù)分析軟件Weka對采集數(shù)據(jù)進行數(shù)據(jù)挖掘,通過數(shù)據(jù)尋找社交網(wǎng)絡(luò)用戶行為及其影響因素,可以說是從一個比較新穎的角度分析了社交網(wǎng)絡(luò)用戶行為。如果能夠有效的提取社交網(wǎng)絡(luò)中的各種數(shù)據(jù)并對用戶行為、群體特征等進行分析,掌握用戶的行為模式及其影響因素,不僅能夠幫助網(wǎng)站運營商全面掌握用戶需求從而提供更好的服務(wù)和產(chǎn)品
7、,還能夠幫助營銷商更好地了解受眾群體和信息傳播模式進而采取更有效的網(wǎng)絡(luò)營銷和推廣手段。1.3論文主要研究內(nèi)容及組織結(jié)構(gòu)1.3.1主要研究內(nèi)容本論文研究內(nèi)容主要包括一下三個方面:社交網(wǎng)絡(luò)及社交網(wǎng)絡(luò)用戶行為該部分主要是為最終通過分析軟件對社交網(wǎng)絡(luò)用戶行為進行總結(jié)做好理論基礎(chǔ)準備。主要對社交網(wǎng)絡(luò)概念產(chǎn)生、發(fā)展過程進行闡述。并對社交網(wǎng)絡(luò)更加具有WEB2.0時代的特點進行描述。最后對一般社交網(wǎng)絡(luò)用戶行為動機進行分析。數(shù)據(jù)挖掘中的聚類分析這一部分主要對數(shù)據(jù)挖掘的聚類分析的定義、分析過程以及主要分析手段進行描述,并分析各聚類方法優(yōu)缺點,最后通過根據(jù)收集
8、所得數(shù)據(jù)特征選取合適的聚類分析方法數(shù)據(jù)采集技術(shù)——網(wǎng)絡(luò)爬蟲該部分主要確定所要爬取的網(wǎng)頁內(nèi)容,并根據(jù)網(wǎng)站HTTP協(xié)議與網(wǎng)頁行為特征制定定向網(wǎng)頁爬蟲方案,然后通過python語言實行具體編碼。編碼