資源描述:
《基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析 一、引言 近年來,我國旅游產(chǎn)業(yè)規(guī)模不斷擴大,平遙古城作為中國境內(nèi)保存最完整的古代縣城與票號文化發(fā)源地,游客量快速增長,逐年增加的游客對古城承載力及景區(qū)建設(shè)提出了更高要求。與此同時,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展以及大數(shù)據(jù)時代的到來,旅游信息傳播形式、游客信息搜索方式、旅游消費行為等均發(fā)生了巨大改變。許多旅游經(jīng)營者、旅游企業(yè)及政府機構(gòu)都通過互聯(lián)網(wǎng)平臺發(fā)布旅游信息,隨之互聯(lián)網(wǎng)平臺也成為廣大游客出游的重要信息來源,相應(yīng)產(chǎn)生的網(wǎng)絡(luò)搜索數(shù)據(jù)則逐漸成為高質(zhì)量的游客旅游搜索行為數(shù)據(jù)庫。2016年百度推出的
2、百度指數(shù)可以直接、客觀地反映某特定時間段內(nèi)的社會熱點、用戶興趣和需求,并且實證表明利用百度指數(shù)這一網(wǎng)絡(luò)搜索指數(shù)進行預(yù)測克服了傳統(tǒng)預(yù)測中存在的數(shù)據(jù)滯后以及數(shù)據(jù)量不足的缺陷,結(jié)果更為準(zhǔn)確、更具時效性。因此,本文依托百度指數(shù)的時效性,挖掘旅游網(wǎng)絡(luò)關(guān)注度和實際旅游需求的關(guān)系,預(yù)測景區(qū)客流量,對指導(dǎo)旅游管理部門做出科學(xué)、合理的決策安排,促進旅游可持續(xù)發(fā)展具有重要意義?! 《?、指標(biāo)選取與數(shù)據(jù) 指標(biāo)選取 根據(jù)指標(biāo)選取理論的分析可知,用戶搜索行為反映了用戶近期行為,但由于搜索用戶的異質(zhì)性,不同用戶對某一事物的關(guān)注度有所不同,從而使得搜索關(guān)
3、鍵詞也具有多樣性,且關(guān)鍵詞應(yīng)包含與目標(biāo)事物相關(guān)的各個方面。因此,本文在已有文獻基礎(chǔ)上,根據(jù)相關(guān)旅游經(jīng)驗及人們外出旅行時的主要考慮因素,即衣、食、住、行、游5個方面,通過百度指數(shù)“趨勢研究”和“需求圖譜”兩個模塊來進行關(guān)鍵詞的提取,這5個方面涵蓋了平遙天氣、平遙牛肉、平遙古城住宿、平遙古城門票、平遙古城旅游攻略等多方面信息。本文將這5個方面的相關(guān)詞作為初始關(guān)鍵詞,運用百度關(guān)鍵詞挖掘聯(lián)盟進行關(guān)鍵詞搜索,從而得到最終的關(guān)鍵詞指標(biāo)?! ?shù)據(jù)說明 本文的關(guān)鍵詞數(shù)據(jù)是利用網(wǎng)絡(luò)爬蟲技術(shù)從百度指數(shù)網(wǎng)頁源代碼中提取得到的。在利用初始詞進行關(guān)鍵
4、詞搜索過程中,剔除沒有數(shù)據(jù)對應(yīng)和數(shù)據(jù)量很少的關(guān)鍵詞,最終得到57個關(guān)鍵詞從2016年12月到2016年12月共162周的數(shù)據(jù)。平遙古城旅游客流量數(shù)據(jù)來自山西省旅游局,選取的時間區(qū)間為2016年12月至2016年12月,共37個數(shù)據(jù)。由于我們得到的關(guān)鍵詞數(shù)據(jù)為周度數(shù)據(jù),而本文研究的是月度數(shù)據(jù),所以要對關(guān)鍵詞數(shù)據(jù)進行處理,將周度數(shù)據(jù)轉(zhuǎn)化為月度數(shù)據(jù),即按照日歷中各月周數(shù)進行加總,將每月最后幾天數(shù)據(jù)按所在周的天數(shù)作為權(quán)重,將該周的數(shù)據(jù)按權(quán)重分配到相鄰月中,最終得到37個月的搜索指數(shù)數(shù)據(jù)。 三、實證分析 首先對模型擬合和預(yù)測有兩點說
5、明:一是擬合樣本區(qū)間為2016年12月到2016年10月,共35個數(shù)據(jù),用于預(yù)測檢驗的樣本區(qū)間為2016年的11月到12月2個月的數(shù)據(jù)。二是在模型擬合效果的比較上,本文引入MSE和NMSE兩個指標(biāo),分別代表模型的穩(wěn)定性和擬合度?! ∷阉麝P(guān)鍵詞確定 首先,利用簡單手動篩選,觀察所有關(guān)鍵詞數(shù)據(jù),將趨勢變化不明顯或幾乎無變化趨勢的剔除;然后,利用Pearson相關(guān)系數(shù)篩選,分別計算各關(guān)鍵詞與因變量的Pearson相關(guān)系數(shù),將相關(guān)系數(shù)小于的剔除;最后,利用線性回歸篩選,并診斷回歸的多重共線性和自相關(guān),利用逐步回歸及AIC準(zhǔn)則選出最終
6、的4個關(guān)鍵詞:平遙古城旅游攻略、平遙古城地圖、山西旅游景點大全、平遙住宿。 模型估計 在篩選關(guān)鍵詞過程中,我們構(gòu)建了一個線性回歸方程,回歸估計如下: 從回歸結(jié)果看,總體擬合效果較好,變量系數(shù)均通過顯著性檢驗,因此該線性模型似乎具有較好預(yù)測效果。但為進一步考察模型假設(shè)是否成立,我們進行殘差的Shapiro-Wilk正態(tài)性檢驗,并且刻畫了因變量直方圖及對應(yīng)的線性分布圖,檢驗結(jié)果均表明因變量不服從正態(tài)分布,因此本文利用線性回歸進行模型模擬時并不能滿足其對因變量分布的假定,從而會產(chǎn)生較大誤差,影響擬合和預(yù)測效果?! 」时疚牟捎昧?/p>
7、對數(shù)據(jù)分布沒有任何假定且結(jié)果可用交叉驗證方法來評判的四種機器學(xué)習(xí)方法進行模型擬合及預(yù)測,并比較了決策樹、bgging、隨機森林、支持向量機這四種算法模型的擬合度、穩(wěn)定性與預(yù)測效果?! ∧P徒Y(jié)果分析 使用以上四種算法估計模型,計算出各模型的MSE和NMSE,結(jié)果見表1?! 哪P偷臄M合度和穩(wěn)定性來看,回歸樹和Bagging都存在明顯不足,其MSE和NMSE值均大于另外兩個模型,回歸樹模型在所有模型中擬合效果最差。而隨機森林和支持向量機這兩種模型的效果較好,其中隨機森林的擬合度和穩(wěn)定性最佳,SVM模型的擬合度較好,但模型穩(wěn)定性不
8、佳。最后分別用以上算法模型對樣本期外兩個月的客流量進行預(yù)測,并將其與真實值對比,計算其平均誤差率,結(jié)果見表2。 如表2所示,模型擬合效果較差的回歸樹和bagging的預(yù)測效果仍不理想,平均誤差率分別達到了%和%,與真實客流量數(shù)據(jù)相比存在較大偏差。同時,擬合效果最佳的隨機森林