資源描述:
《動態(tài)web廣告的智能獲取技術(shù)研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、碩士學(xué)位論文動態(tài)Web廣告的智能獲取技術(shù)研究RESEARCHONTECHNOLOGYOFRETRIEVING
DYNAMICWEBADVERTISING
INTELLIGENTLY梁微微哈爾濱工業(yè)大學(xué)2014年12月國內(nèi)圖書分類號:TP399學(xué)校代碼:10213
國際圖書分類號:621.3密級:公開工學(xué)碩士學(xué)位論文動態(tài)Web廣告的智能獲取技術(shù)研究碩士研究生:梁微微導(dǎo)師:葉允明教授申請學(xué)位:工學(xué)碩士學(xué)科:計算機(jī)科學(xué)與技術(shù)所在單位:深圳研究生院答辯日期:2014年12月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)ClassifiedIndex:TP399U
2、.D.C:621.3DissertationfortheMasterDegreeinEngineeringRESEARCHONTECHNOLOGYOFRETRIEVING
DYNAMICWEBADVERTISING
INTELLIGENTLYCandidate:WeiweiLiangSupervisor:Prof.YunmingYeAcademicDegreeAppliedfor:MasterDegreeinEngineeringSpeciality:ComputerScience&TechnologyAffiliation:Shenz
3、henGraduateSchoolDateofDefence:December,2014Degree-Conferring-Institution:HarbinInstituteofTechnology哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文摘要隨著互聯(lián)網(wǎng)和電子商務(wù)的發(fā)展,目前許多公司都通過Web廣告來推廣自己的產(chǎn)品,很多大型互聯(lián)網(wǎng)公司的主要收入來源也來自于Web廣告,因此目前對Web廣告的研究越來越熱門。為了研究互聯(lián)網(wǎng)廣告的投放機(jī)制,更加科學(xué)的投放廣告,收集互聯(lián)網(wǎng)上的廣告就成為一項非常有意義的工作,但是,目前針對互聯(lián)網(wǎng)廣告資源采集的研究卻沒有什
4、么成果,因此,本文主要研究如何從海量的互聯(lián)網(wǎng)資源中智能地獲取盡可能多的Web廣告資源。為了快速準(zhǔn)確獲取互聯(lián)網(wǎng)中的廣告,本文主要做了如下幾個工作:首先,提出了一種基于DOM樹構(gòu)建的動態(tài)腳本解析算法,在建立頁面DOM樹的過程中,使用文中所設(shè)計的基于Rhino封裝后的Javascript解析引擎,解析Web頁面中的Javascript腳本,加載頁面中的動態(tài)數(shù)據(jù),最終得到加載完動態(tài)信息的完整頁面?;贒OM樹構(gòu)建的解析算法在請求動態(tài)數(shù)據(jù)的時候進(jìn)行了合理的資源分配,因此在解析速度方面比其它動態(tài)數(shù)據(jù)獲取方式要快。在章節(jié)的最后,通過實驗和其它的動態(tài)數(shù)
5、據(jù)獲取方式進(jìn)行了比較,實驗證明,算法的速度比其它的方式快。然后,設(shè)計了基于頁面塊分類的Web廣告資源定位算法,將頁面中廣告資源的定位問題轉(zhuǎn)化為二分類問題,在頁面分塊的基礎(chǔ)上,對頁面中所有的塊進(jìn)行廣告塊分類,通過標(biāo)記其中的廣告塊,最終實現(xiàn)了廣告資源定位的功能?;陧撁鎵K分類的廣告定位算法,使用頁面中的URL串作為分類的特征,擁有分類速度快,準(zhǔn)確度高等特點。在章節(jié)的后面,對比了幾種常用的分類算法在廣告定位上的效果,此外,還給出了基于決策樹分類的廣告定位算法在各種類型的網(wǎng)站上所表現(xiàn)出來的效果,實踐證明,基于決策樹的廣告資源定位算法效果比其它的
6、算法的效果好。最后,實現(xiàn)了動態(tài)Web廣告的智能獲取系統(tǒng),用系統(tǒng)的實際效果驗證了本文所提方法的有效性。關(guān)鍵詞:Web廣告;Javascript解析;分類;頁面分塊-I-哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文AbstractWiththerapidlydevelopmentoftheInternetandelectroniccommerce,manycompaniespromotetheirproductsinwebadvertising.ManylargeInternetcompanies’majorincomesourcecomefromweb
7、advertising.Thestudyofwebadvertisingisincreasinglypopular.InordertostudytheInternetadvertisinganduseInternetresourcesmorescientific,collectingtheInternetadvertinghasbecomeascientifcwork.However,thereislittleachievementingettingInternetadvertisingfornow.Therefore,thisarti
8、clemainlyfocusonhowtoobtainwebadvertisingfromthehugeamountofInternetresourcesasmuchaspossible.Inorderto