資源描述:
《基于Rhino的JavaScript動態(tài)頁面解析研究與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。
1、萬方數(shù)據(jù)第18卷.第.2期20(J8年2月計算機技術與發(fā)展V01.18№,.2COMPUTERTECHN【)L(X;YANDDFvEl』)PM哐NTFeb.2008基于Rhino的JavaScript動態(tài)頁面解析研究與實現(xiàn).金曉鷗,鐘寶燕,李翔(上海交通大學信息安全工程學院,上海200240)摘要:面對互聯(lián)網(wǎng)上占據(jù)全國頁面總數(shù)50%以上的動態(tài)頁面,當前網(wǎng)絡輿情管控工作中的信息采集環(huán)節(jié)對以動態(tài)頁面為主要發(fā)布形態(tài)的互聯(lián)網(wǎng)媒體無法實現(xiàn)信息獲取。鑒于此,文中提出了基于Rhino實現(xiàn)Java.Script動態(tài)頁面解析的整體方案。實驗結果表明該方案充分豐富了互聯(lián)網(wǎng)輿情管控工作的數(shù)據(jù)源對象,是實現(xiàn)動態(tài)頁面
2、內(nèi)超鏈接網(wǎng)絡地址遞歸獲取和網(wǎng)頁主體內(nèi)容提取行之有效的解決方案。關鍵詞:腳本解釋引擎Itlli∞;J∽&S砷t動態(tài)頁面;動態(tài)頁面解析中圖分類號:1甲393文獻標識碼:A文章編號:1673—629X(2008)02—0001—04ResearchandimplementationofInterpretingJavaScriptDynamicWebPageBasedonRhinoEngineJINXiao--ou,ZHONGBao-yan,LIXiang(InformationSecurityEngineeringSchoolofShanghaiJiaotongUniversity,shangha
3、i200240,Claim)Al鼬-act:DymmieWeb陴holdsrI班than50%ofthetotalWebpagesha∞刪1t”訂de;kw榭,theinforrmtioneolhetorofcm'rentnetworkpubicoptnhmmitork堰毋姍l啪notgettheirdornⅪtionofIntemetmeditmawhich唧dymn_licWebiⅪlgeasitsmainoonotentdistributionform.Thereby,thereisa8ehl,tleforinterpretingJavaScriptdymmicWebpageby嘣fl
4、gRhino嘶pttsentedinthispaper.Provedbytheexits,this∞h眥is鋤effectiveonefor日【t瑚雌i颼theh州inknetworkaddresses“‘,ontentofayn甜licW西pa群andithas∞一chedthevmrkdam姒ofnetworkpublicopinionmonitoring.K鱷woods:Rhinoscript吣hae;JavaScriptd]m戚cWebpage;interpret由咖cWeb孵O引言中國互聯(lián)網(wǎng)絡信息中心(D州IC)2007年1月23日發(fā)布的<第19次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告)tl
5、】顯示,截至2006年底我國網(wǎng)民人數(shù)達到了1.37億,占全國人口總數(shù)的10.5%。在充分享受信息時代給予學習工作、休閑娛樂帶來巨大便利的同時,還要充分認識到互聯(lián)網(wǎng)對于社會輿論和大眾文化潛在的影響與威脅。如何對互聯(lián)網(wǎng)發(fā)布、傳輸和瀏覽的內(nèi)容進行有效的監(jiān)督、管理和引導是我國推進現(xiàn)代化建設,營造和諧社會的重要課題之一。目前,互聯(lián)網(wǎng)輿情管控工作旨在通過采集、分析和表達互聯(lián)網(wǎng)媒體發(fā)布內(nèi)容。為網(wǎng)絡監(jiān)管部門提供輿情管控參考依據(jù)。輿情管控工作主要由信息采集、內(nèi)容收穰日期:2007一05一03基金項目:國家自然科學基金項目(60502032。60402019);上海市科委項目(06Sll5020);教育部新世紀
6、優(yōu)秀人才支持計劃項目(NCEl’一06—0393)作者簡介:金曉鷗(1983一),女。浙江永嘉人.碩士研究生.研究方向為互聯(lián)網(wǎng)內(nèi)容安全;李翔,剮教授,研究方向為網(wǎng)絡內(nèi)容安全。分析和結果呈現(xiàn)三大環(huán)節(jié)共同組成,其中信息采集環(huán)節(jié)為后續(xù)的分析、表達提供必要的數(shù)據(jù)原材料,其工作機理類似于傳統(tǒng)的“網(wǎng)絡機器人”,以某一個頁面為起始頁,遞歸獲取網(wǎng)頁主體內(nèi)容,及其內(nèi)嵌超鏈接所指向的網(wǎng)絡文件數(shù)據(jù),文中主要研究其中的JavaScript動態(tài)頁面解析技術。-l論文工作對象與研究現(xiàn)狀.1.1動態(tài)頁面根據(jù)網(wǎng)頁中是否含有瀏覽器執(zhí)行腳本,將網(wǎng)頁分為靜態(tài)頁面和動態(tài)頁面。靜態(tài)頁面的主體內(nèi)容及其內(nèi)部包含的超鏈接網(wǎng)絡地址分別以文本
7、信息和唯一資源標識符(u也)的方式直接嵌入頁面源文件的HTML標記(Tag)中??梢允褂脗鹘y(tǒng)的HTML標記識別的方法[2】,實現(xiàn)頁面主體內(nèi)容與其所含超鏈接網(wǎng)絡地址的提取功能。然而,動態(tài)頁面中除了包含少量靜態(tài)URL外,還含有大量必須通過瀏覽器執(zhí)行腳本才能得到的超鏈接網(wǎng)絡地址和網(wǎng)頁主體內(nèi)容【31。舉例如下:萬方數(shù)據(jù)·2·計算機技術與發(fā)展第18卷例1,在瀏覽器中打開網(wǎng)頁http://work.cat898.oomA