基于Rhino的JavaScript動態(tài)頁面解析研究與實現

基于Rhino的JavaScript動態(tài)頁面解析研究與實現

ID:36648317

大小:466.88 KB

頁數:6頁

時間:2019-05-13

基于Rhino的JavaScript動態(tài)頁面解析研究與實現_第1頁
基于Rhino的JavaScript動態(tài)頁面解析研究與實現_第2頁
基于Rhino的JavaScript動態(tài)頁面解析研究與實現_第3頁
基于Rhino的JavaScript動態(tài)頁面解析研究與實現_第4頁
基于Rhino的JavaScript動態(tài)頁面解析研究與實現_第5頁
資源描述:

《基于Rhino的JavaScript動態(tài)頁面解析研究與實現》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。

1、萬方數據第18卷.第.2期20(J8年2月計算機技術與發(fā)展V01.18№,.2COMPUTERTECHN【)L(X;YANDDFvEl』)PM哐NTFeb.2008基于Rhino的JavaScript動態(tài)頁面解析研究與實現.金曉鷗,鐘寶燕,李翔(上海交通大學信息安全工程學院,上海200240)摘要:面對互聯網上占據全國頁面總數50%以上的動態(tài)頁面,當前網絡輿情管控工作中的信息采集環(huán)節(jié)對以動態(tài)頁面為主要發(fā)布形態(tài)的互聯網媒體無法實現信息獲取。鑒于此,文中提出了基于Rhino實現Java.Script動態(tài)頁面解析的整體方案。實驗結果表明該方案充分豐富了互聯網輿情管控工作的數據源對象,是實現動態(tài)頁面

2、內超鏈接網絡地址遞歸獲取和網頁主體內容提取行之有效的解決方案。關鍵詞:腳本解釋引擎Itlli∞;J∽&S砷t動態(tài)頁面;動態(tài)頁面解析中圖分類號:1甲393文獻標識碼:A文章編號:1673—629X(2008)02—0001—04ResearchandimplementationofInterpretingJavaScriptDynamicWebPageBasedonRhinoEngineJINXiao--ou,ZHONGBao-yan,LIXiang(InformationSecurityEngineeringSchoolofShanghaiJiaotongUniversity,shangha

3、i200240,Claim)Al鼬-act:DymmieWeb陴holdsrI班than50%ofthetotalWebpagesha∞刪1t”訂de;kw榭,theinforrmtioneolhetorofcm'rentnetworkpubicoptnhmmitork堰毋姍l啪notgettheirdornⅪtionofIntemetmeditmawhich唧dymn_licWebiⅪlgeasitsmainoonotentdistributionform.Thereby,thereisa8ehl,tleforinterpretingJavaScriptdymmicWebpageby嘣fl

4、gRhino嘶pttsentedinthispaper.Provedbytheexits,this∞h眥is鋤effectiveonefor日【t瑚雌i颼theh州inknetworkaddresses“‘,ontentofayn甜licW西pa群andithas∞一chedthevmrkdam姒ofnetworkpublicopinionmonitoring.K鱷woods:Rhinoscript吣hae;JavaScriptd]m戚cWebpage;interpret由咖cWeb孵O引言中國互聯網絡信息中心(D州IC)2007年1月23日發(fā)布的<第19次中國互聯網絡發(fā)展狀況統計報告)tl

5、】顯示,截至2006年底我國網民人數達到了1.37億,占全國人口總數的10.5%。在充分享受信息時代給予學習工作、休閑娛樂帶來巨大便利的同時,還要充分認識到互聯網對于社會輿論和大眾文化潛在的影響與威脅。如何對互聯網發(fā)布、傳輸和瀏覽的內容進行有效的監(jiān)督、管理和引導是我國推進現代化建設,營造和諧社會的重要課題之一。目前,互聯網輿情管控工作旨在通過采集、分析和表達互聯網媒體發(fā)布內容。為網絡監(jiān)管部門提供輿情管控參考依據。輿情管控工作主要由信息采集、內容收穰日期:2007一05一03基金項目:國家自然科學基金項目(60502032。60402019);上海市科委項目(06Sll5020);教育部新世紀

6、優(yōu)秀人才支持計劃項目(NCEl’一06—0393)作者簡介:金曉鷗(1983一),女。浙江永嘉人.碩士研究生.研究方向為互聯網內容安全;李翔,剮教授,研究方向為網絡內容安全。分析和結果呈現三大環(huán)節(jié)共同組成,其中信息采集環(huán)節(jié)為后續(xù)的分析、表達提供必要的數據原材料,其工作機理類似于傳統的“網絡機器人”,以某一個頁面為起始頁,遞歸獲取網頁主體內容,及其內嵌超鏈接所指向的網絡文件數據,文中主要研究其中的JavaScript動態(tài)頁面解析技術。-l論文工作對象與研究現狀.1.1動態(tài)頁面根據網頁中是否含有瀏覽器執(zhí)行腳本,將網頁分為靜態(tài)頁面和動態(tài)頁面。靜態(tài)頁面的主體內容及其內部包含的超鏈接網絡地址分別以文本

7、信息和唯一資源標識符(u也)的方式直接嵌入頁面源文件的HTML標記(Tag)中??梢允褂脗鹘y的HTML標記識別的方法[2】,實現頁面主體內容與其所含超鏈接網絡地址的提取功能。然而,動態(tài)頁面中除了包含少量靜態(tài)URL外,還含有大量必須通過瀏覽器執(zhí)行腳本才能得到的超鏈接網絡地址和網頁主體內容【31。舉例如下:萬方數據·2·計算機技術與發(fā)展第18卷例1,在瀏覽器中打開網頁http://work.cat898.oomA

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯系客服處理。