資源描述:
《中文blog網(wǎng)頁(yè)識(shí)別與內(nèi)容抽取研究》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、工學(xué)碩士學(xué)位論文中文Blog網(wǎng)頁(yè)識(shí)別和內(nèi)容抽取研究張迪哈爾濱工業(yè)大學(xué)2007年7月國(guó)內(nèi)圖書(shū)分類(lèi)號(hào):TP391.2國(guó)際圖書(shū)分類(lèi)號(hào):681.37工學(xué)碩士學(xué)位論文中文Blog網(wǎng)頁(yè)識(shí)別與內(nèi)容抽取研究碩士研究生:張迪導(dǎo)師:李生教授申請(qǐng)學(xué)位:工學(xué)碩士學(xué)科、專(zhuān)業(yè):計(jì)算機(jī)科學(xué)與技術(shù)所在單位:計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院答辯日期:2007年7月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)ClassifiedIndex:TP391.2U.D.C.:681.37ADissertationfortheDegreeofM.Eng.RESEARCHONCHINESEBLOGPAGESRECOGNI
2、TIONANDCONTENTEXTRACTIONCandidate:ZhangDiSupervisor:Prof.LiShengAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScienceandTechnologySchoolofComputerScienceandAffiliation:TechnologyDateofDefence:July,2007Degree-Conferring-Institution:HarbinInstituteofTechnology哈爾
3、濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文摘要Blog作為一種全新的網(wǎng)絡(luò)信息發(fā)布模式,已經(jīng)深入到每一個(gè)網(wǎng)絡(luò)用戶(hù)的生活中。它提供了一種個(gè)人信息的發(fā)布、交流和溝通的平臺(tái)。Blog的迅速發(fā)展已經(jīng)構(gòu)成了一個(gè)巨大的網(wǎng)絡(luò)資源,如何從這個(gè)大規(guī)模的數(shù)據(jù)資源中挖掘出有價(jià)值的信息變得刻不容緩。本文的研究就是基于這樣的背景產(chǎn)生的。本文將對(duì)Blog這一強(qiáng)大的發(fā)布模式做深入的探討和研究。本文通過(guò)比較Blog網(wǎng)頁(yè)和普通Web頁(yè)面,提取Blog網(wǎng)頁(yè)的特征,從網(wǎng)絡(luò)爬行器下載得到的網(wǎng)頁(yè)識(shí)別出Blog網(wǎng)頁(yè)來(lái),并對(duì)Blog網(wǎng)頁(yè)相關(guān)內(nèi)容進(jìn)行抽取。本文首先從普通Web網(wǎng)頁(yè)的特點(diǎn)開(kāi)始分析,然后過(guò)渡到Blo
4、g網(wǎng)頁(yè)的特點(diǎn)分析,比較Blog網(wǎng)頁(yè)區(qū)別與普通Web網(wǎng)頁(yè)的特點(diǎn),根據(jù)這些特點(diǎn)識(shí)別出Blog網(wǎng)頁(yè)。本文在長(zhǎng)期深入觀察、統(tǒng)計(jì)和分析Blog網(wǎng)頁(yè)的基礎(chǔ)上,提出了一些基礎(chǔ)性的定義,基于這些定義和概念對(duì)Blog做了深入的闡述。首次提出了Blog網(wǎng)頁(yè)的分類(lèi)方法,即廣義Blog網(wǎng)頁(yè)和狹義Blog網(wǎng)頁(yè)分類(lèi)方法。提出了一種識(shí)別廣義Blog網(wǎng)頁(yè)的方法,并得到了很好的實(shí)驗(yàn)效果。在廣義Blog網(wǎng)頁(yè)識(shí)別得到良好效果的前提下,進(jìn)行了去除Blog導(dǎo)航網(wǎng)頁(yè)的實(shí)驗(yàn),對(duì)已有方法進(jìn)行了比較和分析,并提出了新的方法。針對(duì)Blog空間的數(shù)據(jù)挖掘需要Blog的正文日志內(nèi)容、評(píng)論等關(guān)鍵信息和統(tǒng)
5、計(jì)信息作為依據(jù)。本文以數(shù)十個(gè)大型中文Blog網(wǎng)站為來(lái)源,對(duì)Blog的關(guān)鍵內(nèi)容進(jìn)行了抽取,實(shí)驗(yàn)結(jié)果顯示,效果良好。本文的研究成果在于對(duì)Blog網(wǎng)頁(yè)進(jìn)行深入的分析。提出了Blog網(wǎng)頁(yè)分類(lèi)方法,并根據(jù)此方法做了相關(guān)實(shí)驗(yàn),得到較好的結(jié)果。完成相關(guān)系統(tǒng),實(shí)現(xiàn)了Blog網(wǎng)頁(yè)內(nèi)容的抽取,為Blog內(nèi)容挖掘做了良好的鋪墊工作。關(guān)鍵詞Blog;特征分析;網(wǎng)頁(yè)識(shí)別;內(nèi)容抽??;內(nèi)容挖掘--I哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文AbstractAsanewmodeofinformationdisseminationnetwork,Bloghasstepintothelives
6、ofnetworkusers.Itprovidesaplatformofinformationrelease,exchangeandcommunication.Astherapiddevelopmentofblog,itcreatedhugeresources,howtorecovervaluableinformationfromthelarge-scaledatawarehousebecomesimperative.Thispaperisreleasedforthestudyandresearchofthispowerfulmodel.Comp
7、aredwithordinarywebpages,weextractedthefeaturesofblogpages.Weidentifiedblogpagesfromthedownloadedpagesandextractedcontentfromthesepages.Thispaperstartsfromanalysisofthefeaturesofordinarywebpage,thenthefeaturesofblogpages.Bycomparingfeaturesofblogpageswithordinarywebpage,weide
8、ntifyblogpages.Basedonthelong-termobservation,statisticsandanalysiso