中文blog網(wǎng)頁(yè)識(shí)別與內(nèi)容抽取研究

中文blog網(wǎng)頁(yè)識(shí)別與內(nèi)容抽取研究

ID:35140058

大小:724.43 KB

頁(yè)數(shù):58頁(yè)

時(shí)間:2019-03-20

中文blog網(wǎng)頁(yè)識(shí)別與內(nèi)容抽取研究_第1頁(yè)
中文blog網(wǎng)頁(yè)識(shí)別與內(nèi)容抽取研究_第2頁(yè)
中文blog網(wǎng)頁(yè)識(shí)別與內(nèi)容抽取研究_第3頁(yè)
中文blog網(wǎng)頁(yè)識(shí)別與內(nèi)容抽取研究_第4頁(yè)
中文blog網(wǎng)頁(yè)識(shí)別與內(nèi)容抽取研究_第5頁(yè)
資源描述:

《中文blog網(wǎng)頁(yè)識(shí)別與內(nèi)容抽取研究》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、工學(xué)碩士學(xué)位論文中文Blog網(wǎng)頁(yè)識(shí)別和內(nèi)容抽取研究張迪哈爾濱工業(yè)大學(xué)2007年7月國(guó)內(nèi)圖書(shū)分類(lèi)號(hào):TP391.2國(guó)際圖書(shū)分類(lèi)號(hào):681.37工學(xué)碩士學(xué)位論文中文Blog網(wǎng)頁(yè)識(shí)別與內(nèi)容抽取研究碩士研究生:張迪導(dǎo)師:李生教授申請(qǐng)學(xué)位:工學(xué)碩士學(xué)科、專(zhuān)業(yè):計(jì)算機(jī)科學(xué)與技術(shù)所在單位:計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院答辯日期:2007年7月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)ClassifiedIndex:TP391.2U.D.C.:681.37ADissertationfortheDegreeofM.Eng.RESEARCHONCHINESEBLOGPAGESRECOGNI

2、TIONANDCONTENTEXTRACTIONCandidate:ZhangDiSupervisor:Prof.LiShengAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScienceandTechnologySchoolofComputerScienceandAffiliation:TechnologyDateofDefence:July,2007Degree-Conferring-Institution:HarbinInstituteofTechnology哈爾

3、濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文摘要Blog作為一種全新的網(wǎng)絡(luò)信息發(fā)布模式,已經(jīng)深入到每一個(gè)網(wǎng)絡(luò)用戶(hù)的生活中。它提供了一種個(gè)人信息的發(fā)布、交流和溝通的平臺(tái)。Blog的迅速發(fā)展已經(jīng)構(gòu)成了一個(gè)巨大的網(wǎng)絡(luò)資源,如何從這個(gè)大規(guī)模的數(shù)據(jù)資源中挖掘出有價(jià)值的信息變得刻不容緩。本文的研究就是基于這樣的背景產(chǎn)生的。本文將對(duì)Blog這一強(qiáng)大的發(fā)布模式做深入的探討和研究。本文通過(guò)比較Blog網(wǎng)頁(yè)和普通Web頁(yè)面,提取Blog網(wǎng)頁(yè)的特征,從網(wǎng)絡(luò)爬行器下載得到的網(wǎng)頁(yè)識(shí)別出Blog網(wǎng)頁(yè)來(lái),并對(duì)Blog網(wǎng)頁(yè)相關(guān)內(nèi)容進(jìn)行抽取。本文首先從普通Web網(wǎng)頁(yè)的特點(diǎn)開(kāi)始分析,然后過(guò)渡到Blo

4、g網(wǎng)頁(yè)的特點(diǎn)分析,比較Blog網(wǎng)頁(yè)區(qū)別與普通Web網(wǎng)頁(yè)的特點(diǎn),根據(jù)這些特點(diǎn)識(shí)別出Blog網(wǎng)頁(yè)。本文在長(zhǎng)期深入觀察、統(tǒng)計(jì)和分析Blog網(wǎng)頁(yè)的基礎(chǔ)上,提出了一些基礎(chǔ)性的定義,基于這些定義和概念對(duì)Blog做了深入的闡述。首次提出了Blog網(wǎng)頁(yè)的分類(lèi)方法,即廣義Blog網(wǎng)頁(yè)和狹義Blog網(wǎng)頁(yè)分類(lèi)方法。提出了一種識(shí)別廣義Blog網(wǎng)頁(yè)的方法,并得到了很好的實(shí)驗(yàn)效果。在廣義Blog網(wǎng)頁(yè)識(shí)別得到良好效果的前提下,進(jìn)行了去除Blog導(dǎo)航網(wǎng)頁(yè)的實(shí)驗(yàn),對(duì)已有方法進(jìn)行了比較和分析,并提出了新的方法。針對(duì)Blog空間的數(shù)據(jù)挖掘需要Blog的正文日志內(nèi)容、評(píng)論等關(guān)鍵信息和統(tǒng)

5、計(jì)信息作為依據(jù)。本文以數(shù)十個(gè)大型中文Blog網(wǎng)站為來(lái)源,對(duì)Blog的關(guān)鍵內(nèi)容進(jìn)行了抽取,實(shí)驗(yàn)結(jié)果顯示,效果良好。本文的研究成果在于對(duì)Blog網(wǎng)頁(yè)進(jìn)行深入的分析。提出了Blog網(wǎng)頁(yè)分類(lèi)方法,并根據(jù)此方法做了相關(guān)實(shí)驗(yàn),得到較好的結(jié)果。完成相關(guān)系統(tǒng),實(shí)現(xiàn)了Blog網(wǎng)頁(yè)內(nèi)容的抽取,為Blog內(nèi)容挖掘做了良好的鋪墊工作。關(guān)鍵詞Blog;特征分析;網(wǎng)頁(yè)識(shí)別;內(nèi)容抽??;內(nèi)容挖掘--I哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文AbstractAsanewmodeofinformationdisseminationnetwork,Bloghasstepintothelives

6、ofnetworkusers.Itprovidesaplatformofinformationrelease,exchangeandcommunication.Astherapiddevelopmentofblog,itcreatedhugeresources,howtorecovervaluableinformationfromthelarge-scaledatawarehousebecomesimperative.Thispaperisreleasedforthestudyandresearchofthispowerfulmodel.Comp

7、aredwithordinarywebpages,weextractedthefeaturesofblogpages.Weidentifiedblogpagesfromthedownloadedpagesandextractedcontentfromthesepages.Thispaperstartsfromanalysisofthefeaturesofordinarywebpage,thenthefeaturesofblogpages.Bycomparingfeaturesofblogpageswithordinarywebpage,weide

8、ntifyblogpages.Basedonthelong-termobservation,statisticsandanalysiso

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。