通用論壇正文提取算法 一、背景介紹

通用論壇正文提取算法 一、背景介紹

ID:33325350

大?。?23.95 KB

頁數(shù):6頁

時(shí)間:2019-02-24

通用論壇正文提取算法 一、背景介紹_第1頁
通用論壇正文提取算法 一、背景介紹_第2頁
通用論壇正文提取算法 一、背景介紹_第3頁
通用論壇正文提取算法 一、背景介紹_第4頁
通用論壇正文提取算法 一、背景介紹_第5頁
資源描述:

《通用論壇正文提取算法 一、背景介紹》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、通用論壇正文提取算法一、背景介紹在當(dāng)今的大數(shù)據(jù)時(shí)代里,伴隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的高速發(fā)展,人們產(chǎn)生的數(shù)據(jù)總量呈現(xiàn)急劇增長的趨勢,當(dāng)前大約每六個月互聯(lián)網(wǎng)中產(chǎn)生的數(shù)據(jù)總量就會翻一番?;ヂ?lián)網(wǎng)產(chǎn)生的海量數(shù)據(jù)中蘊(yùn)含著大量的信息,已成為政府和企業(yè)的一個重要數(shù)據(jù)來源,互聯(lián)網(wǎng)數(shù)據(jù)處理也已成為一個有重大需求的熱門行業(yè)。借助網(wǎng)絡(luò)爬蟲技術(shù),我們能夠快速從互聯(lián)網(wǎng)中獲取海量的公開網(wǎng)頁數(shù)據(jù),對這些數(shù)據(jù)進(jìn)行分析和挖掘,從中提取出有價(jià)值的信息,能幫助并指導(dǎo)我們進(jìn)行商業(yè)決策、輿論分析、社會調(diào)查、政策制定等工作。但是,大部分網(wǎng)頁數(shù)據(jù)是以半結(jié)構(gòu)化的數(shù)據(jù)格式呈現(xiàn)的,我們需要的信息在頁面上往往淹沒在大量的廣告、圖標(biāo)、鏈

2、接等“噪音”元素中。如何從網(wǎng)頁中有效提取所需要的信息,一直是互聯(lián)網(wǎng)數(shù)據(jù)處理行業(yè)關(guān)注的重點(diǎn)問題之一。網(wǎng)頁通常采用超級文本標(biāo)記語言(英文縮寫:HTML)來編寫,頁面上的不同元素如作者、主題、發(fā)布日期等出現(xiàn)在一對特定的標(biāo)記符之間。例如當(dāng)我們看到如下一個論壇網(wǎng)頁:圖1我們可以通過查看這個網(wǎng)頁的源代碼,查看到與之對應(yīng)的信息(1)標(biāo)題信息:圖2(2)題主信息:圖3(3)題主發(fā)帖內(nèi)容圖4(4)回帖信息圖5圖中的網(wǎng)頁源代碼就是超級文本標(biāo)記語言(HTML),關(guān)于超級文本標(biāo)記語言百度百科中是這樣描述的:超級文本標(biāo)記語言是標(biāo)準(zhǔn)通用標(biāo)記語言下的一個應(yīng)用,也是一種規(guī)范,一種標(biāo)準(zhǔn),它通過標(biāo)記符號來標(biāo)記要顯

3、示的網(wǎng)頁中的各個部分。網(wǎng)頁文件本身是一種文本文件,通過在文本文件中添加標(biāo)記符,可以告訴瀏覽器如何顯示其中的內(nèi)容(如:文字如何處理,畫面如何安排,圖片如何顯示等)。維基百科中對HTML語言的標(biāo)記、元素、屬性、數(shù)據(jù)類型等也有詳細(xì)的描述和樣例說明。對于給定的一個具體網(wǎng)頁,通常的做法是,人工分析這個網(wǎng)頁的源代碼,找到特定內(nèi)容對應(yīng)的標(biāo)簽,然后通過關(guān)鍵字匹配(例如標(biāo)簽匹配)的方法就可以從網(wǎng)頁源代碼中獲取到我們所關(guān)心的數(shù)據(jù),如下表所示:表1HTML標(biāo)簽與內(nèi)容的對應(yīng)標(biāo)題:題主:發(fā)帖內(nèi)容:

4、bs-contentclearfix">回帖信息:但是,不同網(wǎng)站甚至網(wǎng)頁所使用的網(wǎng)頁格式、網(wǎng)頁結(jié)構(gòu)和標(biāo)簽體系都可能是不一樣的,對于從互聯(lián)網(wǎng)中獲取的海量網(wǎng)頁的批量處理,如果還利用傳統(tǒng)的方法去對每個有差異的網(wǎng)頁逐一做人工分析,是不可行的。如何從這些存在差異的網(wǎng)頁中快速有效的提取所需信息,就成為互聯(lián)網(wǎng)數(shù)據(jù)處理中一個急需解決的問題。在傳統(tǒng)的網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)提取智能分析實(shí)踐中,已經(jīng)有很多開源的智能提取算法來分析新聞、文章類數(shù)據(jù),但是這些方法只適用于提取有大段文本的頁面結(jié)構(gòu)數(shù)據(jù)信息,如:網(wǎng)頁的作者(author)、標(biāo)題(title)、正文內(nèi)容(co

5、ntent)、發(fā)布時(shí)間(publish_date)。對于BBS論壇類的網(wǎng)頁,由于文本在網(wǎng)頁上相對分散,提取的字段更多,傳統(tǒng)的算法不再適用,需要重新設(shè)計(jì)通用提取算法,針對主題帖(post)和回帖(reply)進(jìn)行有效地分析提取。本賽題是針對當(dāng)前互聯(lián)網(wǎng)數(shù)據(jù)處理行業(yè)的這一實(shí)際需求而提出,旨在研究如何高效、智能地從海量論壇網(wǎng)頁中自動地進(jìn)行內(nèi)容抽取,提煉出其中的有價(jià)值信息。請實(shí)現(xiàn)以下目標(biāo)對于任意BBS類型的網(wǎng)頁,獲取其HTML文本內(nèi)容,設(shè)計(jì)一個智能提取該頁面的主貼、所有回帖的算法。如下面的網(wǎng)頁截圖所示,提取主貼和回帖的區(qū)域,提取出相應(yīng)數(shù)據(jù)字段(只需要提取文本,圖片、視頻、音樂等媒體可以直

6、接忽略),并按規(guī)定的數(shù)據(jù)格式(Json格式)存儲。圖6重要說明:1.Json數(shù)據(jù)字段說明:?post:主題帖?author:用戶名?title:標(biāo)題?content:帖子內(nèi)容?publish_date:帖子的發(fā)布日期,格式:yyyy-MM-dd?replys:該頁的回帖列表?每條回帖的主要字段同post,若回帖無title字段,可為空2.算法要求:?算法必須具有通用性,必須支持互聯(lián)網(wǎng)的任意類型BBS網(wǎng)站,不得只針對附件所給的樣例網(wǎng)站、或特定類型的開源論壇(例如discuz、phpwind)數(shù)據(jù)樣例1.樣例輸入數(shù)據(jù)格式:(每行一條論壇的內(nèi)容頁的url)http://bbs.tia

7、nya.cn/post-stocks-1841155-1.shtml(包含主貼的url)http://bbs.tianya.cn/post-stocks-1841155-3.shtml(不包含主貼的url)2.樣例輸出數(shù)據(jù)格式(必須按如下格式提交結(jié)果):每行數(shù)據(jù)有{原始url}t{提取結(jié)果的json字符串},表示某一個html頁面(url)提取出來的數(shù)據(jù),示例數(shù)據(jù)格式:http://x.heshuicun.com/forum.php?mod=viewthread&tid=80{"post"

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時(shí)可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。