通用論壇正文提取算法一、背景介紹

ID：33325350

大?。?23.95 KB

頁數(shù)：6頁

時(shí)間：2019-02-24

資源描述：

《通用論壇正文提取算法一、背景介紹》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、通用論壇正文提取算法一、背景介紹在當(dāng)今的大數(shù)據(jù)時(shí)代里，伴隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的高速發(fā)展，人們產(chǎn)生的數(shù)據(jù)總量呈現(xiàn)急劇增長的趨勢,當(dāng)前大約每六個月互聯(lián)網(wǎng)中產(chǎn)生的數(shù)據(jù)總量就會翻一番?；ヂ?lián)網(wǎng)產(chǎn)生的海量數(shù)據(jù)中蘊(yùn)含著大量的信息，已成為政府和企業(yè)的一個重要數(shù)據(jù)來源，互聯(lián)網(wǎng)數(shù)據(jù)處理也已成為一個有重大需求的熱門行業(yè)。借助網(wǎng)絡(luò)爬蟲技術(shù)，我們能夠快速從互聯(lián)網(wǎng)中獲取海量的公開網(wǎng)頁數(shù)據(jù)，對這些數(shù)據(jù)進(jìn)行分析和挖掘，從中提取出有價(jià)值的信息，能幫助并指導(dǎo)我們進(jìn)行商業(yè)決策、輿論分析、社會調(diào)查、政策制定等工作。但是，大部分網(wǎng)頁數(shù)據(jù)是以半結(jié)構(gòu)化的數(shù)據(jù)格式呈現(xiàn)的，我們需要的信息在頁面上往往淹沒在大量的廣告、圖標(biāo)、鏈

2、接等“噪音”元素中。如何從網(wǎng)頁中有效提取所需要的信息，一直是互聯(lián)網(wǎng)數(shù)據(jù)處理行業(yè)關(guān)注的重點(diǎn)問題之一。網(wǎng)頁通常采用超級文本標(biāo)記語言（英文縮寫：HTML）來編寫，頁面上的不同元素如作者、主題、發(fā)布日期等出現(xiàn)在一對特定的標(biāo)記符之間。例如當(dāng)我們看到如下一個論壇網(wǎng)頁：圖1我們可以通過查看這個網(wǎng)頁的源代碼，查看到與之對應(yīng)的信息（1）標(biāo)題信息：圖2（2）題主信息：圖3（3）題主發(fā)帖內(nèi)容圖4（4）回帖信息圖5圖中的網(wǎng)頁源代碼就是超級文本標(biāo)記語言（HTML），關(guān)于超級文本標(biāo)記語言百度百科中是這樣描述的：超級文本標(biāo)記語言是標(biāo)準(zhǔn)通用標(biāo)記語言下的一個應(yīng)用，也是一種規(guī)范，一種標(biāo)準(zhǔn)，它通過標(biāo)記符號來標(biāo)記要顯

3、示的網(wǎng)頁中的各個部分。網(wǎng)頁文件本身是一種文本文件，通過在文本文件中添加標(biāo)記符，可以告訴瀏覽器如何顯示其中的內(nèi)容（如：文字如何處理，畫面如何安排，圖片如何顯示等）。維基百科中對HTML語言的標(biāo)記、元素、屬性、數(shù)據(jù)類型等也有詳細(xì)的描述和樣例說明。對于給定的一個具體網(wǎng)頁，通常的做法是，人工分析這個網(wǎng)頁的源代碼，找到特定內(nèi)容對應(yīng)的標(biāo)簽，然后通過關(guān)鍵字匹配（例如標(biāo)簽匹配）的方法就可以從網(wǎng)頁源代碼中獲取到我們所關(guān)心的數(shù)據(jù)，如下表所示：表1HTML標(biāo)簽與內(nèi)容的對應(yīng)標(biāo)題：題主：發(fā)帖內(nèi)容：

4、bs-contentclearfix">回帖信息：但是，不同網(wǎng)站甚至網(wǎng)頁所使用的網(wǎng)頁格式、網(wǎng)頁結(jié)構(gòu)和標(biāo)簽體系都可能是不一樣的，對于從互聯(lián)網(wǎng)中獲取的海量網(wǎng)頁的批量處理，如果還利用傳統(tǒng)的方法去對每個有差異的網(wǎng)頁逐一做人工分析，是不可行的。如何從這些存在差異的網(wǎng)頁中快速有效的提取所需信息，就成為互聯(lián)網(wǎng)數(shù)據(jù)處理中一個急需解決的問題。在傳統(tǒng)的網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)提取智能分析實(shí)踐中，已經(jīng)有很多開源的智能提取算法來分析新聞、文章類數(shù)據(jù)，但是這些方法只適用于提取有大段文本的頁面結(jié)構(gòu)數(shù)據(jù)信息，如：網(wǎng)頁的作者(author)、標(biāo)題(title)、正文內(nèi)容(co

5、ntent)、發(fā)布時(shí)間(publish_date)。對于BBS論壇類的網(wǎng)頁，由于文本在網(wǎng)頁上相對分散，提取的字段更多，傳統(tǒng)的算法不再適用，需要重新設(shè)計(jì)通用提取算法，針對主題帖(post)和回帖(reply)進(jìn)行有效地分析提取。本賽題是針對當(dāng)前互聯(lián)網(wǎng)數(shù)據(jù)處理行業(yè)的這一實(shí)際需求而提出，旨在研究如何高效、智能地從海量論壇網(wǎng)頁中自動地進(jìn)行內(nèi)容抽取，提煉出其中的有價(jià)值信息。請實(shí)現(xiàn)以下目標(biāo)對于任意BBS類型的網(wǎng)頁，獲取其HTML文本內(nèi)容，設(shè)計(jì)一個智能提取該頁面的主貼、所有回帖的算法。如下面的網(wǎng)頁截圖所示，提取主貼和回帖的區(qū)域，提取出相應(yīng)數(shù)據(jù)字段（只需要提取文本，圖片、視頻、音樂等媒體可以直

6、接忽略），并按規(guī)定的數(shù)據(jù)格式（Json格式）存儲。圖6重要說明：1.Json數(shù)據(jù)字段說明：?post：主題帖?author：用戶名?title：標(biāo)題?content：帖子內(nèi)容?publish_date:帖子的發(fā)布日期，格式：yyyy-MM-dd?replys:該頁的回帖列表?每條回帖的主要字段同post,若回帖無title字段，可為空2.算法要求：?算法必須具有通用性，必須支持互聯(lián)網(wǎng)的任意類型BBS網(wǎng)站，不得只針對附件所給的樣例網(wǎng)站、或特定類型的開源論壇（例如discuz、phpwind）數(shù)據(jù)樣例1.樣例輸入數(shù)據(jù)格式：（每行一條論壇的內(nèi)容頁的url）http://bbs.tia

7、nya.cn/post-stocks-1841155-1.shtml(包含主貼的url)http://bbs.tianya.cn/post-stocks-1841155-3.shtml（不包含主貼的url）2.樣例輸出數(shù)據(jù)格式（必須按如下格式提交結(jié)果）：每行數(shù)據(jù)有{原始url}t{提取結(jié)果的json字符串}，表示某一個html頁面(url)提取出來的數(shù)據(jù)，示例數(shù)據(jù)格式：http://x.heshuicun.com/forum.php?mod=viewthread&tid=80{"post"

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 6



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時(shí)可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

通用論壇正文提取算法一、背景介紹

通用論壇正文提取算法一、背景介紹

相關(guān)文章

相關(guān)標(biāo)簽

通用論壇正文提取算法 一、背景介紹

通用論壇正文提取算法 一、背景介紹

相關(guān)文章

相關(guān)標(biāo)簽

通用論壇正文提取算法一、背景介紹

通用論壇正文提取算法一、背景介紹