.net分詞搜索程序說明書

.net分詞搜索程序說明書

ID:6137933

大?。?91.15 KB

頁數:15頁

時間:2018-01-04

.net分詞搜索程序說明書_第1頁
.net分詞搜索程序說明書_第2頁
.net分詞搜索程序說明書_第3頁
.net分詞搜索程序說明書_第4頁
.net分詞搜索程序說明書_第5頁
資源描述:

《.net分詞搜索程序說明書》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。

1、.Net分詞搜索程序說明書ShootSearch(開發(fā)代號:SpiderMan)說明書文件狀態(tài):[√]草稿[]正式發(fā)布[]正在修改文件標識:ShootSunStudio-SpiderMan-20070815當前版本:0.1作者:YinJun完成日期:未完成ShootSunStudio射日工作室http://www.shootsoft.netsupport@shootsoft.net源碼及文檔下載地址:http://www.51aspx.com/code/ShootSearch.Net分詞搜索程序說明書版本歷史版本/狀態(tài)作者參與者起止日期備注0.1尹君無2007/8

2、/152006/8/17源碼及文檔下載地址:http://www.51aspx.com/code/ShootSearch.Net分詞搜索程序說明書目錄0.文檔介紹40.1文檔目的40.2文檔范圍40.3讀者對象40.4參考文檔51.產品介紹62.產品面向的用戶群體63.產品應當遵循的標準或規(guī)范64.ShootSearch命名空間65.ShootSearch的使用75.1站內搜索75.2遠程采集9源碼及文檔下載地址:http://www.51aspx.com/code/ShootSearch.Net分詞搜索程序說明書0.文檔介紹本文檔主要介紹有關ShootSearc

3、h(開發(fā)代號:SpiderMan)的各組件類庫和如何使用ShootSearch來進行數據的采集和搜索。0.1文檔目的因為ShootSearch(開發(fā)代號:SpiderMan)并沒有一個比較系統(tǒng)的介紹,所以為了方便大家使用也為了規(guī)范以后的開發(fā),特編寫此文檔。因為0.2版在架構上出了點問題,所以0.2版不再做更多的更新了,我現在的工作主要放在0.3版的設計上了。目前已經確定的改進如下:1.已處理隊列不再使用.Net自帶的Hashtable,而改用BloomFilter;2.未處理隊列將變成兩個:A和B,A保持一定數量的Url,當A超出時向B內增加,當B滿后寫入磁盤…這

4、樣就可以保證處理更多的Url;3.Spider下載/Mirror處理兩個模塊將更好的配合,以便同時處理多個網站,這些網站可以使用相同規(guī)則,也可以對應不同的處理規(guī)則;4.改進索引線程的控制,使其更加靈活5.處理規(guī)則的改進,內存中不再創(chuàng)建DataTable,而是直接采用XmlDocument對象,這樣就能更加靈活的進行處理;6.傳遞對象—IndexItem的屬性將不限于Url,Title,Body等,可以使用自定義的屬性;0.2文檔范圍目前ShootSearch版本為0.2版,并沒有使用Ndoc之類的工具來生成完整的類庫說明之類的說明性文檔,同時因為ShootSear

5、ch正在開發(fā)中,所以并不推薦最終用戶的使用,因此在說明時可能會使用一些比較專業(yè)的詞匯,但文檔就此一份,不太好區(qū)分什么開發(fā)用戶,最終用戶之類的,有些地方的說明可能會比較的詳細以致讓部分用戶覺得有些煩瑣。0.3讀者對象.Net下面的搜索愛好者,程序開發(fā)人員,系統(tǒng)設計人員,最終用戶…源碼及文檔下載地址:http://www.51aspx.com/code/ShootSearch.Net分詞搜索程序說明書0.4參考文檔源碼及文檔下載地址:http://www.51aspx.com/code/ShootSearch.Net分詞搜索程序說明書1.產品介紹ShootSearch

6、的研發(fā)代號為:SpiderMan。你可以理解為蜘蛛俠,而我更愿意認為是管理蜘蛛的人:-)。因為ShootSearch的最初開發(fā)目的是希望能夠對HTTP,FTP,本地磁盤和網絡鄰居磁盤四種資源進行檢索。每種資源對應一種蜘蛛程序,而管理這些個蜘蛛的就可以成為管理蜘蛛的人了。用戶可以設定要檢索的網址,FTP服務器或是本地/網絡磁盤路徑,然后由ShootSearch來為這些資源做索引,方便搜索。2.產品面向的用戶群體目前ShootSearch還正在開發(fā)中,因此用戶主要是一些開源軟件的愛好者,有初級搜索需求的用戶。3.產品應當遵循的標準或規(guī)范ShootSearch是基于Lu

7、cene.Net(以前叫DotLucene)的開源搜索引擎,采用C#編碼,源碼開放,遵守GPL協(xié)議。有關協(xié)議的英文版請參考:http://www.gnu.org/copyleft/gpl.html中文版詳細情況請參考:http://www.emule.org.cn/about/gpl/4.SHOOTSEARCH命名空間ShootSearch命名空間如下所示:目錄/程序名類型用途說明ShootSearch.Spider類庫蜘蛛程序ShootSearch.Mirror類庫鏡像處理程序ShootSearch.Indexer類庫索引制作程序ShootSearch.Logg

8、er類庫日

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯系客服處理。