開放存取期刊網(wǎng)站結(jié)構(gòu)和頁(yè)面分類研究

開放存取期刊網(wǎng)站結(jié)構(gòu)和頁(yè)面分類研究

ID:33598032

大小:361.88 KB

頁(yè)數(shù):5頁(yè)

時(shí)間:2019-02-27

開放存取期刊網(wǎng)站結(jié)構(gòu)和頁(yè)面分類研究_第1頁(yè)
開放存取期刊網(wǎng)站結(jié)構(gòu)和頁(yè)面分類研究_第2頁(yè)
開放存取期刊網(wǎng)站結(jié)構(gòu)和頁(yè)面分類研究_第3頁(yè)
開放存取期刊網(wǎng)站結(jié)構(gòu)和頁(yè)面分類研究_第4頁(yè)
開放存取期刊網(wǎng)站結(jié)構(gòu)和頁(yè)面分類研究_第5頁(yè)
資源描述:

《開放存取期刊網(wǎng)站結(jié)構(gòu)和頁(yè)面分類研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)

1、第簇2oo9年7月期JOUR情NALO報(bào)FINT雜ELLI志GENCEVJ0u】.l2y820N0O9.7·信息技術(shù)·開放存取期刊網(wǎng)站結(jié)構(gòu)和頁(yè)面分類研究*ResearchonWebsiteStructureandPageCategoryofOpenAccessJournals錢建立劉軍蘭張薇(空軍工程大學(xué)電訊工程學(xué)院西安710077)(陜西省科技信息研究所西安710054)摘要通過(guò)對(duì)國(guó)內(nèi)外20種期刊網(wǎng)站結(jié)構(gòu)和頁(yè)面內(nèi)容的分析,總結(jié)出期刊網(wǎng)站的Surface、聚類、樹形、干擾4種特性,把期刊網(wǎng)站頁(yè)面分為卷期索引、期目錄、論文元數(shù)據(jù)、全文4類頁(yè)面,分析了不同頁(yè)面種類之間的組合

2、變化,提出了基于頁(yè)面分類的0A主題蜘蛛設(shè)計(jì)方案。關(guān)鍵詞開放存取網(wǎng)站結(jié)構(gòu)頁(yè)面分類主題蜘蛛中圖分類號(hào)G352.1文獻(xiàn)標(biāo)識(shí)碼1A文章編號(hào)1002—1965[2009}07~0137一o4目前關(guān)于網(wǎng)站頁(yè)面分類研究主要集中于自動(dòng)通用1前言分類方法的研究【1-6],而對(duì)專用領(lǐng)域網(wǎng)站結(jié)構(gòu)和頁(yè)面目前開放存取(OpenAccess,簡(jiǎn)稱為OA)的主要來(lái)分類的研究成果則不多見,文獻(xiàn)[7]對(duì)Blog的頁(yè)面進(jìn)源包括:OA源期刊網(wǎng)站、OA機(jī)構(gòu)倉(cāng)儲(chǔ)(Institutional行了分類,對(duì)Blog社區(qū)進(jìn)行規(guī)律性研究和發(fā)現(xiàn)等,針Repositories,簡(jiǎn)稱IR)、學(xué)科或?qū)I(yè)倉(cāng)儲(chǔ)(Subject/Di

3、sci.對(duì)Blog網(wǎng)頁(yè)的特點(diǎn)與規(guī)律,提出一種根據(jù)網(wǎng)頁(yè)結(jié)構(gòu)和plineArchive)、單位倉(cāng)儲(chǔ)(OrganizationArchive)和作者關(guān)鍵字計(jì)算相似度的方法識(shí)別Blog網(wǎng)頁(yè)。文獻(xiàn)[8]針個(gè)人自存檔。OA發(fā)展的高級(jí)階段就是OA集成倉(cāng)儲(chǔ)對(duì)如何把面向桌面計(jì)算機(jī)的網(wǎng)頁(yè)直接轉(zhuǎn)換為面向手機(jī)的出現(xiàn)。OA集成倉(cāng)儲(chǔ)的關(guān)鍵技術(shù)是用來(lái)爬取OA文等移動(dòng)設(shè)備顯示的網(wǎng)頁(yè)的應(yīng)用,提出了頁(yè)面劃分、自動(dòng)獻(xiàn)的OA主題蜘蛛(也簡(jiǎn)稱為OA蜘蛛)。目前的主題定位等技術(shù)。本文通過(guò)對(duì)20種典型開放存取相關(guān)期蜘蛛都是建立在相關(guān)度基礎(chǔ)上的,這樣就造成一個(gè)事刊網(wǎng)站的結(jié)構(gòu)和頁(yè)面進(jìn)行抽象、統(tǒng)計(jì)、分析、歸納,進(jìn)而實(shí):主

4、題蜘蛛工作目標(biāo)的不確定性,也就是說(shuō)蜘蛛工作總結(jié)出文獻(xiàn)類網(wǎng)站的結(jié)構(gòu)和頁(yè)面分類,為OA蜘蛛工之前不知道要取哪些頁(yè)面,只是根據(jù)蜘蛛搜索算法作奠定基礎(chǔ)。和相關(guān)度算法去工作,收集到的頁(yè)面就是最后的結(jié)果。2期刊網(wǎng)站樣刊選擇但是并不是所有的主題蜘蛛對(duì)未來(lái)的結(jié)果渾然不知,如OA主題蜘蛛在工作之前就知道未來(lái)結(jié)果的范圍,遴選了20家期刊網(wǎng)站進(jìn)行分析,這些期刊大多是因?yàn)镺A蜘蛛的目標(biāo)是收集所有論文中的OA論文,而OA期刊,考慮到OA將來(lái)的發(fā)展,也選取了少量目前所有論文的數(shù)據(jù)源及集合元素是可數(shù)的、確定的。不是OA期刊的網(wǎng)站。表1給出了選擇的20種期刊OA主題蜘蛛的衡量指標(biāo)主要是爬全率、效率、對(duì)

5、的主要屬性。源網(wǎng)站造成的負(fù)擔(dān),更注重系統(tǒng)性和時(shí)效性。系統(tǒng)性期刊遴選的原則包括:a.兼顧國(guó)內(nèi)外期刊。b.兼表現(xiàn)在兩個(gè)方面:a.要包括盡可能多的OA數(shù)據(jù)庫(kù);b.顧不同的語(yǔ)種。C.兼顧不同的收錄數(shù)據(jù)庫(kù),如El、SCI要收集每個(gè)OA數(shù)據(jù)庫(kù)中所有的OA文獻(xiàn)。所謂時(shí)效收錄期刊、中文核心期刊、中國(guó)科技核心期刊、普通期性就是當(dāng)沒(méi)掛OA數(shù)據(jù)庫(kù)有新的OA文獻(xiàn)時(shí)要能及時(shí)刊。d.兼顧不同的出版集團(tuán),選擇了Springer、Elsevier、發(fā)現(xiàn)。簽于OA主題蜘蛛目標(biāo)的特殊性,通用主題蜘Nature、Taylor&Francis、1EEE的期刊。e.兼顧不同學(xué)蛛的工作機(jī)制就不能應(yīng)用于OA主題蜘蛛

6、。需要對(duì)OA科。f.兼顧不同的網(wǎng)站結(jié)構(gòu),有的期刊網(wǎng)站只有一種源網(wǎng)站結(jié)構(gòu)和頁(yè)面進(jìn)行分類,進(jìn)而設(shè)計(jì)出針對(duì)性工作期刊,有的網(wǎng)站包括了多個(gè)期刊。g.兼顧期刊網(wǎng)站開機(jī)制。發(fā)單位。國(guó)內(nèi)期刊網(wǎng)站目前大多采用三才、馬格泰克、收稿日期:2009—04一l6修回日期:2009—05—05基金項(xiàng)目:陜西省科學(xué)技術(shù)研究發(fā)展計(jì)劃項(xiàng)目“科技論文開放獲取搜索5l擎研究”(編號(hào):2007K04—11j。作者簡(jiǎn)介:錢建立,男,1964年生,博士,副教授,研究方向?yàn)镺A搜索引擎和數(shù)據(jù)挖掘;劉軍蘭,女,講師;張薇,女,研究員?!?38·情報(bào)雜志第28卷勤云等公司提供的系統(tǒng),少數(shù)網(wǎng)站為雜志社自行開發(fā);刊網(wǎng)站的

7、頁(yè)面結(jié)構(gòu)分析,發(fā)現(xiàn)期刊論文網(wǎng)站頁(yè)面可以國(guó)外則采用ScholarOne公司的系統(tǒng),一些大的出版集分為索引頁(yè)面、期目錄頁(yè)面、論文元數(shù)據(jù)頁(yè)面和全文頁(yè)團(tuán)則是自己開發(fā)。面等4類形式。期刊選擇無(wú)傾向性。在隨機(jī)選擇期刊后,不能再4.1.1索引頁(yè)面。行剔除。定義1:索引頁(yè)面就是包括期刊出版年度和期數(shù)表1選取期刊站點(diǎn)的屬性的頁(yè)面。說(shuō)明:索引頁(yè)面不一定僅僅包括年度和期數(shù)相關(guān)內(nèi)容。索引頁(yè)面又分為年度索引和期索引頁(yè)面。定義2:年度(卷)索引頁(yè)面就是包括期刊出版年度(卷)的頁(yè)面。定義3:期索引頁(yè)面就是包括某個(gè)出版年度內(nèi)所有出版期數(shù)列表的索引頁(yè)面。關(guān)于年度索引和期數(shù)

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。