聚類技術(shù)在web服務(wù)中的應(yīng)用研究

聚類技術(shù)在web服務(wù)中的應(yīng)用研究

ID:28245899

大?。?7.89 KB

頁數(shù):5頁

時間:2018-12-08

聚類技術(shù)在web服務(wù)中的應(yīng)用研究_第1頁
聚類技術(shù)在web服務(wù)中的應(yīng)用研究_第2頁
聚類技術(shù)在web服務(wù)中的應(yīng)用研究_第3頁
聚類技術(shù)在web服務(wù)中的應(yīng)用研究_第4頁
聚類技術(shù)在web服務(wù)中的應(yīng)用研究_第5頁
資源描述:

《聚類技術(shù)在web服務(wù)中的應(yīng)用研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫

1、為了確?!敖虒W(xué)點數(shù)字教育資源全覆蓋”項目設(shè)備正常使用,我校做到安裝、教師培訓(xùn)同步進行。設(shè)備安裝到位后,中心校組織各學(xué)點管理人員統(tǒng)一到縣教師進修學(xué)校進行培訓(xùn),熟悉系統(tǒng)的使用和維護。聚類技術(shù)在Web服務(wù)中的應(yīng)用研究  摘要:通過對ProgrammableWeb在線社區(qū)進行研究,發(fā)現(xiàn)網(wǎng)站上的API服務(wù)數(shù)量龐大且含有豐富的數(shù)據(jù)信息。討論了網(wǎng)頁采集、數(shù)據(jù)預(yù)處理等相關(guān)技術(shù),利用K-Means和凝聚層次聚類技術(shù)在API服務(wù)數(shù)據(jù)集上進行實驗,實驗結(jié)果表明,K-Means算法具有更好的聚類效果?! £P(guān)鍵詞:聚類;Web服務(wù);K-Means;AP

2、I服務(wù)數(shù)據(jù)  DOIDOI:/  中圖分類號:TP319  文獻標(biāo)識碼:A文章編號:1672--0149-03  0引言  隨著技術(shù)的飛速發(fā)展,Mashup和API服務(wù)在Web開發(fā)者社區(qū)廣為流行,并應(yīng)用在許多開放的Web網(wǎng)站中。企業(yè)Web應(yīng)用中Mashup與其它應(yīng)用區(qū)別很大,常常不能重復(fù)使用或者沒有WebAPI,人們不得不為這些應(yīng)用去創(chuàng)建大量WebAPI。每天涌現(xiàn)的大量API服務(wù)需要一個平臺來瀏覽[1]。一些在線平臺,例如雅虎、等都允許用戶發(fā)布各種API服務(wù),一些非專業(yè)人士也能通過組合WebAPI服務(wù)或其它Web資源創(chuàng)建新的W

3、eb頁面。ProgrammableWeb現(xiàn)在很流行,吸引了研究者的關(guān)注,推動了社區(qū)用戶行為的研究[2]。目前網(wǎng)站已經(jīng)有6730個Mashup和6為了充分發(fā)揮“教學(xué)點數(shù)字教育資源全覆蓋”項目設(shè)備的作用,我們不僅把資源運用于課堂教學(xué),還利用系統(tǒng)的特色欄目開展課外活動,對學(xué)生進行安全教育、健康教育、反邪教教育等豐富學(xué)生的課余文化生活。為了確保“教學(xué)點數(shù)字教育資源全覆蓋”項目設(shè)備正常使用,我校做到安裝、教師培訓(xùn)同步進行。設(shè)備安裝到位后,中心校組織各學(xué)點管理人員統(tǒng)一到縣教師進修學(xué)校進行培訓(xùn),熟悉系統(tǒng)的使用和維護。783個開放的API服務(wù)

4、,開發(fā)者不用測試就能將API服務(wù)結(jié)合起來。和傳統(tǒng)的Web開發(fā)相比,Mashup越來越簡單和流行,因為開發(fā)者不用測試和移植內(nèi)部的Web應(yīng)用就能使用這些數(shù)據(jù),非技術(shù)人員也能通過在線社區(qū)快速集成已有的應(yīng)用。  1API服務(wù)聚類  描述相似性  API服務(wù)經(jīng)過文檔預(yù)處理[3]后,使用詞語向量集表示。向量之間的相似性表示兩個文本之間的相似性,可用向量之間的夾角余弦值表示,也叫作余弦相似性,這是目前在信息檢索和聚類方法中度量文本相似性的最常用方法。設(shè)定文檔ta→和tb→,文檔間的余弦相似性計算公式如下:  ta→和tb→是詞集T={t1,

5、...,tm}上的m維向量,每一維都代表一個?~在文檔中的權(quán)重,且為非負(fù),余弦相似度非負(fù)并且屬于[0,1]。  標(biāo)簽相似性  API服務(wù)的標(biāo)注數(shù)據(jù)能起到描述API服務(wù)或是提供文本或語義信息的作用。本文根據(jù)標(biāo)注數(shù)據(jù)的相似性,提出了改進API服務(wù)聚類性能的方法。給定一個包含3個標(biāo)簽t1,t2,t3的API服務(wù),si的標(biāo)簽集Ti={t1,t2,t3}。通過Jaccard系數(shù)方法計算標(biāo)簽之間的相似性:  Simtag=

6、Ti∩Tj

7、

8、Ti∪Tj

9、其中

10、Ti∩Tj

11、是同時標(biāo)注和標(biāo)簽數(shù)目,

12、Ti∪Tj

13、是Ti和Tj的并集。為了充分發(fā)揮“教

14、學(xué)點數(shù)字教育資源全覆蓋”項目設(shè)備的作用,我們不僅把資源運用于課堂教學(xué),還利用系統(tǒng)的特色欄目開展課外活動,對學(xué)生進行安全教育、健康教育、反邪教教育等豐富學(xué)生的課余文化生活。為了確?!敖虒W(xué)點數(shù)字教育資源全覆蓋”項目設(shè)備正常使用,我校做到安裝、教師培訓(xùn)同步進行。設(shè)備安裝到位后,中心校組織各學(xué)點管理人員統(tǒng)一到縣教師進修學(xué)校進行培訓(xùn),熟悉系統(tǒng)的使用和維護。  根據(jù)以上公式,API服務(wù)si和sj的相似性sim計算如下:  sim=βsimdes+simtag其中,β是描述層相似性權(quán)值,1-β是標(biāo)簽層相似性權(quán)值,simdes是描述層相似性,

15、simtag是標(biāo)簽層相似性,β取值范圍是[0,1],如果兩個服務(wù)的描述和標(biāo)簽相同即是1,如果兩個服務(wù)的描述和標(biāo)簽完全不同則是0。  2聚類算法  K-Means聚類算法  K-Means是數(shù)據(jù)挖掘中的經(jīng)典聚類算法[4],在做大型數(shù)據(jù)集聚類時廣泛使用。基本的K-Means算法中,每一次迭代計算每個數(shù)據(jù)集合對象到K個聚類中心的距離?! -Means算法步驟如下:①從數(shù)據(jù)集D中,隨機抽取其中的k個對象作為初始聚類中心;②計算每個數(shù)據(jù)對象di和所有k個聚類中心cj的歐式距離d,并將數(shù)據(jù)對象di放到最近的聚類中;③對每個數(shù)據(jù)對象di找

16、到最近的聚類中心cj,同時將di的值賦給聚類中心j;④將數(shù)據(jù)對象di所在的聚類中心標(biāo)記以及存儲數(shù)據(jù)對象di和最近的聚類之間的距離分別存儲在數(shù)組Cluster[]和Dist[]中,設(shè)Cluster[i]=j,為了充分發(fā)揮“教學(xué)點數(shù)字教育資源全覆蓋”項目設(shè)備的作用,我們不僅把資源

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。