資源描述:
《聚類技術(shù)在web服務(wù)中的應(yīng)用研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、為了確?!敖虒W(xué)點數(shù)字教育資源全覆蓋”項目設(shè)備正常使用,我校做到安裝、教師培訓(xùn)同步進行。設(shè)備安裝到位后,中心校組織各學(xué)點管理人員統(tǒng)一到縣教師進修學(xué)校進行培訓(xùn),熟悉系統(tǒng)的使用和維護。聚類技術(shù)在Web服務(wù)中的應(yīng)用研究 摘要:通過對ProgrammableWeb在線社區(qū)進行研究,發(fā)現(xiàn)網(wǎng)站上的API服務(wù)數(shù)量龐大且含有豐富的數(shù)據(jù)信息。討論了網(wǎng)頁采集、數(shù)據(jù)預(yù)處理等相關(guān)技術(shù),利用K-Means和凝聚層次聚類技術(shù)在API服務(wù)數(shù)據(jù)集上進行實驗,實驗結(jié)果表明,K-Means算法具有更好的聚類效果?! £P(guān)鍵詞:聚類;Web服務(wù);K-Means;AP
2、I服務(wù)數(shù)據(jù) DOIDOI:/ 中圖分類號:TP319 文獻標(biāo)識碼:A文章編號:1672--0149-03 0引言 隨著技術(shù)的飛速發(fā)展,Mashup和API服務(wù)在Web開發(fā)者社區(qū)廣為流行,并應(yīng)用在許多開放的Web網(wǎng)站中。企業(yè)Web應(yīng)用中Mashup與其它應(yīng)用區(qū)別很大,常常不能重復(fù)使用或者沒有WebAPI,人們不得不為這些應(yīng)用去創(chuàng)建大量WebAPI。每天涌現(xiàn)的大量API服務(wù)需要一個平臺來瀏覽[1]。一些在線平臺,例如雅虎、等都允許用戶發(fā)布各種API服務(wù),一些非專業(yè)人士也能通過組合WebAPI服務(wù)或其它Web資源創(chuàng)建新的W
3、eb頁面。ProgrammableWeb現(xiàn)在很流行,吸引了研究者的關(guān)注,推動了社區(qū)用戶行為的研究[2]。目前網(wǎng)站已經(jīng)有6730個Mashup和6為了充分發(fā)揮“教學(xué)點數(shù)字教育資源全覆蓋”項目設(shè)備的作用,我們不僅把資源運用于課堂教學(xué),還利用系統(tǒng)的特色欄目開展課外活動,對學(xué)生進行安全教育、健康教育、反邪教教育等豐富學(xué)生的課余文化生活。為了確保“教學(xué)點數(shù)字教育資源全覆蓋”項目設(shè)備正常使用,我校做到安裝、教師培訓(xùn)同步進行。設(shè)備安裝到位后,中心校組織各學(xué)點管理人員統(tǒng)一到縣教師進修學(xué)校進行培訓(xùn),熟悉系統(tǒng)的使用和維護。783個開放的API服務(wù)
4、,開發(fā)者不用測試就能將API服務(wù)結(jié)合起來。和傳統(tǒng)的Web開發(fā)相比,Mashup越來越簡單和流行,因為開發(fā)者不用測試和移植內(nèi)部的Web應(yīng)用就能使用這些數(shù)據(jù),非技術(shù)人員也能通過在線社區(qū)快速集成已有的應(yīng)用。 1API服務(wù)聚類 描述相似性 API服務(wù)經(jīng)過文檔預(yù)處理[3]后,使用詞語向量集表示。向量之間的相似性表示兩個文本之間的相似性,可用向量之間的夾角余弦值表示,也叫作余弦相似性,這是目前在信息檢索和聚類方法中度量文本相似性的最常用方法。設(shè)定文檔ta→和tb→,文檔間的余弦相似性計算公式如下: ta→和tb→是詞集T={t1,
5、...,tm}上的m維向量,每一維都代表一個?~在文檔中的權(quán)重,且為非負(fù),余弦相似度非負(fù)并且屬于[0,1]。 標(biāo)簽相似性 API服務(wù)的標(biāo)注數(shù)據(jù)能起到描述API服務(wù)或是提供文本或語義信息的作用。本文根據(jù)標(biāo)注數(shù)據(jù)的相似性,提出了改進API服務(wù)聚類性能的方法。給定一個包含3個標(biāo)簽t1,t2,t3的API服務(wù),si的標(biāo)簽集Ti={t1,t2,t3}。通過Jaccard系數(shù)方法計算標(biāo)簽之間的相似性: Simtag=
6、Ti∩Tj
7、
8、Ti∪Tj
9、其中
10、Ti∩Tj
11、是同時標(biāo)注和標(biāo)簽數(shù)目,
12、Ti∪Tj
13、是Ti和Tj的并集。為了充分發(fā)揮“教
14、學(xué)點數(shù)字教育資源全覆蓋”項目設(shè)備的作用,我們不僅把資源運用于課堂教學(xué),還利用系統(tǒng)的特色欄目開展課外活動,對學(xué)生進行安全教育、健康教育、反邪教教育等豐富學(xué)生的課余文化生活。為了確?!敖虒W(xué)點數(shù)字教育資源全覆蓋”項目設(shè)備正常使用,我校做到安裝、教師培訓(xùn)同步進行。設(shè)備安裝到位后,中心校組織各學(xué)點管理人員統(tǒng)一到縣教師進修學(xué)校進行培訓(xùn),熟悉系統(tǒng)的使用和維護。 根據(jù)以上公式,API服務(wù)si和sj的相似性sim計算如下: sim=βsimdes+simtag其中,β是描述層相似性權(quán)值,1-β是標(biāo)簽層相似性權(quán)值,simdes是描述層相似性,
15、simtag是標(biāo)簽層相似性,β取值范圍是[0,1],如果兩個服務(wù)的描述和標(biāo)簽相同即是1,如果兩個服務(wù)的描述和標(biāo)簽完全不同則是0。 2聚類算法 K-Means聚類算法 K-Means是數(shù)據(jù)挖掘中的經(jīng)典聚類算法[4],在做大型數(shù)據(jù)集聚類時廣泛使用。基本的K-Means算法中,每一次迭代計算每個數(shù)據(jù)集合對象到K個聚類中心的距離?! -Means算法步驟如下:①從數(shù)據(jù)集D中,隨機抽取其中的k個對象作為初始聚類中心;②計算每個數(shù)據(jù)對象di和所有k個聚類中心cj的歐式距離d,并將數(shù)據(jù)對象di放到最近的聚類中;③對每個數(shù)據(jù)對象di找
16、到最近的聚類中心cj,同時將di的值賦給聚類中心j;④將數(shù)據(jù)對象di所在的聚類中心標(biāo)記以及存儲數(shù)據(jù)對象di和最近的聚類之間的距離分別存儲在數(shù)組Cluster[]和Dist[]中,設(shè)Cluster[i]=j,為了充分發(fā)揮“教學(xué)點數(shù)字教育資源全覆蓋”項目設(shè)備的作用,我們不僅把資源