資源描述:
《聚類技術(shù)在web服務(wù)中的應(yīng)用研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。
1、為了確?!敖虒W(xué)點(diǎn)數(shù)字教育資源全覆蓋”項(xiàng)目設(shè)備正常使用,我校做到安裝、教師培訓(xùn)同步進(jìn)行。設(shè)備安裝到位后,中心校組織各學(xué)點(diǎn)管理人員統(tǒng)一到縣教師進(jìn)修學(xué)校進(jìn)行培訓(xùn),熟悉系統(tǒng)的使用和維護(hù)。聚類技術(shù)在Web服務(wù)中的應(yīng)用研究 摘要:通過(guò)對(duì)ProgrammableWeb在線社區(qū)進(jìn)行研究,發(fā)現(xiàn)網(wǎng)站上的API服務(wù)數(shù)量龐大且含有豐富的數(shù)據(jù)信息。討論了網(wǎng)頁(yè)采集、數(shù)據(jù)預(yù)處理等相關(guān)技術(shù),利用K-Means和凝聚層次聚類技術(shù)在API服務(wù)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,K-Means算法具有更好的聚類效果?! £P(guān)鍵詞:聚類;Web服務(wù);K-Means;AP
2、I服務(wù)數(shù)據(jù) DOIDOI:/ 中圖分類號(hào):TP319 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672--0149-03 0引言 隨著技術(shù)的飛速發(fā)展,Mashup和API服務(wù)在Web開發(fā)者社區(qū)廣為流行,并應(yīng)用在許多開放的Web網(wǎng)站中。企業(yè)Web應(yīng)用中Mashup與其它應(yīng)用區(qū)別很大,常常不能重復(fù)使用或者沒(méi)有WebAPI,人們不得不為這些應(yīng)用去創(chuàng)建大量WebAPI。每天涌現(xiàn)的大量API服務(wù)需要一個(gè)平臺(tái)來(lái)瀏覽[1]。一些在線平臺(tái),例如雅虎、等都允許用戶發(fā)布各種API服務(wù),一些非專業(yè)人士也能通過(guò)組合WebAPI服務(wù)或其它Web資源創(chuàng)建新的W
3、eb頁(yè)面。ProgrammableWeb現(xiàn)在很流行,吸引了研究者的關(guān)注,推動(dòng)了社區(qū)用戶行為的研究[2]。目前網(wǎng)站已經(jīng)有6730個(gè)Mashup和6為了充分發(fā)揮“教學(xué)點(diǎn)數(shù)字教育資源全覆蓋”項(xiàng)目設(shè)備的作用,我們不僅把資源運(yùn)用于課堂教學(xué),還利用系統(tǒng)的特色欄目開展課外活動(dòng),對(duì)學(xué)生進(jìn)行安全教育、健康教育、反邪教教育等豐富學(xué)生的課余文化生活。為了確?!敖虒W(xué)點(diǎn)數(shù)字教育資源全覆蓋”項(xiàng)目設(shè)備正常使用,我校做到安裝、教師培訓(xùn)同步進(jìn)行。設(shè)備安裝到位后,中心校組織各學(xué)點(diǎn)管理人員統(tǒng)一到縣教師進(jìn)修學(xué)校進(jìn)行培訓(xùn),熟悉系統(tǒng)的使用和維護(hù)。783個(gè)開放的API服務(wù)
4、,開發(fā)者不用測(cè)試就能將API服務(wù)結(jié)合起來(lái)。和傳統(tǒng)的Web開發(fā)相比,Mashup越來(lái)越簡(jiǎn)單和流行,因?yàn)殚_發(fā)者不用測(cè)試和移植內(nèi)部的Web應(yīng)用就能使用這些數(shù)據(jù),非技術(shù)人員也能通過(guò)在線社區(qū)快速集成已有的應(yīng)用?! ?API服務(wù)聚類 描述相似性 API服務(wù)經(jīng)過(guò)文檔預(yù)處理[3]后,使用詞語(yǔ)向量集表示。向量之間的相似性表示兩個(gè)文本之間的相似性,可用向量之間的夾角余弦值表示,也叫作余弦相似性,這是目前在信息檢索和聚類方法中度量文本相似性的最常用方法。設(shè)定文檔ta→和tb→,文檔間的余弦相似性計(jì)算公式如下: ta→和tb→是詞集T={t1,
5、...,tm}上的m維向量,每一維都代表一個(gè)?~在文檔中的權(quán)重,且為非負(fù),余弦相似度非負(fù)并且屬于[0,1]?! ?biāo)簽相似性 API服務(wù)的標(biāo)注數(shù)據(jù)能起到描述API服務(wù)或是提供文本或語(yǔ)義信息的作用。本文根據(jù)標(biāo)注數(shù)據(jù)的相似性,提出了改進(jìn)API服務(wù)聚類性能的方法。給定一個(gè)包含3個(gè)標(biāo)簽t1,t2,t3的API服務(wù),si的標(biāo)簽集Ti={t1,t2,t3}。通過(guò)Jaccard系數(shù)方法計(jì)算標(biāo)簽之間的相似性: Simtag=
6、Ti∩Tj
7、
8、Ti∪Tj
9、其中
10、Ti∩Tj
11、是同時(shí)標(biāo)注和標(biāo)簽數(shù)目,
12、Ti∪Tj
13、是Ti和Tj的并集。為了充分發(fā)揮“教
14、學(xué)點(diǎn)數(shù)字教育資源全覆蓋”項(xiàng)目設(shè)備的作用,我們不僅把資源運(yùn)用于課堂教學(xué),還利用系統(tǒng)的特色欄目開展課外活動(dòng),對(duì)學(xué)生進(jìn)行安全教育、健康教育、反邪教教育等豐富學(xué)生的課余文化生活。為了確?!敖虒W(xué)點(diǎn)數(shù)字教育資源全覆蓋”項(xiàng)目設(shè)備正常使用,我校做到安裝、教師培訓(xùn)同步進(jìn)行。設(shè)備安裝到位后,中心校組織各學(xué)點(diǎn)管理人員統(tǒng)一到縣教師進(jìn)修學(xué)校進(jìn)行培訓(xùn),熟悉系統(tǒng)的使用和維護(hù)?! 「鶕?jù)以上公式,API服務(wù)si和sj的相似性sim計(jì)算如下: sim=βsimdes+simtag其中,β是描述層相似性權(quán)值,1-β是標(biāo)簽層相似性權(quán)值,simdes是描述層相似性,
15、simtag是標(biāo)簽層相似性,β取值范圍是[0,1],如果兩個(gè)服務(wù)的描述和標(biāo)簽相同即是1,如果兩個(gè)服務(wù)的描述和標(biāo)簽完全不同則是0?! ?聚類算法 K-Means聚類算法 K-Means是數(shù)據(jù)挖掘中的經(jīng)典聚類算法[4],在做大型數(shù)據(jù)集聚類時(shí)廣泛使用。基本的K-Means算法中,每一次迭代計(jì)算每個(gè)數(shù)據(jù)集合對(duì)象到K個(gè)聚類中心的距離?! -Means算法步驟如下:①?gòu)臄?shù)據(jù)集D中,隨機(jī)抽取其中的k個(gè)對(duì)象作為初始聚類中心;②計(jì)算每個(gè)數(shù)據(jù)對(duì)象di和所有k個(gè)聚類中心cj的歐式距離d,并將數(shù)據(jù)對(duì)象di放到最近的聚類中;③對(duì)每個(gè)數(shù)據(jù)對(duì)象di找
16、到最近的聚類中心cj,同時(shí)將di的值賦給聚類中心j;④將數(shù)據(jù)對(duì)象di所在的聚類中心標(biāo)記以及存儲(chǔ)數(shù)據(jù)對(duì)象di和最近的聚類之間的距離分別存儲(chǔ)在數(shù)組Cluster[]和Dist[]中,設(shè)Cluster[i]=j,為了充分發(fā)揮“教學(xué)點(diǎn)數(shù)字教育資源全覆蓋”項(xiàng)目設(shè)備的作用,我們不僅把資源