基于hadoop的健康物聯(lián)網(wǎng)數(shù)據(jù)挖掘算法研究與實現(xiàn)

ID：32965936

大?。?1.73 MB

頁數(shù)：76頁

時間：2019-02-18

上傳者：U-22505

基于hadoop的健康物聯(lián)網(wǎng)數(shù)據(jù)挖掘算法研究與實現(xiàn)_第1頁

基于hadoop的健康物聯(lián)網(wǎng)數(shù)據(jù)挖掘算法研究與實現(xiàn)_第2頁

基于hadoop的健康物聯(lián)網(wǎng)數(shù)據(jù)挖掘算法研究與實現(xiàn)_第3頁

基于hadoop的健康物聯(lián)網(wǎng)數(shù)據(jù)挖掘算法研究與實現(xiàn)_第4頁

基于hadoop的健康物聯(lián)網(wǎng)數(shù)據(jù)挖掘算法研究與實現(xiàn)_第5頁

資源描述：

《基于hadoop的健康物聯(lián)網(wǎng)數(shù)據(jù)挖掘算法研究與實現(xiàn)》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

萬方數(shù)據(jù)分類號UDC密級學(xué)位論文基于Hadoop的健康物聯(lián)網(wǎng)數(shù)據(jù)挖掘算法研究與實現(xiàn)作者姓名：楊維指導(dǎo)教師：申請學(xué)位級別：學(xué)科專業(yè)名稱：論文提交日期：學(xué)位授予日期：評閱人：易秀雙副教授東北大學(xué)計算中心碩士學(xué)科類別：工學(xué)計算機應(yīng)用技術(shù)2013年6月論文答辯日期：2013年6月23日2013年7月答懶螂：黃衛(wèi)祖黃衛(wèi)祖、劉天華東北大學(xué)2013年6月萬方數(shù)據(jù)ThesisinComputerApplicationTechnologyResearchandImplementationoftheDataMiningAlgorithmsoftheInternetofThingsinHealthcareBasedonHadoopByYangWeiSupervisor：AssociateProfessorYiXiushuangNortheasternUniversityJune2013 萬方數(shù)據(jù)獨創(chuàng)性聲明本人聲明，所呈交的學(xué)位論文是在導(dǎo)師的指導(dǎo)下完成的。論文中取得的研究成果除加以標注和致謝的地方外，不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果，也不包括本人為獲得其他學(xué)位而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均己在論文中作了明確的說明并表示謝二正思0學(xué)位論文作者簽名：揚多證日期：乙口f；．6．西學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者和指導(dǎo)教師完全了解東北大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定：即學(xué)校有權(quán)保留并向國家有關(guān)部門或機構(gòu)送交論文的復(fù)印件和磁盤，允許論文被查閱和借閱。本人同意東北大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索、交流。作者和導(dǎo)師同意網(wǎng)上交流的時間為作者獲得學(xué)位后：半年口一年口一年半口f兩年∥學(xué)位論文作者簽名：枸蘭1主一導(dǎo)師簽名：簽字日期：加f；．鄉(xiāng)、才簽字日期：．I．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文摘要基于Hadoop的健康物聯(lián)網(wǎng)數(shù)據(jù)挖掘算法研究與實現(xiàn)摘要醫(yī)療衛(wèi)生體系的發(fā)展水平直接關(guān)系到人民群眾的身心健康和中國夢的實現(xiàn)，是全社會關(guān)注的熱點。在如今醫(yī)療改革的關(guān)鍵時期，應(yīng)緊密結(jié)合物聯(lián)網(wǎng)和云計算技術(shù)，切實加強醫(yī)療健康領(lǐng)域的信息化水平。健康物聯(lián)網(wǎng)旨在通過先進的感知技術(shù)實現(xiàn)醫(yī)療信息的準確、實時感知，通過便捷全方位的通信技術(shù)實現(xiàn)醫(yī)療健康領(lǐng)域的互聯(lián)互通，通過高效的數(shù)據(jù)處理技術(shù)實現(xiàn)醫(yī)療健康信息的全面、科學(xué)分析和預(yù)測。健康物聯(lián)網(wǎng)數(shù)據(jù)處理總體流程是通過接收健康物聯(lián)網(wǎng)智能采集終端的海量異構(gòu)數(shù)據(jù)，對數(shù)據(jù)進行分布式存儲，過濾進而對其進行分布式數(shù)據(jù)挖掘，讓醫(yī)學(xué)專家更有效的對病情進行分析?；贖adoop平臺對健康物聯(lián)網(wǎng)數(shù)據(jù)進行處理挖掘時，本文首先對Hadoop源碼進行研究，設(shè)計實現(xiàn)了分布式數(shù)據(jù)清洗算法以過濾冗余數(shù)據(jù)；接著重點研究設(shè)計了若干分布式數(shù)據(jù)挖掘算法，并對這些分布式算法進行了正確性驗證。通過對這些算法的設(shè)計實現(xiàn)，可以為上層的健康服務(wù)應(yīng)用提供良好的預(yù)測模型。對生理數(shù)據(jù)進行分布式數(shù)據(jù)挖掘時，首先分析了分布式聚類算法，又結(jié)合了蟻群的核心思想設(shè)計實現(xiàn)了基于Hadoop的分布式DKBAC(DistributedKmeansBasedonAntClustering)聚類算法。本文對病理信息數(shù)據(jù)進行聚類，通過實驗將DKBAC算法與相關(guān)分布式聚類算法在準確率、平均查全率及時間效率等性能指標上做了比較和分析。為滿足健康物聯(lián)網(wǎng)各種預(yù)測分析的需要，需研究實現(xiàn)更多數(shù)據(jù)挖掘算法和模型，本文主要研究了基于Hadoop的分布式隨機森林分類算法與分布式關(guān)聯(lián)規(guī)則算法，并對算法進行具體的分布式設(shè)計，將其在Hadoop下進行部署實現(xiàn)并與相關(guān)算法進行了性能指標的比較和分析。通過研究實現(xiàn)這些主要的分布式數(shù)據(jù)挖掘算法，本文總結(jié)出分布式數(shù)據(jù)挖掘算法的一般設(shè)計原則及適用范圍，為后續(xù)實現(xiàn)更多健康物聯(lián)網(wǎng)分布式數(shù)據(jù)挖掘算法指明了方向。關(guān)鍵詞：健康物聯(lián)網(wǎng)；Hadoop；分布式數(shù)據(jù)挖掘；DKBAC；隨機森林．II．萬方數(shù)據(jù)ResearchandImplementationoftheDataMiningAlgoritllmsoftheInternetofThingsinHealthcareBasedonHadoopAbstractThedevelopmentlevelofmedicalandhealthsystemisdirectlyrelatedtopeople’ShealthandtherealizationoftheChinesedream，isalsoahottopicofthewholesociety．Inthekeyperiodofthehealmcarereform，combiningwiththetechnologyoftheInternetofthingsandcloudcomputing，thesocietyshouldstrengthenthelevelofinformatizationinthefieldofhealthcare．TheInternetofthingsinhealthcareshouldrealizeaccurateandreal。timeperceptionofmedicalinformationthroughthetechnologyofadvancedsensing，achieveinterconnectivitVinthefieldofhealthcarethroughtheconvenientcomprehensivecoⅡⅡnullicationtechnology，andCananalysisandforecasthealthdatathroughthetechnologyofefficientdataprocessing．ThedataprocessingflowoftheIntemetofthingsinhealthcareismainlyreceivinghealthdatawhichintelligentdataacquisitionterminalsends，storinghealthinformation，filteringdataandminingdatainadistributedformtomakemedicalexpertsanalyzetheconditionmoreefficient．ToanalyzeandminedataoftheIntemetofthingsinhealthcareinHadoop，thepaperresearchesandanalyzesthesourcecodeofHadoop，designsalgorithmsofdistributeddata6lteringtofilterredundantdata，researchesseveraldataminingalgorithms，andverifiestheresuItsright．Thesealgorithmsandmodelsprovideniceforecastingfunctionsforhealthyservice．Whenminingthehealthdata，firstthepaperderivestheideaofantcolony,designsandrealizesDKBACclusteringalgorithmindistributedformonHadoop．ThroughexperimentDKBACcompareswiththerelevantclusteringalgorithmsontheaccuracy,theaveragerecallrateandtimeforthehumanphysiologicaldata．TomeetthedemandofanalysisintheIntemetofthingsinhealthcare，itneedstostudyandachievemorealgorithmsandmodels．ThepaperI．esearchesanddesignsrandomforestandFP．GrowthinadistributedformonHadoop，whichcomparewithrelevantalgorithmsinperformanceforphysiologicaldata·Afterresearchingthesedistributedalgorithmsofdatamining,thepapersummarizesthegeneral 萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文A1咖tprinciplesandtheapplicablescopeofdesigningdistributedalgorithms，pointsoutthedirectionforresearchingmoredistributedalgorithmsintheIntemetofthingsinhealthcare．Keywords：TheInternetofthingsinhealthcare；Hadoop；Distributeddatamining；DKBAC；Randomforest．IV．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文目錄目錄獨創(chuàng)性聲明?????????????????????????I摘要???????????????????????????IIAbsl：I’act???????????????????????????????????????????．III第1章緒論????????????????????????．11．1研究背景和意義????????????????????????????一11．2國內(nèi)外研究現(xiàn)狀????????????????????????????一31．3本文主要研究內(nèi)容及貢獻????????????????????????．．71．4論文組織結(jié)構(gòu)及課題來源????????????????????????一8第2章健康物聯(lián)網(wǎng)及相關(guān)技術(shù)概述??????????????．92．1健康物聯(lián)網(wǎng)及其體系結(jié)構(gòu)????????????????????????一92．2健康物聯(lián)網(wǎng)中間件????????????????????．．：??????．102．3健康物聯(lián)網(wǎng)感知層技術(shù)?????????????????????????112．4Hadoop及相關(guān)子模塊概述????????????????????????122．4．1分布式文件系統(tǒng)HDFS??????????????????????．122．4．2分布式編程模型MapReduce????????????????????132．4．3分布式數(shù)據(jù)倉庫Hive???????????????????????142．4．4Sqoop技術(shù)????????????????????????????????????．．162．5數(shù)據(jù)挖掘算法?????????????????????????????162．6本章小結(jié)???????????????????????????????16第3章健康物聯(lián)網(wǎng)數(shù)據(jù)處理總體流程和設(shè)計??????????173．1健康物聯(lián)網(wǎng)數(shù)據(jù)處理的總體流程?????????????????????173．2異構(gòu)數(shù)據(jù)加載轉(zhuǎn)換設(shè)計?????????????????????????183．3分布式數(shù)據(jù)清洗算法設(shè)計????????????????????????203．3．1數(shù)據(jù)清洗的MR模型流程分析???????????????????213．3．2基于MR的數(shù)據(jù)清洗算法設(shè)計???????????????????22．V．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文目錄3．3．3基于Hive的數(shù)據(jù)清洗設(shè)計?????????????????????243．4分布式數(shù)據(jù)挖掘算法設(shè)計????????????????????????253．4．1健康物聯(lián)網(wǎng)數(shù)據(jù)挖掘的必要性???????????????????．263．4．2數(shù)據(jù)挖掘模塊算法設(shè)計與分析???????????????????．283．5本章小結(jié)???????????????????????????????30第4章基于Hadoop的DI①AC聚類算法設(shè)計與實現(xiàn)??????．314．1蟻群算法機制原理???????????????????????????314．2基于蟻群的KBAC聚類算法??????????????????????．．324．3DKBAC聚類算法的正確性驗證?????????????????????．．334．4基于MapReduce的DKBAC算法的具體實現(xiàn)???????????????．．344．4．1DKBAC算法中MapReduce任務(wù)的模型結(jié)構(gòu)?????????????．354．4．2統(tǒng)計蟻群信息素階段的設(shè)計與實現(xiàn)?????????????????．354．4．3蟻群信息素聚類的設(shè)計與實現(xiàn)???????????????????．384．4．4統(tǒng)計更新聚類中心階段的設(shè)計與實現(xiàn)????????????????．394．5本章小結(jié)???????????????????????????????．40第5章基于Hadoop的數(shù)據(jù)挖掘算法設(shè)計與研究????????．415．1分布式隨機森林算法設(shè)計與研究?????????????????????415．1．1隨機森林算法??????????????????????????．415．1．2基于Hadoop的分布式隨機森林算法設(shè)計??????????????．．435．1．3分布式隨機森林算法的評價分析??????????????????．455．2基于Hadoop的分布式關(guān)聯(lián)規(guī)則算法設(shè)計與研究??????????????．465．2．1FP．Growth算法??????????????????????????????????．465．2．2基于Hadoop的分布式FP．Growth算法設(shè)計?????????????．．475．2．3分布式關(guān)聯(lián)規(guī)則算法的評價分析??????????????????．485．3相關(guān)分布式數(shù)據(jù)挖掘算法及設(shè)計原則???????????????????495．3．1基于Hadoop的其他分布式數(shù)據(jù)挖掘算法??????????????．．495．3．2基于Hadoop的數(shù)據(jù)挖掘算法設(shè)計原則???????????????．．505．4本章小結(jié)???????????????????????????????50第6章實驗部署及結(jié)果分析?????????????????51．VI．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文目錄6．1Hadoop實驗平臺搭建??????????????????????????516．1．1軟硬件環(huán)境???????????????????????????．516．1．2Hadoop數(shù)據(jù)處理平臺搭建及部署??????????????????516．2數(shù)據(jù)清洗算法測試結(jié)果?????????????????????????546．2．1異常過濾清洗效果????????????????????????．546．2．2時間過濾清洗效果????????????????????????．546．2．3相似度過濾清洗效果???????????????????????．556．3分布式數(shù)據(jù)挖掘算法的性能指標?????????????????????556．4DKBAC數(shù)據(jù)聚類結(jié)果及分析??????????????????????．．556．4．1分布式聚類結(jié)果分析???????????????????????．556．4．2分布式聚類算法的復(fù)雜度分析???????????????????．576．5并行隨機森林分類及關(guān)聯(lián)規(guī)則結(jié)果分析??????????????????586．5．1基于Hadoop的隨機森林算法測試分析???????????????．．586．5．2基于Hadoop的FP．Growth算法測試分析??????????????．．596．6本章小結(jié)???????????????????????????????60第7章總結(jié)與展望?????????????????????617．1工作總結(jié)???????????????????????????????617．2工作展望???????????????????????????????62參考文獻?????????????????????????．．63致謝??????????????????????????一67．VII．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第1章緒論1．1研究背景和意義物聯(lián)網(wǎng)(Intemetofthings)是由美國Auto—ID實驗室在1999年首先提出的概念，即是物物相連的互聯(lián)網(wǎng)，被視為當今互聯(lián)網(wǎng)的應(yīng)用擴展，創(chuàng)新是物聯(lián)網(wǎng)發(fā)展的核心，以用戶服務(wù)質(zhì)量為核心是物聯(lián)網(wǎng)技術(shù)發(fā)展的靈魂。國際電信聯(lián)盟(ITu)也成立了專門研究物聯(lián)網(wǎng)的技術(shù)委員會(10TGSI)。并在2005開始發(fā)布了((ITU互聯(lián)網(wǎng)報告：物聯(lián)網(wǎng)》，工作任務(wù)是制定物聯(lián)網(wǎng)的技術(shù)標準，促進物聯(lián)網(wǎng)在全世界的發(fā)展。物聯(lián)網(wǎng)是信息社會的全球基礎(chǔ)設(shè)施，能夠基于現(xiàn)有的和演變的互操作信息和通信技術(shù)將物理和虛擬的物體相互連接起來以提供高級的業(yè)務(wù)。物聯(lián)網(wǎng)利用標識、數(shù)據(jù)采集、處理和通信能力，充分使用物體為各種應(yīng)用提供服務(wù)，同時能夠確保必要的隱私。目標是實現(xiàn)各種物體，包括實體及虛擬的物體，通過各種網(wǎng)絡(luò)互相聯(lián)系，交互，交流?？傮w上物聯(lián)網(wǎng)有三個方面的特征：互聯(lián)網(wǎng)特征，即這些物體之間的連接是基于現(xiàn)有的互聯(lián)網(wǎng)的，感知和互通信的特征，這些物體之間可以互相感知及通信，智能化的特征，物聯(lián)網(wǎng)物體之間的信息傳遞具有自主性，能夠相互自動反饋信息。健康是人類追求的永恒話題，醫(yī)療健康問題涉及到億萬群眾的根本利益。在物聯(lián)網(wǎng)與云計算的快速發(fā)展時期，為了實現(xiàn)中國夢，應(yīng)該將這兩項前沿技術(shù)切實結(jié)合到健康領(lǐng)域，形成健康物聯(lián)網(wǎng)，實現(xiàn)對人們的健康維護。健康物聯(lián)網(wǎng)是由健康智能采集終端接收人體生理信息數(shù)據(jù)，通過互聯(lián)網(wǎng)及其他網(wǎng)絡(luò)傳送到醫(yī)療健康云計算數(shù)據(jù)平臺進行智能計算分析，各個社會成員，包括醫(yī)護人員、患者、服務(wù)管理人員等共同參與的社會科技相互融合的智能平臺。物聯(lián)網(wǎng)的體系結(jié)構(gòu)可以劃分為三層：即感知層、網(wǎng)絡(luò)層和應(yīng)用層。感知層處在物聯(lián)網(wǎng)體系的底層，主要由各種有線或無線傳感器設(shè)備、RFID以及傳感器網(wǎng)關(guān)構(gòu)成，例如C02濃度傳感器、室內(nèi)溫度傳感器、RFID二維數(shù)據(jù)標簽、體域網(wǎng)傳感器、GPS等智能感知終端。感知層的接入功能對物聯(lián)網(wǎng)的實現(xiàn)起著基礎(chǔ)性的作用，它是物聯(lián)網(wǎng)識別物體、收集信息的來源，主要功能就是識別相應(yīng)物體及數(shù)據(jù)信息，對物體進行全面感知，即對其繼續(xù)識別或是數(shù)據(jù)采集。網(wǎng)絡(luò)層主要由局域網(wǎng)、互聯(lián)網(wǎng)、有線和無線通信網(wǎng)、網(wǎng)絡(luò)管理系統(tǒng)和云計算平臺等組成，能夠利用這些現(xiàn)在多種的有線及無線通訊網(wǎng)絡(luò)將信息進行可信任的傳輸，通過泛在的網(wǎng)絡(luò)技術(shù)可以為用戶即時的提供服務(wù)，也可以利用多種網(wǎng)絡(luò)技術(shù)的協(xié)同，智能的為用戶選擇接入網(wǎng)絡(luò)模式。應(yīng)用層是物聯(lián)網(wǎng)的目標所在，只有實現(xiàn)物聯(lián)網(wǎng)的應(yīng)用與具體的行業(yè)需求相結(jié)合，這樣才真正讓物聯(lián)網(wǎng)服務(wù)于我們。物聯(lián)網(wǎng)的行萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第1章緒論業(yè)特性主要體現(xiàn)在其應(yīng)用領(lǐng)域內(nèi)，在物聯(lián)網(wǎng)的產(chǎn)業(yè)結(jié)構(gòu)發(fā)展上，每個環(huán)節(jié)的企業(yè)和組織一般都會從自己的角度去詮釋發(fā)展自身行業(yè)的物聯(lián)網(wǎng)。目前在綠色農(nóng)業(yè)、工業(yè)監(jiān)控、公共安全、城市管理、遠程醫(yī)療、智能家居、智能交通和環(huán)境監(jiān)測等各個行業(yè)均有物聯(lián)網(wǎng)應(yīng)用的嘗試，許多行業(yè)都已經(jīng)積累了不少前沿的案例。在物聯(lián)網(wǎng)與云計算的快速發(fā)展趨勢下，隨著社會對身體健康問題的日益重視，形成了面向智慧醫(yī)療和健康物聯(lián)網(wǎng)的應(yīng)用研究，基于物聯(lián)網(wǎng)的社會醫(yī)療健康服務(wù)網(wǎng)絡(luò)主要面向社區(qū)和農(nóng)村基層醫(yī)療單位，利用個人生理信息智能感知和采集設(shè)備，通過物聯(lián)網(wǎng)應(yīng)用中間件平臺及接入網(wǎng)關(guān)，實現(xiàn)目標人群與后臺醫(yī)療信息化服務(wù)及醫(yī)療服務(wù)資源的對接，真正實現(xiàn)物與物，物與人以及人與人的全面信息交換和服務(wù)網(wǎng)絡(luò)。其中中間件數(shù)據(jù)處理平臺是針對物聯(lián)網(wǎng)應(yīng)用特點而設(shè)計的開發(fā)平臺和基礎(chǔ)框架。它的主要作用是隔離底層傳感網(wǎng)絡(luò)與上層應(yīng)用，屏蔽底層不同感知及識別設(shè)備在通信協(xié)議、數(shù)據(jù)格式等方面的差異，為上層應(yīng)用開發(fā)提供統(tǒng)一的數(shù)據(jù)處理、網(wǎng)絡(luò)監(jiān)控、應(yīng)用開發(fā)以及服務(wù)調(diào)度接口，從而簡化傳感器網(wǎng)絡(luò)的部署和相關(guān)應(yīng)用開發(fā)。物聯(lián)網(wǎng)中存在著不同廠商的各種型號的傳感器和RFID設(shè)備，而這些傳感器協(xié)議不同、結(jié)構(gòu)性能各異，其采集的數(shù)據(jù)結(jié)構(gòu)也不盡相同。大型物聯(lián)網(wǎng)的系統(tǒng)中一般都會有許多RFID標簽，多種讀寫器設(shè)備，甚至來采用協(xié)議不同，自不同設(shè)備廠商。物聯(lián)系統(tǒng)中的微型計算處理設(shè)備更是五花)kf-／，它們的數(shù)據(jù)結(jié)構(gòu)也沒有遵守一致結(jié)構(gòu)。物聯(lián)網(wǎng)系統(tǒng)模塊間傳送的數(shù)據(jù)格式也包括很多數(shù)據(jù)格式，或文本數(shù)據(jù)，或者圖片形式、視頻格式等多媒體類型的數(shù)據(jù)，有靜態(tài)數(shù)據(jù)，也可能是流數(shù)據(jù)類型。數(shù)據(jù)的多態(tài)性、感知設(shè)備的異構(gòu)性導(dǎo)致了數(shù)據(jù)的異構(gòu)性【¨，物聯(lián)網(wǎng)的應(yīng)用模式和架構(gòu)互不相同，沒有可批量應(yīng)用的系統(tǒng)方法，這是數(shù)據(jù)多態(tài)性和異構(gòu)性的根本原因。顯然，物聯(lián)網(wǎng)中的結(jié)構(gòu)越大，使用的智能采集終端結(jié)構(gòu)類型就越多樣化，協(xié)議和數(shù)據(jù)的異構(gòu)性問題會越嚴重，大量的異構(gòu)性特征極大增加了數(shù)據(jù)分析處理及系統(tǒng)研發(fā)的工作量和難度。物聯(lián)網(wǎng)往往是由若干個無線識別的物體彼此連接和結(jié)合形成的動態(tài)網(wǎng)絡(luò)。在醫(yī)療衛(wèi)生監(jiān)測等實時監(jiān)控領(lǐng)域，如無線傳感網(wǎng)就需記錄多個節(jié)點的各種信息，數(shù)據(jù)量也是大的驚人，每天可達甚至能帶到TB級別以上。目前流行的數(shù)據(jù)庫管理模式和系統(tǒng)很難處理多源海量異構(gòu)的數(shù)據(jù)、在儲存及處理分析的過程中面臨著很大的問題。信息爆炸，海量數(shù)據(jù)處理的出現(xiàn)，迫使傳統(tǒng)數(shù)據(jù)庫要在技術(shù)上進行革新，面向應(yīng)用層面，海量數(shù)據(jù)處理已成為現(xiàn)在信息科學(xué)發(fā)現(xiàn)及研究的基礎(chǔ)；面向技術(shù)層面，海量數(shù)據(jù)處理將會是傳統(tǒng)數(shù)據(jù)庫技術(shù)的一次變革，是物聯(lián)網(wǎng)和云計算發(fā)展的必然趨勢。在醫(yī)療健康領(lǐng)域，數(shù)據(jù)同樣呈現(xiàn)為以下特點：數(shù)據(jù)源分散且海量數(shù)據(jù)；高度異構(gòu)化；半結(jié)構(gòu)無結(jié)構(gòu)化。針對各個智能終端在數(shù)據(jù)采集過程的預(yù)處理還不夠，針對海量異構(gòu)數(shù)據(jù)，隨著物聯(lián)網(wǎng)應(yīng)用，越來越多行業(yè)相關(guān)的海量數(shù)據(jù)產(chǎn)生。因而迫切需要引入新的計算技術(shù)對數(shù)據(jù)進行過濾清洗，數(shù)據(jù)分析挖掘處理。傳統(tǒng)數(shù)據(jù)庫對海量．2．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第1章緒論數(shù)據(jù)的實時訪問分析、恢復(fù)及備份、有效的數(shù)據(jù)挖掘等方面的需求還有很多的不足之處。針對海量數(shù)據(jù)存儲也面臨能耗及空間等制約因素。因此需要研究物聯(lián)網(wǎng)具體應(yīng)用中海量數(shù)據(jù)的存儲機制，研究分布式文件系統(tǒng)及集群技術(shù)，研究快速檢索技術(shù)，研究數(shù)據(jù)備份和數(shù)據(jù)歸檔的機制，研制大規(guī)模并行分布式的數(shù)據(jù)存儲系統(tǒng)和數(shù)據(jù)處理系統(tǒng)。物聯(lián)網(wǎng)，是一個匯聚了數(shù)據(jù)收集、數(shù)據(jù)交換、數(shù)據(jù)處理、具體業(yè)務(wù)應(yīng)用的集成化平臺，其應(yīng)用的關(guān)鍵問題也是集成問題【lj，只有通過有效的技術(shù)集成將上述技術(shù)整合在一起，形成完整的數(shù)據(jù)采集、數(shù)據(jù)交換、數(shù)據(jù)處理、數(shù)據(jù)應(yīng)用平臺，才能實現(xiàn)物聯(lián)網(wǎng)的真正應(yīng)用。結(jié)合日益增長的數(shù)據(jù)量，在數(shù)據(jù)處理方面需要結(jié)合云計算的相關(guān)技術(shù)，在數(shù)據(jù)處理平臺形成醫(yī)療健康云，健康云是基于個人健康記錄，由衛(wèi)生和健康服務(wù)部門在后端的云計算平臺對收到的可用數(shù)據(jù)進行數(shù)據(jù)檢索、數(shù)據(jù)分析、數(shù)據(jù)挖掘等工作。在云計算平臺的支撐下，大量的健康監(jiān)測數(shù)據(jù)不需要人工去計算和分析，通過在云數(shù)據(jù)處理平臺研究開發(fā)面向大數(shù)據(jù)的分布式智能算法，可以快速轉(zhuǎn)換成實用方便當健康指導(dǎo)信息，并可以按照需要發(fā)送給個人健康智能終端，適時提醒用戶需要注意什么問題；還可以了解個人每天都運動量是否為合適狀態(tài)，以便引導(dǎo)人們更健康的運動和健身。1．2國內(nèi)外研究現(xiàn)狀I(lǐng)BM對物聯(lián)網(wǎng)方面的研究很早就開始了探索，并在2008年年底提出了智慧地球的概念，并且也形成了一個較為系統(tǒng)的理論，希望將新一代的IT技術(shù)應(yīng)用到各行各業(yè)當中。智慧地球也被稱為智能地球，就是把智能傳感設(shè)備嵌入和裝置到電網(wǎng)、鐵路、橋梁、醫(yī)療、交通、食品等各項工程當中，并且被普遍連接，形成物物相互連接的網(wǎng)絡(luò)，然后將這種網(wǎng)絡(luò)與現(xiàn)有的互聯(lián)網(wǎng)整合起來，實現(xiàn)社會與自然物理系統(tǒng)的整合。針對智慧地球的重要組成部分的智慧醫(yī)療，IBM提出了5個熱點領(lǐng)域，分別為整合交付網(wǎng)絡(luò)／整合交付系統(tǒng)IDN／IDS(IntegratedDeliveryNetwork／System)、醫(yī)院資源規(guī)劃管理ERP(EnterpriseResourcePlanning)、個人健康記錄PHR(PersonalHealthRecord)／eHR／eMR、醫(yī)院信息系統(tǒng)HIS及信息數(shù)字化醫(yī)院，并針對健康保健、慢性病管理和社區(qū)醫(yī)療提出了“智慧的電子健康檔案及基于循證醫(yī)學(xué)的個人健康管理"方案。采用傳感器、融合通信和移動數(shù)據(jù)庫技術(shù)，提供便捷、即時、持續(xù)的醫(yī)療服務(wù)。IBM醫(yī)療信息交換平臺HIE采用了IBMd的中間件產(chǎn)品和醫(yī)療衛(wèi)生行業(yè)IHE規(guī)范，實現(xiàn)了對醫(yī)療衛(wèi)生結(jié)構(gòu)之間文檔共享的管理。循證醫(yī)學(xué)研究與應(yīng)用可使人們智慧的應(yīng)用醫(yī)學(xué)健康知識，對患者提供有個性化的服務(wù)，BlueStore的分析結(jié)果可作為屏蔽藥物不良反應(yīng)的臨床證據(jù)；BlueStore是IBM開發(fā)的基于云計算的數(shù)據(jù)分析平臺，有對藥物不良反應(yīng)報告的高效分析能力，可以發(fā)現(xiàn)藥物與不良反應(yīng)的關(guān)聯(lián)性。在美國，物聯(lián)網(wǎng)已經(jīng)有了充足的發(fā)展，在公共設(shè)施、傳感設(shè)備技術(shù)，各行業(yè)發(fā)展程一3．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第1章緒論度上，美國都走在當今世界的前沿，并且具備完善的通訊網(wǎng)絡(luò)，創(chuàng)造了一個良好發(fā)展的物聯(lián)網(wǎng)的機會。尤其在健康物聯(lián)網(wǎng)方面，早在2004年，美國健康和國民服務(wù)部就設(shè)立了衛(wèi)生信息技術(shù)協(xié)調(diào)官的職位，啟動了全民電子健康檔案項目，逐步建立了全國的健康信息網(wǎng)絡(luò)。奧巴馬上臺后，推行了一系列醫(yī)療新政，宣布先期投資200億美元來用于發(fā)展電子健康檔案信息技術(shù)系統(tǒng)。歐盟也早已經(jīng)體察到云計算和物聯(lián)網(wǎng)基礎(chǔ)平臺在物聯(lián)網(wǎng)結(jié)構(gòu)中的核心重要性，是世界范圍內(nèi)第一個系統(tǒng)提出物聯(lián)網(wǎng)發(fā)展和管理計劃的機構(gòu)。從2005年開始資助了Hydra項目，這是一個研發(fā)物聯(lián)網(wǎng)基礎(chǔ)平臺和網(wǎng)絡(luò)化嵌入式系統(tǒng)軟件的組織，已經(jīng)取得了不少成果?！稓W盟物聯(lián)網(wǎng)行動計劃》在2009年也在歐盟開始執(zhí)行，保證了物聯(lián)網(wǎng)在歐洲發(fā)展的低位，并且規(guī)劃了自己的發(fā)展戰(zhàn)略，目標是在物聯(lián)網(wǎng)智能設(shè)施上處于世界領(lǐng)先。隨著物聯(lián)網(wǎng)迅速發(fā)展及歐美各國相應(yīng)的制定出符合其本身的物聯(lián)網(wǎng)發(fā)展的國家戰(zhàn)略，2009年，溫家寶總理在無錫考察時對物聯(lián)網(wǎng)的發(fā)展提出了三點要求，一是把傳感系統(tǒng)和3G中的TD．SCDMA技術(shù)結(jié)合起來，二是在國家重大科技專項中，加快推進傳感網(wǎng)的發(fā)展，三是加快速度建立適合中國的傳感信息中心，或者叫感知中國中心【21。從這開始，我國開始把物聯(lián)網(wǎng)作為我國未來重要的發(fā)展戰(zhàn)略。目前在中國也有很多傳感器、傳感網(wǎng)、RFID研究中心及開發(fā)基地，許多研究人士都希望盡快建立相應(yīng)的行業(yè)標準。由于中間件的數(shù)據(jù)處理在物聯(lián)網(wǎng)整個系統(tǒng)架構(gòu)中所處的重要地位，很多國家、企業(yè)以及一些組織都已經(jīng)投入到了中間件的設(shè)計開發(fā)中，mM、Oracle、微軟等軟件巨頭都是引領(lǐng)潮流的物聯(lián)網(wǎng)中間件生產(chǎn)商，SAP等大型應(yīng)用軟件公司的產(chǎn)品也都著手于中間件產(chǎn)品，國內(nèi)的許多軟硬件廠商也開始著手進行了物聯(lián)網(wǎng)中間件數(shù)據(jù)處理產(chǎn)品的研究和開發(fā)【2】。作為互聯(lián)網(wǎng)的全新范例，對于物聯(lián)網(wǎng)的研究還處于初級階段。目前，一些物聯(lián)網(wǎng)數(shù)據(jù)清洗和數(shù)據(jù)挖掘方面的研究，主要包括以下幾個方面：在數(shù)據(jù)轉(zhuǎn)換與過濾清洗問題，由于醫(yī)療健康數(shù)據(jù)很多是高維數(shù)據(jù)，在非結(jié)構(gòu)的數(shù)據(jù)處理過程中，可參考XML數(shù)據(jù)清洗技術(shù)及降維處理方向進行研究。由于XML文檔可以用樹結(jié)構(gòu)來描述，因此樹相似度描述方法可以用來描述XML文檔數(shù)據(jù)之間的相似性。樹編輯距離是一種著名的衡量樹之間相似度的方法，用于表示從一棵樹變換到另外一棵樹需要增加、刪除或者修改標簽的最少結(jié)點數(shù)量，Demaine等人提出了在O(n3)時間內(nèi)計算出樹編輯距離的方法【3】。Milano等人提出基于覆蓋的XML對象距離的算法【4】，兩顆XML樹S和T之間的覆蓋定義為可以建立的映射的最大結(jié)點數(shù)目，S中的S可以映射到T中的一個結(jié)點t，當且僅當它們從根到葉子的路徑相同。XMLDup系統(tǒng)【5】貝IJ使用了貝葉斯的方式描述了XML數(shù)據(jù)的相似性，這個模型中的貝葉斯結(jié)構(gòu)也可以表示成樹結(jié)構(gòu)，以兩個XML數(shù)據(jù)葉子上值之間相似度作為貝葉斯結(jié)構(gòu)當中葉子上的先驗概率，．．4．．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第1章緒論對于兩條數(shù)據(jù)來說，它們的相似性可表示稱為一個概率，這個概率由這兩個元素的子節(jié)點相似性對應(yīng)的條件概率計算得到，故兩個XML數(shù)據(jù)之間的相似性定義為其根結(jié)點的相似性即可。文獻[6】就討論了用貝葉斯網(wǎng)絡(luò)描述XML文檔相似性過程中的優(yōu)化策略，其策略是將XML文檔向量化，使用訓(xùn)練學(xué)習(xí)的方法確定文檔的新結(jié)構(gòu)。在數(shù)據(jù)分析工具的方面，如RieraLedesma針對數(shù)據(jù)數(shù)清洗時局部錯誤數(shù)據(jù)提出的分枝切割算法和啟發(fā)式求解算法f_7】等；在ETL工具方面，Lee等人也根據(jù)數(shù)據(jù)挖掘過程的學(xué)習(xí)環(huán)境提出的診斷、預(yù)測與合成模型【8】等。在RFID數(shù)據(jù)流方面，HectorGonzalez等人提出一個存儲RFID數(shù)據(jù)的獨特模型【9J，能在保護對象轉(zhuǎn)變同時提供重要的壓縮和路徑依賴總量，提出了RFID立方體保持了三個表：信息表，能儲存產(chǎn)品的路徑依賴信息，停留表，保存了數(shù)據(jù)所在位置信息，地圖表，存儲用于結(jié)構(gòu)分析的路徑信息。HectorGonzalez等人提出一種用來壓縮概率工作流機制，能夠捕捉運動和特殊的RFID流動異荊10】。ElioMasciari等人研究了RFID數(shù)據(jù)流的孤立點挖掘算法?J。ChenZhuxi等人提出了RFID應(yīng)用的頻繁閉合回路挖掘算法1121。JaeGilLee等人提出了對于運動目標的軌跡聚集提出了一個劃分聚集的框架【l引。在對傳感器數(shù)據(jù)的數(shù)據(jù)挖掘方面，JoydeepGhosh提出了一個一般的概率框架，在計算及記憶的約束條件下的監(jiān)督性學(xué)習(xí)【l引。BetsyGeorge等人提出時空傳感器模型(STSG)去模擬和挖掘傳感器數(shù)據(jù)【l51，STSG模型能夠發(fā)現(xiàn)不同類型的模式：位置異常模式，在每個時段集中定位和節(jié)點的未來熱點。ParisaRashidi等人研究開放了一種對于傳感器數(shù)據(jù)類型挖掘的新奇的自適應(yīng)挖掘框架，以適應(yīng)數(shù)據(jù)的變化【l引。在物聯(lián)網(wǎng)網(wǎng)格數(shù)據(jù)挖掘模型中，P．Brezany等人提出一種叫做GridMiner的基礎(chǔ)設(shè)施，它支持分散式的在線分析處理和數(shù)據(jù)挖掘fl71。A．Congiusta等人討論了設(shè)計方面和服從WSRF網(wǎng)格服務(wù)的實施選擇問題【l引。VladoStankovski等人提出的數(shù)據(jù)挖掘網(wǎng)格模型【191，并且利用Hadoop實現(xiàn)的調(diào)度算法，實現(xiàn)了MapReduce網(wǎng)格數(shù)據(jù)挖掘系統(tǒng)。在健康物聯(lián)網(wǎng)的大量異構(gòu)的數(shù)據(jù)中發(fā)現(xiàn)可利用的信息數(shù)據(jù)對實現(xiàn)智慧醫(yī)療上層應(yīng)用起著基礎(chǔ)性的作用，但是在健康物聯(lián)網(wǎng)中，針對大量數(shù)據(jù)特征的數(shù)據(jù)處理和挖掘的方法肯定要區(qū)別于傳統(tǒng)的數(shù)據(jù)挖掘方法。健康物聯(lián)網(wǎng)海量數(shù)據(jù)的挖掘方法應(yīng)面向具體醫(yī)療應(yīng)用，采用改進的方法對各式各樣的數(shù)據(jù)進行過濾清洗聚類、分類、頻繁模式等方面的處理，為醫(yī)護人員提供有效的健康數(shù)據(jù)信息。從全球范圍來看，現(xiàn)代醫(yī)學(xué)正在進入4P時代，非常重視社會的參與性。4P醫(yī)學(xué)模式即預(yù)防性(Preventive)、預(yù)測性(Predictive)、個體化(Personalized)和參與性(Participatory)，4P醫(yī)學(xué)模式會更加強調(diào)人們的參與性，重視日常生活行為對疾病發(fā)生發(fā)展的重要性，強化對人們生活行為的干預(yù)以達到預(yù)防疾病、控制發(fā)展早期治療的目標。由此帶來的數(shù)字醫(yī)療和健康預(yù)防要向基層社區(qū)和家庭方向發(fā)展，越來越多的健康信息智能采集終端融合在我們身邊，更加有利于重視發(fā)展健康一5．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第1章緒論數(shù)據(jù)在傳輸、處理、挖掘和展現(xiàn)等相對較薄弱的領(lǐng)域研究。通過上面對健康物聯(lián)網(wǎng)及數(shù)據(jù)處理目前發(fā)展狀況的介紹，從中能看到針對健康物聯(lián)網(wǎng)海量數(shù)據(jù)分析處理的研究獲得了不少成績。但是現(xiàn)有的健康物聯(lián)網(wǎng)數(shù)據(jù)分析處理的研究主要還是面向某一具體方向的，例如針對RFID數(shù)據(jù)流的處理或面向無線傳感器網(wǎng)絡(luò)的數(shù)據(jù)處理，都還很少全面考慮物聯(lián)網(wǎng)數(shù)據(jù)的復(fù)雜多源、異構(gòu)和分布式等特點。而且現(xiàn)有的數(shù)據(jù)處理技術(shù)主要都是用于針對特定的數(shù)據(jù)格式的數(shù)據(jù)，不是對所有信息集合都有效，同時對目前的健康物聯(lián)網(wǎng)海量數(shù)據(jù)處理技術(shù)的算法復(fù)雜度和效率分析也相對較少。由于對健康物聯(lián)網(wǎng)海量異構(gòu)的信息處理的研究還不具有一般的系統(tǒng)性，連貫性，這是下一步特別需要研究探討的問題。要求信息化在繼承已有成果、深化應(yīng)用的基礎(chǔ)上，進一步全面提升，再上水平。尤其對醫(yī)療健康物聯(lián)網(wǎng)海量信息數(shù)據(jù)處理、數(shù)據(jù)搜索等提出很高的要求，為了應(yīng)對智慧健康物聯(lián)網(wǎng)對海量數(shù)據(jù)處理的迫切需求，本文通過對Hadoop的HDFS和MapReduce兩個核心關(guān)鍵技術(shù)深入分析研究的基礎(chǔ)上，提出了在虛擬化資源管理平臺上搭建基于Hadoop的動態(tài)可伸縮的海量數(shù)據(jù)處理原型平臺，并給出其技術(shù)架構(gòu)、實施方案以及實例分析，最后對海量數(shù)據(jù)處理平臺的優(yōu)勢進行分析。與傳統(tǒng)基于物理機部署的Hadoop分布式并行計算系統(tǒng)相比，通過虛擬化平臺創(chuàng)建Hadoop虛擬服務(wù)器模板，不僅可以快速完成Hadoop分布式并行計算系統(tǒng)的部署，而且可以有效利用計算資源。當前許多研究把MapReduce計算模型應(yīng)用到數(shù)據(jù)挖掘中。比如，K．Cardona等人實現(xiàn)了基于MapReduce的網(wǎng)格數(shù)據(jù)挖掘系統(tǒng)，并用基于MapReduce的調(diào)度算法驗證了該系統(tǒng)的高存儲性和高運行速度特性【201。Joos．HendrikBose等人實現(xiàn)了幾個基于在線MapReduce的并行的增量式數(shù)據(jù)挖掘算法，包括NaiveBayes、PCA，并驗證了所提出方法可以大大加快大數(shù)據(jù)集交互分析并提高數(shù)據(jù)流挖掘的可伸縮性【2¨。Cheng-TaoChu等人使用MapReduce編程模型實現(xiàn)多個算法，包括LocallyWeightedLinearRegression，LogisticRegression，NaiveBayes，SVM，ICA，PCA，GaussianDiscriminantAnalysis，EM和Backpropagation，并在多核處理機上實現(xiàn)了一個簡單的MapReduce系統(tǒng)【22】。Das等人使用MapReduce實現(xiàn)了MinHash聚類算法和ExpectationMaximization算法，并將它運用于推薦中，為客戶提供經(jīng)常關(guān)注的類似消息【231。TingLiu等人使用一個MapReduce集群上使用ANN算法(ApproximateNearestNeighboralgorithm)實現(xiàn)了圖像聚類【24J，并在算法中使用了溢出樹作為其數(shù)據(jù)結(jié)構(gòu)。在健康物聯(lián)網(wǎng)的分布式數(shù)據(jù)處理平臺中，主要是基于云計算進行海量醫(yī)療信息的數(shù)據(jù)存儲，實現(xiàn)數(shù)據(jù)的分布式存儲和并行訪問，通過業(yè)務(wù)協(xié)同等技術(shù)整合現(xiàn)有的醫(yī)療系統(tǒng)和平臺，提供統(tǒng)一的遠程數(shù)字醫(yī)療服務(wù)平臺，建立智能化的數(shù)據(jù)倉庫，利用數(shù)據(jù)挖掘智能分析技術(shù)，建立相關(guān)遠程醫(yī)療和數(shù)字醫(yī)療的智能決策分析模型，通過研究分析現(xiàn)有醫(yī)．6．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第1章緒論學(xué)模型，綜合智能算法、概率論與數(shù)理統(tǒng)計、聚類、分類、神經(jīng)網(wǎng)絡(luò)、機器學(xué)習(xí)等數(shù)據(jù)挖掘算法，對醫(yī)療健康數(shù)據(jù)進行進行分布式數(shù)據(jù)挖掘工作，發(fā)現(xiàn)共同特征，識別關(guān)鍵點，為上層應(yīng)用對疾病的預(yù)測、分析與診斷治療提供有效的參考。1．3本文主要研究內(nèi)容及貢獻面向醫(yī)療健康服務(wù)的通用健康物聯(lián)網(wǎng)，本文主要設(shè)計研究的是健康物聯(lián)網(wǎng)數(shù)據(jù)處理流程的中的若干主要的分布式數(shù)據(jù)挖掘算法，數(shù)據(jù)處理挖掘過程算法主要是基于Hadoop數(shù)據(jù)處理平臺搭建的，實現(xiàn)主要功能是接收智能采集終端的生理信息數(shù)據(jù)，統(tǒng)一數(shù)據(jù)格式，過濾海量數(shù)據(jù)，快速挖掘產(chǎn)生有用信息，為上層醫(yī)療專家科學(xué)預(yù)測提供可信任的模型。數(shù)據(jù)處理過程主要包括對數(shù)據(jù)加載轉(zhuǎn)換預(yù)處理，基于Hadoop數(shù)據(jù)清洗，重點研究分布式數(shù)據(jù)挖掘算法，包括分布式DKBAC聚類算法，分布式隨機森林及分布式關(guān)聯(lián)規(guī)則等主要數(shù)據(jù)挖掘算法。本文的研究內(nèi)容主要包括以下幾個方面：1．物聯(lián)網(wǎng)數(shù)據(jù)處理的分析。從物聯(lián)網(wǎng)的角度分析數(shù)據(jù)處理和挖掘的重要性，對已有的數(shù)據(jù)處理和數(shù)據(jù)挖掘方法進行分析。了解常用的數(shù)據(jù)處理和數(shù)據(jù)挖掘技術(shù)，并且介紹目前對于海量數(shù)據(jù)處理方法和實踐。2．研究健康物聯(lián)網(wǎng)和分布式數(shù)據(jù)處理、挖掘中算法實現(xiàn)的關(guān)鍵技術(shù)，特別是對進行數(shù)據(jù)處理的運行平臺Hadoop進行詳細研究，主要有Hadoop中HDFS模塊，MapReduce模塊，HBase模塊及MapReduce編程模型在Hadoop平臺中的實現(xiàn)。3．研究數(shù)據(jù)清洗模塊算法設(shè)計及與Hadoop平臺的結(jié)合問題，為分布式數(shù)據(jù)挖掘提供數(shù)據(jù)保證。這就是數(shù)據(jù)交換平臺的數(shù)據(jù)處理，主要是針對大量的智能采集終端產(chǎn)生的大量重復(fù)，異常等冗余數(shù)據(jù)進行過濾處理。結(jié)合Hadoop的MapReduce及Hadoop的Hive模塊研究海量數(shù)據(jù)的高效可行分布式數(shù)據(jù)清洗算法并進行過濾流程的設(shè)計。4．對過濾清洗后的人體生理信息數(shù)據(jù)進行基于Hadoop的分布式數(shù)據(jù)挖掘處理，首先主要結(jié)合了蟻群算法的特點，設(shè)計研究了基于Hadoop的DKBAC分布式聚類算法。該聚類算法主要是根據(jù)生理信息對病情聚類，主要分為三個階段，每個階段都是需要仔細設(shè)計分布式任務(wù)。5．為了對人體生理信息進行有知識的分類和對病情因素關(guān)聯(lián)分析，研究了基于Hadoop的隨機森林并行分類算法，基于Hadoop的FP．Growth并行關(guān)聯(lián)規(guī)則算法。為了對以后醫(yī)護應(yīng)用快速開發(fā)模型算法，總結(jié)了基于Hadoop數(shù)據(jù)處理平臺的編寫數(shù)據(jù)挖掘算法的重點關(guān)心問題，提出了分布式數(shù)據(jù)挖掘算法的一般設(shè)計原則及適用范圍。6．部署Hadoop及Hive等實驗環(huán)境，基于此環(huán)境對所研究設(shè)計的各種分布式數(shù)據(jù)清洗算法、分布式數(shù)據(jù)挖掘算法進行了具體實現(xiàn)，并對本文介紹的分布式算法的性能指標進行比較測試分析和復(fù)雜度分析。．7．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第1章緒論本文的主要貢獻是對健康物聯(lián)網(wǎng)的數(shù)據(jù)處理挖掘方面，在基于Hadoop的數(shù)據(jù)處理平臺下對數(shù)據(jù)清洗、挖掘算法進行了總體設(shè)計，設(shè)計了異構(gòu)數(shù)據(jù)加載預(yù)處理的方法，設(shè)計實現(xiàn)了分布式各類數(shù)據(jù)清洗算法，重點研究各種分布式數(shù)據(jù)挖掘算法，其中研究設(shè)計實現(xiàn)了基于Hadoop的分布式DKBAC聚類算法，并與分布式Kmeans與模糊K均值聚類算法進行性能指標的比較分析。針對分布式數(shù)據(jù)挖掘算法的不成熟性，具體設(shè)計研究了隨機森林算法的分布式流程，分布式FP．Growth關(guān)聯(lián)規(guī)則算法，設(shè)計MR流程，這里充分考慮了數(shù)據(jù)的完備性，在提升時間效率時，使其準確性和傳統(tǒng)串行單機算法的結(jié)果保持一致，并通過這些分布式數(shù)據(jù)挖掘算法的研究，得出了設(shè)計實現(xiàn)分布式數(shù)據(jù)挖掘算法的一般性原則和適用范圍，為以后實現(xiàn)更多分布式挖掘算法指明了方向。最后通過實驗部署分布式環(huán)境，對其各種算法進行實現(xiàn)，對性能指標的進行測試分析比較。1．4論文組織結(jié)構(gòu)及課題來源本文共分為七章，具體內(nèi)容安排如下：第1章，緒論。首先介紹物聯(lián)網(wǎng)中問件數(shù)據(jù)處理算法的開發(fā)背景，研究目的。分析國內(nèi)外的研究現(xiàn)狀，根據(jù)本課題，介紹課題研究內(nèi)容，給出論文結(jié)構(gòu)安排及課題來源。第2章，健康物聯(lián)網(wǎng)相關(guān)技術(shù)概述。討論研究健康物聯(lián)網(wǎng)的體系結(jié)構(gòu)，中間件，并對采用的Hadoop各模塊原理進行介紹分析。第3章，健康物聯(lián)網(wǎng)數(shù)據(jù)處理總體流程和設(shè)計。研究并設(shè)計了基于Hadoop的健康物聯(lián)網(wǎng)數(shù)據(jù)處理流程所處的環(huán)境及平臺，研究設(shè)計數(shù)據(jù)預(yù)處理加載，數(shù)據(jù)清洗算法，分析設(shè)計健康物聯(lián)網(wǎng)的主要分布式數(shù)據(jù)挖掘算法。第4章，基于Hadoop的DKBAC聚類算法設(shè)計與實現(xiàn)。從普通數(shù)據(jù)挖掘擴展到基于Hadoop的分布式數(shù)據(jù)挖掘，并應(yīng)用到健康物聯(lián)網(wǎng)的數(shù)據(jù)處理平臺，便于對智能采集終端采集的數(shù)據(jù)進行分布式數(shù)據(jù)挖掘，提高效率，并設(shè)計結(jié)合蟻群算法，提出了一種基于Hadoop的DKBAC聚類算法，并設(shè)計與分析實現(xiàn)。第5章，基于Hadoop的數(shù)據(jù)挖掘算法設(shè)計與研究。基于Hadoop設(shè)計研究了分布式隨機森林分類算法和分布式FP．Growth關(guān)聯(lián)規(guī)則等主要分布式數(shù)據(jù)挖掘算法，并對分布式數(shù)據(jù)挖掘算法的設(shè)計原則和適用范圍做了分析研究。第6章，實驗部署與結(jié)果分析。對實驗環(huán)境進行部署系，對上述若干分布式數(shù)據(jù)挖掘算法進行分析測試評價，并對這些分布式算法根據(jù)性能指標進行分析評價。第7章，總結(jié)與展望?？偨Y(jié)全文的內(nèi)容和創(chuàng)新內(nèi)容，并提出下一步研究目標。本文得到國家自然科學(xué)基金資助項目(61070162，61225012)，部委高新技術(shù)項目(MOE—INTEL-2012—06，211-2010-jd-05，CNGl2012—08)，國家重大專項課題項目(2011578)的資助。．R．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第2章健康物聯(lián)網(wǎng)及相關(guān)技術(shù)概述2．1健康物聯(lián)網(wǎng)及其體系結(jié)構(gòu)中國生物醫(yī)學(xué)工程學(xué)會及中國電子學(xué)會健康物聯(lián)專委會秘書長宋瑜研究員表示【251，健康物聯(lián)網(wǎng)的核心指導(dǎo)思想始終是以人的健康為中心來解決人的健康問題，要把提高或恢復(fù)人與自然和諧相處的自身能力放在首位，而不是僅僅針對疾病本身，互聯(lián)網(wǎng)解決了人與人之間的交流，物聯(lián)網(wǎng)則是解決人與物甚至物與物之間的交流，極大地擴展了互聯(lián)網(wǎng)的應(yīng)用領(lǐng)域。健康物聯(lián)網(wǎng)具備互連性、協(xié)作性、預(yù)防性、普及性、安全性以及創(chuàng)新性的特征。互聯(lián)性指無論患者身在哪里，管理醫(yī)生都可以通過物聯(lián)網(wǎng)，查看患者的健康檔案和病歷，并與其他專家進行會診，為患者提供最好的治療和護理服務(wù)。協(xié)作性指通過專有的醫(yī)療網(wǎng)絡(luò)，記錄、整合和共享醫(yī)療信息和資源，實現(xiàn)不同醫(yī)療部門之間的信息交換和協(xié)同工作，為患者提供一體化服務(wù)。預(yù)防性指健康物聯(lián)網(wǎng)能夠根據(jù)對患者歷史身體體征的挖掘預(yù)測，及時發(fā)現(xiàn)重大疾病即將發(fā)生的征兆，進而進行快速、有效的響應(yīng)。普及性指能夠突破大醫(yī)院與普通醫(yī)院的觀念限制，提供全民性的高質(zhì)量醫(yī)療服務(wù)。安全性是指在沒有授權(quán)的情況下，確保個人醫(yī)護信息的安全。創(chuàng)新性指健康物聯(lián)網(wǎng)能夠革新傳統(tǒng)的醫(yī)療模式，激發(fā)更多健康領(lǐng)域的創(chuàng)新發(fā)展。加快研究實現(xiàn)具備這些特征健康物聯(lián)網(wǎng)，實現(xiàn)健康國人的中國夢?；谖锫?lián)網(wǎng)的社會醫(yī)療健康服務(wù)網(wǎng)絡(luò)面向社區(qū)和農(nóng)村基層醫(yī)療單位，利用個人生理信息智能感知和采集設(shè)備，通過物聯(lián)網(wǎng)應(yīng)用中間件平臺及接入網(wǎng)關(guān)，實現(xiàn)目標人群與后臺醫(yī)療信息化服務(wù)及醫(yī)療服務(wù)資源的對接，真正實現(xiàn)物與物，物與人以及人與人的全面信息交換和服務(wù)網(wǎng)絡(luò)。健康服務(wù)的內(nèi)容應(yīng)該包含：個性化的健康檢查、個人身體健康信息檔案、針對慢性病健康跟進、健康信息維護方案、家庭健康遠程監(jiān)護、健康咨詢和全程綠色就醫(yī)等一系列人性化的服務(wù)。目標人群可以在任何地點，任何時間可以查看到所有采集、就診、住院、體檢信息；以智能算法為導(dǎo)向，用戶可以實現(xiàn)對本人的健康狀況及時掌握；同時，通過將采用物聯(lián)網(wǎng)技術(shù)的醫(yī)療設(shè)備引入會員家庭，將專業(yè)醫(yī)療服務(wù)家庭化，讓會員在家即可以向?qū)I(yè)醫(yī)生咨詢，詢問自己關(guān)注的醫(yī)療信息。故健康物聯(lián)網(wǎng)應(yīng)具有由智能采集終端組成的感知層，由Hadoop數(shù)據(jù)處理平臺組成的數(shù)據(jù)層，以互聯(lián)網(wǎng)技術(shù)為基礎(chǔ)的網(wǎng)絡(luò)層，實現(xiàn)各種功能預(yù)測的應(yīng)用層，完成物聯(lián)網(wǎng)的感知、傳輸、存儲、數(shù)據(jù)處理、預(yù)測應(yīng)用的一系列過程?；贖adoop的健康服務(wù)物聯(lián)網(wǎng)應(yīng)用體系如下圖2．1所示。一9．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第2章健康物聯(lián)網(wǎng)及相關(guān)技術(shù)概述網(wǎng)絡(luò)運營服務(wù)平臺嘲健康物聯(lián)網(wǎng)。應(yīng)用層、、-、i／、tj一互聯(lián)網(wǎng)，移動網(wǎng)＼i·??一。．．．，‘≈．∥一÷t社區(qū)醫(yī)療圖2．1健康物聯(lián)網(wǎng)應(yīng)用體系框架Fig．2．1Theapplicationsystemframeworkontheinternetofthingsinhealthcare信息感知和采集層主要由小型化多功能生理指標采集設(shè)備和裝置和物聯(lián)網(wǎng)應(yīng)用中間件平臺及網(wǎng)關(guān)組成，負責完成目標人群生理指標及健康參數(shù)的感知、采集、傳遞以及網(wǎng)絡(luò)接入。支撐數(shù)據(jù)層，即基于Hadoop的數(shù)據(jù)處理平臺，在健康物聯(lián)網(wǎng)起著基礎(chǔ)性的作用，基于醫(yī)療信息化基礎(chǔ)設(shè)施及M2M等物聯(lián)網(wǎng)應(yīng)用支撐平臺，通過數(shù)據(jù)中心、專家系統(tǒng)以及門戶網(wǎng)站的建設(shè)，為醫(yī)療健康服務(wù)及擴展應(yīng)用提供運行保障。在此層次上，重點解決醫(yī)療健康信息的融合及處理以及不同系統(tǒng)問的數(shù)據(jù)共享及分發(fā)技術(shù)，為上層醫(yī)護應(yīng)用提供科學(xué)預(yù)測提供數(shù)據(jù)和模型的支撐。健康服務(wù)應(yīng)用層利用信息采集層的信息及支撐管理層平臺的服務(wù)，實現(xiàn)對醫(yī)療資源的整合，并依據(jù)目標人群的實際情況和服務(wù)需求，提供個性化的醫(yī)療健康服務(wù)及應(yīng)用。2．2健康物聯(lián)網(wǎng)中間件中間件并不是健康物聯(lián)網(wǎng)中的獨有的概念，但是針對物聯(lián)網(wǎng)應(yīng)用特點，需要大量設(shè)計中間件部分的開發(fā)平臺和基礎(chǔ)框架。它的主要作用是隔離底層傳感網(wǎng)絡(luò)與上層應(yīng)用，屏蔽底層不同智能感知設(shè)備在通信協(xié)議、數(shù)據(jù)格式等方面的差異，為上層應(yīng)用開發(fā)提供統(tǒng)一的數(shù)據(jù)處理、網(wǎng)絡(luò)監(jiān)控、應(yīng)用開發(fā)以及服務(wù)調(diào)度接口，從而簡化健康物聯(lián)網(wǎng)的部署和相關(guān)應(yīng)用開發(fā)。健康物聯(lián)網(wǎng)中間件是實現(xiàn)下層智能采集終端和上層醫(yī)護服務(wù)系統(tǒng)之間的數(shù)據(jù)傳送、過濾清洗、根據(jù)相應(yīng)規(guī)范轉(zhuǎn)換數(shù)據(jù)的中間部分，位處于健康物聯(lián)網(wǎng)的服務(wù)應(yīng)用層、感知層與網(wǎng)絡(luò)層的ARM設(shè)備當中。本文探究的中間件為服務(wù)應(yīng)用端數(shù)據(jù)處理一10一曩、幫隰一蚤萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第2章健康物聯(lián)網(wǎng)及相關(guān)技術(shù)概述平臺的中間件，也稱為健康物聯(lián)網(wǎng)業(yè)務(wù)基礎(chǔ)中問件。物聯(lián)網(wǎng)中間件扮演底層數(shù)據(jù)采集節(jié)點和應(yīng)用程序之間的中介角色，中問件可以收集底層硬件節(jié)點采集的數(shù)據(jù)，并且對數(shù)據(jù)進行處理，將實體對象格式轉(zhuǎn)化為信息環(huán)境下的虛擬對象；同時，上層醫(yī)護服務(wù)端可以使用中間件平臺所提供一系列通用的應(yīng)用服務(wù)接口(API)，即能連接，控制底層硬件節(jié)點。這樣一來，即使存儲信息的數(shù)據(jù)中心或上層支撐應(yīng)用服務(wù)對軟件程序進行更新，或者底層智能采集終端設(shè)備的數(shù)量改變等情況發(fā)生時，服務(wù)應(yīng)用端不需要修改也能夠處理，有效的把復(fù)雜的多對多連接問題簡化處理，同時增強了服務(wù)應(yīng)用的可復(fù)用性。本文研究的健康物聯(lián)網(wǎng)數(shù)據(jù)處理平臺可以看做是實現(xiàn)的一種中間件技術(shù)作為應(yīng)用開發(fā)。2．3健康物聯(lián)網(wǎng)感知層技術(shù)健康物聯(lián)網(wǎng)感知層相關(guān)技術(shù)主要有RFID技術(shù)、無線傳感網(wǎng)技術(shù)、低能耗通信技術(shù)、多業(yè)務(wù)用戶體驗質(zhì)量控制技術(shù)、體域網(wǎng)技術(shù)、定位技術(shù)、安全技術(shù)及核心芯片研制技術(shù)等。在基礎(chǔ)傳感設(shè)備上，當前許多的芯片制造商，分別從他們各自擅長的領(lǐng)域積極參與到健康物聯(lián)網(wǎng)和智慧醫(yī)療領(lǐng)域，促進了人體生理信息數(shù)據(jù)的采集技術(shù)成長很快。例如德州儀器MSP430系列芯片將傳感信號采集和片上處理分析功能整合在一起；飛思卡爾也將在無線傳感器方向的優(yōu)勢進一步加強和整合，加快推出了統(tǒng)一的集成傳感器應(yīng)用開發(fā)平臺，比如開發(fā)的智能運動感知平臺及高度平臺等傳感產(chǎn)品。感知層IEEE，ISO，ZigBee三大組織也積極參與到健康醫(yī)療的相關(guān)醫(yī)療標準的制定當中。健康物聯(lián)網(wǎng)的信息傳送和互聯(lián)網(wǎng)類似，傳輸網(wǎng)絡(luò)分為有線和無線兩大類技術(shù)，結(jié)合現(xiàn)有的通信技術(shù)，分為四類基礎(chǔ)網(wǎng)絡(luò)。短距離有線通訊網(wǎng)，包括局域網(wǎng)、USB接口等；短距離無線通訊網(wǎng)，包括如藍牙、RFID、Zigbee傳感設(shè)備、傳感網(wǎng)、無線局域網(wǎng)Wifi、WMN等方式；遠距離無線通訊網(wǎng)，包括GPRS、3G、4G等蜂窩網(wǎng)技術(shù)以及真正的長距離GPS衛(wèi)星移動通信網(wǎng)；遠距離有線通訊網(wǎng)，包括Intemet，廣播電視網(wǎng)和電信網(wǎng)絡(luò)等基礎(chǔ)網(wǎng)絡(luò)。上面提到的低功耗的藍牙與Zigbee傳感器技術(shù)是兩種短距離通信標準，相對于現(xiàn)有其他通信標準，具有良好的可易用性、電源功耗較低、傳輸速率較快和穩(wěn)定性較好，更適宜部署。體域網(wǎng)，即無線軀體傳感網(wǎng)【2剛，是附著在人體身上的一種網(wǎng)絡(luò)，由一套小巧可移動、具有通信功能的傳感器和一個身體主站(或稱BAN協(xié)調(diào)器)組成，每～傳感器既可佩戴在身上，也可植入體內(nèi)。協(xié)調(diào)器是網(wǎng)絡(luò)的管理器，也是BAN和外部網(wǎng)絡(luò)(如3G、WiMAX、Wi．Fi等1之間的網(wǎng)關(guān)，使數(shù)據(jù)能夠得以安全地傳送和交換。用于連續(xù)長期的對人體生理信息(體溫、血糖、血壓、呼吸頻率、心率等)進行無線監(jiān)測，通過對數(shù)據(jù)的采集、融．11．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第2章健康物聯(lián)網(wǎng)及相關(guān)技術(shù)概述合和分析處理，實現(xiàn)對人體健康情況的實時監(jiān)測和跟蹤治療。無線體域網(wǎng)相當于把人體看成通訊網(wǎng)絡(luò)的一部分，在身體器官上部署各種智能采集終端，接收這種可穿戴，可移動的數(shù)據(jù)，這些將會隨著健康物聯(lián)網(wǎng)的普及，將融入人們的日常生活。體域網(wǎng)中傳感器節(jié)點如圖2．2。幽2．2體域網(wǎng)中傳感器節(jié)點位置圖Fig．2．2Thepositionofthesensoronbodyareanetwork2．4Hadoop及相關(guān)子模塊概述現(xiàn)代社會的信息增長速度飛快，這些信息中又包含著大量有用數(shù)據(jù)。我們需要對這些數(shù)據(jù)進行分析處理，以獲得更多有價值的信息。我們這時選用Hadoop系統(tǒng)存儲管理和分析這些數(shù)據(jù)。Hadoop最早起源于Nutch，2008年1月，Hadoop成為Apache的頂級項目，迎來了它的快速發(fā)展期。Hadoop使用者完全不需要深入理解分布式系統(tǒng)內(nèi)部的底層的具體實現(xiàn)細節(jié)，也不需要擁有深厚的分布式開發(fā)技術(shù)的情況下，同樣的可以實現(xiàn)一個開源的分布式系統(tǒng)框架，完成自己的分布式程序開發(fā)的需求。該框架是參考Google云計算三駕馬車MapReduce，GFS，Bigtable[27】的相關(guān)內(nèi)容編碼實現(xiàn)的。2．4．1分布式文件系統(tǒng)HDFSHDFS‘281(HadoopDistributedFileSystem)：是Hadoop項目的核心子項目，是分布式計算中數(shù)據(jù)存儲管理的基礎(chǔ)，是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的，可以運行于廉價的商用服務(wù)器上，它所具有的高容錯、高可靠性、高可擴展性、高獲得性、高吞吐率等特征為海量數(shù)據(jù)提供了不怕故障的存儲，為超大數(shù)據(jù)集(LargeDataSet)的應(yīng)用處理帶來了很多便利。．12．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文塹蘭主堡壘塑壁墮型!莖墊查墊壟——————————————————————————__——————————-————————————————————————————————————————————一一Hadoop整合了許多文件系統(tǒng)，它定義了一個綜合性的文件系統(tǒng)抽象，它提供了文件系統(tǒng)實現(xiàn)的各樣接口，HDFS也是該文件系統(tǒng)抽象的一個實例。提供了一個高層的文件系統(tǒng)抽象類org．a(chǎn)pache．hadoop．fs．FileSystem，該抽象類就是一個分布式文件系統(tǒng)的接口，從而可以進行具體的實現(xiàn)。HDFS是一個主從(Mater／Slave)體系結(jié)構(gòu)【461，從最終用戶的角度來看，它就像傳統(tǒng)的文件系統(tǒng)一樣，可以通過目錄路徑對文件執(zhí)行CRUD(Create、Read、Update和Delete)操作。但由于分布式存儲的性質(zhì)，HDFS集群擁有一個NameNode和一些DataNode。NameNode管理文件系統(tǒng)的元數(shù)據(jù)，DataNode存儲實際的數(shù)據(jù)。客戶端通過同NameNode和DataNodes的交互訪問文件系統(tǒng)。客戶端聯(lián)系NameNode是為了得到文件的元數(shù)據(jù)，而真正的文件輸入輸出操作是直接與DataNode進行交互的。2．4．2分布式編程模型MapReduceMapReduce采用的是分而治之的思想，把對大規(guī)模數(shù)據(jù)集的操作，分發(fā)給一個主節(jié)點管理下的各個分節(jié)點共同完成，然后通過整合各個節(jié)點的中間結(jié)果，得到最終結(jié)果。簡單地說，MapReduce就是任務(wù)的分解與結(jié)果的匯總，在MapReduce領(lǐng)域許多學(xué)者結(jié)合各自領(lǐng)域做出了不少研究，ChristopherYang等人在分布式系統(tǒng)下實現(xiàn)了MapReduce的容錯恢復(fù)機制【29】，AbouzeidAzza等人結(jié)合MapReduce技術(shù)和DBMS建立并行數(shù)據(jù)庫模型，分析數(shù)據(jù)【30】，并在實際應(yīng)用給出了案例[3l】。FriedmanE等人集合在MapReduce和SQL實現(xiàn)UDF(UserDefinedFunction)模型做了具體研列321。StonebrakerMichael等人在MapReduce和并行數(shù)據(jù)庫之間做出了比較分析【3引。文獻[34]，[35]也在并行處理方面肯定了MapReduce的框架的數(shù)據(jù)處理能力。在Hadoop中，用于執(zhí)行MapReduce任務(wù)的機器角色有兩個：一個是JobTracker；另一個是TaskTracker，JobTracker是用于調(diào)度工作的，TaskTracker是用于執(zhí)行工作的。一個Hadoop集群中只有一臺JobTracker。在分布式計算中，MapReduce框架負責處理了并行編程中分布式存儲、工作調(diào)度、負載均衡、容錯均衡、容錯處理以及網(wǎng)絡(luò)通信等復(fù)雜問題，把處理過程高度抽象為兩個Map和Reduce過程，Map主要負責把任務(wù)分解成為若干個任務(wù)，reduce負責把分解后多個任務(wù)處理的結(jié)果匯總規(guī)約起來【331。重點說明的是，使用用MapReduce框架來執(zhí)行任務(wù)時，程序算法涉及的數(shù)據(jù)文件必須可以分解成若干小的數(shù)據(jù)分片，并且這些小數(shù)據(jù)分片都可能夠在集群的各個節(jié)點分布式的并行運行。在Hadoop數(shù)據(jù)分析處理平臺中，執(zhí)行的每個MR任務(wù)都會被相應(yīng)的初始化為一個Job，每個Job任務(wù)又可以分為兩種階段：Map階段和Reduce階段。這兩個階段分別用兩個函數(shù)表示，也就是相應(yīng)的map函數(shù)和reduce函數(shù)。map函數(shù)接收一個形式的輸入【34】，然后同樣產(chǎn)生一個形式的中間輸出，Hadoop函數(shù)接收一個!tll形式的輸入，然后對這個value集合進行處理，每個reduce產(chǎn)生O或1個輸出，reduce的輸出也是形式的。MapReduce的運行模型如下圖。MappersReducers一一一一一一一．1廠——～。一一一一一?一?一廠—-。?一．～．]＼、、一v一／＼——V——／L飛——／、——V——7、——V’——√L—、‘——√InputMiddleResultOutput圖2．3MapReduce的運行模型Fig．2．3TheoperationmodelofMapReduce2．4．3分布式數(shù)據(jù)倉庫HiveHive[361是一個構(gòu)建在Hadoop上的數(shù)據(jù)倉庫平臺，是Facebook的信息平臺的重要組成部分，F(xiàn)acebook在2008年將其貢獻給Apache，現(xiàn)已成為Apache旗下的～個獨立子項目。Hive是基于Hadoop的一種類SQL數(shù)據(jù)倉庫的基礎(chǔ)設(shè)施，通過專注結(jié)構(gòu)化數(shù)據(jù)，可以實現(xiàn)MapReduce一般不具有的一些優(yōu)化與可用性功能，將Hadoop技術(shù)推廣給更多的數(shù)據(jù)分析師和非分布式專業(yè)人士。Hive定義了簡單的類SQL查詢語言，稱為HQL，HQL與SQL有著相似的操作，它允許熟悉SQL的編程的開發(fā)人員能夠輕松向Hadoop平臺轉(zhuǎn)移。Hive平臺提供了一個對SQL語句的解析過程，可以從外部輸入接口獲取命令，對用戶輸入的指令進行解析。Hive可將外部的指令解析成一個Map．Reduce可執(zhí)行計劃，并按照該計劃生成的MapReduce任務(wù)后交給Hadoop集群進行處理。Hive的結(jié)構(gòu)可以分為以下幾部分：用戶接口層：包括CLI，Client，WUI。其中最常用的是CLI，CLI啟動的時候，會同時啟動一個Hive副本。Client是Hive的客戶端，用戶連接至HiveServer。在啟動Client模式的情況下，需要指出Hive服務(wù)器所在節(jié)點，并且在該節(jié)點啟動HiveServer端【37】。WUI的功能則是通過瀏覽器的形式來訪問Hive。Hive在元數(shù)據(jù)存儲方面。通常是存儲在標準的關(guān)系數(shù)據(jù)庫如Mysql，Derby等．14．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第2章健康物聯(lián)網(wǎng)及相關(guān)技術(shù)概述RDBMS中。其中的Metastore是Hive元數(shù)據(jù)的集中存放位置，Hive分為三種模式連接到相應(yīng)的數(shù)據(jù)庫，分別是內(nèi)嵌模式，獨立模式，遠程模式，這些通過具體的數(shù)據(jù)庫位置和通過配置文件進行相應(yīng)設(shè)置。解釋器、編譯器、優(yōu)化器、執(zhí)行器。主要完成HQL查詢語句從詞法分析、語法分析、編譯、優(yōu)化以及查詢計劃的生成。生成的查詢計劃存儲在HDFS中，并在隨后有MapReduce調(diào)用執(zhí)行。Hadoop利用HDFS文件系統(tǒng)進行存儲數(shù)據(jù)信息【371，首先，Hive沒有自己獨自的數(shù)據(jù)存儲格式，也沒有為數(shù)據(jù)建立相應(yīng)的索引，用戶可以非常自由的組織創(chuàng)建的Hive中的表，只需要在創(chuàng)建表的時候告訴Hive數(shù)據(jù)中的列分隔符和行分隔符，Hive就可以解析數(shù)據(jù)。Hive中主要包含以下數(shù)據(jù)模型：表(Table)，外部表(ExternalTable)，分區(qū)fPartition)，桶(Bucket)。其次，利用MapReduce進行計算Hive的數(shù)據(jù)存儲在HDFS中，大部分的查詢由MapReduce任務(wù)完成(包含一些的查詢，比如select宰fromtbl就會生成相應(yīng)的MapRedcue任務(wù))。下面圖2．4為Hive的基本框架圖。圖2．4Hive的基本框架圖Fig．2．4ThebasicframeofHive由于Hadoop是海量數(shù)據(jù)處理系統(tǒng)，任務(wù)的延遲性比較大，所以每個MapReduce任務(wù)提交和執(zhí)行的過程中會有一定的時間消耗。類似的，在Hive處理的數(shù)據(jù)集的過程．15．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第2章健康物聯(lián)網(wǎng)及相關(guān)技術(shù)概述中，在執(zhí)行語句過程中同樣的會有延遲的情況發(fā)生，這樣，Hive的性能就不可能很好地和傳統(tǒng)的MySQL等數(shù)據(jù)庫進行比較了。Hive不能夠?qū)?shù)據(jù)的排序和查詢方面的功能，也不能夠提供傳統(tǒng)數(shù)據(jù)庫能提供的在線事務(wù)處理分析的能力，盡管Hive也不提供實時的查詢功能和記錄的更新，但Hive確能夠更好地處理不變的大規(guī)模數(shù)據(jù)集上的海量日志任務(wù)。所以，Hive最大的價值是具有很強的可擴展性，由于Hive是基于Hadoop數(shù)據(jù)處理平臺的，故可以自動的適應(yīng)集群節(jié)點數(shù)量和處理數(shù)據(jù)大小的動態(tài)變化；Hive結(jié)合了MapReduce和UDF的功能，故具有很強的可延展性，并且擁有良好的容錯功能和較低約束的數(shù)據(jù)輸入格式。2．4．4Sqoop技術(shù)Sqoop[381是一個開源工具，用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具，可以將一個關(guān)系型數(shù)據(jù)庫(例如：MySQL，Oracle等)中的數(shù)據(jù)導(dǎo)進到Hadoop的HDFS中，也可以將HDFS的數(shù)據(jù)導(dǎo)進到關(guān)系型數(shù)據(jù)庫中，提供其進一步處理。Sqoop抽取出來的數(shù)據(jù)也可以被MapReduce程序或者上文提到的Hive模塊分析處理。文獻[39】．[43】也都從不同側(cè)面研究了Hadoop的相關(guān)技術(shù)，包括數(shù)據(jù)處理能力，負載均衡等方面。2．5數(shù)據(jù)挖掘算法數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲庫中，自動的發(fā)現(xiàn)有用信息的過程，是大數(shù)據(jù)中知識發(fā)現(xiàn)必不可少的一部分，知識發(fā)現(xiàn)是將未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的過程【471。廄對數(shù)據(jù)分析產(chǎn)生的伸縮性、多維性、異構(gòu)和復(fù)雜性、數(shù)據(jù)所有權(quán)與分散性等各種問題，需要根據(jù)統(tǒng)計學(xué)，人工智能、最優(yōu)化、信息論等知識建立相應(yīng)的模型，對數(shù)據(jù)進行挖掘分析處理。數(shù)據(jù)挖掘可以分為兩大類的任務(wù)，預(yù)測任務(wù)，這是根據(jù)其他屬性的值，來預(yù)測特定屬性的值；描述任務(wù)，這是導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的模式。2．6本章小結(jié)本章介紹了健康物聯(lián)網(wǎng)應(yīng)具備的基本特征，介紹了其體系結(jié)構(gòu)，分析了物聯(lián)網(wǎng)中間件的重要性，感知層的相關(guān)技術(shù)，尤其是體域網(wǎng)的重要性，對Hadoop及相關(guān)子模塊，分布式文件系統(tǒng)HDFS，分布式編程模型MapReduce，分布式數(shù)據(jù)倉庫Hive和其他健康物聯(lián)網(wǎng)相關(guān)技術(shù)進行了概述。一16．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第3章健康物聯(lián)網(wǎng)數(shù)據(jù)處理總體流程和設(shè)計3．1健康物聯(lián)網(wǎng)數(shù)據(jù)處理的總體流程隨著物聯(lián)網(wǎng)和云計算技術(shù)在健康物聯(lián)網(wǎng)中的廣泛應(yīng)用，特別在是通過感知層的智能采集終端自動識別采集醫(yī)療及病人信息并存檔后，這些寶貴的健康信息對于疾病的診斷、治療及醫(yī)療研究都有很大的價值。如何靈活利用這些信息，對這些數(shù)據(jù)進行數(shù)據(jù)處理、挖掘以達到記錄、觀察、分析、監(jiān)控照護等功用，提升院內(nèi)病患安全與院外病患健康，實現(xiàn)疾病治療、預(yù)防、并最大限度的利用醫(yī)療資源，維護民眾的健康，日益為大家所關(guān)注。可見數(shù)據(jù)處理部分是健康物聯(lián)網(wǎng)核心技術(shù)中最為重要的一環(huán)。海量、實時的健康生理信息被智能采集終端傳送到系統(tǒng)后，怎么對這些復(fù)雜、海量、異構(gòu)的數(shù)據(jù)進行有效的清洗、處理、挖掘并得到相應(yīng)的預(yù)測結(jié)果，這樣就可以傳達給監(jiān)護醫(yī)生有效的指標，醫(yī)護人員將結(jié)合預(yù)測結(jié)果能夠?qū)Σ∪诉M行有效的指導(dǎo)，這些將是健康物聯(lián)網(wǎng)技術(shù)的核心。數(shù)據(jù)處理平臺作為健康物聯(lián)網(wǎng)智慧的來源，在高性能計算、云計算和普適計算的支撐下將網(wǎng)絡(luò)內(nèi)海量的信息通過計算分析，形成一個互聯(lián)的大型健康智能網(wǎng)絡(luò)，為上層服務(wù)管理和行業(yè)應(yīng)用建立起一個高效、可靠和可信的技術(shù)支撐平臺。利用云計算技術(shù)構(gòu)建醫(yī)療數(shù)據(jù)庫，使其能夠更好的為數(shù)字醫(yī)療和遠程醫(yī)療提供準確、全面的診斷信息和治療措施。所以在數(shù)據(jù)處理平臺中對醫(yī)療生理信息的數(shù)據(jù)挖掘至關(guān)重要，對健康信息進行數(shù)據(jù)預(yù)處理操作，信息融合，開發(fā)研究快速、魯棒的挖掘算法，是健康物聯(lián)網(wǎng)能否普及應(yīng)用的關(guān)鍵。所以在數(shù)據(jù)處理中心設(shè)計研究高效率的數(shù)據(jù)處理算法非常關(guān)鍵。健康物聯(lián)網(wǎng)數(shù)據(jù)處理挖掘工作主要是基于健康物聯(lián)網(wǎng)數(shù)據(jù)處理平臺進行研究實現(xiàn)的，這里采用云計算中的Hadoop分布式框架進行分布式數(shù)據(jù)處理，由于Hadoop分布式文件系統(tǒng)HDFS是以支持大數(shù)據(jù)集合為目標的，故利用HDFS對健康物聯(lián)網(wǎng)產(chǎn)生的異構(gòu)海量數(shù)據(jù)進行分布式存儲；根據(jù)具體需求，分別采用Hive分布式數(shù)據(jù)倉庫和MapReduce編程模型對智能終端采集的數(shù)據(jù)進行數(shù)據(jù)清洗過濾，刪除冗余信息；由于采集到的數(shù)據(jù)背后隱藏著大量有用的信息，希望能夠?qū)ζ涓邔哟蔚姆治?，為醫(yī)學(xué)人員提供科學(xué)的預(yù)測模型，需要對分布式存儲的數(shù)據(jù)進行分布式數(shù)據(jù)處理挖掘，為上層醫(yī)療服務(wù)應(yīng)用提供有用，高效，具有可預(yù)測的服務(wù)。下圖3．1為健康物聯(lián)網(wǎng)數(shù)據(jù)處理所在平臺的總體框架圖，這個框架主要描述了基于Hadoop數(shù)據(jù)處理的流程走向，通過數(shù)據(jù)加載轉(zhuǎn)換為統(tǒng)一的數(shù)據(jù)格式，分布式存儲，然后根據(jù)醫(yī)療需求對數(shù)據(jù)進行分布式數(shù)據(jù)清洗和分布式數(shù)據(jù)挖掘。一17．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第3章健康物聯(lián)網(wǎng)數(shù)據(jù)處理總體流程和設(shè)計一／一———————————————、、hWeb服務(wù)接1：3j＼＼．—．．．．．．．．．．．．．．—．．．．．．．．．．．—．．一，77圖3．1健康物聯(lián)網(wǎng)數(shù)據(jù)處理總體流程Fig．3．1ThebasicflowofdataprocessingbasedontheInternetofthingsinhealthcare健康物聯(lián)網(wǎng)數(shù)據(jù)處理平臺的文件數(shù)據(jù)存儲采用云計算技術(shù)，基于Hadoop集群的分布式文件系統(tǒng)HDFS進行存儲，由于在海量異構(gòu)智能采集終端收集的數(shù)據(jù)可能存在冗余，異常數(shù)據(jù)，故需要對數(shù)據(jù)進行分布式數(shù)據(jù)清洗，對清洗后的數(shù)據(jù)，可基于Hadoop數(shù)據(jù)處理平臺設(shè)計分布式的數(shù)據(jù)處理算法，這里主要研究分布式數(shù)據(jù)挖掘算法，得到為上層應(yīng)用需要的信息。對于具體的算法流程，主要是基于設(shè)計的健康物聯(lián)網(wǎng)數(shù)據(jù)處理平臺進行的，首先對于從智能采集終端采集的數(shù)據(jù)，加載預(yù)處理為統(tǒng)一數(shù)據(jù)格式的數(shù)據(jù)，基于Hadoop分分布式文件系統(tǒng)HDFS進行存儲，根據(jù)具體的業(yè)務(wù)需求，對數(shù)據(jù)進行數(shù)據(jù)清洗預(yù)處理，把清洗后的數(shù)據(jù)進行分布式數(shù)據(jù)挖掘分析，這也是本文研究的重點，設(shè)計分布式的數(shù)據(jù)挖掘算法，以更高效率處理健康物聯(lián)網(wǎng)中的海量數(shù)據(jù)，為上層提供更有效的分析與支撐。3．2異構(gòu)數(shù)據(jù)加載轉(zhuǎn)換設(shè)計由于健康物聯(lián)網(wǎng)智能采集終端的多樣性，采集到的信息大多可能是異構(gòu)的，所以中間件數(shù)據(jù)處理數(shù)據(jù)加載轉(zhuǎn)換模塊應(yīng)具有數(shù)據(jù)接收和轉(zhuǎn)換功能。轉(zhuǎn)換為針對某項應(yīng)用的統(tǒng)一格式的XML數(shù)據(jù)或者有規(guī)范格式的數(shù)據(jù)庫數(shù)據(jù)，為數(shù)據(jù)處理挖掘及上層應(yīng)用屏蔽感知層不同硬件設(shè)備傳輸?shù)牟町?。故針對不同?shù)據(jù)協(xié)議設(shè)備發(fā)送的數(shù)據(jù)需編寫XML轉(zhuǎn)換配置文件接口，并建立面向不同應(yīng)用的數(shù)據(jù)表示規(guī)范，供上層數(shù)據(jù)處理。結(jié)合XML與XMLSchema的優(yōu)點，這里參照在互聯(lián)網(wǎng)領(lǐng)域已有的一個數(shù)據(jù)交換接口標準XML(ExtensibleMarkupLanguage，擴展標識語言)研發(fā)形成統(tǒng)一的醫(yī)療健康數(shù)據(jù)交換接口。XML的模式XMLSchema支持各種各樣的數(shù)據(jù)類型，用來描述XML的結(jié)．18．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第3章健康物聯(lián)網(wǎng)數(shù)據(jù)處理總體流程和設(shè)計構(gòu)和數(shù)據(jù)類型，它本身也是一種XML，可讀性強。引入了命名空間，用戶可自定義數(shù)據(jù)類型，通過建立相關(guān)的映射機制，可將不同的XMLSchema進行轉(zhuǎn)換。這里當調(diào)用相應(yīng)數(shù)據(jù)解析模塊進行數(shù)據(jù)轉(zhuǎn)換時，采用讀取配置文件的方式進行。根據(jù)不同的智能終端感知層協(xié)議，編寫相應(yīng)的配置文件轉(zhuǎn)換接口，這樣只需要修改配置文件，就可以把數(shù)據(jù)轉(zhuǎn)換為供數(shù)據(jù)處理的統(tǒng)一數(shù)據(jù)格式。為了提高了模塊的可擴展性。故轉(zhuǎn)換配置文件也采用XML文件進行描述。在這里針對配置文件及數(shù)據(jù)表示規(guī)范的XML設(shè)計應(yīng)該滿足下列幾方面的條件：為了能夠有效快速的解析XML文件信息，找到發(fā)送給上層應(yīng)用所需要的數(shù)據(jù)，這里設(shè)計的XML要合理化，不需要嵌套過多的子標簽；XML文件的標簽名稱能夠明確反映出其所代表的內(nèi)容信息，便于以后維護；XML文件儲存內(nèi)容也要盡量完整，信息要能反映出使用某種技術(shù)的節(jié)點的對應(yīng)的相關(guān)解析方法。數(shù)據(jù)預(yù)處理轉(zhuǎn)換模塊的作用如圖3．2所示。數(shù)據(jù)處理及上層服務(wù)應(yīng)用JL基于業(yè)務(wù)規(guī)范的格式基于協(xié)議的數(shù)據(jù)轉(zhuǎn)配置文件換配置文件JLRFI。螽集終ZIGBEE采集Bluetooth采l終端集終端圖3．2數(shù)據(jù)預(yù)處理轉(zhuǎn)換模塊作用Fig．3．2Theroleofdatapreprocessingtransformationmodule圖3．3血糖監(jiān)測規(guī)范的XMLSchema設(shè)計Fig．3．3TheXMLSchemaofmonitoringglucose數(shù)據(jù)表示規(guī)范是數(shù)據(jù)在數(shù)據(jù)交換平臺中的統(tǒng)一表示格式。數(shù)據(jù)表示規(guī)范制定的決定了數(shù)據(jù)轉(zhuǎn)換任務(wù)的效率，數(shù)據(jù)交換規(guī)范要充分考慮到應(yīng)用的擴展性，考慮到實際應(yīng)用的可能性，為以后形成相關(guān)的行業(yè)標準打下基礎(chǔ)，這樣才能充分實現(xiàn)用戶和服務(wù)的需求。根據(jù)真實世界對象和實體及分類的思想，應(yīng)先使用XMLSchema進行相應(yīng)業(yè)務(wù)規(guī)范配．19．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第3章健康物聯(lián)網(wǎng)數(shù)據(jù)處理總體流程和設(shè)計置，建立各種針對各種應(yīng)用服務(wù)的數(shù)據(jù)文檔規(guī)范。如血糖監(jiān)測業(yè)務(wù)的XMLSchema設(shè)計可如上圖3．3所示：與此Schema相對應(yīng)的XML數(shù)據(jù)表達格式大體如下：3<／Uid>ZIGBEE<／Node__protocol>Glucometer<／Node_Application><／Node——Info>2012-05—20T10：03：36<／Data—time>張=<／Data_person>6．6<／Data—value><／Data——Info><／Node——Data>文件說明：：根節(jié)點。：描述某采集終端的基本信息。其中子標簽，，分別為終端唯一序號，使用的協(xié)議及終端用途。：描述采集終端傳送的數(shù)據(jù)信息。其子標簽，，分別表示是測量時間，被測量人及測量值。從上面XML數(shù)據(jù)文件得出的信息為：3號ZIGBEE類型終端血糖儀在2012．5—20日10：03：36測得張三的血糖值為6．6mmol／L。3．3分布式數(shù)據(jù)清洗算法設(shè)計健康物聯(lián)網(wǎng)數(shù)據(jù)處理平臺從智能采集終端中接收的海量異構(gòu)數(shù)據(jù)中蘊含了大量信息，這些信息盡管是醫(yī)療健康服務(wù)的數(shù)據(jù)基礎(chǔ)，但是健康物聯(lián)網(wǎng)數(shù)據(jù)倉庫系統(tǒng)中有可能存在著大量的臟數(shù)據(jù)，由于智能采集終端協(xié)議不同等原因?qū)е碌臄?shù)據(jù)缺失屬性值、時間間隔短、采集數(shù)據(jù)異常、有效數(shù)據(jù)值重復(fù)等錯誤。即使Hadoop健康數(shù)據(jù)處理平臺非常成熟，處理效率很高，對于冗余數(shù)據(jù)也必須清洗，因為這些數(shù)據(jù)可能對上層醫(yī)護預(yù)測帶．20．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第3章健康物聯(lián)網(wǎng)數(shù)據(jù)處理總體流程和設(shè)計來錯誤，為了清除臟數(shù)據(jù)，必須在數(shù)據(jù)處理平臺當中進行數(shù)據(jù)清洗。其中可先利用基于MapReduce程序迸行數(shù)據(jù)清洗，清洗后的文件存入HDFS后，為了進行更加有針對性的數(shù)據(jù)挖掘研究，可以繼續(xù)將數(shù)據(jù)導(dǎo)入Hive數(shù)據(jù)倉庫，進行基于Hive數(shù)據(jù)清洗，為下面的數(shù)據(jù)挖掘工作打好基礎(chǔ)。數(shù)據(jù)清洗平臺基于總體框架的流程如下圖3．4所示。圖3．4數(shù)據(jù)清洗平臺的流程Fig．3．4Theflowofplatformfordatacleaning數(shù)據(jù)過濾清洗就是讀取加載的大量數(shù)據(jù)，根據(jù)某種原則，過濾掉許多多余冗余的數(shù)據(jù)，為上層打下堅實的數(shù)據(jù)基礎(chǔ)。由于數(shù)據(jù)量很大，所以在集群中部署分布式數(shù)據(jù)清洗的方案。主要是基于MapReduce編程模型和具體的清洗規(guī)則進行相應(yīng)的實現(xiàn)。3．3．1數(shù)據(jù)清洗的MR模型流程分析本文所設(shè)計的算法，包括數(shù)據(jù)清洗算法都是基于Hadoop的數(shù)據(jù)處理平臺進行分布式設(shè)計與研究的，有必要詳細分析下主要編程模型MapReduce的詳細過程與源碼【49，5們。每個具體的MapReduce任務(wù)主要包括作業(yè)的提交，Map任務(wù)的分配和執(zhí)行，Reduce任務(wù)的分配和執(zhí)行，作業(yè)的完成四個步驟。每個具體的任務(wù)又分：準備輸入，算法的執(zhí)行，輸出結(jié)果三個過程。為了更加詳細了Map和Reduce階段的內(nèi)部流程，需要詳細分析內(nèi)部偽代碼。JobTracker是整個MapReduce計算框架的主服務(wù)，首先分析JobTracker的啟動過程，具體的過程如下：步驟1：首先從HDFS讀取作業(yè)對應(yīng)的jobsplits，進而劃分數(shù)據(jù)分片。步驟2：根據(jù)上一階段劃分信息設(shè)定Map任務(wù)的個數(shù)，并創(chuàng)建Map任務(wù)，為每個Map任務(wù)產(chǎn)生一個TasklnProgress處理輸入的一個分片。步驟3：把MapTask放進nonRunningMapCache，這樣方便在JobTracker向TaskTracker分配Map任務(wù)時候做好準備。步驟4：根據(jù)配置信息，設(shè)置ReduceTask的個數(shù)。步驟5：創(chuàng)建Reduce任務(wù)，將把ReduceTask放進nonRunningReduces中，這樣方便在JobTracker向TaskTracker分配Reduce任務(wù)時候做好準備。步驟6：根據(jù)已經(jīng)配置的信息，創(chuàng)建和初始化MapTask及ReduceTask。為了更好地了解Map階段的內(nèi)部流程，下圖3．5詳細描述了Map階段的具體內(nèi)部詳細流程?！ぁ?．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第3章健康物聯(lián)網(wǎng)數(shù)據(jù)處理總體流程和設(shè)計圖3．5Map階段的具體執(zhí)行流程Fig．3．5ThespecificimplementationprocessoftheMapphase3．3．2基于MR的數(shù)據(jù)清洗算法設(shè)計為了在健康物聯(lián)網(wǎng)數(shù)據(jù)處理平臺中建立數(shù)據(jù)清洗框架，這里使用基于Hadoop框架進行編碼實現(xiàn)，通過分析過濾智能采集終端采集的數(shù)據(jù)，將原有的清洗過程轉(zhuǎn)換為MapReduce模型進行并行數(shù)據(jù)清洗。由于具體業(yè)務(wù)需求不一致，可以根據(jù)具體業(yè)務(wù)需求編寫具體的MapReduce任務(wù)進行數(shù)據(jù)清洗操作。如對于異常過濾器，Map階段只需要判斷劃分的value值是否滿足業(yè)務(wù)要求的長度，對于業(yè)務(wù)過濾器，M印階段根據(jù)具體服務(wù)調(diào)用相應(yīng)的屬性值判斷函數(shù)，判斷value劃分的值是否滿足業(yè)務(wù)要求，對于時間過濾器，在Map階段里通過判斷相同id號劃分Key值，在Reduce階段通過相同Key值的比較對數(shù)據(jù)分析，同樣在相似度過濾器中，可調(diào)用根據(jù)具體的value劃分值(屬性值)進行相似度判斷函數(shù)?？傮w上設(shè)計的Map階段處理數(shù)據(jù)分片主要劃分相同Key值，在Combiner和Reduce階段對相同Key值的數(shù)據(jù)依據(jù)各種原則進行過濾清洗處理。下面主要介紹Hadoop數(shù)據(jù)處理平臺主要采用的幾種過濾功能。．22．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第3章健康物聯(lián)網(wǎng)數(shù)據(jù)處理總體流程和設(shè)計異常過濾器：對于待清洗數(shù)據(jù)，首先進行異常冗余數(shù)據(jù)的檢驗，這里主要對于數(shù)據(jù)是否完全重復(fù)且基于服務(wù)的數(shù)據(jù)長度是否一致進行判斷。這里可采用輕量級的算法。具體的基于Hadoop的偽代碼如下。算法3．1異常過濾算法壘!塑壘塑里三：!墜里壘!墅墮壁塑墮塑塑壘!魚!堡生篁基于Hadoop的異常過濾Input：源數(shù)據(jù)文件(keyl，valuel)Output：輸出的去重復(fù)及異常后文件(key2，value2)1：Mapper階段：2：foreachuservaluelefiledo3：if(sLen(value1))then4：context．write(valuel，“”)；／／把value值轉(zhuǎn)為key5：else6：return；7：endif8：endfor9：Reducer階段：10：context,write(key,”’)；∥按key值只輸出一次，達到去重目的。業(yè)務(wù)過濾器：應(yīng)與具體支撐應(yīng)用平臺密切相關(guān)，在上層應(yīng)用中，系統(tǒng)使用者或許只關(guān)心有需求和有權(quán)限的信息，數(shù)據(jù)處理器響應(yīng)具體Web服務(wù)時，根據(jù)用戶傳送來的標簽進行匹配，匹配成功，則輸出相關(guān)數(shù)據(jù)，不匹配則過濾掉查詢到的信息。例如可以定義以下幾個規(guī)則：只選定某個型號的智能終端的數(shù)據(jù)，產(chǎn)品號及版本號等信息；限定具體時間，地點以及應(yīng)用人及相關(guān)信息。對于可能存在異常的孤立數(shù)據(jù)進行業(yè)務(wù)判定。對于不匹配的數(shù)據(jù)進行過濾處理。時間過濾器：根據(jù)數(shù)據(jù)的時間記錄進行過濾，可以根據(jù)業(yè)務(wù)要求指定時間戳。不妨設(shè)交換平臺收集到的數(shù)據(jù)可表示成(Uid，Protocol，Application，TimeStamp)，四個標識分別代表唯一標識編號，應(yīng)用協(xié)議，業(yè)務(wù)，時間戳。這里面Uid為面向各種應(yīng)用的值采用的是同一標準編號，故可作為哈希表的Key值，根據(jù)定義的時間緩沖值TimeBuffer，當讀取到新相似數(shù)據(jù)時，檢查在哈希表中是否有同一Uid傳送的數(shù)據(jù)，若存在且TimeStamp值差小于TimeBuffer，則，將此數(shù)據(jù)過濾處理，大于則認為是新收到的有用數(shù)據(jù)，并更新哈希表數(shù)據(jù)時間。若不存在此Uid，則將該節(jié)點插入到哈希表。相似過濾器設(shè)計：對于XML數(shù)據(jù)的清洗，檢測相似重復(fù)數(shù)據(jù)是個重要的問題，而且相應(yīng)業(yè)務(wù)標準XML可以表示為有序號樹，每個節(jié)點對應(yīng)相應(yīng)數(shù)據(jù)節(jié)點，故可采用樹．23— 萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第3章健康物聯(lián)網(wǎng)數(shù)據(jù)處理總體流程和設(shè)計編輯距離算法或其他相關(guān)智能算法來判定相似性。當然，根據(jù)具體上層應(yīng)用不同，數(shù)據(jù)清洗的流程應(yīng)具體分析設(shè)計。下面是一種具體過濾清洗的流程。圖3．6一種MR數(shù)據(jù)過濾清洗流程圖Fig．3．6AkindoffilteringflowbasedonMR上面其中每個過濾器都是一個MapReduce過程，對于基于Hadoop的MR數(shù)據(jù)清洗工作，充分考慮了海量數(shù)據(jù)的特點。這里可以把各種基本的過濾器設(shè)計成接口形式，具體業(yè)務(wù)可以調(diào)用不同的接口，根據(jù)各種組合可以設(shè)置為不同的流程模式，進行具有針對性的流程化數(shù)據(jù)清洗。3．3．3基于Hive的數(shù)據(jù)清洗設(shè)計Hive是類SQL的MapReduce查詢實現(xiàn)，它可以輕易的使用任何放置在HDFS中的文件作為源文件，進行快速的MapReduce操作。由于Hive的本質(zhì)是將類SQL語句轉(zhuǎn)換為一系列MapReduce程序，所以使用Hive進行數(shù)據(jù)清洗時，是一個基于Hadoop框架的并行化過程，其整體擴展能力，由Hadoop集群框架決定。Hive在Hadoop數(shù)據(jù)分析處理平臺中負責對類似的SQL語句解析的過程，它提供了對外接El用來接收用戶的指令，之后在對其指令進行分析，解析成一個MapReduce程序創(chuàng)建一個可執(zhí)行任務(wù)，并依照這個任務(wù)生成相呼應(yīng)的MR任務(wù)提交給Hadoop處理平臺進行處理，執(zhí)行結(jié)束得到相應(yīng)結(jié)果。當Plan計劃生成時xml的方式保存在HDFS文件系統(tǒng)中，共有兩份，一份是存在HDFS中不刪除，一份保存在HDFS緩存區(qū)內(nèi)，執(zhí)行結(jié)束后會刪除。任務(wù)劃由根任務(wù)與子任務(wù)構(gòu)成，整個任務(wù)計劃可能會包含多個MapReduce任務(wù)和非MapReduce任務(wù)，一個MapReduce任務(wù)中的執(zhí)行計劃也會包括子任務(wù)，當該MapReduce任務(wù)做為一個Job提交的時候會根據(jù)執(zhí)行計劃里的任務(wù)流程進．24．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第3章健康物聯(lián)網(wǎng)數(shù)據(jù)處理總體流程和設(shè)計行MapReduce處理然后匯總進行下一步操作。在整個的任務(wù)執(zhí)行中，經(jīng)歷了語法解析，生成執(zhí)行Task樹，生成執(zhí)行計劃，分發(fā)任務(wù)，MapReduce任務(wù)執(zhí)行任務(wù)計劃的這樣一個過程。具體接收指令后的執(zhí)行流程如下圖。圖3．7Hive接收HQL任務(wù)流程圖Fig．3．7TheflowchartofreceivingHQLinHive為了在基于Hadoop的數(shù)據(jù)處理平臺下實現(xiàn)基于Hive的數(shù)據(jù)清洗，需要執(zhí)行以下幾個步驟：1)在Hadoop集群中安裝Hive支持。2)使用Hadoop內(nèi)置命令行上傳數(shù)據(jù)文件到HDFS中。3)在Hive中根據(jù)文件格式創(chuàng)建相應(yīng)的表。4)編寫HQL語句對數(shù)據(jù)進行清洗，選擇具體子集，為下面的分布式數(shù)據(jù)挖掘做好準備。當在Hive集群中執(zhí)行該語句后就可以在HDFS中配置的輸出目錄看到相應(yīng)的輸出文件，文件的輸出的數(shù)目由設(shè)置的reduce數(shù)目來決定的。3．4分布式數(shù)據(jù)挖掘算法設(shè)計健康物聯(lián)網(wǎng)的數(shù)據(jù)挖掘主要針對目標人群的長期健康檔案。這些健康檔案信息類似于現(xiàn)實中我們的檔案，只是這里通過體域網(wǎng)技術(shù)，信息化記錄了人們相應(yīng)階段的生理信息特征。包括基本身體健康信息數(shù)據(jù)，如身高、體重、生活習(xí)慣、疾病史、家族病史、用藥史、治療情況、病情衍變過程、各項健康指標的長期規(guī)律等。結(jié)合各項健康指數(shù)的變化規(guī)律，與數(shù)據(jù)庫中已建立的疾病模型對照，及時科學(xué)的對可能產(chǎn)生的疾病進行預(yù)警，．25．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第3章健康物聯(lián)網(wǎng)數(shù)據(jù)處理總體流程和設(shè)計并提出預(yù)防保健建議。對已出現(xiàn)的疾病的臨床治療提供幫助患者可以清晰地看出自己身體健康的情況，病情發(fā)展趨勢、藥物對自身的療效等方面，來制定下一個階段健康保健的決策。這將為早期診斷和早期治療提供可能，并可以避免重復(fù)檢查、重復(fù)用藥和錯誤的病情判斷。例如高血壓疾病患者根據(jù)對自己血壓值和血糖值的監(jiān)測，系統(tǒng)結(jié)合醫(yī)療知識庫中的“高血壓疾病分析模型”為患者給出下一階段降壓方面健康建議。3．4．1健康物聯(lián)網(wǎng)數(shù)據(jù)挖掘的必要性面向醫(yī)療健康領(lǐng)域物聯(lián)網(wǎng)信息處理的知識發(fā)現(xiàn)有待研究。研究面向診療服務(wù)流程優(yōu)化的知識發(fā)現(xiàn)技術(shù)，以獲取系統(tǒng)且全面的觀點或方法解決特定健康服務(wù)問題。醫(yī)療健康數(shù)據(jù)中存在著很多潛在的、不明顯的、重要的信息。通過數(shù)據(jù)挖掘?qū)︶t(yī)療信息數(shù)據(jù)進行抽取、清洗、轉(zhuǎn)換、規(guī)約，獲取潛在價值的數(shù)據(jù)，建立起綜合性，科學(xué)型，準確性的醫(yī)療信息知識庫。在對特定目標病例數(shù)據(jù)的分析中，將疾病的數(shù)據(jù)特征化，使目標疾病的先期征兆，病情衍變史，并發(fā)癥等治療流程具有概念性和可比較性，為基層醫(yī)護人員提供指導(dǎo)，縮小地區(qū)之間信息資源的分配不平等。使患者可自行根據(jù)知識庫對照自我檢查，以便警示隱患者有目標的就醫(yī)檢查，在病情的早期發(fā)現(xiàn)并得到治療?；跀?shù)據(jù)庫的知識發(fā)現(xiàn)(KDD，KnowledgeDiscoveryDatabase)的研究已經(jīng)取得了不少進展，比如基于關(guān)聯(lián)規(guī)則的方法、基于機器學(xué)習(xí)的方法、粗糙集及模糊集方法、智能計算方法等。出現(xiàn)了一些知識發(fā)現(xiàn)系統(tǒng)，比如IBM公司的Quest系統(tǒng)、GTE施壓是的KEFIR系統(tǒng)、SKICAT系統(tǒng)等。這些系統(tǒng)實現(xiàn)總結(jié)性知識發(fā)現(xiàn)、相似模式挖掘、周期性知識發(fā)現(xiàn)等功能。健康生理信息的知識發(fā)現(xiàn)流程如下圖3．8所示。在醫(yī)療健康領(lǐng)域，對數(shù)據(jù)源抽取出相應(yīng)數(shù)據(jù)，對數(shù)據(jù)預(yù)處理操作，這包括把數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的數(shù)據(jù)格式，過濾清洗冗余數(shù)據(jù)，接下來就是利用人工智能、概率論、數(shù)理統(tǒng)計相關(guān)知識建立相應(yīng)的預(yù)測挖掘模型，研究數(shù)據(jù)挖掘算法，建成醫(yī)療健康信息知識庫，本文采用分布式算法進行實施，當面向海量異構(gòu)數(shù)據(jù)時，在基于Hadoop的分布式環(huán)境下進行分布式數(shù)據(jù)挖掘，大幅度提升了數(shù)據(jù)挖掘的速度，醫(yī)學(xué)人員診斷的效率和有效性提升，從而快速對患者病情進行預(yù)測指導(dǎo)。醫(yī)療數(shù)據(jù)源抽取的數(shù)據(jù)預(yù)處理后的數(shù)據(jù)挖掘到的信息醫(yī)療健康信息鬻一撩》龜一翠數(shù)據(jù)抽取數(shù)據(jù)預(yù)處理知識發(fā)現(xiàn)知識表示圖3．8醫(yī)療健康知識庫的建立流程Fig．3．8Theestablishmentofthehealthknowledge一26．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第3章健康物聯(lián)網(wǎng)數(shù)據(jù)處理總體流程和設(shè)計數(shù)據(jù)挖掘服務(wù)層數(shù)據(jù)清洗層數(shù)據(jù)管理層數(shù)據(jù)收集層圖3．9基于云計算的數(shù)據(jù)挖掘服務(wù)模型Fig．3．9Dataminingservicemodelbasedoncloudcomputing由于健康物聯(lián)網(wǎng)要挖掘的信息源中的數(shù)據(jù)大多是海量的，而且以指數(shù)級增長，因此擴展數(shù)據(jù)挖掘算法處理大規(guī)模數(shù)據(jù)的能力，提高運行速度和執(zhí)行效率，已經(jīng)成為一個不可忽視的問題。本文在云計算平臺Hadoop基礎(chǔ)上，設(shè)計研究并行分布式數(shù)據(jù)挖掘平臺，提供了一系列分布式挖掘算法和ETL操作組件，開發(fā)的并行數(shù)據(jù)挖掘算法絕大多數(shù)達到了線性加速比；可實現(xiàn)TB級海量數(shù)據(jù)的并行挖掘分析處理，可運行在成百上千個節(jié)點組成的Linux集群環(huán)境下，具有高可擴展性；多個工作流任務(wù)可在Hadoop數(shù)據(jù)處理平臺中的任意節(jié)點同時啟動，互不干擾；利用心跳包技術(shù)，可自動處理失敗節(jié)點，具有高容錯能力；開放式架構(gòu)，算法組件可通過簡單配置方便地封裝加載到平臺中：Java開發(fā)，提供系統(tǒng)日志，可管理能力，具有較好的可移植性；基于云計算平臺Hadoop的HDFS對數(shù)據(jù)進行管理和維護?；贖adoop云計算的健康物聯(lián)網(wǎng)數(shù)據(jù)挖掘服務(wù)模型框架如上圖3．9所示?；谶@個框架，對感知層采集終端傳送來的數(shù)據(jù)，分布式數(shù)據(jù)過濾清洗后，需要設(shè)計若干快速、魯棒的分布式數(shù)據(jù)挖掘算法，以為醫(yī)學(xué)專家提供科學(xué)的預(yù)測模型，讓遠程醫(yī)療更具意義。．，7．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第3章健康物聯(lián)網(wǎng)數(shù)據(jù)處理總體流程和設(shè)計3．4．2數(shù)據(jù)挖掘模塊算法設(shè)計與分析基于Hadoop的數(shù)據(jù)處理平臺的海量數(shù)據(jù)挖掘并行算法，由于關(guān)鍵是面向大量數(shù)據(jù)，核心研究方向就是數(shù)據(jù)挖掘算法的分布式研究。Hadoop處理平臺主要采用的MapReduce編程模型對數(shù)據(jù)進行分析處理，需要對現(xiàn)有的數(shù)據(jù)挖掘算法進行改造，根據(jù)每個算法的具體特性，分析是否可以MR化，進而進行分布式編程，實現(xiàn)算法部署蛩]Hadoop平臺，計算效率并改進模型及程序?；贖adoop平臺的分布式海量數(shù)據(jù)挖掘算法主要包含分布式關(guān)聯(lián)規(guī)則算法、分布式分類算法和分布式聚類算法，利用這些算法進行有效的對數(shù)據(jù)找出關(guān)聯(lián)規(guī)則、分類、聚類，找出依賴關(guān)系模型、發(fā)現(xiàn)異常和趨勢等，從而為醫(yī)護人員的分析提供數(shù)據(jù)和模型支撐。數(shù)據(jù)挖掘算法不可避免的要進行的迭代處理，Hadoop數(shù)據(jù)處理算法采用了不同的迭代方式，每輪迭代的輸出又是下一輪迭代的輸入。通過管理中間數(shù)據(jù)和每輪實現(xiàn)任務(wù)的位置可以獲得較高的效率【42】。在文獻【43】中討論了基于MapReduce系統(tǒng)的多路連接算法的最優(yōu)實現(xiàn)。在設(shè)計面向醫(yī)療健康物聯(lián)網(wǎng)數(shù)據(jù)挖掘算法的過程中，首先根據(jù)具體業(yè)務(wù)需求設(shè)計傳統(tǒng)的串行數(shù)據(jù)挖掘算法，為了能夠?qū)Υ髷?shù)據(jù)量進行快速的處理，改進傳統(tǒng)串行數(shù)據(jù)挖掘算法，分析設(shè)計為相應(yīng)的分布式算法，在對分布式算法進行設(shè)計的過程中，需要仔細設(shè)計每個MR過程，確保各個數(shù)據(jù)分片的相對獨立性，切斷相互之間聯(lián)系后能夠通過相應(yīng)算法設(shè)計進行修復(fù)，并證明與串行算法結(jié)果的一致性。然后在具體詳細設(shè)計主要的分布式數(shù)據(jù)挖掘算法，部署實現(xiàn)及性能分析。下面對分布式的DKBAC算法，分布式隨機森林算法、分布式關(guān)聯(lián)規(guī)則等分布式算法進行設(shè)計。聚類分析郴l是根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對象及其關(guān)系的信息，將一個將數(shù)據(jù)集劃分為若干組或類的過程，并且能夠使得同一個組內(nèi)的數(shù)據(jù)對象具有較高的相似度，而不同組中的數(shù)據(jù)對象則是不相似的。相似或不相似的度量是基于數(shù)據(jù)對象描述的取值來確定的。通常就是利用對各對象間的距離來進行描述。聚類分析是一種觀察式學(xué)習(xí)法(1eanlingbyobservation)。根據(jù)聚類算法所使用的兩種不同的基本策略，可以把聚類算法分為兩類。一類稱為層次或凝聚式聚類算法。這類算法開始將每個點看成一個聚簇，簇與簇之間按照接近度來組合，這里的接近度可以根據(jù)不同的需要采用不同的策略定義。當進一步的組合導(dǎo)致非期望的結(jié)果時，組合過程結(jié)束。另一類算法主要是點的分配過程，即按照某個順序依次考慮每個點，并將它分配到最合適的聚簇當中。目前在聚類算法中，面向海量數(shù)據(jù)聚類的分布式算法主要還是面向各種業(yè)務(wù)的K均值聚類算法，因為該算法部署簡單，有效。由于Kmeans是隨機初始化聚類中心，并且簡單的根據(jù)歐式距離進行劃分聚類，具有局限性。本文為了能夠?qū)Ａ拷】禂?shù)據(jù)進行更好的聚類，得出更好的結(jié)果，采用分布式Canopy算法初始化聚類中心，并結(jié)合蟻群信．28．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第3章健康物聯(lián)網(wǎng)數(shù)據(jù)處理總體流程和設(shè)計息素的特點，利用人工蟻群中的狀態(tài)轉(zhuǎn)移矩陣進行改進聚類算法，這就是下一章詳細設(shè)計的DKBAC聚類算法。并分別在Hadoop數(shù)據(jù)處理平臺上實現(xiàn)兩種聚類算法，對聚類算法的執(zhí)行時間及準備率進行比較分析。在基于Hadoop的DKBAC分布式聚類算法中，主要是根據(jù)MapReduce模型進行編程，這時就需要仔細設(shè)計原始算法的流程，具體哪一步是適合MR模型的。本文分析DKBAC算法主要分為三個階段。階段一：為統(tǒng)計蟻群全局信息素的收集階段，這個階段是全局搜索各個聚簇相關(guān)的信息素信息，為下一階段計算狀態(tài)轉(zhuǎn)移概率進行聚簇做好準備，這個算法基于一個MR編程模型執(zhí)行的。階段二：根據(jù)信息素計算得到的狀態(tài)轉(zhuǎn)移概率進行聚簇，更新信息素。這個階段首次執(zhí)行需要對數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)結(jié)構(gòu)，故需要兩個Map和一個Reduce進行結(jié)合設(shè)計，以后的每次迭代都是因為上一階段的輸出已經(jīng)是所需要的格式，故需要一次Map與Reduce即可。階段三：統(tǒng)計更新聚類中心階段，并與上一迭代過程生成的迭代中心進行比較，判斷是否進行下一次迭代，這個階段也是基于MR編程模型進行分布式設(shè)計。這里只是對本文提出的DKBAC聚類算法進行總體的研究分析，下面的第4章對該算法進行分布式驗證，并對其詳細研究設(shè)計與實現(xiàn)。為了更好的為醫(yī)護人員提供模型支撐，本文在第五章設(shè)計了基于Hadoop的隨機森林算法和FP．Growth頻繁關(guān)聯(lián)規(guī)則算法，這兩類算法分別是把傳統(tǒng)的串行算法部署到Hadoop數(shù)據(jù)處理平臺之上，這就需要考慮分布式的特點，數(shù)據(jù)進行分片后，怎樣設(shè)計算法過程能夠保證結(jié)果的一致性。隨機森林算法由于需要建立若干顆決策樹，串行算法肯定存在它的局限性，故非常適合分布式并行設(shè)計執(zhí)行。對每個數(shù)據(jù)分片進行建立決策樹，從而設(shè)計相應(yīng)的MapReduce程序，這就是建樹過程，在預(yù)測階段，對預(yù)測數(shù)據(jù)進行分布式的預(yù)測，在進行聚合，也非常適合分布式處理。分布式的FP．Growth關(guān)聯(lián)規(guī)則算法，由于各個項目之間存在相互聯(lián)系，如果簡單粗暴的進行分片，聚合，那么會割裂數(shù)據(jù)的頻繁項。所以這里的設(shè)計過程需要仔細研究，這里采用了分組的策略，對數(shù)據(jù)項進行分組處理，分配到不同分片，從而實現(xiàn)與單機關(guān)聯(lián)規(guī)則算法結(jié)果的一致性，應(yīng)用于醫(yī)療健康領(lǐng)域，不僅保證了結(jié)果的正確性，也大幅提升了時間效率，具體詳細分析研究過程參考第五章的設(shè)計。通過研究這些基于Hadoop的主要的分布式數(shù)據(jù)挖掘算法，找出在Hadoop平臺下設(shè)計分布式數(shù)據(jù)挖掘算法的一般性原則及適用范圍，為研究其他快速、魯棒的分布式數(shù)據(jù)挖掘算法提供參考。為健康物聯(lián)網(wǎng)下醫(yī)學(xué)專家提供更多的醫(yī)學(xué)預(yù)測模型提供了理論基．29．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第3章健康物聯(lián)網(wǎng)數(shù)據(jù)處理總體流程扣設(shè)計礎(chǔ)。3．5本章小結(jié)本章主要設(shè)計了健康物聯(lián)網(wǎng)數(shù)據(jù)處理挖掘的總體流程，介紹了數(shù)據(jù)加載預(yù)處理的方案，提出了一種健康物聯(lián)網(wǎng)的數(shù)據(jù)規(guī)范，并對轉(zhuǎn)換配置文檔提出的設(shè)計要求，根據(jù)業(yè)務(wù)需求對分布式數(shù)據(jù)清洗操作進行了詳細描述，并對重點研究的分布式數(shù)據(jù)挖掘算法中的DKBAC聚類算法、分布式隨機森林算法、分布式關(guān)聯(lián)規(guī)則FP．Growh等算法進行了總體研究分析設(shè)計。．30．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第4章基于Hadoop的DKBAC聚類算法設(shè)計與實現(xiàn)第4章基于Hadoop的DKBAC聚類算法設(shè)計與實現(xiàn)4．1蟻群算法機制原理1991年M．DIorigo等人利用螞蟻的特性，用軟件實施了一個以螞蟻為基礎(chǔ)的系統(tǒng)，被稱為蟻群算法(AntColonyAlgorithm)，以解決TSP問題。利用這個算法就能夠把螞蟻偏愛的路徑結(jié)合成一條較短的完整路線。蟻群中，每個螞蟻相互之間是通過一種稱為信息素的物質(zhì)進行信息傳遞的，螞蟻在運動過程中，能夠在它所經(jīng)過的路徑上留下信息素，每個螞蟻在運動過程中能夠感知這種物質(zhì)，總是選擇信息素濃度最大的路徑，進而以此指導(dǎo)自己的前進方向，因此選擇信息素濃度最大的路徑的螞蟻越來越多，從而更促進了該路徑信息的濃度增快，因而蟻群智能一種信息正反饋系統(tǒng)【48】。我們因此可以根據(jù)這一特點模擬人工蟻群，人工蟻群相對實際的蟻群，具有信息素衰減的機制，具有記憶性，時間是離散的等特征。蟻群智能是多螞蟻的聚集行為，信息素是這個系統(tǒng)的標石?；鞠伻核惴ǖ膶?yōu)機制主要包括兩個基本階段，即螞蟻適應(yīng)階段和后期協(xié)作階段。具體的人工蟻群的主要步驟如下：步驟l：初始化時間t和迭代步數(shù)nc為0，螞蟻數(shù)量m和最大循環(huán)次數(shù)nmax，初始化r∥△f∥將m個螞蟻置于n個頂點上。步驟2：將各螞蟻的出發(fā)點置于解集中，對螞蟻k(七=1，2，．．．，m)按轉(zhuǎn)移概率磁轉(zhuǎn)移到下一個頂點歹，更新解集(將J置于解集中)。螞蟻k(k-1，2，．．．，m)根據(jù)各條路徑上的信息量決定轉(zhuǎn)移方向，t時刻螞蟻k從地點i處轉(zhuǎn)移到地點J處的狀態(tài)轉(zhuǎn)移概率露(t)計算式為黔裟警一，，礞(f)=等等等(4．1)厶一qlq在上式中，，∈allowedk，k∈allowedk，allowedk=徊，l，．．．，n-I}-tabut表示螞蟻七下一步允許選擇的節(jié)點。與自然蟻群系統(tǒng)不同之處在于人工蟻群系統(tǒng)具有一定的記憶力，tabu。(k-1，2，．．．，m)用于記錄螞蟻k所走過的地點，集合tabu。隨著進化過程進行動態(tài)調(diào)整，叩“表示由地點i轉(zhuǎn)到，的期望程度，可根據(jù)具體問題選擇不同啟發(fā)算法具體確定，這里采用算法為距離的倒數(shù)。_31— 萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第4章基于Hadoop的DKBAC聚類算法設(shè)計與實現(xiàn)％=1／吒(4．2)步驟3：計算各螞蟻的目標函數(shù)值(該次搜索經(jīng)過的路徑長度)，記錄最好解。步驟4：按照公式4．3更新信息素操作。ro(t+n)=pr{『(f)+(卜p)Ar妒(4．3)△fF=∑△囈(4．4)在上式中，△f；表示第k只螞蟻在本次循環(huán)中留在路徑(f，力上的信息素量，Ar盯表示本次循環(huán)中路徑(f，／)上的信息素增量?！鞴剑涸舻诼毼浵佋趂刪刻經(jīng)過路礅D(4．5)【0否則在上式中，Q是1個常數(shù)，表示螞蟻所留的信息素量，厶表示第k只螞蟻在本次循環(huán)中所走路徑的長度．在初始時刻，％(O)=C，Ar盯=O(f，歹=0,1，．．．，，l一1)。步驟5：1次搜索完成，將△％置O，咒c++。步驟6：若，zc，keyl值是每個數(shù)據(jù)的記錄在數(shù)據(jù)分片的字節(jié)偏移量，數(shù)據(jù)類型是LongWritable，valuel值為每行數(shù)據(jù)的內(nèi)容，數(shù)據(jù)類型為Text。首先調(diào)用setup函數(shù)，利用Configuration類傳遞變量聚簇半徑R值和Distributedcache文件傳遞機制讀取聚類中心文件數(shù)據(jù)到本地變量。map函數(shù)依次讀取數(shù)據(jù)分片的每個數(shù)據(jù)對象，計算此對象到各個聚簇中心的距離，若到該聚簇中心的距離小于R，就將該對象劃分到該聚簇中，并將該數(shù)據(jù)對象到此聚簇的信息素初始化為l，否則初始化為0，這里可能每個數(shù)據(jù)對象被劃分到幾個類中。非首次迭代時直接獲取上一次迭代中更新的信息素信息，輸出的數(shù)據(jù)記錄格式為，key2為某聚類的標識，value2為數(shù)據(jù)結(jié)構(gòu)DataPro格式。首次迭代Mapl階段的主要偽代碼如算法4．1所示。算法4．1統(tǒng)計蟻群信息素Map階段算法壘!趔墮塑蘭：!!塹叢望業(yè)璺墮殳!塑垡!墮塑殳!塵篁塑!地塑里竺呈壘!艘墮墮統(tǒng)計蟻群信息素Map階段．Input：源數(shù)據(jù)文件(keyl，valuel)Output：(key2，value2)分別代表Clusterld和DataPro(Text，count，phe)．1：setup()讀取分布式緩存中心文件及配置參數(shù)RKⅣ2：fori=O；i，輸出為(key3，value3)，key3為某聚類的標識Clusterld，value3為數(shù)據(jù)結(jié)構(gòu)Pheromone格式，主要包括信息素，能見度，對象個數(shù)。Combinerl階段的主要偽代碼如算法4．2所示。算法4．2統(tǒng)計蟻群信息素Combiner階段算法壘!g鯉些堅壘：蘭墜皇堡業(yè)堡竺也壘塑里￡!墮!塹墮Q!塑型地墅翌旦堡壘!啞墊統(tǒng)計蟻群信息素CombinerS#段Input：(key2，value2)輸入為信息收集Map階段生成的輸出Clusterld和DataPro．Output：(key3，value3)分別代表Clusterld和Pheromone(phe,visi,collnl)．1：setup0讀取分布式緩存中心文件及配置參數(shù)RjC’，V2：foreachuservalueEDataPro(Clusterld)do3：Distance=getEnumDistance(value，center)；4：vim=Q／Distance；／／計算能見度5：visisum=visisum+visi；／／為更新信息素做準備6：phesum=phesum+computePheO；7：count++；8：endfor9：context，write(key3，value3)；3)Reducel階段：Reducel階段任務(wù)是接收來自各個節(jié)點Combiner的輸出，它按照鍵值對中的鍵值對輸入的數(shù)據(jù)進行排序，并且將相同鍵值歸并，然后調(diào)用setup()函數(shù)和reduce0函數(shù)。setupO函數(shù)對配置參數(shù)進行讀取，reduce函數(shù)中輸入輸出數(shù)據(jù)結(jié)構(gòu)都是為(key3，value3)，key3為某聚類的標識Clusterld，value3為數(shù)據(jù)結(jié)構(gòu)Pheromone格式。主要任務(wù)是聚合各節(jié)點每個聚簇的信息素與能見度乘積的和f善@7善(≠)與Q／％0)的和，并輸出到相應(yīng)文件，這都是為下一階段計算狀態(tài)轉(zhuǎn)移概率與更新信息素做相應(yīng)的準備。Reducel階段的核心偽代碼算法4．3所示。一37．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第4章基于Hadoop的DKBAC聚類算法設(shè)計與實現(xiàn)算法4．3統(tǒng)計蟻群信息素Reduce階段算法————．．．——．．———．Algorithm4．3TheReducephaseofstatisticsoftheantpheromonealgorithm．．．．．．．——．．．．—．統(tǒng)計蟻群信息素Reduce階段．Input：(key3，value3)輸入為Combiner收集階段的輸出Clusterld和Pheromone．Output：(key3，value3)分別代表Clusterld和Pheromone(phe,visi,colInt)．1：foreachuservalueDataPro(ClusterlcOdo2：visisum=yisisum+visf：3：phesum=phesum+phe；4：count++；5：endfor6：context。write(key3。value3)；／／輸出每個聚類中心的信息素，并存儲在HDFS4．4．3蟻群信息素聚類的設(shè)計與實現(xiàn)1)Map2階段過程：首次迭代需要對源數(shù)據(jù)文件信息素初始化及預(yù)處理操作。輸入的數(shù)據(jù)記錄，keyl值是每個數(shù)據(jù)的記錄在數(shù)據(jù)分片的字節(jié)偏移量，數(shù)據(jù)類型是LongWritable，Valuel值為每行數(shù)據(jù)的內(nèi)容，數(shù)據(jù)類型為Text。首先調(diào)用setup函數(shù)，利用Configuration類傳遞變量聚簇半徑R值和Distributedcache文件傳遞機制讀取聚類中心文件數(shù)據(jù)到本地變量。map函數(shù)依次讀取數(shù)據(jù)分片的每個數(shù)據(jù)對象，計算此對象到各個聚簇中心的距離，若到該聚簇中心的距離小于R，并將該數(shù)據(jù)對象到此聚簇的信息素初始化為l，否則初始化為0。輸出的數(shù)據(jù)記錄格式為，key2為字節(jié)偏移量，value2為數(shù)據(jù)結(jié)構(gòu)DataPro格式。2)Map3階段：這個階段是算法的核心部分，主要是讀取各個聚簇的全局信息素，計算根據(jù)各個數(shù)據(jù)對象到各個聚簇中心的狀態(tài)轉(zhuǎn)移概率足，把數(shù)據(jù)對象歸類到狀態(tài)轉(zhuǎn)移概率最最大的類別，并更新各自到各個中心的信息素。首次迭代輸入的格式為上一個Map2的輸出，為(key2，value2)，以后每次的輸入文件為上一次迭代的輸出，數(shù)據(jù)格式(key2，value2)，setup()函數(shù)讀取上一個階段的全局信息素與能見度及相應(yīng)聚類參數(shù)。map函數(shù)主要功能是根據(jù)狀態(tài)轉(zhuǎn)移概率B進行聚類。輸出格式為(key2，value2)。具體的核心偽代碼如算法4．4所示。3)Combiner3和Reduce3階段這兩個階段的主要任務(wù)是接收Map3階段的輸出，按鍵值對數(shù)據(jù)進行歸并輸出處理。并將數(shù)據(jù)集存在HDFS上，為以后更新聚簇中心及迭代的輸入數(shù)據(jù)做好數(shù)據(jù)準備。輸入．38．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第4章基于Hadoop的DKBAC聚類算法設(shè)計與實現(xiàn)和輸出格式為(key2，value2)。算法4．4蟻群信息素聚類Map階段算法—．———．．——————．．———Algorithm4．4TheMapphaseofclusteringoftheantpheromonealgorithm————．．．——．—．．．————蟻群信息素聚類Map階段．Input：(key2，value2)輸入為上一階段生成的輸出Clusterld和DataPro．Output：(key2，value2)分別代表Clusterld和尸heromone(phe,visi,Count)．1：setup()讀取分布式緩存中心文件，信息素文件及配置參數(shù)RⅨⅣ2：fori=0；ipMax)then5：Clusterld=f：6：pMax=p；7：endif8：updatePhe()；／／更新信息素9：endfor1O：context,write(key2,value2)；4．4．4統(tǒng)計更新聚類中心階段的設(shè)計與實現(xiàn)11Map4階段這個階段主要目的是計算更新各個聚簇的中心。建立數(shù)據(jù)結(jié)構(gòu)ClusterCenter，其中的參數(shù)分別為咒，s。，s2。分別代表各個節(jié)點的權(quán)重和，s，表示每個聚簇各個節(jié)點的加權(quán)和，s，表示每個聚簇各個節(jié)點的平方的加權(quán)和，由這幾個參數(shù)可以算法聚簇半徑radius。n2善w(4．7)2己W，．．、l=UI’T·，Js。=∑tWi(4．8)S22∑i=O#w(4．9)由上面三個公式可以計算得出center2SI／n(4．10)陽舭：巫豆，l(4．11)這個階段主要根據(jù)上一階段根據(jù)狀態(tài)轉(zhuǎn)移概率輸出的聚簇情況，根據(jù)該簇的數(shù)據(jù)對象，計算每個局部聚類中心ClusterCenter信息。計算局部聚類中心Map階段的偽代碼．39．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第4章基于Hadoop的DKBAC聚類算法設(shè)計與實現(xiàn)如算法4．5所示。算法4。5統(tǒng)計聚類中心Map階段算法壘!盟巫堡堅堡：蘭墜皇M箜然塑旦￡!墮熊塑殳!堂璺型箜殳!!地坐堂豎璺!曼旦墮塑計算局部聚類中-t二,Map階段Input：(key2，value2)輸入為上面信息素聚類階段的輸出Clusterld和DataPro．Output：(key5，value5)分別代表Clusterld和ClusterCenter(n，sl，s2)．I：count=O；2：foreachuservalue∈DataPro(Clusterld)do3：count+=value，getcountO．gP故)；4：s1+=Value；5：s2+=value奉value；6：endfor7：newClusterCenter(count,sl，s2)；8：context．write(key5，value5)；／／輸出局部聚類中心的信息2)Reduce4階段這個階段主要歸并同一Clusterld的ClusterCenter信息，根據(jù)公式(4．7)，．．．，(4．11)幾個公式計算更新的聚類中心和聚簇半徑。Combiner4階段負責本地歸并處理，而Reduce4階段是歸并來自各個節(jié)點的數(shù)據(jù)。輸入和輸出的格式為(key5，value5)分別代表Clusterld，ClusterCenter數(shù)據(jù)結(jié)構(gòu)。3)判斷本次中心與上次迭代中心的誤差，若誤差小于給定的閾值或達到最大迭代次數(shù)，則退出，結(jié)束聚類過程，觀察結(jié)果；否則，略改動Mapl階段的功能，轉(zhuǎn)到4．4．2節(jié)的Mapl，Reducel階段執(zhí)行收集全局信息素工作繼續(xù)依次執(zhí)行，直到滿足結(jié)束為止。4．5本章小結(jié)本章主要是針對健康物聯(lián)網(wǎng)接收清洗后的生理數(shù)據(jù)進行分布式聚類算法研究，分析汲取蟻群算法的分布式信息素的特點，結(jié)合Kmeans聚類算法，MapReduce編程模型設(shè)計研究了分布式的DKBAC聚類算法，對DKBAC的原理方法進行了具體分析設(shè)計，并給出了并行化結(jié)果的正確性驗證，并對DKBAC算法的三個核心階段進行了詳細設(shè)計分析與實現(xiàn)。為健康物聯(lián)網(wǎng)對疾病的預(yù)測提供了分布式聚類模型。．．40．．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第5章基于Hadoop的數(shù)據(jù)挖掘算法設(shè)計與研究第5章基于Hadoop的數(shù)據(jù)挖掘算法設(shè)計與研究本章主要設(shè)計研究基于Hadoop的一些分布式數(shù)據(jù)挖掘算法，如分布式隨機森林算法，分布式FP．Growth關(guān)聯(lián)規(guī)則算法。并根據(jù)這些分布式數(shù)據(jù)挖掘算法，對一般的分布式數(shù)據(jù)挖掘進行總結(jié)，并找出適合分布式數(shù)據(jù)挖掘算法的原則和適用范圍。5．1分布式隨機森林算法設(shè)計與研究隨機森林算法，主要就是用隨機的方式建立一個森林，這里的森林是由許多的決策樹構(gòu)成，其中的每一棵決策樹之間是沒有關(guān)聯(lián)的。在建成森林之后，當對新的輸入樣本進行預(yù)測判斷分類過程當中，這時就讓上一階段隨機森林中建立的每一棵決策樹分別進行判斷，決定這個數(shù)據(jù)樣本應(yīng)該屬于哪一具體分類，最后計算各個類別被選擇的數(shù)量，選擇類別最多者為預(yù)測這個樣本為的一類。因此隨機森林是一個包含多個決策樹的分類器，并且針對每個數(shù)據(jù)樣本其輸出的類別是由隨機森林中決策樹決定類別票數(shù)而決定。由于隨機森林的隨機性特點，選取樣本數(shù)和屬性數(shù)的隨機性，并且要建立多顆決策樹，故非常適合并行化方法，在健康物聯(lián)網(wǎng)數(shù)據(jù)處理的分類過程中，可采用基于Hadoop的并行隨機森林算法對數(shù)據(jù)進行分類處理。5．1．1隨機森林算法隨機森林是一個樹型分類器{h(x，廈，k=1，．．．，n)的集合，其中每個元分類器五(‘級)是用CART算法構(gòu)建的沒有剪枝的分類決策樹，x是輸入數(shù)據(jù)向量，廈是獨立同分布的隨機向量，決定了單顆決策樹的生長過程，隨機森林的輸出采用多數(shù)投票法(針對分類來講)來組合預(yù)測。隨機森林的每顆決策樹都需要首先從所有屬性中隨機選擇M個屬性，在這M個屬性中選擇信息增益最大的屬性對決策樹的節(jié)點進行劃分。信息增益是一種衡量特征信息量大小的方法，也應(yīng)用于特征選擇【47】。不妨設(shè)某個特征是變量X，它有n個取值，分別是五，X2，．．．吒，取到每一個值的概率分別是：A，仍，．．．，磊。變量的熵可以定義如(5．1)所示：mx)---ZP，1092P，i=1那么對每個類別標簽Y的熵可以定義為(5．2)式：．．41．．(5．1) 萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文笫5章基于Hadoop的數(shù)據(jù)挖掘算法設(shè)計與研究mr)=-ZP(Y；)l092P(Y；)(5．2)i=1當根據(jù)具體的特征X確定時，類別標簽Y的熵為下式：H(Yx)=一≥：PiH(YX=‘)(5．3)f=i信息增益是針對數(shù)據(jù)集的每個屬性，就是相當于計算一個屬性x，我們比較父節(jié)點的不純程度與子女節(jié)點的不純程度，計算這兩者之間的差值，這就是信息增益【471。決策樹含有屬性X但是還沒有確定的時候信息量為H(x)，它表示的是包含根據(jù)屬性X劃分前的決策樹的信息量，而HⅣIX)表示屬性X確定時候的信息量。所以，對屬性x的信息增益值為(5．4)所示：／G(rI彳)=日(】，)一H(Yx)(5．4)在每顆決策樹的建立過程當中，每次都需要挑選信息增益值最大的特征，即認為該特征對分類的幫助最大，最具有鑒別能力。下面介紹串行隨機森林的具體算法過程。步驟1：輸入N個數(shù)據(jù)樣本，這就需要每次可放回的隨機選擇N個樣本，下面就利用這N個數(shù)據(jù)樣本用來訓(xùn)練生成森林中的決策樹。步驟2：如每個數(shù)據(jù)樣本的屬性值有M個，這里再次隨機產(chǎn)生小于M的m個屬性作為該決策樹劃分的屬性值。在針對具體決策樹進行根據(jù)屬性值分裂時，這里就根據(jù)從這m個屬性中，利用上面介紹的選擇信息增益最大的方法來選擇某個屬性作為該次結(jié)點的分裂屬性。步驟3：下面具體決策樹形成過程中每個結(jié)點都要按照步驟2來分裂劃分，如果下一次該結(jié)點選出來的那一個屬性是剛剛其父節(jié)點分裂時用過的屬性，則該節(jié)點已經(jīng)達到了葉子節(jié)點，無須繼續(xù)分裂了。一直到不能夠再分裂為止。這里整個決策樹形成過程中沒有進行剪枝。具體每顆決策樹信息增益的生成過程如下：輸入為：令X為R*M矩陣，R表示此分區(qū)樣本數(shù)量，M表示樣本屬性個數(shù)。Z甜表示其中f個樣本的第．，個特征屬性值。Y為R*I的向量，其中Z表示第f個樣本的類別標簽值。輸出為：一顆提供分類的決策樹。具體每顆決策樹過程如下：步驟3．1：如果X的所有樣本值都相同，或Y的所有類別標簽相同，或者R<2，則產(chǎn)生一個葉結(jié)點，該結(jié)點的類別即是X中最多數(shù)的類別。否則執(zhí)行步驟3．2。步驟3．2：從M個特征中隨機挑選m個，這m個特征中，根據(jù)公式5．4分別計算各特征的信息增益最大的記為P。這個特征就是我們選擇的最佳劃分屬性。這里針對實值屬性和分類屬性的n(rfX：f)略有差別。步驟4：按照上面步驟遞歸建立大量的決策樹，這樣就構(gòu)成了隨機森林了。．42．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文笫5章基于Hadoop的數(shù)據(jù)挖掘算法設(shè)計與研究從上面的步驟可以看出，當建立每一棵決策樹的具體過程中，需要注意兩方面內(nèi)容，分別是隨機采樣過程與完全分裂的過程。首先是兩個隨機采樣的過程，隨機森林對輸入的訓(xùn)練數(shù)據(jù)樣本要進行樣本，屬性的采樣。對于樣本采樣，采用有放回的方式，也就是在采樣得到的樣本集合中，可能有重復(fù)的樣本。假設(shè)訓(xùn)練的樣本數(shù)量為N個，那么對于每顆決策樹采樣的樣本數(shù)量也應(yīng)該為N，這樣可以使得在訓(xùn)練樣本的時候，每一棵決策樹的輸入樣本其實都不是全部的樣本，使得相對不容易出現(xiàn)過分擬合的現(xiàn)象。然后進行屬性值的采樣，從M個屬性特征中，選擇m個(m小于M)。對于完全分裂的過程，就是對采樣之后的數(shù)據(jù)使用完全分裂的方式建立出決策樹，這樣這顆決策樹的某一個葉子節(jié)點要么是無法繼續(xù)分裂的，要么里面的所有樣本的都是指向的同一個分類。對于很多的決策樹算法都一個重要的步驟，即剪枝的過程，但是隨機森林里面構(gòu)造的決策樹不需要剪枝操作，這是因為之前的兩個隨機采樣的過程保證了隨機性，所以就算不剪枝，也不會出現(xiàn)過分擬合。按這種算法得到的隨機森林中的每一棵決策樹其實也是比較弱的，但是若干顆決策樹組合起來，就能夠預(yù)測正確的分類結(jié)果。每一棵決策樹就是一個精通于某一個專項領(lǐng)域的專家，因為我們在總共M的屬性值中只選擇了m個屬性進行分裂，這樣就會生成很多個擅長不同專項屬性值分類的決策，面向新的測試數(shù)據(jù)的時候，能夠用不同的視野角度去預(yù)測，最后由各個專項領(lǐng)域的決策樹，結(jié)果組合預(yù)測分類。5．1。2基于Hadoop的分布式隨機森林算法設(shè)計由于隨機森林需要隨機生成若干顆決策樹，而且這些決策樹之間沒有聯(lián)系，采用串行的方法時間效率會很低，由算法特性可知，隨機森林非常適合并行分布式處理?？梢越Y(jié)合Hadoop數(shù)據(jù)處理平臺，根據(jù)隨機森林算法的特點，并行建立決策樹，并存儲在HDFS上，在預(yù)測過程中，同樣采用并行預(yù)測過程，最后聚合，輸出預(yù)測結(jié)果。結(jié)合Hadoop的分布式隨機森林分類算法如下圖5．1所示。5．1．2．1數(shù)據(jù)預(yù)處理由于輸入的訓(xùn)練樣本數(shù)據(jù)集有可能是混合型數(shù)據(jù)集，這就需要對數(shù)據(jù)樣本的字段進行標識描述。對于輸入的數(shù)據(jù)需要生成Data和Dataset其中Data中記錄的是每一條數(shù)據(jù)點，Dataset中記錄的是數(shù)據(jù)格式。Dataset主要是由五個數(shù)據(jù)類型的數(shù)據(jù)結(jié)構(gòu)構(gòu)成：ignored表示會分類會被忽略的屬性值，values表示樣本中為分類類型的具體值，nbinstance是輸入訓(xùn)練樣本的數(shù)據(jù)量，attribute保存的為樣本個行列的數(shù)據(jù)類型，labelld保存的是具體類別在樣本中具體列值。預(yù)處理階段的具體過程如下：步驟1：從HDFS或其他途徑讀取訓(xùn)練樣本，對每行數(shù)據(jù)生成String[]類型數(shù)據(jù)。步驟2：通過DataLoader類中的方法生成數(shù)據(jù)描述格式Dataset。．43．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第5章基于Hadoop的數(shù)據(jù)挖掘算法設(shè)計與研究Datasetdataset=generateDataset0；步驟3：存儲Dataset操作，并保存在HDFS文件系統(tǒng)相應(yīng)路徑中。圖5．I基于Hadoop隨機森林算法流程圖Fig．5．1TheflowchartofrandomforestalgorithmbasedonHadoop5．1．2．2構(gòu)建隨機森林步驟1：創(chuàng)建DecisionTreeBuilder類型的對象，并設(shè)置相應(yīng)參數(shù)如輸入路徑，選擇的屬性個數(shù)m值及并行配置參數(shù)conf,并通過分布式緩存文件讀取上一階段產(chǎn)生的描述文件來解析輸入樣本文件。步驟2：創(chuàng)建隨機森林階段。這個步驟要就是利用MR編程模型，在map函數(shù)對數(shù)據(jù)進行各個分片的數(shù)據(jù)進行轉(zhuǎn)換，在clean函數(shù)進行建樹處理。分布式建立決策樹的相關(guān)數(shù)據(jù)結(jié)構(gòu)和函數(shù)過程如下：步驟2．1：讀取訓(xùn)練數(shù)據(jù)的描述文件，讀取參數(shù)，如建樹個數(shù)，隨機選取的屬性數(shù)，配置并行參數(shù)，新建Job任務(wù)。步驟2．2：map函數(shù)把該數(shù)據(jù)分片的輸入樣本，轉(zhuǎn)化為數(shù)據(jù)格式instances，并構(gòu)造．．44．．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第5章基于Hadoop的數(shù)據(jù)挖掘算法設(shè)計與研究成分類處理的Data格式。步驟2．3：從輸入樣本中有放回的隨機選取等大小的N條數(shù)據(jù)進行返回。步驟2．4：首先判斷這些隨機抽取的數(shù)據(jù)是否屬性值全相同，利用isldentical(data)進行判斷，若相同，則此時輸出葉子節(jié)點。步驟2．5：在進行類別的判斷，如若該分支下所有數(shù)據(jù)的類別值是否相同，則判斷為葉子節(jié)點，使用data．identicalLabel()方法來進行判斷，如果符合條件，這些data都是屬于同～個類別。步驟2．6：隨機選取m個屬性值，對數(shù)據(jù)進行分裂attributes=randomAttributes0，并計算這m個屬性分別的信息增益值，作為分裂屬性值記錄。步驟2．7：取得步驟2．6所選屬性的取值范圍，并根據(jù)該屬性把data分為幾個部分。double[】values=data．values(best．getAttr)；Data[】subsets=newData[values．1ength]；subsets[index】=data．subset(Condition．equals(best．getAt仃0，values[index]))；步驟2．8：下面遞歸對subsets[i]進行劃分，找出他的最佳分裂屬性，進行建造決策樹。for(inti=0；i孝(孝被定義為最小支持度閾值)。給定一個DB和閾值孝，這個問題就可以描述為在DB中尋找頻繁模式集合，即為頻繁項集挖掘問題。眾所周知，Apriori算法144】在產(chǎn)生頻繁模式完全集前需要對數(shù)據(jù)庫進行多次掃描，同時產(chǎn)生大量的候選頻繁集，這就使Apriori算法時間和空間復(fù)雜度較大。但是Apriori算法中有一個很重要的性質(zhì)：頻繁項集的所有非空子集都必須也是頻繁的。但是Apriori算法在挖掘較長頻繁模式的時候性能往往低下，為了改善關(guān)聯(lián)規(guī)則算法的性能，這時JiaweiHan提出了FP．Growth算法【451。FP—Growth算法是一種對輸入的樣本數(shù)據(jù)壓縮表示的一種策略，這個算法一共就掃描兩次數(shù)據(jù)文件，首次掃描數(shù)據(jù)集時，確定每個項目的支持度計數(shù)，根據(jù)這個計算進行從頻繁到不頻繁進行排列。第二次掃描中所有數(shù)據(jù)集，就是構(gòu)建FP樹的構(gòu)建過程，在挖掘的過程中，根據(jù)頻繁閾值，通過遞歸地尋找和創(chuàng)建樹，找到頻繁項目集。盡管FP-Growth算法比Apriori算法優(yōu)化了許多，但是串行的步驟也不可避免的遇．．46．．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第5章基于Hadoop的數(shù)據(jù)挖掘算法設(shè)計與研究到許多挑戰(zhàn)性問題：首先是存儲方面的問題。當數(shù)據(jù)量很大，挖掘一個大型數(shù)據(jù)庫的時候，F(xiàn)P樹結(jié)構(gòu)也會非常龐大，可能出現(xiàn)存儲內(nèi)存困難，這就迫切需要分布式的進行處理，把海量數(shù)據(jù)劃分為若干塊，每塊在相應(yīng)的節(jié)點內(nèi)存中進行構(gòu)建FP樹；其次是并行計算的問題，就是在構(gòu)建樹時，能夠并行處理；最后就是閾值的選擇問題，需要按照實際需求和設(shè)計來進行確定。5．2．2基于Hadoop的分布式FP．Gro嘶h算法設(shè)計在健康物聯(lián)網(wǎng)里，當面向應(yīng)用時，醫(yī)療健康數(shù)據(jù)必然是海量的，基于Hadoop數(shù)據(jù)處理平臺，迫切需要設(shè)計研究分布式的FP．Growth關(guān)聯(lián)規(guī)則的算法。怎樣在Hadoop集群對FP．Growth算法進行并行化呢?首先就需要把需要的大數(shù)據(jù)集根據(jù)Hadoop的分布式原理，分塊到各個節(jié)點當中，進行分布式建樹和挖掘之后，在聚合，求出頻繁項結(jié)果輸出。建樹的過程當中，那么這些數(shù)據(jù)分塊會之間會有聯(lián)系嗎，能夠相互獨立建樹而不影響最終結(jié)果嗎?這個時候就需要詳細的設(shè)計分布式的方案。首先在第一次掃描數(shù)據(jù)集的時候，分布式的計算每個項目頻繁項數(shù)據(jù)。然后根據(jù)單個項目的頻繁數(shù)目，通過某種原則對項目進行分組，根據(jù)分組情況，再次掃描數(shù)據(jù)集，把各條數(shù)據(jù)分配到相應(yīng)的數(shù)據(jù)分塊當中，這樣每個數(shù)據(jù)分塊對應(yīng)著一個分組數(shù)據(jù)，這就可以保證對每個組中某個項目而言，該分區(qū)是可以獨立的，并且對最后的結(jié)果沒有影響，能夠和傳統(tǒng)的串行方法的結(jié)果保持一致，并大幅提高了效率。下圖5．2為基于Hadoop數(shù)據(jù)處理平臺的FP．Growth算法流程圖，下面詳細介紹分布式算法具體執(zhí)行過程。步驟1：對數(shù)據(jù)集進行分塊分區(qū)操作，這里只需要根據(jù)Hadoop的Map階段前的默認的進行數(shù)據(jù)分片即可。步驟2：這個階段即為首次的MapReduce任務(wù)，各個節(jié)點根據(jù)接收各自的數(shù)據(jù)分片，對數(shù)據(jù)分片對每個項目進行支持度計數(shù)，最后在進行聚合處理。步驟3：這里進行分組操作，根據(jù)上次輸出的項目計數(shù)列表劃分為N個組，每個組有組號Gid，包含一系列的項目集合及相應(yīng)的支持度。步驟4：分布式FPGrowth階段。這個步驟是分布式FP樹算法的關(guān)鍵，這里也是利用MapReduce進行建樹操作。Map階段：本次Map的主要任務(wù)就是根據(jù)步驟3的組別情況，依次查看數(shù)據(jù)集各個事務(wù)，遍歷查看該事務(wù)項目，首先查詢到某個項目，并根據(jù)該項目的分組，把該事務(wù)分給該組數(shù)據(jù)集，并在此數(shù)據(jù)集中刪除此數(shù)據(jù)項當中屬于該組的項目，依次遍歷，直到該數(shù)據(jù)項發(fā)送完。這樣具有某個組別的項目的數(shù)據(jù)集都被聚合到一起，形成了各個相對獨立的數(shù)據(jù)集，準備各個數(shù)據(jù)集的建樹處理。Reduce階段：根據(jù)Map階段形成的各個相對獨立完整的數(shù)據(jù)集，分別進行本地的．47．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第5章基于Hadoop的數(shù)據(jù)挖掘算法設(shè)計與研究局部FP．Growth算法，下面分別進行局部的FP建樹過程和頻繁項挖掘過程。步驟5：聚合操作，將各個節(jié)點的輸出結(jié)果進行聚合，并輸出最終頻繁項集。圖5．2基于Hadoop的FP．Growth算法流程圖Fig．5．2TheflowchartofFP—GrowthalgorithmbasedonHadoop5．2．3分布式關(guān)聯(lián)規(guī)則算法的評價分析基：Y"Hadoop的分布式FP．Growth算法在效率上比傳統(tǒng)的串行算法有了很大的提升，但是其也有不足之處。在對項目集進行劃分各個分組時候，應(yīng)該選擇具有負載均衡特性的思想，這是由于如果不采用某種策略的話，頻繁項比較高的項目可能會都被分在一組里面，那么這一組接收到數(shù)據(jù)特別多，這個節(jié)點數(shù)據(jù)處理壓力偏大，與其他機器相比任務(wù)過重，集群的執(zhí)行效率也會下降。并且，在實際生活的應(yīng)用當中，關(guān)聯(lián)規(guī)則的頻繁項．48．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第5章基于Hadoop的數(shù)據(jù)挖掘算法設(shè)計與研究挖掘可能挖掘出的結(jié)果暗示性較低，大家會感覺沒什么用。這也許是規(guī)則產(chǎn)生的有些多，并不見得都是可用有用處的，另外許多的規(guī)則并能像啤酒與尿布這種經(jīng)典的規(guī)則。應(yīng)該應(yīng)用更多的技術(shù)與經(jīng)驗于關(guān)聯(lián)規(guī)則頻繁項分析當中，可以把一些數(shù)據(jù)分析，統(tǒng)計學(xué)的知識應(yīng)用其中，發(fā)現(xiàn)某種規(guī)則。5．3相關(guān)分布式數(shù)據(jù)挖掘算法及設(shè)計原則5．3．1基于Hadoop的其他分布式數(shù)據(jù)挖掘算法這里介紹的是分布式貝葉斯分類算法，貝葉斯分類是一種利用概率統(tǒng)計方面的知識進行分類的統(tǒng)計學(xué)分類方法。方法包括兩個重要的步驟：訓(xùn)練樣本和分類。在基于Hadoop數(shù)據(jù)處理平臺的MapReduce模型下，可以分布式執(zhí)行，其實現(xiàn)需要多次MapReduce作業(yè)完成，以對文檔信息進行分類為例，訓(xùn)練樣本可以由三個MapReduce作業(yè)實現(xiàn)：第一次作業(yè)主要負責抽取文檔的特征；第二次作業(yè)主要負責計算類別的先驗概率，即統(tǒng)計出每個類別的文檔的數(shù)目，并計算類別的相應(yīng)概率；第三次作業(yè)計算每個單詞或信息的條件概率，即統(tǒng)計在所在文檔中出現(xiàn)的次數(shù)并計算信息的條件概率。分類過程由一個MapReduce作業(yè)完成，Map階段負責計算每個待分類文檔屬于每個類別的概率，Reduce階段則負責計算出每個文檔概率最大的類別，并輸出結(jié)果。其中流程如下圖5．3所示。圖5．3基于Hadoop的貝葉斯算法流程Fig．5．3TheflowchartofBayesianclassificationalgorithmbasedonHadoop這里貝葉斯的計算先驗概率和條件概率MR過程都只依賴于抽取MR過程，故可以．49．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第5章基于Hadoop的數(shù)據(jù)挖掘算法設(shè)計與研究設(shè)計組合式MR作業(yè)流程控制程序執(zhí)行，使其無依賴關(guān)系的兩個MR作業(yè)并行執(zhí)行，充分體現(xiàn)Hadoop數(shù)據(jù)處理平臺的并行執(zhí)行特點。其實各種基于Hadoop數(shù)據(jù)處理平臺數(shù)據(jù)挖掘算法，深入理解算法的實現(xiàn)原理后，結(jié)合Hadoop的MapReduce編程模型，分配實施MR任務(wù)，詳細設(shè)計MR過程，就可以完成相應(yīng)的分布式數(shù)據(jù)挖掘算法。5．3．2基于Hadoop的數(shù)據(jù)挖掘算法設(shè)計原則基于Hadoop的MapReduce研究分布式集群數(shù)據(jù)挖掘算法，可以解決的問題有個共同特點：任務(wù)可以被設(shè)計分解成多個子問題，并且這些子問題彼此相對獨立，不會牽制過多，各個節(jié)點并行處理完這些子問題后，任務(wù)便被解決。并且設(shè)計的分布式數(shù)據(jù)挖掘算法需要針對分片的數(shù)據(jù)集，要保證自身的獨立性，不能把相互聯(lián)系的數(shù)據(jù)進行割裂分析，挖掘的結(jié)果和傳統(tǒng)串行算法保持一致性，并需能夠證明實驗結(jié)果的一致有效性。但是有些問題在MapReduce編程模型下難以解決。如遞歸問題，每個計算的結(jié)果都依賴于上一次的輸出，無法將該類問題劃分成若干個互不相干的子問題，因此難以用MapReduce處理；層次聚類算法，是應(yīng)用比較廣泛的算法之一。層次聚類采用迭代控制策略，對數(shù)據(jù)集根據(jù)相似性的判斷標準，合并最相似的部分或者分割相似性最差的部分，可分為分解型層次聚類法和凝結(jié)型層次聚類法兩種。其中每次迭代時，需要計算每兩個對象之間的相似性，相當于每個對象與全局其他所有對象都有關(guān)聯(lián)性，故該類為題不能被分解成若干子問題，不能利用基于Hadoop的MapReduce模型解決。5．4本章小結(jié)本章主要是根據(jù)具體健康物聯(lián)網(wǎng)的業(yè)務(wù)需求，設(shè)計研究了基于Hadoop的分布式隨機森林算法，F(xiàn)P-Growth關(guān)聯(lián)規(guī)則算法。并簡單介紹了其他相關(guān)基于Hadoop的分布式數(shù)據(jù)挖掘算法，如分布式貝葉斯分類算法。根據(jù)研究這些分布式數(shù)據(jù)挖掘算法，總結(jié)出了一般的分布式算法設(shè)計原則，并給出了其適用范圍，為以后的更深入研究指明了方向。．50．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第6章實驗部署及結(jié)果分析本章將介紹根據(jù)現(xiàn)有的實驗條件搭建部署Hadoop集群系統(tǒng)，在此環(huán)境下編寫MapReduce程序?qū)崿F(xiàn)相應(yīng)的分布式數(shù)據(jù)清洗，數(shù)據(jù)挖掘算法，最后對實驗結(jié)果進行分析和評測。6．1Hadoop實驗平臺搭建由于實驗條件限制，本論文所用實驗平臺是由4臺機器構(gòu)成的Hadoop分布式集群作為測試健康物聯(lián)網(wǎng)的數(shù)據(jù)處理平臺，一個節(jié)點被用來作為HDFS和MapReduce的Master主節(jié)點，即NameNode和JobTracker節(jié)點，主要負責分布式數(shù)據(jù)處理平臺的元數(shù)據(jù)管理及任務(wù)調(diào)度工作。其他節(jié)點都是Slave工作節(jié)點，即DataNode和TaskTracker，主要負責數(shù)據(jù)存儲和具體的分布式計算過程。6．1．1軟硬件環(huán)境集群內(nèi)4臺PC，CPU為雙核P43．0，內(nèi)存4G，硬盤320G。每臺機器裝有Centos6．332biit的操作系統(tǒng)版本，Java執(zhí)行環(huán)境為JDKl．6．37，Hadoop版本為1．0．2，SSHclient及server用來進行節(jié)點之間的通信。6．1．2Hadoop數(shù)據(jù)處理平臺搭建及部署1．NameNode和DataNode規(guī)劃如下表。三臺節(jié)點，各節(jié)點部署完成后，首先要關(guān)閉三臺節(jié)點的防火墻serviceiptablesstop。計劃部署分配如表6．1所示：表6．1數(shù)據(jù)處理平臺集群部署分配表!壘壘!!壘：!!皇皇璺!!巫翌堅里塑!竺!塵皇塑!壘鬯!里!!i墜塞望!璺!!lo堅IP地址主機名稱集群用途2．配置Hadoop相關(guān)環(huán)境。1)首先在各節(jié)點安裝jdkl．6．鄴1，配置Java環(huán)境變量。2)設(shè)置hosts文件，在／etc／hosts文件中集群所有機器的IP與主機名。這樣Master與所有的Slave機器之間可以通過主機名或者IP倆種方式進行通信。．51— 萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第6章實驗部署及結(jié)果分析3)配置啟動SSH協(xié)議。步驟1：通過下面兩條命令安裝和啟動各個節(jié)點的ssh服務(wù)。yuminstallsshservicesshdstart步驟2：配置Master機器無密碼登陸所有的Slave。ssh-keygen-trsa-p”這是生成無密碼密鑰對生成的密鑰對：idrsa和idrsa．pub，默認存儲在“／home／hadoop／．ssh”目錄下。步驟3：在Master節(jié)點上做如下配置，把idrsa．pub追加到授權(quán)的key里面命令為cat～|．ssh／idrsa．pub》～|．ssh／authorized_keys步驟4：上面無密碼登陸本機已經(jīng)設(shè)置完成，下面是把公鑰復(fù)制到所有的Slave機器上，并追加權(quán)限。scp～}．ssh／idrsa．pubhadoop@192．168．200．86配置所有Slave機器無密碼登陸Master機器采用類似的步驟。4)安裝hadoop，修改配置文件，進入hadoop下的conf文件夾，在Hadoop—env．sh指定JDK的安裝位置，在conf／core．site．xml下配置HDFS的地址和端口號，和hadoop．tmp．dir路徑。在conf／mapred-site．xml下配置JobTracker所在的主節(jié)點地址和端口號，在conf／hdfs．site．xrnl下配置HDFS的備份參數(shù)。dfs．name．dir：NameNode上的本地文件路徑，用于持久存儲命名空間和日志信息文件等內(nèi)容。該參數(shù)可以有多個值，值之間用逗號分割，表示文件映射關(guān)系信息將會被復(fù)制到每個目錄中做冗余備份。5)測試運行Hadoop平臺。格式化文件系統(tǒng)，并啟動Hadoop；bin／hadoopnamenode-formatbin／start．a(chǎn)11．sh集群啟動后的狀態(tài)情況如圖6．1?？梢缘顷憺g覽器，http：／／192．168．200．92：50070查看HDFS的狀態(tài)視圖。通過查看狀態(tài)圖，可以通覽文件系統(tǒng)，檢查集群每個DataNode的狀態(tài)，并詳細查看Hadoop守護進程的日志來判斷集群當前運行是否正確。http：／／192．168．200．92：50030查看MapReduce作業(yè)運行狀態(tài)圖如圖6．2所示。通過這個視圖不僅可以查看MapReuduce中的運行時狀態(tài)，也可以查看整個作業(yè)的詳細報告。這些日志描述了哪個節(jié)點執(zhí)行了哪些任務(wù)，以及需要完成每個任務(wù)所需的時間或資源比。這樣可以合理地管理MapReduce程序，更好的利用集群的資源。．52．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第6章實驗部署及結(jié)果分析ConfigureclCapacity：1e3786865664{96。586B}PresentCapacity：86848418898{8e．69GB)DF5Remaining：84829267968(78．26GB)DFSUsed：261l王5013812．43GB)DFSUsed％：3．81％Underreplicatedblocks：0Blockswithcorruptreplicas：0Hissingbtocks：eDatanodesavailable：3{3total。Odead)Name：192。168。298．86：588leDecommissionStatus：NonnalConf蛔uredCapacity：2064213約韶{19。22GB)DFSUsed：872286336(831．8HBJNonDFSUsed：5043445760‘4．7GB)DFSRemaining：14726479872f13．72GB)DFSUsed％：4。23％DFSRemaininq％：71．34％Lastcontact：Tue3un1820：13：3辱CST28差3圖6．1集群啟動后的狀態(tài)情況Fig．6．1TherunningstateofHadoopmasterHadoopMap／ReduceAdministration鬻驀罄l囂§鬟；j囊莩黲萋薹；。鬻鏨*ll攀i纛蔫j謄i≯S睡：m¨邶軸拍吐TueJunl8街住34CST20{3Vendon：1．02r1304954Co嘲ed：Sat婦2423．5821UTC2012哺hoft耐Oh融№c2013∞182010爹萋霍i謄；鬻；鬻囂鬻攀!簍鏊1；|||?！贰?；鬢辮萄鼴簿Clus協(xié)rS．mmryfHeapSizeis74．31MB／888．94Me)鼬喇嘲RmdngT制仉洲OccupiedR皓爿唰R∞e件酣_嬸Reduce-腳ReduceNodes-I|pReduceaapReduceT|咄TaskAvg．斟《腑嘲甜刪ExcludedTasksSubn蜘TiNodezNodes冀ab科出SlotsSIabC鰳C吶0O30O064偽疊Q立圖6．2MapReduce作業(yè)運行狀態(tài)圖Fig．6．2TherunningstateofMapReduce3．Hive平臺搭建1)安裝Hive安裝包，添加權(quán)限，配置Hive環(huán)境變量。2)安裝MySQL客戶端和服務(wù)器。3)為Hive建立相應(yīng)的MySQL賬戶，并賦予足夠的權(quán)限。CREATEUSER‘hive’IDENTIFIEDBY‘hadoop’GRANTALLPRIVILEGESON木．半TO‘hive’@’％’WITHGRANTOPTION4)配置Hive下的conf目錄的hive—site．xml，這里配置獨立安裝模式。5)把MySQL的JDBC驅(qū)動包復(fù)制到Hive的lib目錄下。．S3一萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第6章實驗部署及結(jié)果分析6)啟動HiveShell，測試環(huán)境。實驗步驟的基本開發(fā)環(huán)境如圖6．3所示。MySQL數(shù)據(jù)庫及服務(wù)器／圖6．3實驗部署的基本場景Fig．6．3Thebasicexperimentaldeploymentenvironment6．2數(shù)據(jù)清洗算法測試結(jié)果6．2．1異常過濾清洗效果異常過濾器首先輸入的數(shù)據(jù)格式為數(shù)據(jù)加載模塊接收的智能采集終端傳送的數(shù)據(jù)，這些數(shù)據(jù)可能是存在缺失值，完全重復(fù)的，冗余度很高。如處理的若干數(shù)據(jù)文件格式如下圖。融曰1zIGBEE瀚重3q給堙l鞠：03-：強1'9080255澶◇董；蓍i譬j鼉鬃瀵濰藿鬻cOBlZ16BEE2013—05—2110：03：361∞00255土112131OD2RF工D2013一oS一2111：02：291∞294SS4S7103212002RF工D2013-eS一2111：92：29瑚25蚺554S7183212001Z工6BEE2013—9S一2110：03：361的∞255121312∞3Z工68EE2D13—0S一2110：04：371015425312312001Z工6BEE2013-0S一2110：03：3610自舊02S5121312003Z工6BEE2013一oS一2110：04：37101542S3土112312003Z工6BEE2813一05—2110：04：37101§42S31001Z工6BEE2013—0S一21均：93：3810DDe2SS121312001Z工6BEE2013一oS一2110：95：3810008255土1121312的3Z工68EE2913一eS一2110：94：445101S卑253王112312圖6．4原始冗余數(shù)據(jù)Fig．6．4Theoriginalredundancydata首先對輸入的數(shù)據(jù)使用異常過濾器對數(shù)據(jù)進行過濾清洗操作，過濾掉長度不符合要求，完全重復(fù)的數(shù)據(jù)，輸出的結(jié)果數(shù)據(jù)如下：陽l怒GBEE瀚1黔鱗一翹鞠：03：粥14嘲Be25，s}豢彰彭霪i鬻鬻i繁灌瀵?i∞1Z'工GBEE2013-05—2110：93：3810嘲255121312D01Z工6BEE2013—0S一2110：05：38100∞25S11生2131王2802RF工D2013—0S一2111：92：291∞294SS4S7】國3212083Z工6BEE2秘13一gS一21均：94：371國1542S312312D03ZIGBEE2013-0S一21lD：04：46】D1S425312312圖6．5異常過濾后數(shù)據(jù)Fig．6．5Thedataaftersimilarexceptionfiltering6．2．2時間過濾清洗效果54目萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第6章實驗部署及結(jié)果分析從上面的輸出結(jié)果作為本次的輸入繼續(xù)根據(jù)時間過濾，過濾掉同一Uid和日期，且時間小于lOs的數(shù)據(jù)。本次的輸出結(jié)果數(shù)據(jù)格式如下：獺麟鬻鰳§蠢隧ii翻嘲晦蘩鬟囊麟贛麟i翮黛簇嘲黧霹麟，鬃鬃蕊凜鬻囊瀵i贛蒸≤黎潦081Z16BEE2e13—0S一2110：95：38leeee255121312e02廷F工D2013—0S一21ll：e2：291082945S457103212983ZIGBEE2013—0S一21lO：e4：371015425312312圖6．6時間過濾后數(shù)據(jù)Fig．6．6Thedataaftertimefiltering6．2．3相似度過濾清洗效果這里過濾掉，同一Uid，但屬性值相似的數(shù)據(jù)。輸出結(jié)果如下：齲舔i舞國睡細豁每務(wù)2￡1?0：03：；夔和蛹套黲szZzl2囊豢鬻囊※荔能2RFID2013—05—2111：02：291082945S4S7埔3212∞3Z16BEE2013—9S一21】白：《博：37101542S312312圖6．7相似過濾后數(shù)據(jù)Fig．6．7Thedataaftersimilarfiltering為了更好的聚類等挖掘算法中挖掘生理信息數(shù)據(jù)，在Hive數(shù)據(jù)清洗階段，選擇若干屬性進行聚類，這里利用HQL語句選擇屬性值為下面的聚類，分類，頻繁項挖掘做好數(shù)據(jù)準備。這里主要根據(jù)自己的需要選擇數(shù)據(jù)的若干屬性進行數(shù)據(jù)挖掘，并存儲到HDFS上。這里需要根據(jù)需求寫成相應(yīng)的HQL語句進行選擇若干屬性操作。6．3分布式數(shù)據(jù)挖掘算法的性能指標對于分布式數(shù)據(jù)處理，針對本文研究的分布式聚類、分類等算法，主要采用準確率，平均查全率，迭代次數(shù)，運行時間進行分析比較。準確率采用正確聚類的數(shù)據(jù)的數(shù)量與全部數(shù)據(jù)的比值。平均查全率是指正確劃分到每個類別的數(shù)目占其該聚簇本應(yīng)有的數(shù)據(jù)對象的比值的平均值，迭代次數(shù)指的是主算法運行需要迭代的次數(shù)。具體的準確率與平均查全率公式如(6．1)，(6．2)所示：Pr∞埡伽2等qoo％c6∞Recall』1妻芒藏木100％k@2，：一y—’二量÷L木(6．2)急Na^a+Nn+b、。6．4DKBAC數(shù)據(jù)聚類結(jié)果及分析6．4．1分布式聚類結(jié)果分析從UCIMachineLearning上面選用BreastCancer數(shù)據(jù)集，BreastCancer數(shù)據(jù)集，每個樣本含9ylJ)屬性值，分為兩類：良性和惡性。pima-indians．diabetes糖尿病數(shù)據(jù)集共每．55．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第6章實驗部署及結(jié)果分析個樣本8條屬性值，由于實驗條件限制，這里把每個數(shù)據(jù)集采取復(fù)制處理對并行算法的聚類效果進行測試，數(shù)據(jù)量大小為1GB左右，樣本數(shù)為千萬級。使用相同聚類參數(shù)與相同方法的初始中心，通過集群實驗分別對兩個數(shù)據(jù)集在三種聚類算法的準確率，平均查全率，迭代次數(shù)及運行時間進行統(tǒng)一，結(jié)果如下表6．2，6．3所示。表6．2乳腺癌數(shù)據(jù)集的聚類結(jié)果比較表聚類算法并行Kmeans并行模糊K均值DKBAC表6．3糖尿病數(shù)據(jù)集的聚類結(jié)果比較表!!壘!!魚：!堡!竺!!!墮里曼!：皇些!!里!堅望旦壘墮!旦璺望!!呈竺!旦!塑壘i翌魚!壘墜蘭堅i璺壘里!皇璺聚類算法并行Kmeans并行模糊K均值DKBAC上面對兩種分布式聚類算法在兩種數(shù)據(jù)集下的測試結(jié)果進行了對比分析，為了更清晰直觀的看出各分布式聚類算法的對比情況，下圖6．8為相關(guān)分布式聚類算法在同等初始條件下的準確率對比圖。聚類算法準確率圈Kmeans■I：Kmean8四DKBACBreastCO．FICClP1nla數(shù)據(jù)集圖6．8三種聚類算法準確率比較圖Fig．6．8111ecomparisonchartofthreekindsofclusteringalgorithm’Sprecision圖6．9為相關(guān)分布式聚類算法在同等初始條件下的平均查全率對比圖?？梢钥闯鲈趦蓚€不同數(shù)據(jù)集上，DKBAC平均查全率均優(yōu)于另兩種聚類算法。．56．。盯舛叭躲踮O0O辮羹萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第6章實驗部署及結(jié)果分析聚類算法平均查全率對比數(shù)據(jù)集圖6．9三種聚類算法平均查全率比較圖Fig．6．9Thecomparisonchartofthreekindsofclusteringalgorithm’Srecall由實驗結(jié)果得出的數(shù)據(jù)可知，在三個節(jié)點的測試集群下，分布式聚類算法比相同的串行內(nèi)存算法運行速度快，在準確率及平均查全率方面方面，聚類中心選擇一致的條件下，本文提出的DKBAC聚類算法要優(yōu)于并行Krneans和模糊K均值算法，迭代次數(shù)上優(yōu)于Kmeans聚類算法，但是與模糊Kmeans算法結(jié)果相同。但是，從測試結(jié)果中也看到了一些不足之處，如結(jié)果受原始生理數(shù)據(jù)集的影響比較大，下一步應(yīng)結(jié)合經(jīng)驗知識，改善這一方面。6．4．2分布式聚類算法的復(fù)雜度分析對于基于Hadoop數(shù)據(jù)處理平臺的任何并行和分布式的聚類算法都有兩個方面的復(fù)雜度，即時間復(fù)雜度‰。和通信復(fù)雜度乙。。。。在計算過程中，主要的計算步驟是計算每一個數(shù)據(jù)點到相應(yīng)聚簇中心的距離和狀態(tài)轉(zhuǎn)移概率；在通信過程當中，需要從一個節(jié)點到其他節(jié)點傳送數(shù)據(jù)，聚簇中心和其他一些相關(guān)的信息。首先分析分布式聚類算法在每次重復(fù)步驟中的復(fù)雜度。設(shè)氣脅為一個數(shù)據(jù)對象聚類所需的實際通行時間；乙一為建立連接所需要的時間。由于是并行執(zhí)行，只需要傳送一次數(shù)據(jù)，因此每步的運行時間為：Z擁。=巧細H+尼氣船(6．3)類似的，設(shè)Z是每個數(shù)據(jù)對象輸送的時間；n為平均每個節(jié)點的數(shù)據(jù)對象的個數(shù)，k為每個數(shù)據(jù)對象計算的次數(shù)?？梢杂嬎惴制忻看蔚鷶?shù)據(jù)傳輸?shù)耐ㄐ艜r間為：乙。=砌乏(6．4)現(xiàn)在設(shè)m為并行聚類算法所需的循環(huán)次數(shù)，則整個算法的復(fù)雜度為‰。=聊(1m盯-I-kn死缸)(6．5)rco。。。=mknTc(6．6)由于局域網(wǎng)速度很快，建立連接的時間乃向一可以忽略不計。因此，分布式聚類算法．57．，卯舛叭罟8踮0O0斟稻露瞥萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第6章實驗部署及結(jié)果分析的復(fù)雜度表達式可以寫成一下形式：‰。=mkn毛船(6．7)TCOm。。=mknT。(6．8)在基于Hadoop的分布式環(huán)境下，利用了蟻群分布式搜索的特性，來改善傳統(tǒng)的Kmeans算法常常易于陷入局部最優(yōu)和單存使用歐式距離聚類的缺陷。DKBAC算法的核心思想是：將螞蟻從食物源i到食物源{的轉(zhuǎn)移概率引入到Kmeans聚類算法中，使得迭代次數(shù)降低，而且聚簇的速度較快，時間效率及準確率得到提升。同樣，通過上面的測試實驗結(jié)果可以得知，DKBAC聚類算法既改善了聚類的效果，時間略有提升，又沒有增加額外負擔，使其分布式聚類算法更有意義。6．5并行隨機森林分類及關(guān)聯(lián)規(guī)則結(jié)果分析6．5．1基于Hadoop的隨機森林算法測試分析同樣采用乳腺癌數(shù)據(jù)集和糖尿病進行測試，對數(shù)據(jù)樣本進行劃分為訓(xùn)練樣本和測試樣本對算法進行測試。訓(xùn)練數(shù)據(jù)集合及測試數(shù)據(jù)集分別為1GB左右，樣本數(shù)為千萬級，對并行隨機森林與決策樹算法進行結(jié)果比較，在并行集群上進行測試分析。具體結(jié)果如下表6．4，6．5所示。表6．4乳腺癌數(shù)據(jù)集分類結(jié)果比較表分類算法并行決策樹并行隨機森林表6．5糖尿病數(shù)據(jù)集分類結(jié)果比較表墅!!魚：!堡!型壘堡翌堅塑嬰塹璺竺堂曼竺!壁塑壘!塑!塑璺塵墾壘堂璺分類算法并行決策樹并行隨機森林為了更直觀的看出分布式隨機森林與決策樹分類算法之間的對比，下圖為基于Hadoop的并行隨機森林與決策樹分類算法的準確率與平均查全率比較圖。．58．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第6章實驗部署及結(jié)果分析褂0．9臀姑0．85O．80．75Hadoop分類算法準確率決策樹隨機森林mlel-IStC；irl(’011I’ixna數(shù)據(jù)集圖6．10兩種分類算法準確率比較圖Fig．6．10ThecomparisonchartoftwokindsofClassifyalgorithm’SprecisionHadoop分類算法平均查全率比較褂甜砌露睜策樹機森林數(shù)據(jù)集圖6．11兩種分類算法平均查全率比較圖Fig．6．11ThecomparisonchartoftwokindsofClassifyalgorithm’Srecall由實驗結(jié)果得出的數(shù)據(jù)可知，在三個節(jié)點的測試集群下，并行分類算法比相同的串行內(nèi)存算法運行速度快，并且并行隨機森林算法在速度上相對最快；在分類準確率方面，本文提出的并行隨機森林算法顯然優(yōu)于并行決策樹分類算法。6．5．2基于Hadoop的FP—Growth算法測試分析采用IBM生成的數(shù)據(jù)測試，分別在Hadoop集群中針對50M，500M，1000M，2000M，3500M的數(shù)據(jù)量，對并行FP-Growth關(guān)聯(lián)規(guī)則算法進行測試，并且與并行Aprior頻繁項算法在運行速度上進行比較，具體測試時間比較如下圖所示。由此看出，數(shù)據(jù)量越大，F(xiàn)P．Growth執(zhí)行速度越快。由于實驗條件限制這里集群規(guī)模比較小，時間性能只是一定限度地提升，如若集群規(guī)模更大，性能效果會更明顯。．59．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第6章實驗部署及結(jié)果分析圖6．12兩種關(guān)聯(lián)規(guī)則算法時I司性能比較圖Fig．6．12Thecomparisonchartoftwokindsofassociationrulesalgorithm6．6本章小結(jié)本章主要是搭建部署了健康物聯(lián)網(wǎng)數(shù)據(jù)處理測試平臺，配置了Hadoop，Hive環(huán)境，針對健康物聯(lián)網(wǎng)生理數(shù)據(jù)，對本文提出的基于Hadoop的DKBAC算法，分布式隨機森林算法，F(xiàn)P．Growth算法進行了測試實現(xiàn)，對分布式聚類算法的算法復(fù)雜度進行分析，并將本文設(shè)計實現(xiàn)的分布式聚類、分類、關(guān)聯(lián)規(guī)則等算法與其相類似算法在性能指標上進行了比較分析。．60．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第7章總結(jié)與展望本章將對前面幾章的內(nèi)容進行總結(jié)，給出本文所做的工作，并指出本文的不足之處和下一步的工作方向。7．1工作總結(jié)健康物聯(lián)網(wǎng)需要研究的問題有許多方面，本文主要對基于Hadoop的健康物聯(lián)網(wǎng)數(shù)據(jù)處理流程進行了分析設(shè)計，重點研究實現(xiàn)分布式數(shù)據(jù)挖掘算法，通過對異構(gòu)生理信息進行挖掘預(yù)測，為醫(yī)學(xué)人員提供良好的預(yù)測模型。由于智能采集終端各種各樣，數(shù)據(jù)處理平臺需要接收不同數(shù)據(jù)格式的海量異構(gòu)數(shù)據(jù)，通過配置文件接口轉(zhuǎn)換數(shù)據(jù)格式，基于Hadoop云計算平臺，對數(shù)據(jù)進行基于具體業(yè)務(wù)的數(shù)據(jù)清洗和基于Hive的數(shù)據(jù)清洗。對清洗過濾的人體生理數(shù)據(jù)，設(shè)計研究了基于Hadoop的DKBAC聚類算法，分布式隨機森林分類算法，F(xiàn)P．Growth關(guān)聯(lián)規(guī)則算法，為醫(yī)療專家提供了快速的病情預(yù)測模型，并對這些分布式數(shù)據(jù)挖掘算法進行了測試分析評價。本文的主要貢獻和創(chuàng)新如下：基于物聯(lián)網(wǎng)和云計算技術(shù)，分析設(shè)計了基于Hadoop的健康物聯(lián)網(wǎng)數(shù)據(jù)處理的總體流程，在接收各種協(xié)議的異構(gòu)數(shù)據(jù)時，分析了相應(yīng)需求，針對不同數(shù)據(jù)協(xié)議設(shè)備發(fā)送的數(shù)據(jù)編寫XML轉(zhuǎn)換配置文件接口，提出了配置文檔的設(shè)計要求，建立了面向應(yīng)用的數(shù)據(jù)表示規(guī)范，供上層數(shù)據(jù)處理。在基于Hadoop處理平臺中對數(shù)據(jù)編寫有效的數(shù)據(jù)清洗算法進行過濾冗余數(shù)據(jù)，設(shè)計了云數(shù)據(jù)清洗的流程，根據(jù)分析的MapReduce流程的源碼，基于該編程模型設(shè)計研究了基于具體業(yè)務(wù)的異常過濾，業(yè)務(wù)過濾，時間過濾和相似過濾等算法以完成相應(yīng)的數(shù)據(jù)過濾清洗工作，為了進一步精簡數(shù)據(jù)及和傳統(tǒng)數(shù)據(jù)庫結(jié)合，分析研究了基于本平臺的Hive數(shù)據(jù)清洗工作。為了能夠讓醫(yī)學(xué)專家快速通過人體生理數(shù)據(jù)對病情聚類，重點研究實現(xiàn)了Hadoop平臺下的分布式數(shù)據(jù)挖掘算法中，結(jié)合蟻群信息素的特點，MapReduce分布式編程模型，研究設(shè)計了并行DKBAC聚類算法，首先驗證了該算法并行化的正確性，并對該算法的三個重要階段，統(tǒng)計蟻群信息素階段，蟻群信息素聚類階段，統(tǒng)計更新聚類中心階段進行了詳細的分布式設(shè)計。為了進一步在健康物聯(lián)網(wǎng)進行深入數(shù)據(jù)挖掘，讓醫(yī)護人員能夠進行對病情快速分類，找出病情重要誘因，本文結(jié)合知識庫，研究設(shè)計了基于Hadoop的并行隨機森林算法，F(xiàn)P．Growth并行頻繁項挖掘算法，為了快速提供更多的醫(yī)學(xué)生理數(shù)據(jù)模型，本文總．61．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文第7章總結(jié)與展望結(jié)了一系列分布式數(shù)據(jù)挖掘的特征，給出了基于Hadoop分布式數(shù)據(jù)挖掘算法的設(shè)計原則及適用范圍。最后本文實驗部署了Hadoop集群環(huán)境，搭建了MySQL數(shù)據(jù)庫及Hive分布式數(shù)據(jù)倉庫平臺，對一系列數(shù)據(jù)處理算法進行了設(shè)計與實現(xiàn)，具體來說，重點對DKBAC聚類算法進行了聚類分析，并與經(jīng)典聚類算法做了相應(yīng)比較分析，設(shè)計并實現(xiàn)了分布式隨機森林和FP．Growth關(guān)聯(lián)規(guī)則算法，并對結(jié)果與相似算法進行了比較分析。7．2工作展望健康物聯(lián)網(wǎng)是一個新的方向，還沒有真正的大規(guī)模實際實施，各項基礎(chǔ)研究測試還都是基于現(xiàn)有的互聯(lián)網(wǎng)的環(huán)境當中，這些研究涉及到方方面面。由于課題工作量和時間的原因，本文的工作還不夠完善，未來的研究工作還可以在以下方面進一步展開。繼續(xù)完善健康物聯(lián)網(wǎng)數(shù)據(jù)處理的設(shè)計方案，可以分析Hadoop開源平臺，對MapReduce及其他模塊源碼進行改進，以設(shè)計完全符合自己要求的分布式系統(tǒng)。在分布式清洗過程中，結(jié)合具體業(yè)務(wù)，設(shè)計面向具體需求的清洗算法。研究更多的分布式數(shù)據(jù)處理算法，研究R語言，和Hadoop數(shù)據(jù)處理平臺結(jié)合，實現(xiàn)更多的基于人體生理信息的分布式數(shù)據(jù)處理算法，為醫(yī)護人員提供更快更多的預(yù)測模犁。．62．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文參考文獻1．朱洪波，楊龍祥．物聯(lián)網(wǎng)的技術(shù)思想與應(yīng)用策略研究[J】，通信學(xué)報，2010，31(11)．2．物聯(lián)網(wǎng)技術(shù)，http：／／baike．baidu．corn／view／281815．htm．3．DemaineED，MozesS，RossmanB1．Anoptimaldecompositionalgorithmfortreeeditdistance[M]，languagesandprogramming,SpringerBerlinHeidelberg，2007，146-157．4．MilanoD，ScannapiecoM，CatarciT．Structureawarexmlobjectidentification[C]，VLDBWorkshoponCleanDatabases，Seoul，Korea，2006，1-8．5．LeitaoL，CaladoP，WeisM．Structure—basedinferenceofxmlsimilarityforfuzzyduplicatedetection[C]，Proceedingsofthe16thACMConferenceonInformationandKnowledgeManagement，Lisbon，Portugal，2007，293—302．6．LeitaoL，CaladoP．Duplicatedetectionthroughstructureoptimization[C]，Proceedingsofthe21thACMConferenceonInformationandKnowledgeManagement，Gloscow,Scntland，2011，215-327．7．RieraL，SalazarGAbranch—and—cutalgorithmforthecontinuouserrorlocalizationproblemindatacleaning[J]，Computers＆OperationsResearch，2007，34(9)：2790-2804．8．LeeCS，Diagnostic．Predictiveandcompositionalmoddingwithdatamininginintegratedlearningenvironments[J]，Computers&Education，2007，49(3)：562—580．9．HectorGonzalez，JiaweiHan，XiaoleiLi，DiegoKlabjan．WarehousingandAnalyzingMassiveRFIDDataSets[C]，ICDE，2006，83．10．HectorGonzalez，JiaweiHan，XiaoleiLi．MiningcompressedcommodityworkflowsfrommassiveRFIDdatasets[C]，CIKM，2006，162—171．11．ElioMasciari．AFrameworkforOutlierMininginRFIDdata．The1lthInternationalDatabaseEngineeringandApplicationsSymposium[C]，IDEAS，2007，263-267．12．ChenZhu-xi，HUKong-fa．Frequencyminingclosedpathalgorithmbasedinthemodemlogisticmanagementsystem[J]，Computerintegratedmanufacturingsystems，2009，15(4)．13．JaeGilLee，JiaweiHan，KyuYoungWhang．Trajectoryclustering：apartition—and—groupframework[J]，SIGMOD，2007，593-604．14．JoydeepGhosh．AProbabilisticFrameworkforMiningDistributedSensoryDataunderDataSharingConstraints[C]，F(xiàn)irstIntemationflWorkshoponKnowledgeDiscoveryfromSensorData，2007．15．BetsyGeorge，JamesM．Kang，ShashiShekhar．Spatio—TemporalSensorGraphs(STSG)：Adatamodelforthediscoveryofspatio-temporalpatterns[J]，IntelligentDataAnalysis，2009，13(3)：457—475．16．ParisaRashidi，DianeJ．Cook．AnAdaptiveSensorMiningFrameworkforPervasive．63．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文參考文獻ComputingApplications[C]，The2ndInternationalWorkshoponKnowledgeDiscoveryfromSensorData,2008．17．PeterBrezany,IvanJanciak，A．MinTjoa．GridMiner：afundamentalinfrastructureforbuildingintelligentGridsystems[C]，ProceedingsIEEE／WIC／ACMInternationalConferenceonWebIntelligence，2005，150—156．18．A．Congiusta，D．Talia，P．Trunfio．DistributeddataminingservicesleveragingWSRF[J]，F(xiàn)utureGenerationComputerSystems，2007，23(1)：34-41．19．VladoStankovski，MartinSwain．DiggingDeepintotheDataMinewithDataMiningGrid，IEEEIntemetComputing[J]，2008，12(6)．20．KelvinCardona，JimmySecretan，MichaelGeorgiopoulos，GAnagnostopoulos．AgridbasedsystemfordataminingusingMapReduce[J]，TechnicalReport，2007，2．21．JoosHendrikBose，AYturAndrzejak，MikaelHogqvist．BeyondOnlineAggregation：ParallelandIncrementalDataMiningwithOnlineM印-Reduce[J]，ProceedingsoftheWorkshoponMassiveDataAnalyticsontheCloud，ACM，2010，3．22．Cheng—TaoChu，SangKyunKim，Yi—AnLin．M印-Reduceformachinelearningonmulticore[C]，IntheProceedingsofNIPS2006，19．23．DasAS，DatarM，GargA．Googlenewspersonalization：scalableonlinecollaborativefiltering[C]，Proceedingsofthe16thinternationalconferenceonWorldWideWeb，ACM，2007：271．280．24．TingLiu，C．Rosenberg，H．A．Rowley．Clusteringbillionsofimageswithlargescalenearestneighborsearch[C]，IEEEWorkshoponApplicationsofComputersVision，2007，28．25．健康物聯(lián)網(wǎng)期待產(chǎn)業(yè)模式化，科技日報，2013．6．13．26．王娟，陳皇宇．基于智能健康管理系統(tǒng)新模式的進展與趨勢[J】，微型電腦應(yīng)用，2012，28(1)：34—39．27．FayChang,JeffreyDean，sanjayGhemawat．Bigtable：Adistributedstoragesystemforstructureddata[J]．ACMTransactionsonComputerSystems(TOCS)，2008，26(2)：4．28．HDFS．http：／／hadoop．a(chǎn)pache．org／hdfs／．29．YangC，YenC，TanC．Osprey：ImplementingMapReduce-stylefaulttoleranceinashared-nothingdistributeddatabase[C]，DataEngineering(ICDE)，2010IEEE26thInternationalConferenceonIEEE，2010，657-668．30．AbouzeidA，Bajda-PawlikowskiK，AbadiD，SilberschatzA，RasinA．HadoopDB：AnarchitecturalhybridofMapReduceandDBMStechnologesforanalyticalworkloads[J]，PVLDB，2009，2(1)：922·933．31．AbouziedA，Bajda-PawlikowskiK，HuangJ．HadoopDBinaction：Buildingrealworld．．64．．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文參考文獻applications[C]，Proceedingsof2010internationalconferenceonManagementofdata，ACM，2010，1111—1114．32．FriedmanE，PawlowskiP’CieslewiczJ．SQL／MapReduce：Apracticalapproachtoselfdescribing,polymorphic，andparallelizableuserdefinedfunctions[J]．ProceedingsoftheVLDBEndowment，2009，2(2)：1402-1413．33．StonebrakerM，AbadiD，DeWittDJ，MadenS，PaulsonE，PavloA，RasinA．MapReduceandparalldDBMSs：Friendsorfoes?[J]，CommunicationsoftheACM，2010，53(1)：64—71．34．DeanJ，GhemawatS．MapReduce：Aflexibledataprocessingtool[J]，CommunicationsofACM，2010，53(1)：72-77．35．XuYKostamaaP’GaoLK．IntegratinghadoopandparallelDBMS[J]，ProceedingsoftheSIGMOD，2010：969—974．36．Hive．http：／／hive．a(chǎn)pache．ore,／．37．TomWhite著，周敏奇，王曉玲，金澈清，錢衛(wèi)寧譯．Hadoop權(quán)威指南[M】，北京：清華大學(xué)出版社，2011．38．ChuckLam著，韓冀中譯．Hadoop實戰(zhàn)【M]，北京：人民郵電出版社，2011．39．JorgeAmulfoQuianeRuiz，ChristophPinkel，JorgSchad，JensDittrich．RAFTingMapReduce：Fastrecoveryonthe凡虹Ⅱq，Proceedingsofthe27thInternationalConferenceonDataEngineering，Germany,Hannover,2011，4：11—16．40．BenjaminHindman，hndyKonwinski，M．Zaharia，A．Ghodsi，A．D．Joseph，R．Katz，S．Shenker,I．Stoica．Mesos：APlatformforFine-GrainedResourceSharingintheDataCenter[C]，NetworkedSystemDesignandImplementation，2011，3．41．GhodsiA，ZahariaM，HindmanB．Dominantresourcefairness：fairallocationofmultipleresourcetypes[C]，USENIXNSDI，2011．42．BuYHoweB，BalazinskaM．HaLoop：Efficientiterativedataprocessingonlargeclusters[J]，ProceedingsoftheVLDBEndowment，2010，3(1·2)：285-296．43．AfratiFN，UllmanJD．Optimizingjoinsinamap-reduceenvironment[C]，Proceedingsofthe13thInternationalConferenceonExtendingDatabaseTechnology,ACM，2010，99-110．44．RakeshAgrawal，RamakrishnanSrikant．Fastalgorithmsforminingassociationrulesinlargedatabases[C]，Proceedingsofthe20thIntemationalConferenceonVeryLargeDataBases，Santiago，Chile，1994，9：487-499．45．JHan，JPei，YYin．MiningFrequentpa_ttemswithoutcandidategeneration[C]，ACMSIGMODRecord，2000，29(2)：1-12．46．EricSammer．HadoopOperations[M]，O'ReillyMedia，2012．．65．萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文參考文獻47．Pang-NingTan著，范明，范宏建譯．數(shù)據(jù)挖掘?qū)д摗綧】，北京：人民郵電出版社，2011．48．孫麗娟，王汝傳．基于蟻群算法和遺傳算法融合的Qos組播路由問題求解[J】，電子學(xué)報，2006，8．49．SanjayGhcmawat，HowardGobioff,Shun—TakLeung．TheGooglefilesystemiC]，ACMSIGOPSOpiatingSystemsReview,ACM，2003，37(5)：29—43．50．DeanJ，GhemawatS．MapReduce：simplifieddataprocessingonlargeclusters[J]，CommunicationsoftheACM，2008，51(1)：107—113．一66— 萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文致謝致謝兩年的研究生學(xué)習(xí)即將結(jié)束，在這份最后的答卷中，我要向所有幫助過我、關(guān)心過我的老師、同學(xué)和家人表達我最誠摯的謝意。首先，我要特別感謝我的導(dǎo)師易秀雙，作為一名學(xué)識淵博、治學(xué)和工作嚴謹、品格優(yōu)良的老師，在過去的兩年時間里，不僅在學(xué)術(shù)研究上對我悉心指導(dǎo)，更是教導(dǎo)我掌握分析和解決問題的方法，培養(yǎng)我戰(zhàn)勝困難的勇氣和信心，教育我踏實做人、認真做事的人生態(tài)度，督促我在學(xué)習(xí)上更加自律，還有在生活上的對我無微不至的關(guān)心和幫助!讓我記憶最深刻的是，易老師總是能用樸實的言語，教育我們深刻的人生哲理，從不缺少對學(xué)生熱情的鼓勵和殷切的期望。最讓我感動的是，易老師在對學(xué)生嚴格要求的同時始終保持耐心，在我犯錯的時候，總是在批評的同時肯定我的進步，總是創(chuàng)造條件鍛煉自己的學(xué)生，從不放棄自己的學(xué)生。易老師一絲不茍、堅韌不拔、實事求是的人生態(tài)度時時刻刻影響著我，這些都將是我人生經(jīng)歷中的寶貴財富。其次，感謝網(wǎng)絡(luò)中心的老師，感謝他們在這兩年的時間里不辭辛苦地為我們創(chuàng)造的工作和學(xué)習(xí)環(huán)境所做的大量的工作。感謝實驗室的伙伴，在平時的學(xué)習(xí)和生活中我們互相幫助、互相鼓勵，他(她)們給予我許多啟發(fā)和建議，使我始終感受集體的力量和溫暖。再次，我要感謝我的父母，沒有他們的養(yǎng)育之恩，我不能成長至今；沒有他們的理解和支持，我不能安心地進行學(xué)習(xí)；沒有他們的期望和鼓勵，我不能保持良好的心態(tài)和充滿干勁。最后，感謝所有參加論文評審和答辯的專家，感謝您們在百忙之中對我的論文提出批評指正。．67．

當前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 76



此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

大家都在看

近期熱門

基于hadoop的健康物聯(lián)網(wǎng)數(shù)據(jù)挖掘算法研究與實現(xiàn)

基于hadoop的健康物聯(lián)網(wǎng)數(shù)據(jù)挖掘算法研究與實現(xiàn)

最近更新

大家都在看

相關(guān)文章

相關(guān)標簽