基于語(yǔ)義自動(dòng)標(biāo)注算法的圖像檢索系統(tǒng)研究

ID：33368771

大小：13.48 MB

頁(yè)數(shù)：63頁(yè)

時(shí)間：2019-02-25

上傳者：U-22107

基于語(yǔ)義自動(dòng)標(biāo)注算法的圖像檢索系統(tǒng)研究_第1頁(yè)

基于語(yǔ)義自動(dòng)標(biāo)注算法的圖像檢索系統(tǒng)研究_第2頁(yè)

基于語(yǔ)義自動(dòng)標(biāo)注算法的圖像檢索系統(tǒng)研究_第3頁(yè)

基于語(yǔ)義自動(dòng)標(biāo)注算法的圖像檢索系統(tǒng)研究_第4頁(yè)

基于語(yǔ)義自動(dòng)標(biāo)注算法的圖像檢索系統(tǒng)研究_第5頁(yè)

資源描述：

《基于語(yǔ)義自動(dòng)標(biāo)注算法的圖像檢索系統(tǒng)研究》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

ResearchonImageRetrievalSystemwithAutomaticAnnotationAlgorithmSpecialty：ComputerScienceandTechnologyMasterDegreeCandidate：基坌墜g且星!i妲gSupervisor：里煦￡!垂墨墨塾g旦Q塾gjl坐SchoolofInformationScience&EngineeringCentralSouthUniversityChangShaHunanP．R．C 原創(chuàng)性聲明本人聲明，所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知，除了論文中特別加以標(biāo)注和致謝的地方外，論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果，也不包含為獲得中南大學(xué)或其他單位的學(xué)位或證書而使用過的材料。與我共同工作的同志對(duì)本研究所作的貢獻(xiàn)均已在論文中作了明確的說明。作者簽名：日期：監(jiān)年—衛(wèi)月立生目學(xué)位論文版權(quán)使用授權(quán)書本人了解中南大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定，即：學(xué)校有權(quán)保留學(xué)位論文并根據(jù)國(guó)家或湖南省有關(guān)部門規(guī)定送交學(xué)位論文，允許學(xué)位論文被查閱和借閱；學(xué)?？梢怨紝W(xué)位論文的全部或部分內(nèi)容，可以采用復(fù)印、縮印或其它手段保存學(xué)位論文。同時(shí)授權(quán)中國(guó)科學(xué)技術(shù)信息研究所將本學(xué)位論文收錄到《中國(guó)學(xué)位論文全文數(shù)據(jù)庫(kù)》，并通過網(wǎng)絡(luò)向社會(huì)公眾提供信息服務(wù)。|作者躲逃翩日期：幽年衛(wèi)月絲日摘要隨著消費(fèi)類數(shù)碼相機(jī)的日益普及和網(wǎng)絡(luò)多媒體信息的廣泛傳播，數(shù)字圖像迅速產(chǎn)生和堆積。如何實(shí)現(xiàn)大規(guī)模圖像數(shù)據(jù)的有效管理和查詢，已經(jīng)成為多媒體技術(shù)領(lǐng)域的重要研究課題。20世紀(jì)70年代末，人們就開始對(duì)圖像檢索技術(shù)進(jìn)行研究。最初被研究的是基于文本的圖像檢索技術(shù)(Text．basedImageRetfievN，簡(jiǎn)稱TBIR)，這種技術(shù)需要手工添加文本標(biāo)簽。但是，隨著近年來圖像來源的不斷豐富和格式的多樣化，對(duì)龐大圖像數(shù)據(jù)進(jìn)行手工標(biāo)注已經(jīng)變得非常不現(xiàn)實(shí)。上世紀(jì)90年代初，出現(xiàn)了基于內(nèi)容的圖像檢索技術(shù)(Content—basedImageRetrieval，簡(jiǎn)稱CBIR)，這種檢索技術(shù)主要是通過顏色和紋理等低層視覺特征來描述圖像進(jìn)而實(shí)現(xiàn)查詢。但是，人們很快又發(fā)現(xiàn)，圖像的低層特征與高層語(yǔ)義之間存在所謂的“語(yǔ)義鴻溝”。而基于圖像語(yǔ)義自動(dòng)標(biāo)注的檢索技術(shù)，可以通過事先對(duì)圖像數(shù)據(jù)庫(kù)進(jìn)行自動(dòng)索引標(biāo)記，從而實(shí)現(xiàn)高級(jí)語(yǔ)義檢索的目的，試圖縮小語(yǔ)義鴻溝。首先，本文提出了一種新的基于本體的圖像標(biāo)注框架。該框架結(jié)合領(lǐng)域本體中語(yǔ)義概念的關(guān)系，通過層次概率篩選獲得較為準(zhǔn)確的圖像高層語(yǔ)義概念，實(shí)現(xiàn)圖像的語(yǔ)義標(biāo)注。第一次標(biāo)注時(shí)，通過提取和聚類訓(xùn)練集中的基元圖像，采用統(tǒng)計(jì)學(xué)習(xí)方法建立基元類和語(yǔ)義概念之間的關(guān)聯(lián)概率，并采用貝葉斯算法計(jì)算出本體與待標(biāo)注圖像中概念的后驗(yàn)概率，取后驗(yàn)概率較大的詞匯標(biāo)注該圖像；二次標(biāo)注時(shí)，結(jié)合圖像本體中概念之間的語(yǔ)義關(guān)系，獲取圖像的高層語(yǔ)義，由此實(shí)現(xiàn)待標(biāo)注圖像語(yǔ)義的自動(dòng)標(biāo)注。其次，采用java語(yǔ)言、MyEclipse集成開發(fā)環(huán)境以及MySQL數(shù)據(jù)庫(kù)管理系統(tǒng)等平臺(tái)，設(shè)計(jì)實(shí)現(xiàn)了一個(gè)基于HSV、RGB顏色特征的圖像檢索系統(tǒng)原型。該系統(tǒng)采用外部事例圖查詢的方式，通過特征提取模塊提取圖像特征，并與數(shù)據(jù)庫(kù)進(jìn)行特征匹配，在結(jié)果顯示模塊中輸出檢索目標(biāo)圖像。關(guān)鍵詞圖像檢索，高層語(yǔ)義，領(lǐng)域本體，語(yǔ)義標(biāo)注 ABSTRACTWiththeincreasingpopularityofdigitalcamerascustomersandwidelyspreadofmultimediainformationinnetwork，digitalimagesappearedandaccumulatedquickly．Howtomanageandqueriessuchlarge—scaleimagedataeffectivelyhasbecomeakeyresearchprojectinthefieldofmultimediatechnology．Researchesonimageretrievaltechnologyhasbegunsincelate1970s．FirstlyitstartswithText．BasedImageRetrievalwhichneedstext1abelsaddedmanually．However,astheoriginsofimagesandtypesofimageformatsbecomemoreandmorediversityrecently,itisnotpracticalatalltolabelhugeimagedatamanually．Thenin1990s，Content—basedImageRetrievaltechnologyshowedup，whichimplementsthequerybyusinglow．1evelvisualfeatureslikecolors，grain，etc．But，itwassoonfoundthatthereareso．calledSemanticGapbetweenthe10W—levelfeaturesandhigh．1evelsemantic．TonarrowdowntheSemanticGap，anothertechnologyshowedup．Itisaretrievaltechnologyofsemantic-basedautomaticlabel，whichachievesthegoalofhigh—levelsemanticretrievalbyautomaticallylabelingtheimagedatabase．Thisessayputsforwardanewkindofimage1abelframeworkwhichbasesonontology．Combinedwiththerelationshipofsemanticconceptsinthefields，itgetsmoreaccurateconceptsofimagehigh-levelsemanticbyusinglevelprobabilityfilterandthenrealizesthesemanticannotationofimage．Whenfirstlabeled，itextractsandclassifiesprimitiveimagesinthetrainingcollection，andestablishesassociationprobabilitybetweentheprimitiveclassesandsemanticconceptsusingstatisticmethods．ItalsousesBayesianalgorithmtocalculatetheposteriorprobabilitybetweenontologyandtheconceptstobemarkedintheimage，andthenchoosethelargerposteriorprobabilityvocabularytolabeltheimage．Ⅵ，llenlabeledlater,itobtainshigh—levelsemanticoftheimageafterconsideringthesemanticrelationshipbetweenontologyandconcepts，thustheautomaticannotationofunmarkedimagesemanticshasaccomplished．II Secondly,itusestheplatformcollectedbyJavalanguage，theintegratedenvironmentofMyEclipse，andMySqldatabaseandfinishesthedesignandimplementationaprototypesystemofimageretrievalwhichbasedonHSVandRGBcolorfeatures．Thissystemextractsimagefeaturesinthefeature—extractingmodulebyusingexternalexamplesimagequerystyle，thensearchesthematchesofthefeaturesindatabaseandfinallyoutputstheretrievedtargetimageintheresultdisplaymodule．KEYWORDSImageRetrieval，High—levelSemantic，DomainOntology,SemanticAnnotation 目錄摘要?????????????????????????????????????????IABSTRACT?????????????????????????????????????．．II第一章緒論????????????????????????????．11．1研究背景和意義????????????????????????～11．1．1圖像檢索的發(fā)展???????????????????????11．1．2圖像檢索與圖像標(biāo)注的關(guān)系??????????????????51．1．3圖像標(biāo)注技術(shù)的發(fā)展?????????????????????61．1．4圖像檢索系統(tǒng)分析??????????????????????81．2本文工作???????????????????????????111．3本文的組織結(jié)構(gòu)????????????????????????11第二章相關(guān)工作及關(guān)鍵技術(shù)?????????????????????132．1基于語(yǔ)義的圖像檢索的基本方式?????????????????132．2圖像語(yǔ)義標(biāo)注的基本框架????????????????????142．3圖像特征描述?????????????????????????152．3．1顏色特征描述???????????????????????．152．3．2形狀特征描述???????????????????????．182．3．3紋理特征描述???????????????????????．．202．3．4語(yǔ)義特征描述???????????????????????．202．4圖像檢索性能的評(píng)價(jià)標(biāo)準(zhǔn)????????????????????一212．4．1排序評(píng)價(jià)方法???????????????????????．222．4．2查全率和查準(zhǔn)率??????????????????????．222．4．3調(diào)和平均值????????????????????????．232．4．4平均歸一化修正檢索等級(jí)??????????????????．232．5本章小結(jié)???????????????????????????24第三章圖像語(yǔ)義標(biāo)注方法研究????????????????????253．1基本思想???????????????????????????253．2圖像本體的構(gòu)建????????????????????????253．3系統(tǒng)框架???????????????????????????263．4基于概率的第一次標(biāo)注?????????????????????273．4．1關(guān)聯(lián)度計(jì)算????????????????????????．27IV 3．4．2第一次自動(dòng)標(biāo)注??????????????????????．283．5基于本體的二次標(biāo)注??????????????????????293．6實(shí)驗(yàn)及分析??????????????????????????313．6．1實(shí)驗(yàn)的建立????????????????????????．313．6．2實(shí)驗(yàn)結(jié)果及其分析?????????????????????．323．7本章小結(jié)???????????????????????????33第四章圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)??????????????????354．1系統(tǒng)框架概述?????????????????????????354．1．1系統(tǒng)的總體結(jié)構(gòu)??????????????????????．354．1．2系統(tǒng)的設(shè)計(jì)模式??????????????????????．．354．1．3檢索系統(tǒng)的框架??????????????????????．364．2開發(fā)工具和環(huán)境????????????????????????374．3系統(tǒng)實(shí)現(xiàn)???????????????????????????384．3．1常用類庫(kù)?????????????????????????．384．3．2數(shù)據(jù)庫(kù)實(shí)現(xiàn)????????????????????????．394．3．3系統(tǒng)類的結(jié)構(gòu)及算法流程??????????????????．．424．4系統(tǒng)應(yīng)用與評(píng)價(jià)????????????????????????“4．5本章小結(jié)???????????????????????????49第五章總結(jié)與展望?????????????????????????5l5．1本文總結(jié)???????????????????????????515．2研究展望???????????????????????????51參考文獻(xiàn)?????????????????????????????．53致謝?????????????????????????????????????????57V 碩_f=學(xué)位論文箔一章緒論第一章緒論隨著互聯(lián)網(wǎng)的日趨普及，網(wǎng)絡(luò)中的多媒體數(shù)據(jù)如圖像、音頻、視頻、動(dòng)畫等呈現(xiàn)出爆炸式增長(zhǎng)態(tài)勢(shì)，人們進(jìn)入了網(wǎng)絡(luò)多媒體信息時(shí)代。但信息越是豐富，人們就越容易迷失在海量數(shù)據(jù)之中難以快速準(zhǔn)確的搜索到自己所需要的信息，數(shù)字化生活給人們帶來便利的同時(shí)，也極大地困擾了人們的生活。圖像，作為多媒體信息的重要組成部分，它能客觀的反映真實(shí)世界，給人以鮮活的視覺感受。對(duì)于大規(guī)模圖像數(shù)據(jù)庫(kù)的分類、管理和查詢一直是多媒體信息研究領(lǐng)域的重要組成部分，具有廣泛的應(yīng)用前景。如何實(shí)現(xiàn)圖像數(shù)據(jù)庫(kù)的有效管理和查詢，以便人們方便快捷地找到所需要的圖像數(shù)據(jù)，是當(dāng)前最具挑戰(zhàn)性的任務(wù)之一。在信息檢索方面，文本類信息的檢索已經(jīng)比較成熟，Google、百度等搜索引擎已成為互聯(lián)網(wǎng)使用中最常用的工具。而多媒體檢索在商業(yè)應(yīng)用領(lǐng)域，卻相對(duì)滯后。目前，主流的搜索引擎均以文本方式來實(shí)現(xiàn)檢索多媒體信息的功能。在數(shù)據(jù)庫(kù)中存儲(chǔ)了多媒體信息本身的同時(shí)，還附有人工添加的與多媒體相關(guān)的文本標(biāo)記，通過對(duì)這些標(biāo)記的查找來實(shí)現(xiàn)對(duì)多媒體信息的檢索。這種方法對(duì)多媒體信息檢索起到了一定的作用，但是文本標(biāo)記無法完全解釋多媒體信息本身，因?yàn)槎嗝襟w信息本身是數(shù)字流的體現(xiàn)，簡(jiǎn)短的文字信息難以表達(dá)其含義。以文字作為關(guān)鍵項(xiàng)來搜索多媒體，只是人們?cè)谔剿鞫嗝襟w信息檢索過程中的一個(gè)階段，要想使多媒體信息的檢索更加準(zhǔn)確、方便，終究要用以多媒體本身作為關(guān)鍵項(xiàng)來進(jìn)行檢索。多媒體信息檢索【1】包含很多方面，如圖像檢索、視頻檢索以及一些小的分支如人臉識(shí)別[21、基因識(shí)別和蛋白質(zhì)檢測(cè)等等。本文只就其中的一部分問題——基于語(yǔ)義的圖像檢索進(jìn)行研究。1．1研究背景和意義1．1．1圖像檢索的發(fā)展從圖像檢索技術(shù)發(fā)展的歷史來看，我們可以簡(jiǎn)單將其概括為以下三個(gè)歷史進(jìn)程：(1)TBIR(Text-basedImageRetrieval)，即基于文本的圖像檢索技術(shù)階段；(2)CBIR(Content—basedImageRetrieval)，即基于內(nèi)容的圖像檢索技術(shù)階段；(3)SBIR(Semantic-basedImageRetrieval)，即基于語(yǔ)義的圖像檢索技術(shù)階段。基于文本的圖像檢索技術(shù)，是根據(jù)用戶需求檢索與圖像存儲(chǔ)在一起的文本標(biāo)簽的一種圖像查詢方法。該方法首先用一些簡(jiǎn)單的文本或關(guān)鍵字來對(duì)圖像進(jìn)行手碩士學(xué)位論文第一章緒論工描述，然后將圖像當(dāng)成一個(gè)存儲(chǔ)對(duì)象隨關(guān)鍵字存儲(chǔ)在一起，檢索時(shí)只要查閱關(guān)鍵字即可找到所需圖像。基于文本的圖像檢索技術(shù)有其自身的優(yōu)點(diǎn)：一是用文字作為查詢的關(guān)鍵項(xiàng)進(jìn)行匹配速度快、時(shí)間短，適合大型數(shù)據(jù)庫(kù)的應(yīng)用；二是手工標(biāo)注的文字在一定程度上抽象了圖像中的含義，在圖像相對(duì)較少時(shí)，對(duì)圖像的理解和檢索均有幫助。但是隨著圖像數(shù)據(jù)迅速的增長(zhǎng)，這種方法暴露出如下問題：一是采用手工給圖像標(biāo)注文字信息，隨著圖像數(shù)量的增加和勞動(dòng)力成本的提高，這種方法的費(fèi)效比越來越高，不利于圖像數(shù)據(jù)庫(kù)的開發(fā)和維護(hù)；二是圖像數(shù)據(jù)庫(kù)往往包含極為豐富的信息內(nèi)容，難以用簡(jiǎn)短的文本關(guān)鍵字進(jìn)行準(zhǔn)確的描述；三是由于個(gè)體差異，人們對(duì)圖像的理解本身就難以趨同，再加上文化背景和鑒賞層次上的差別，極易帶來圖像文本標(biāo)注信息的偏差，給圖像檢索帶來了或多或少的困擾。當(dāng)前網(wǎng)絡(luò)中流行的搜索引擎諸如Google和百度等，主要還是沿用基于文本的圖像檢索技術(shù)，這種技術(shù)的不足之處通過如圖1．1和圖1—2的例子便可知曉：圖1．1運(yùn)用百度對(duì)“斑馬”進(jìn)行搜索，在搜索結(jié)果中的前12幅圖片中，就有2張不是斑馬；圖1—2運(yùn)用Google對(duì)“海馬”搜索，在搜索結(jié)果中的前16幅圖片中，就有3張不是海馬。輛㈤脯豳一豳浚愿|塞踴飄豳黼墨圖1-1百度搜索“斑馬”的結(jié)果曩惑。麓。；翰蘑3善黧霖豳篝3臣‘≮一露曩圖1-2Google搜索“海馬”的結(jié)果碩士學(xué)位論文第一章緒論基于內(nèi)容的圖像檢索技術(shù)，是采用圖像相似性匹配和距離排序等方法檢索相關(guān)程度的一種圖像查詢方法。與基于文本的圖像檢索技術(shù)不同的是，該方法并不需要事先對(duì)圖像進(jìn)行手工描述，而是通過采集顏色、輪廓、紋理、形狀和對(duì)象的空間位置關(guān)系等【3】圖像視覺特征，然后結(jié)合向量距離計(jì)算，衡量與查詢圖像的相關(guān)程度得出檢索結(jié)果。從20世紀(jì)80年代開始，基于內(nèi)容的圖像檢索已經(jīng)應(yīng)用于一些獨(dú)特的領(lǐng)域【4】。90年代初，基于內(nèi)容的圖像檢索進(jìn)入商用研究階段。研究人員紛紛提出了不同的圖像特征描述方法和圖像檢索算法【卯。很多CBIR系統(tǒng)也問世，其中最著名的是IBM公司的QBIC系統(tǒng)。進(jìn)入21世紀(jì)后，CBIR技術(shù)有更大的發(fā)展。人們不斷改進(jìn)已有的算法，提出了空間系數(shù)的DCT(DiscreteCosineTransform)離散余弦變換【6】、DWT(DiscreteWaveletTransform)離散小波變換[71、雙復(fù)雜度雙復(fù)小波變換、k．均值(k-meansclustering)聚類算法【引、尺度不變特征轉(zhuǎn)換(SIFTScale．invariantfeaturetransform)[9】、尺度旋轉(zhuǎn)不變的Gabor特征和多索引多對(duì)象檢索等特征算法。更有很多學(xué)者將各種特征結(jié)合起來以提高圖像檢索的性能，如顏色和邊緣的結(jié)合特征(CEDDColorandEdgeDirectivityDescriptor)、模糊顏色和紋理直方圖(FCTHFuzzyColorandTextureHistogram)、顏色和離散小波變換等的結(jié)合，更有甚者將有三種低層特征全部抽取出來對(duì)圖像的本體進(jìn)行描述。Google和百度均已經(jīng)推出了基于內(nèi)容的圖像檢索技術(shù)。百度的還在測(cè)試階段，其功能如圖1．3所示，要么搜出相同的圖片，如果在網(wǎng)上沒有和上傳圖片內(nèi)容相同的圖片，那么搜索結(jié)果就為0，系統(tǒng)無法搜出和示例圖片相似的圖片，。；i搦毒，凄藿鬟羹婆鬟黎塑費(fèi)鎏鬟。諉囂l熬霹氅蠹辮鬈蓑§灞；籬#j套l囊襞騖蠹霪霧魏爨，圖1-3百度CBIR系統(tǒng)搜索結(jié)果而Google的搜索結(jié)果則不同，即便在網(wǎng)絡(luò)上沒有搜索到完全相同的圖片，Google也會(huì)把一些和樣例圖片類似的圖片展現(xiàn)出來，與其在顏色分布和形狀上碩士學(xué)位論文第一章緒論試圖趨于一致，其結(jié)果如圖1—4所示。圈骨尺寸：800x600瀨錢到謬豳囂懿糞袍尺寸。哩回雕圈圜豳國(guó)圈圊冒圖1-4Google的CBIR系統(tǒng)搜索結(jié)果實(shí)際的體驗(yàn)中還能感覺出，百度中基于內(nèi)容的圖像搜索模塊的效率遠(yuǎn)不及以文本方式進(jìn)行的圖像搜索，但是Google中這兩個(gè)搜索模塊的響應(yīng)速度基本一致。同時(shí)就搜索結(jié)果的準(zhǔn)確性來講，基于內(nèi)容的圖像搜索準(zhǔn)確度遠(yuǎn)不及基于文本關(guān)鍵字的搜索。檢索效率和檢索結(jié)果的滿意度是基于內(nèi)容圖像搜索進(jìn)入商業(yè)應(yīng)用領(lǐng)域的重要指標(biāo)，如果能夠較好地解決這兩方面的問題，那么基于內(nèi)容的圖像檢索技術(shù)就能夠較好的滿足人們的需求。基于語(yǔ)義的圖像檢索技術(shù)[10]，是根據(jù)圖像的語(yǔ)義關(guān)鍵字匹配來實(shí)現(xiàn)圖像查詢的一種圖像檢索技術(shù)。這種圖像檢索技術(shù)結(jié)合了TBIR和CBIR兩種技術(shù)特點(diǎn)，首先由系統(tǒng)自動(dòng)提取圖像的低層物理特征，然后由這些低層物理特征映射出圖像所包含的與人類感知一致的高層語(yǔ)義內(nèi)容，這些內(nèi)容類似于圖像的文本標(biāo)簽，因而檢索的便捷性也就類似基于文本的檢索方法了。由此可見，基于語(yǔ)義的圖像檢索技術(shù)與基于內(nèi)容的圖像檢索技術(shù)有著相似之處，即二者均以圖像的低層特征為基礎(chǔ)，因此也有學(xué)者認(rèn)為基于語(yǔ)義的圖像檢索技術(shù)是基于內(nèi)容圖像檢索的延伸與發(fā)展，但二者在實(shí)現(xiàn)檢索的過程中還是有明顯差別。4 碩士學(xué)位論文第一章緒論1．1．2圖像檢索與圖像標(biāo)注的關(guān)系由于基于內(nèi)容的圖像檢索系統(tǒng)存在諸如查詢過程不直觀、系統(tǒng)響應(yīng)通常比較慢等特點(diǎn)，人們更期待能避免使用圖像低層特征進(jìn)行匹配，而使用語(yǔ)義層次的查詢方式來取代。此外，由于特征本身是不存在語(yǔ)義描述，即便實(shí)現(xiàn)了對(duì)特征測(cè)度的良好匹配亦無法保證檢索的結(jié)果符合用戶的期望。人們逐漸認(rèn)識(shí)到阻礙圖像檢索的瓶頸是“語(yǔ)義鴻溝”(semanticgap)[1l】【12】，它限制了圖像低層視覺特征和高層語(yǔ)義之間的信息溝通?！罢Z(yǔ)義鴻溝”是指圖像如顏色、紋理等的低層視覺特征與高層語(yǔ)義如自然風(fēng)景、建筑物等概念之間的差距，由計(jì)算機(jī)計(jì)算出來的低層特征的相關(guān)性并不能反映出圖像在語(yǔ)義層上的相似性，語(yǔ)義層上的相似性亦無法推斷出低層特征的相關(guān)性。隨著CBIR技術(shù)的發(fā)展，研究人員發(fā)現(xiàn)它在達(dá)到一定的檢索準(zhǔn)確度后無法再提升性能，這個(gè)問題出現(xiàn)的根本原因在于CBIR中用來認(rèn)知圖像的是一些低層的視覺特征，而這些特征與人們用于判斷衡量檢索結(jié)果相關(guān)與否的語(yǔ)義特征存在著明顯的差異。此外，低層視覺特征對(duì)于普通用戶來說通常不便于理解，難以借此來表達(dá)檢索者的需求，因此發(fā)展與實(shí)用進(jìn)程受限。為了盡量縮小語(yǔ)義鴻溝的問題，同時(shí)實(shí)現(xiàn)用戶良好的基于語(yǔ)義關(guān)鍵詞的圖像檢索體驗(yàn)，采用圖像自動(dòng)語(yǔ)義標(biāo)注即對(duì)圖像自動(dòng)生成一些語(yǔ)義關(guān)鍵詞或標(biāo)簽來描述某張圖像中主要物體和場(chǎng)景的方法，逐漸引起人們?cè)趫D像檢索領(lǐng)域的廣泛關(guān)注。隨著圖像處理、機(jī)器學(xué)習(xí)、人工智能和自然語(yǔ)言處理等技術(shù)的發(fā)展，近年來圖像語(yǔ)義標(biāo)注的模型呈現(xiàn)出多樣化趨勢(shì)，其核心技術(shù)是采用圖像分割、識(shí)別等技術(shù)對(duì)訓(xùn)練集中的圖像數(shù)據(jù)進(jìn)行建模，構(gòu)建一個(gè)低層視覺特征空間與高層語(yǔ)義空間的關(guān)系模型，采用該模型來識(shí)別待標(biāo)注的圖像，并建立自動(dòng)語(yǔ)義標(biāo)注詞匯索引，該方法有效避免了基于人工標(biāo)注的圖像檢索系統(tǒng)所面臨的一系列問題。因此，圖像語(yǔ)義的自動(dòng)標(biāo)注使大規(guī)模圖像數(shù)據(jù)庫(kù)基于語(yǔ)義檢索的應(yīng)用更具現(xiàn)實(shí)性，其基本原理如圖1．5所示。圖像自動(dòng)標(biāo)注技術(shù)吸收了基于文本的圖像檢索中關(guān)鍵字檢索的高效率和基于內(nèi)容的圖像檢索的自動(dòng)化處理兩方面的優(yōu)點(diǎn)，其圖像檢索的效率不言而喻?？梢灶A(yù)見，圖像自動(dòng)語(yǔ)義標(biāo)注對(duì)于圖像檢索技術(shù)的完善具有關(guān)鍵作用。卜自霎!霧義概念模型圖1．5圖像自動(dòng)語(yǔ)義標(biāo)注5～～～季|一㈨～S 碩士學(xué)位論文第一章緒論1．1．3圖像標(biāo)注技術(shù)的發(fā)展圖像標(biāo)注經(jīng)歷了由傳統(tǒng)的手工生成圖像標(biāo)注信息到自動(dòng)生成圖像標(biāo)注信息的過程。由于目前圖像數(shù)量的飛速增長(zhǎng)，人們利用手工生成圖像標(biāo)注信息費(fèi)時(shí)費(fèi)力，所以自動(dòng)圖像標(biāo)注算法對(duì)于基于標(biāo)注算法的圖像檢索技術(shù)具有非常重要的意義。圖像自動(dòng)標(biāo)注(ImageAutomaticAnnotation)是指根據(jù)圖像的低層視覺特征，由計(jì)算機(jī)系統(tǒng)自動(dòng)生成圖像對(duì)應(yīng)的文本標(biāo)注關(guān)鍵詞[13】。一般來講，其標(biāo)注的內(nèi)容通常是與圖像相關(guān)的若干文本詞匯或者圖像類別的信息。由此，圖像進(jìn)行索引和檢索可以采用比較成熟的文本處理技術(shù)?，F(xiàn)有的圖像自動(dòng)標(biāo)注的算法總結(jié)起來可以分為以下幾類：(1)模型生成式圖像標(biāo)注算法。模型生成式圖像標(biāo)注算法的是通過建立圖像與標(biāo)注詞匯共同出現(xiàn)的聯(lián)合概率模型，通過該模型計(jì)算得出概率高的詞匯進(jìn)行圖像的語(yǔ)義標(biāo)注。Duygulu等人提出的基于IBM翻譯模型【14】(TranslationnModel，TM)的圖像標(biāo)注算法實(shí)現(xiàn)了模型生成進(jìn)行圖像語(yǔ)義標(biāo)注的開創(chuàng)性工作。該算法將圖像的標(biāo)注問題視為是從圖像視覺關(guān)鍵詞到語(yǔ)義關(guān)鍵詞的翻譯過程。首先，將訓(xùn)練集中的每幅圖像分割成若干個(gè)區(qū)域，然后采用聚類算法將圖像區(qū)域進(jìn)行聚類，用一個(gè)關(guān)鍵詞(Blob)表示一個(gè)類，這樣連續(xù)特征被轉(zhuǎn)化成離散的Blob詞典組成的特征向量，從而實(shí)現(xiàn)采用圖像視覺特征和標(biāo)注詞之間的關(guān)系對(duì)圖像進(jìn)行語(yǔ)義標(biāo)注。Duygulu等人在文獻(xiàn)[141中還發(fā)布了一個(gè)Corel5K圖像數(shù)據(jù)集，其中包含5000幅圖像和374個(gè)關(guān)鍵詞，由于圖像語(yǔ)義標(biāo)注研究領(lǐng)域?qū)W者的廣泛使用，該數(shù)據(jù)集被視作標(biāo)準(zhǔn)數(shù)據(jù)集。Bamard等人提出了一個(gè)利用MoM．LDA(Multi．modalExtensiontoMixtureofLatentDirichletAllocation)模型進(jìn)行融合的方法[15】生成圖像語(yǔ)義標(biāo)注算法。該方法同樣將訓(xùn)練集圖像分成若干區(qū)域，然后根據(jù)概率算法獲得圖像區(qū)域和標(biāo)注詞的聯(lián)合分布的學(xué)習(xí)模型，并通過該獲得待標(biāo)注圖像的語(yǔ)義標(biāo)注詞。，Putthividhya等人在文獻(xiàn)『15]MoM—LDA模型的基礎(chǔ)上，經(jīng)過大量的研究和實(shí)驗(yàn)論證，又提出了tr-mmLDA(Topic．regressionMulti．modalLatentDlrlchletAllocation)t161模型的圖像標(biāo)注方法，并證實(shí)了該方法的標(biāo)注性能優(yōu)于前者。其主要思想是首先采集圖像和圖像的周邊文本的關(guān)系；然后使用建模的方法建立LDA主題模型，采用線性回歸模塊的方法對(duì)兩組主題集合分別建立關(guān)聯(lián)；最后利用這種關(guān)聯(lián)關(guān)系實(shí)現(xiàn)圖像語(yǔ)義標(biāo)注?；谥黝}模型生成的圖像語(yǔ)義自動(dòng)標(biāo)注算法，通過建立標(biāo)注詞和圖像的視覺特征之問的關(guān)系進(jìn)行建模，利用該模型較好的實(shí)現(xiàn)了圖像的語(yǔ)義標(biāo)注。其缺點(diǎn)是模型通常比較復(fù)雜、需要估計(jì)的參數(shù)比較多，進(jìn)而最優(yōu)的潛在主題數(shù)量難以確定。碩士學(xué)位論文第一章緒論(2)判別模型式圖像標(biāo)注算法。該算法的基本思想是對(duì)每一個(gè)詞匯或類別訓(xùn)練出對(duì)應(yīng)的二元分類器，當(dāng)系統(tǒng)識(shí)別一幅新的圖像時(shí)，只要對(duì)每一個(gè)詞匯或類別使用這些分類器來判斷是否應(yīng)該作為該圖像的標(biāo)注，就可以獲得圖像的語(yǔ)義標(biāo)注。Yang等人提出了一種ASVM—MIL(AsyrmnetricalSupportVectorMachine—basedMultiple．InstanceLearningAlgorithm)算法[17】。該算法基于非對(duì)稱支持向量機(jī)為基礎(chǔ)進(jìn)行多實(shí)例學(xué)習(xí)，利用多實(shí)例學(xué)習(xí)和非對(duì)稱SVM對(duì)圖像進(jìn)行標(biāo)注。首先將圖像采用一定的圖像分割算法分割為多個(gè)互不重疊的區(qū)域并識(shí)別出其中的顯著區(qū)域，然后手工標(biāo)記出該顯著區(qū)域的分類信息，作為訓(xùn)練數(shù)據(jù)集。把每一區(qū)域細(xì)分成許多互相重疊的小片，每塊小片包含4×4個(gè)像素，該小片的特征描述成HSV顏色空間的分布信息以及對(duì)應(yīng)的梯度信息。在對(duì)每一詞匯對(duì)應(yīng)的二元分類器進(jìn)行訓(xùn)練時(shí)，系統(tǒng)采用多個(gè)來自正、負(fù)例區(qū)域的小片來訓(xùn)練SVM模型。由此，測(cè)試圖像中的每個(gè)區(qū)域也采用相同的辦法進(jìn)行分類，以此判斷該詞匯是否可以標(biāo)注到該區(qū)域。綜合測(cè)試圖像中各區(qū)域的標(biāo)注信息，就能得到該圖像的語(yǔ)義標(biāo)注信息。這種方法的弊端在于需要訓(xùn)練大量的分類器，而且需要手工標(biāo)注訓(xùn)練集中圖像區(qū)域的信息，因此該法對(duì)于類別數(shù)較多的情況很難推廣使用。(3)圖模型式的圖像標(biāo)注算法。不同于對(duì)訓(xùn)練集的學(xué)習(xí)，基于圖模型的圖像標(biāo)注算法采用圖像間的相似度的學(xué)習(xí)算法，較好的解決了機(jī)器學(xué)習(xí)問題，實(shí)驗(yàn)證實(shí)了這些算法較好的標(biāo)注性能。盧漢清等人提出了基于圖學(xué)習(xí)的圖像標(biāo)注算法框架[I81，該方法獲取圖像的初始標(biāo)注采用圖像問的相似度的圖學(xué)習(xí)的手段，然后考察關(guān)鍵詞之間的語(yǔ)義相關(guān)性，實(shí)現(xiàn)對(duì)已有標(biāo)注結(jié)果進(jìn)行優(yōu)化的目的。Pan等人提出了基于圖模型的圖像標(biāo)注方法[191。該方法將圖像的區(qū)域和標(biāo)注詞作為圖的頂點(diǎn)，把圖像分成若干個(gè)語(yǔ)義區(qū)域，結(jié)合區(qū)域間的相關(guān)度構(gòu)造圖模型，實(shí)現(xiàn)自動(dòng)語(yǔ)義識(shí)別。芮曉光等人提出了基于二分圖增強(qiáng)模型的Web圖像標(biāo)注方法【201，在考察圖像的視覺特征與Web圖像的文本信息的基礎(chǔ)之上，使用大規(guī)模的圖像數(shù)據(jù)集，突破標(biāo)注詞詞典的限制，結(jié)合文本信息實(shí)現(xiàn)標(biāo)注。在文獻(xiàn)[20】的研究的基礎(chǔ)之上，Liu等人提出了基于圖學(xué)習(xí)的圖像標(biāo)注方法[2l】。研究圖像之間、圖像與標(biāo)注詞之間以及標(biāo)注詞之間三者的關(guān)系的同時(shí)，該方法綜合考慮了這些信息利用流行排序在圖上進(jìn)行傳播，將排序靠前的關(guān)鍵詞賦予圖像，從而實(shí)現(xiàn)圖像的語(yǔ)義標(biāo)注。盡管基于圖模型的圖像語(yǔ)義標(biāo)注方法較好的解決了機(jī)器學(xué)習(xí)的問題，運(yùn)用圖模型進(jìn)行并行處理也明顯提高了機(jī)器的處理速度。但是，在實(shí)際應(yīng)用過程中也存在不足～一時(shí)間和空間復(fù)雜度均較高，這就給真實(shí)世界中的海量圖像標(biāo)注帶來了不少的難題。(4)圖像標(biāo)注的改善算法。圖像語(yǔ)義標(biāo)注改善的基本思想是利用模型生成、碩士學(xué)位論文第一章緒論判別模型和圖模型等圖像標(biāo)注方法生成多個(gè)候選標(biāo)注詞，這其中的噪聲詞影響標(biāo)注效果，用改善算法去掉它就可以得到優(yōu)化標(biāo)注詞，得到圖像標(biāo)注改善的結(jié)果。分析候選標(biāo)注詞的語(yǔ)義關(guān)系，將相關(guān)度不高的詞匯去掉是最為常用的辦法，不過也有研究者將圖像的視覺特征引入到標(biāo)注改善的過程中。最早提出改善算法的是Jin等，他們?cè)谖墨I(xiàn)[22】中利用知識(shí)的WordNet來進(jìn)行圖像標(biāo)注改善。WordNet是一種結(jié)構(gòu)化的電子詞典，為Princeton大學(xué)的研究成果[231，它因在相對(duì)較小的候選標(biāo)注詞通過計(jì)算基于WordNet的語(yǔ)義距離剃掉不相關(guān)的標(biāo)注而在自然語(yǔ)言處理中得到了廣泛的應(yīng)用。該算法對(duì)彼此高度相關(guān)的標(biāo)注獲得保留，而有效地去除掉了與其它候選標(biāo)注關(guān)聯(lián)程度不高的標(biāo)注詞。但實(shí)驗(yàn)結(jié)果表明，這種方法去除部分的噪聲標(biāo)簽也同時(shí)被刪除的圖像相關(guān)的標(biāo)注詞，這可能會(huì)導(dǎo)致的調(diào)和平均數(shù)的結(jié)果甚至低于優(yōu)化標(biāo)注前。此方法只考慮候選人注解字的候選標(biāo)記間的語(yǔ)義關(guān)系，當(dāng)出現(xiàn)過于集中的干擾詞時(shí)并不能得到一個(gè)比較理想的標(biāo)記的關(guān)鍵詞。Wang等人提出了基于RWR(RandomwalkwithRestans)的圖像標(biāo)注改善算法[24]，該算法在利用原始圖像標(biāo)注的置信度和排序方法信息的同時(shí)，還用到了特定圖像庫(kù)的信息。但是，盡管此算法一定程度上解決了圖像標(biāo)注后改善過程與待標(biāo)注圖像無關(guān)的問題，并充分考慮到了圖像的標(biāo)注詞與圖像之間的關(guān)系，但是這種方法并未較好的解決標(biāo)注結(jié)果的改善只能從初次的標(biāo)注結(jié)果中選擇的問題，當(dāng)初始標(biāo)注詞含較多噪聲詞時(shí)，這種方法就沒法將它們都去除掉。近期，Jin等人提出了KBIAR—MC(KnowledgeBasedImageAnnotationR醯nementusingMaxCutAlgorithm)的算法[’5]【26】[27】。這種基于知識(shí)和圖算法的圖像標(biāo)注改善方法基本思想是使用候選標(biāo)注詞及其語(yǔ)義關(guān)系構(gòu)造帶權(quán)圖，其具體做法詳細(xì)來講就是將圖像標(biāo)注改善問題演變成圖的分割問題，將圖的頂點(diǎn)用最大割算法分為兩部分，選擇較為理想的一部分作為最終標(biāo)注結(jié)果。但是，KBIAR—MC算法也存在以F兩個(gè)問題：一是選擇最大割算法得到的兩個(gè)標(biāo)注詞集合之一用于標(biāo)注的方法并不完全科學(xué)，誤選的幾率仍然存在；二是圖像標(biāo)注改善過程中未將圖像的視覺特征信息納入改善算法考核指標(biāo)之中，使得改善算法仍與圖像無關(guān)。1．1．4圖像檢索系統(tǒng)分析圖像檢索系統(tǒng)經(jīng)歷了這些年來的發(fā)展，目前很多系統(tǒng)已經(jīng)投入使用。這些系統(tǒng)經(jīng)由各大公司和研究所開發(fā)問世，并得到不斷地改進(jìn)。隨著時(shí)間的推移，很多新的系統(tǒng)也相繼問世。下面對(duì)這些圖像檢索系統(tǒng)的實(shí)現(xiàn)原理進(jìn)行簡(jiǎn)要的分析。1．QBICQBIC(querybyimagecontent)‘28】是由IBM公司的Almaden研究中心開發(fā)的碩士學(xué)位論文第一章緒論一個(gè)開放的框架。它可以檢索靜態(tài)的和動(dòng)態(tài)的圖片，自從QBIC問世以來，進(jìn)行了多次改進(jìn)。如今QBIC發(fā)布了一個(gè)軟件開發(fā)包QDK(QBICDevelopmentKit)，該軟件包采用C++編寫，開發(fā)者可以用來開發(fā)圖像搜索引擎。QBIC擁有全局和局部顏色、形狀和紋理等多種匹配方式，并且支持BMP、JPG、GIF、PGM等多種格式的圖像查詢。下面是一個(gè)應(yīng)用了QBIC的數(shù)字圖書館，如圖1-6所示。由圖中的說明可以看出，該系統(tǒng)的使用步驟如下：首先使用鼠標(biāo)在調(diào)色板中選定一個(gè)顏色，然后點(diǎn)擊箭頭按鈕將顏色添加到顏色桶中，滑動(dòng)三角型的按鈕調(diào)整顏色的百分比，重復(fù)上述步驟直到顏色桶添加滿顏色為止，即可點(diǎn)擊查詢按鈕進(jìn)行查詢?！?W§l-審t《《《《癱簋煳#S，《o‘o壯^，自^《《#一t^Va#T#《#me*一^o蚋*《#女，t^#cH·圖黑===：。g《涮蜘#￡：Ol靜tlr∞蛘礴鞋H《#靜《。351Id世秘《靜i#n秘“融r孰#|ldi镕镕o¨￡b#b“《*滯l￡#轉(zhuǎn)瘸靜辯懶ep靜rte靠§#囂靜拼}翻l≮eol#“}。4Yourl"i8ym∽8￡ih；$p}#《###稍{葫{卿#bu《妊簪}醯繃軋錙h費(fèi)熱譬柏檔囂糖}#蠡腳。㈥《K器e☆憾‰圖1-6qbic顏色查詢2．Netra和ADLADL(AlexandriaDigitalLibrary)[29】亞歷山大數(shù)字圖書館是由加州大學(xué)圣芭芭拉分校開發(fā)的圖像搜索引擎，Netra是ADL的一部分。這個(gè)搜索引擎首先把圖像分割成顏色同質(zhì)的區(qū)域，然后提取這些區(qū)域的色彩、紋理、形狀和空間位置等信息。Netra的使用了量化的RGB顏色空間，量化后，一個(gè)數(shù)字代表一個(gè)顏色區(qū)域。在紋理方面，Netra用特征矢量來表達(dá)一系列歸一化的Gabor小波，形狀方面也用三種特征矢量來進(jìn)行描述。如圖1—7為ALD的一個(gè)應(yīng)用展示。1—————觥HTTPTestFormS4_■■■#*”HomeTheformsonthispage(whichworkunderFirefoxandSafari，butnotTrvitunderlE7?sorry!)exercisetheclientservicesofamiddlewareserver．HTTPtestformsTheservercanbeselectedfromthemenubeloworspecifiedbyRMlcliententeringabaseURL(shouldendwitha’／】．DocumentationAfterselectingaserver。presstheIoadbuttontoIoadtheserver'slnstaltationconfigurationintotheforms(notnecessary，butagreatconvenience)．圖1-7ALD的一個(gè)應(yīng)用9 碩士學(xué)位論文第一章緒論3．Photobook和FourEyesPhotobook[30]由MIT的媒體組開發(fā)。它由三種不同的部分組成圖像檢索的內(nèi)容，分別是外觀、2D形狀和紋理。由于前兩種特征很相似，于是就使與一些原型相關(guān)的平均參數(shù)來作為描述符，這些原型通過用協(xié)方差矩陣來顯示一幅圖片空間本體的坐標(biāo)系而獲得。當(dāng)Photobook添加了反饋機(jī)制后，就變成了FourEyes。FourEyes不僅給每幅圖像制定或正或負(fù)的權(quán)重變化，而且對(duì)前查詢過的圖像加以類似的查詢操作。因此，這個(gè)系統(tǒng)的查詢效率提升了。4。MARSMARS(MultimediaAnalysisandRetrievalSystem)[3U是由伊利諾伊大學(xué)香檳校區(qū)計(jì)算機(jī)科學(xué)系開發(fā)的。MARS的應(yīng)用范圍相當(dāng)廣泛，包括圖像數(shù)據(jù)庫(kù)檢索、信息檢索和計(jì)算機(jī)視覺等多個(gè)領(lǐng)域。它支持低層特征(顏色、紋理和形狀)加文字特征的聯(lián)合查詢。其中顏色特征是建立在HSV顏色空問上的2D直方圖，而紋理特征是用兩個(gè)直方圖表達(dá)。其中一個(gè)表示粗糙度，另一個(gè)表示方向。5．VirageViraget32】是由Virage公司開發(fā)研制的開放框架的基于內(nèi)容圖像搜索引擎。它在進(jìn)行一些預(yù)處理后建立一個(gè)圖像索引，這些索引包括基于顏色、顏色布局、紋理和結(jié)構(gòu)等低層的視覺特征。Virage提供了一個(gè)開放的框架讓開發(fā)者可以自由的加入程序補(bǔ)丁，以便解決實(shí)際應(yīng)用中遇到一些具體的問題。Virage支持圖片和視頻搜索，并且用統(tǒng)一的模型來描述這兩種多媒體的特征。6．VisualSeek和WgbSeekVisualSeek和WebSeek[33]是由哥倫比亞大學(xué)圖像和先進(jìn)視覺實(shí)驗(yàn)室開發(fā)的姊妹系統(tǒng)。VisualSeek在數(shù)據(jù)庫(kù)中把每張圖片自動(dòng)分解成多個(gè)有相同顏色域的塊。對(duì)于每一個(gè)塊，把其中的特征屬性和空間屬性提取出來作為后繼的查詢。而WebSeek則通過文本和顏色特征來檢索從網(wǎng)上獲取的圖像和視頻。其使用HSV顏色空間，并且查詢過程與VisualSeek相似。7．BlobworldB10bworld【34】是由加州大學(xué)伯克利分校開發(fā)的。它嘗試通過分割圖像來獲取對(duì)象的含義。為了進(jìn)行恰當(dāng)?shù)姆指?，該系統(tǒng)使用最大期望算法(EM算法)來得到特征空間上聚類的最大似然值。其檢索的特征包括顏色、紋理、位置、形狀區(qū)域即所謂的網(wǎng)格和背景。其使用Lab顏色空間。其紋理特征用區(qū)域上相對(duì)的并且方向各異的特征平均數(shù)來表示，就如同一個(gè)2D軸。形狀方面用近似區(qū)域和方向來表示，該系統(tǒng)也有不同層次的反饋機(jī)制，用戶可以根據(jù)反饋的信息更快地找到自己想要的圖像信息。lO 碩士學(xué)位論文第一章緒論世界上還有很多其它的圖像檢索系統(tǒng)，包括中科院計(jì)算技術(shù)研究所數(shù)字化技術(shù)研究室開發(fā)的圖像檢索原型ImageSeek，NECUSAC&C研究實(shí)驗(yàn)室開發(fā)的Amore，阿默斯特的馬薩諸塞大學(xué)開發(fā)的FOCUS，哥倫比亞大學(xué)開發(fā)的MetaSEEk，瑞士的熱那亞大學(xué)開發(fā)的Viper，等等。1．2本文工作21世紀(jì)是信息爆炸的世紀(jì)，信息越是豐富，人們就越難及時(shí)搜索到自己所需要的信息，圖像檢索系統(tǒng)就是針對(duì)當(dāng)前圖像信息的急劇增加和日益的無序化而發(fā)展起來的。本文從構(gòu)思圖像檢索系統(tǒng)的設(shè)計(jì)出發(fā)，對(duì)圖像數(shù)據(jù)庫(kù)的管理(這里主要是實(shí)現(xiàn)和完成圖像的自動(dòng)標(biāo)注)和實(shí)現(xiàn)快速的基于內(nèi)容檢索方式進(jìn)行了研究。圖像視覺特征的識(shí)別和圖像內(nèi)容的表達(dá)是決定圖像自動(dòng)標(biāo)注的性能優(yōu)劣的關(guān)鍵所在，其標(biāo)注算法的優(yōu)越性可以有效的縮小“語(yǔ)義鴻溝”問題。本文的主要研究?jī)?nèi)容可以歸納為以下兩個(gè)方面：(1)基于本體的自動(dòng)圖像標(biāo)注方法。我們提出了一種新的圖像本體標(biāo)注的框架，結(jié)合領(lǐng)域本體中語(yǔ)義概念的關(guān)系，通過層次的概率篩選來獲得準(zhǔn)確的圖像高層語(yǔ)義的概念標(biāo)注，實(shí)現(xiàn)圖像的語(yǔ)義標(biāo)注。在圖像自動(dòng)標(biāo)注階段中，我們分成兩個(gè)階段進(jìn)行標(biāo)注：第一次標(biāo)注時(shí)，我們首先對(duì)給定的一幅待標(biāo)注圖像進(jìn)行基元提取，獲取圖像基元，然后通過貝葉斯(Bayes)原理的方法獲取圖像和圖像中概念的后驗(yàn)概率，用概率較大的語(yǔ)義對(duì)該圖像進(jìn)行標(biāo)注；第二次標(biāo)注時(shí)，結(jié)合領(lǐng)域本體中概念之間的語(yǔ)義關(guān)系，采用圖像二次標(biāo)注的方法，獲取圖像的高層語(yǔ)義，從而完成待標(biāo)注圖像語(yǔ)義的自動(dòng)標(biāo)注。(2)基于內(nèi)容的圖像檢索系統(tǒng)設(shè)計(jì)。本文設(shè)計(jì)實(shí)現(xiàn)了一個(gè)基于內(nèi)容的圖像檢索系統(tǒng)原型，應(yīng)用{ava語(yǔ)言、MyEclipse集成開發(fā)環(huán)境以及MySQL數(shù)據(jù)庫(kù)系統(tǒng)等平臺(tái)，通過集成圖像顏色與紋理特征的識(shí)別算法，采用數(shù)據(jù)庫(kù)對(duì)圖像特征進(jìn)行存儲(chǔ)和管理，從而提高了系統(tǒng)的檢索效率。本系統(tǒng)分為四個(gè)模塊，即查詢模塊、匹配模塊、圖像特征管理模塊和顯示模塊，這些模塊通過系統(tǒng)環(huán)境實(shí)現(xiàn)其功能，并且根據(jù)不同的用戶查詢方式提供了不同的查詢界面，不同的界面連接到對(duì)應(yīng)的匹配子模塊，實(shí)現(xiàn)了基于內(nèi)容的圖像檢索功能。1．3本文的組織結(jié)構(gòu)本文一共分為五章，文章的結(jié)構(gòu)以及各章的主要內(nèi)容安排如下：第一章緒論。主要介紹了課題的背景和意義，對(duì)圖像檢索技術(shù)和設(shè)計(jì)圖像語(yǔ)義檢索的關(guān)鍵技術(shù)——圖像自動(dòng)標(biāo)注技術(shù)的發(fā)展進(jìn)行了闡述，簡(jiǎn)要介紹了現(xiàn)有的碩士學(xué)位論文第一章緒論圖像檢索系統(tǒng)。最后簡(jiǎn)要概述了本文主要工作。第二章相關(guān)工作及關(guān)鍵技術(shù)。主要討論了基于語(yǔ)義的圖像檢索的基本實(shí)現(xiàn)方式，對(duì)于涉及圖像檢索技術(shù)中特征提取的關(guān)鍵技術(shù)和圖像檢索性能的評(píng)價(jià)指標(biāo)進(jìn)行了介紹。第三章圖像語(yǔ)義標(biāo)注方法研究。主要提出一種新的圖像語(yǔ)義自動(dòng)標(biāo)注的框架，結(jié)合圖像本體中概念之問的語(yǔ)義關(guān)系，采用二次標(biāo)注的方法完成對(duì)圖像語(yǔ)義的自動(dòng)標(biāo)注，并對(duì)標(biāo)注性能進(jìn)行了對(duì)比評(píng)價(jià)。第四章圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。討論如何設(shè)計(jì)并實(shí)現(xiàn)圖像檢索系統(tǒng)，用語(yǔ)言逐步實(shí)現(xiàn)之前所選擇的算法，完成用戶查詢接口、圖特征提取、圖像管理、檢索流程和檢索結(jié)果等功能的實(shí)現(xiàn)。并通過使用流程圖展示本系統(tǒng)的使用流程，截圖介紹系統(tǒng)的界面、系統(tǒng)使用方法、使用流程以及該系統(tǒng)查詢的結(jié)果，并進(jìn)行了簡(jiǎn)要分析。第五章總結(jié)與展望。在總結(jié)全文的基礎(chǔ)上，對(duì)本文的主要工作和研究成果進(jìn)行了全面的總結(jié)。最后，對(duì)未來仍需要開展的工作進(jìn)行了展望。碩士學(xué)位論文第二章相關(guān)工作及關(guān)鍵技術(shù)基于語(yǔ)義的圖像檢索技術(shù)，是從圖像的顏色、形狀、紋理等低層視覺特征出發(fā)來獲取圖像的高層語(yǔ)義，而后在圖像數(shù)據(jù)庫(kù)中檢索到所需圖像的一種技術(shù)。其關(guān)鍵是選取合適的圖像低層特征并能讓計(jì)算機(jī)識(shí)別出圖像的高級(jí)語(yǔ)義出來，然后采用匹配算法從圖像庫(kù)中檢索出有效圖像。其中，圖像自動(dòng)標(biāo)注(AutomaticImageAnnotation)就是有效的解決圖像特征提取從而找到圖像語(yǔ)義關(guān)鍵詞描述的主要手段，是基于語(yǔ)義的圖像檢索的關(guān)鍵技術(shù)。因此圖像的自動(dòng)標(biāo)注過程對(duì)于實(shí)現(xiàn)基于語(yǔ)義的圖像檢索系統(tǒng)具有極其重要的意義。2．1基于語(yǔ)義的圖像檢索的基本方式基于語(yǔ)義的圖像檢索系統(tǒng)在進(jìn)行圖像檢索時(shí)，不外乎就是采用圖像查詢所需圖像或者圖像語(yǔ)義查詢的方式。其基本工作原理可簡(jiǎn)要表述如下：(1)圖像查詢所需圖像(Que巧byImage)。簡(jiǎn)單的說，即“以圖搜圖”[35】。其主要原理是用戶根據(jù)需要?jiǎng)?chuàng)建一張自己的圖像，這張圖像可以用相機(jī)拍攝、網(wǎng)絡(luò)下載或是電腦制作等等，然后提交圖像檢索系統(tǒng)，系統(tǒng)根據(jù)用戶所提供的圖像，反饋出查詢結(jié)果。目前Google和百度均推出的以圖搜圖功能類似如此。其基本原理如圖2．1所示：-曼鬻一▲匹配擴(kuò)充Y，一一～、、j鎰辮二=>—_歹≮。一檢索廠一一～、特征庫(kù)圖像數(shù)據(jù)庫(kù)＼、—————————一。、、——————————／7圖2．1基于語(yǔ)義檢索方式圖像查詢所需圖像(2)語(yǔ)義查詢所需圖像(Querybysemantic)。語(yǔ)義查詢涉及到圖像的高級(jí)特征——語(yǔ)義特征[36】。一般情況下，用戶輸入圖片的一些高級(jí)語(yǔ)義特征如太陽(yáng)、大海等語(yǔ)義關(guān)鍵詞，系統(tǒng)根據(jù)用戶的輸入，找到擁有這些高級(jí)語(yǔ)義特征的圖片。這種方式與基于文本的圖像檢索的區(qū)別在于圖像數(shù)據(jù)庫(kù)的圖像為自動(dòng)語(yǔ)義標(biāo)注生成的標(biāo)簽，而非手工注明的圖像關(guān)鍵詞。其基本原理如圖2．2所示：碩士學(xué)位論文第二章相關(guān)工作及關(guān)鍵技術(shù)圖2．2基于語(yǔ)義檢索方式語(yǔ)義查詢所需圖像2．2圖像語(yǔ)義標(biāo)注的基本框架由計(jì)算機(jī)可以識(shí)別的圖像低層視覺特征推導(dǎo)出其語(yǔ)義描述關(guān)鍵詞，是實(shí)現(xiàn)圖像自動(dòng)標(biāo)注的宗副371。我們可以將圖像語(yǔ)義標(biāo)注分成兩個(gè)流程即模型訓(xùn)練和語(yǔ)義標(biāo)注。在模型訓(xùn)練階段，計(jì)算機(jī)從訓(xùn)練圖像集中學(xué)習(xí)圖像低層特征與語(yǔ)義關(guān)鍵詞之間的關(guān)系，建立標(biāo)注模型；在語(yǔ)義標(biāo)注階段，對(duì)于提交的待標(biāo)注的圖像，標(biāo)注模型通過識(shí)別，獲得圖像的語(yǔ)義標(biāo)注詞。待標(biāo)注圖像訓(xùn)練樣本一憋豳圖像訓(xùn)練——_!r——，，，7一?、一—卜標(biāo)注模型?一一一卜{圖像標(biāo)簽‘、、～?一擴(kuò)充識(shí)別T標(biāo)注素材庫(kù)℃歹、～———————一———一’圖2．3基于語(yǔ)義的圖像標(biāo)注的基本框架圖像自動(dòng)標(biāo)注基本框架流程可簡(jiǎn)要看成如圖2．3所示。訓(xùn)練樣本通過標(biāo)注模型得到標(biāo)注素材，構(gòu)建標(biāo)注素材庫(kù)。標(biāo)注素材庫(kù)中包含了圖像的視覺特征和圖像的語(yǔ)義標(biāo)注詞兩部分信息，但是待標(biāo)注圖像中，僅包括其視覺特征。圖像低層特14 碩士學(xué)位論文第二章相關(guān)工作及關(guān)鍵技術(shù)征表達(dá)方式和標(biāo)注模型學(xué)習(xí)能力決定了圖像標(biāo)注的性能。圖像中提取出來的視覺特征能否反映出圖像各異的視覺屬性，是圖像標(biāo)注的關(guān)鍵所在。圖像標(biāo)注的核心問題是訓(xùn)練標(biāo)注模型，標(biāo)注模型的學(xué)習(xí)能力是標(biāo)注的準(zhǔn)確度高與低的決定因素。盡管如此，圖像低層特征和高層語(yǔ)義在實(shí)際情況下的真實(shí)關(guān)系要從有限的訓(xùn)練集中學(xué)習(xí)出來是非常困難的，尋找能正確反映出彼此關(guān)系的模型是圖像語(yǔ)義標(biāo)注的重要研究?jī)?nèi)容。2．3圖像特征描述圖像特征是圖像檢索系統(tǒng)中的基礎(chǔ)也是最重要的一部分，選取一個(gè)優(yōu)良的特征不僅可以提高檢索準(zhǔn)確率，還可以縮短系統(tǒng)檢索的時(shí)間，因此，要想設(shè)計(jì)出一個(gè)好的圖像檢索系統(tǒng)，首先必須選擇一個(gè)合適的圖像特征?；谡Z(yǔ)義的圖像檢索與圖像自動(dòng)標(biāo)注的基礎(chǔ)就是圖像視覺的特征。下面我們對(duì)圖像的低層視覺特征諸如顏色、紋理、形狀等以及高級(jí)語(yǔ)義特征分別進(jìn)行研究。2．3．1顏色特征描述使用顏色來表達(dá)一幅圖像的內(nèi)容在日常生活最為常見，因?yàn)槿缃癫噬珗D片廣為流行，并且基本的顏色就給人視覺效果的同時(shí)表達(dá)出豐富的圖像內(nèi)容。我們首先介紹圖像檢索中所利用的幾種常見的顏色空間【381。首先是RGB顏色空間，RGB是一種面向硬設(shè)備的最常用模型，也是計(jì)算機(jī)和圖像處理領(lǐng)域最常用的顏色空間。RGB三種顏色是根據(jù)人眼對(duì)不同波段光的感受來進(jìn)行劃分的。由于人眼對(duì)紅、綠、藍(lán)三種顏色敏感度最高，我們常常用紅、綠、藍(lán)三種基色作為彩色顯示的基礎(chǔ)，稱之為RGB顏色模型【391。圖2-4RGB顏色空間模型15 碩士學(xué)位論文第二章相關(guān)工作及關(guān)鍵技術(shù)RGB色彩空間可以用一個(gè)三維立方體來描述【401。但是這種表達(dá)方式并不符合人的視覺特點(diǎn)。人眼對(duì)光線的強(qiáng)弱并不是非常敏感，而r、g、b顏色空間會(huì)因亮度的改變而產(chǎn)生很大變化。因此，人們?cè)O(shè)計(jì)了其它不同的色彩空間表示法。通常HSL和HSV顏色空間比較符合人眼視覺特征，這兩種顏色空問比較相似，但又有各自的特點(diǎn)。其中H指hue(色相)、S指saturation(飽和度)、L指lightness(亮度)、V指value(色調(diào))【4l】。色相(H)是色彩的基本屬性，就是我們通常所說的顏色名稱，如紅色、綠色、藍(lán)色等等。色彩的純度表示為飽和度(S)，飽和度越高則色彩越純，否則逐漸變灰，取值范圍為0．100％。明度(v)，取值范圍亦為0．100％。HSL和HSV二者均把顏色描述成圓柱坐標(biāo)系內(nèi)的點(diǎn)，這個(gè)圓柱的中心軸取值范圍是自底部的黑色到頂部的白色，其中間是過渡顏色，“色相”表示為繞這個(gè)軸的角度，“飽和度”表示為到軸的距離，如圖2—5所示，“亮度”、“色調(diào)”或者“明度”表示為沿著這個(gè)軸的高度，如圖2-6所示。，圖2-5HSV顏色空間模型圖2-6HSL顏色空間模型RGB顏色空間可以實(shí)現(xiàn)HSL和HSV的轉(zhuǎn)換【42]。其定義是對(duì)R，G和B的坐標(biāo)在RGB顏色空間中進(jìn)行變換。設(shè)(r，g，b)分別是一個(gè)像素的紅、綠和藍(lán)坐標(biāo)，它們的取值范圍是0至1之間的實(shí)數(shù)。假設(shè)max相當(dāng)于r，g和b中的最大者，min相當(dāng)于r，g和b中的最小者。這里的h是角度，取值范圍是『0，360)，而S，l為飽和度和亮度，取值范圍在0．1之間，要計(jì)算出HSL空間中的(h，S，11值，把RGB模型轉(zhuǎn)換為HSL顏色模型的公式如下：f-三(m觚+rain)(2-1) 碩士學(xué)位論文第二章相關(guān)工作及關(guān)鍵技術(shù)h=S=0。，600×maX=mlng——bmaX—mln+0。．max=rNg≥b1：7一D60。×—旦÷+360。，max=，．Ng一2一《maX+minl2—2l’。2上述公式實(shí)現(xiàn)的偽代碼片段如圖2．7所示：圖2—7RGB模型轉(zhuǎn)化為HSL偽代碼(2．3)HSV的H和HSL顏色空間的計(jì)算方法相同，但是S和V的計(jì)算方法有所不同，其公式如下：17 碩士學(xué)位論文第二章相關(guān)工作及關(guān)鍵技術(shù)s_{警!進(jìn)(2-4)v=max(2．5)這是HSV空間的s與v的公式，公式轉(zhuǎn)換為偽代碼如圖2—8所示。其中，圖中H代碼與HSL相同，不同的是S和V。2．3．2形狀特征描述圖2—8V顏色模型偽代碼形狀是描述圖像內(nèi)容主要方法，是圖像的最基的本特征【431，也是計(jì)算機(jī)視覺和模式識(shí)別研究的基本問題之一。許多物體盡管顏色不一致，但是其會(huì)有相同的基本形狀。由于很多事物的圖像顏色特征并不明顯，比如一些生物醫(yī)學(xué)影像，基本都是灰度圖像，在這些情況下顏色特征就無法表達(dá)圖像內(nèi)容，此時(shí)就可以借助形狀特征進(jìn)行描述。具體到物體的形狀特征，選擇時(shí)就要用到邊緣檢測(cè)和濾波。由于邊緣檢測(cè)對(duì)噪聲十分敏感，用濾波把噪聲濾掉再進(jìn)行邊緣檢測(cè)會(huì)收到很好的效果。物體的形狀也包括很多參數(shù)，一些簡(jiǎn)單的集合參數(shù)如：周長(zhǎng)、方向、面積、周長(zhǎng)等，這些參數(shù)比較粗糙，雖然容易理解，但是效果并不理想。還有一些數(shù)學(xué)參數(shù)，如拐點(diǎn)，角點(diǎn)和重，th,等，這些計(jì)算雖然比較復(fù)雜，但是能夠比較好的刻畫一個(gè)物體的形狀。使用形狀特征來查詢的典型方式之一是用素描草圖來進(jìn)行查詢，素描中主要是圖像的大致形狀，因此集合形狀特征進(jìn)行檢索會(huì)收到比較理想的效果。對(duì)于人類的感知而言，形狀的視覺感知和理解具有非常重要的作用。在人的視覺系統(tǒng)中，幾個(gè)簡(jiǎn)單的線條和輪廓，就可以讓人辨別出一樣事物。因此，人們一直在研究形狀檢測(cè)的方法。現(xiàn)在，形狀檢測(cè)基本包括邊緣檢測(cè)、濾波和圖像分割。邊緣可以描述為圖像中那沿某一特定方形局部變化顯著的位置。局部變化越強(qiáng)烈，越能證明這一位置存在邊緣。而那些局部變化不強(qiáng)烈的地方，就將其統(tǒng)一為一個(gè)值。這就需要一個(gè)邊緣檢測(cè)的閩值，邊緣檢測(cè)閾值的大小需要通過實(shí)驗(yàn)來確定。閾值小，能夠檢測(cè)出的線條就越多，這樣結(jié)果也越容易受到噪聲的影響。碩士學(xué)位論文第二章相關(guān)工作及關(guān)鍵技術(shù)閾值大，受到噪聲影響小，這樣線條也相對(duì)會(huì)較少。形狀特征也有其自身的缺點(diǎn)，一個(gè)物體從不同角度描述會(huì)有不同的形狀，因此，一般的形狀會(huì)受到角度變化的影響。現(xiàn)在許多學(xué)者致力于研究平移不變性、旋轉(zhuǎn)不變性、尺度不變性等“三個(gè)不變性”問題[441。此外，一些邊緣檢測(cè)方法雖然可以檢測(cè)出邊緣但并非等同于目標(biāo)的真實(shí)邊緣，而是和人的視覺效果存在一定的差異。研究出的邊緣檢測(cè)算法既能符合人的視覺特征，又能快速應(yīng)用于大型數(shù)據(jù)集是現(xiàn)在一個(gè)特點(diǎn)。這需要大量的實(shí)驗(yàn)以及更多的理論推導(dǎo)，來找到最佳的邊緣檢測(cè)算法【4引。目前，有關(guān)圖像形狀的表示方法主要有傅里葉描述符(FourierShapeDescriptors)$[1形狀不變矩(Momentinvariants)。傅里葉描述符就要用到傅里葉變換，在離散信號(hào)中就要用到離散傅里葉變換。函數(shù)g(x)的傅里葉變換如下：1，+∞G(∞)2赤J一。g(x)宰[cos(cox)中sin(cox)]dx一“(2-6)1，．m2赤J。g(z)屹1“dx使用傅里葉變換時(shí)，通常需要傅里葉變換的反變換，即函數(shù)g(x)可以從傅里葉頻譜G(co)經(jīng)過反傅里葉變換完全重建，公式如下：咖，2擊￡Gc礦陋sc計(jì)汽缸硼如協(xié)7，=擊￡G(妒嚴(yán)如在數(shù)字圖像處理中所有的信號(hào)都是離散的信號(hào)，我們應(yīng)用的是傅里葉變換的離散形式，稱之為DT，如下：G(咖面IM芻-I咖礦[coS(幼mMu-i(2萬(wàn)百mumu-／*sin))]G(咖面芻咖礦H幼M(2萬(wàn)百’j1=面1緲m1∥2z：瓠占。InfGa似q=P(c)髀fc)log等廁渺阻g等(s石，這里，概念c出現(xiàn)的概率表示為e(c1，概念c不出現(xiàn)用c表示，高層語(yǔ)義概念S出現(xiàn)的概率表示為P(S)，概念C出現(xiàn)時(shí)高層語(yǔ)義概念同時(shí)出現(xiàn)的概率為尸(Slc)。概念集c『通過關(guān)聯(lián)關(guān)系與高層語(yǔ)義概念節(jié)點(diǎn)S緊密結(jié)合起來。文獻(xiàn)[54]分析了存在于概念之間最普遍的關(guān)聯(lián)關(guān)系，并將其抽象成三種最重要的影響因子：領(lǐng)域相關(guān)度D礦語(yǔ)義關(guān)聯(lián)頻度疋和語(yǔ)義關(guān)聯(lián)長(zhǎng)度￡。，并且明確了這些影響因子的權(quán)值與計(jì)算方法。在參考此方法的基礎(chǔ)上，我們針對(duì)本體中概念e與高層語(yǔ)義概念S的關(guān)系，提出了用影響權(quán)值五來定義兩者之間的關(guān)聯(lián)關(guān)系程度。我們可以根據(jù)關(guān)聯(lián)度的影響程度，將其分為以下三種：(1)暈度關(guān)聯(lián)：StrongAss(S，C)§3s(father(S，C))V3q(father(q，s)A掃ther(q，C))(2)ee度關(guān)聯(lián)：MiddleAss(S，C)§3S3q(StrongAss(S，窖舅^StrongAss(q，C))(3)輕度關(guān)聯(lián)：WeakAss(S，C)§3S3q(StrongAss(S，g))AMiddleAss(q，c))并且對(duì)其重要性權(quán)值丑，我們可以通過下面的方法對(duì)每-*9關(guān)聯(lián)關(guān)系分別進(jìn)行計(jì)算，丑=kl×D。+恕xLR+屯×乓，k，+島+島=1，在實(shí)際應(yīng)用中，我們可以對(duì)三種影響因子的權(quán)值根據(jù)需求進(jìn)行賦值。另外，本體中的概念節(jié)點(diǎn)必然受到上位概念節(jié)點(diǎn)和下位節(jié)點(diǎn)的影響。我們可以根據(jù)領(lǐng)域本體中概念問的邏輯語(yǔ)義關(guān)系的重要性和所影響的程度對(duì)Is．a(chǎn)關(guān)系、碩士學(xué)位論文第三章圖像語(yǔ)義標(biāo)注方法研究part-of關(guān)系和Instance．off關(guān)系分別賦予不同的權(quán)值，這些權(quán)值依次為：c％一8=0．9，O)ins乜n∞一∥=0．7，09確Ⅳ一盯=0．4在上述第一次標(biāo)注過程中，我們可以得到每幅待標(biāo)注圖像的特征語(yǔ)義，利用最相關(guān)聯(lián)的同級(jí)概念自動(dòng)繼承高層圖像語(yǔ)義從而實(shí)現(xiàn)基于本體的二次標(biāo)注，即使用這些語(yǔ)義反推出屬于某個(gè)本體中高層語(yǔ)義的可能性。我們可以沿著本體中這些概念的父節(jié)點(diǎn)的路徑，推理得出更高一層與其相對(duì)應(yīng)的圖像高層語(yǔ)義的概念，直至到達(dá)該本體的根節(jié)點(diǎn)。其具體標(biāo)注過程如下步驟：(1)取概念Cf，i=1，2，3，．．．，Ⅳ；設(shè)置表示在圖像本體中概念G的父概念，計(jì)算出S=father(Ci)，可以得出概念C與父概念節(jié)點(diǎn)S的關(guān)聯(lián)類型，并確定關(guān)聯(lián)關(guān)系的權(quán)值元；(2)合并圖像中低層語(yǔ)義所指向的高層語(yǔ)義概念的中重復(fù)項(xiàng)，得到{(最，K)，m=1，2，3，．．．，M)，其中合并后實(shí)際的高層語(yǔ)義概念數(shù)用M表示，高層語(yǔ)義概念實(shí)際擁有的語(yǔ)義概念數(shù)用K，表示；(3)計(jì)算低層語(yǔ)義概念對(duì)高層語(yǔ)義概念隸屬度InfGain(Ci)。；(4)由概念Cf與父概念節(jié)點(diǎn)最的語(yǔ)義關(guān)系得到其語(yǔ)義關(guān)系的權(quán)值哆；(5)計(jì)算語(yǔ)義概念Cf與其父概念{Sm，m=l，2，3，．．．，M)的關(guān)聯(lián)概率：且1∑÷×(InfGai拜(e)墨×&×％)(3-7)1=1“”并根據(jù)關(guān)聯(lián)概率值對(duì)父概念&按照降序進(jìn)行排列；(6)確定該圖像的高層語(yǔ)義為前K個(gè)父概念。(K的取值根據(jù)用戶的需求進(jìn)行調(diào)整。)以上就是圖像二次標(biāo)注的基本流程。通過二次標(biāo)注的方法，分別獲得了待標(biāo)注的圖像的語(yǔ)義描述值和高層語(yǔ)義概念，這些值可以為以后實(shí)現(xiàn)圖像語(yǔ)義檢索提供素材。3．6實(shí)驗(yàn)及分析3．6．1實(shí)驗(yàn)的建立為了檢驗(yàn)本章算法的效果，我們?cè)贛atlab2010b環(huán)境下利用MyEclipse8．0平臺(tái)調(diào)用生成關(guān)于圖像基元提取的方法，并用SwT生成操作界面，實(shí)現(xiàn)圖像自動(dòng)語(yǔ)義的標(biāo)注系統(tǒng)。為了更好的描述領(lǐng)域本體中圖像的內(nèi)容，我們從Corel圖像集中搜集了2000張圖片，這些圖片分別屬于beach，grassland，street，people，animal等5個(gè)語(yǔ)義概念類。我們?cè)诿拷M圖像中選擇350張作為訓(xùn)練集中的樣本，其余的碩士學(xué)位論文第三章圖像語(yǔ)義標(biāo)注方法研究各50張作為測(cè)試樣本。在主機(jī)配置為InterP4—2．8G，2G內(nèi)存，操作系統(tǒng)為WindowsXP的機(jī)器上進(jìn)行實(shí)驗(yàn)。3．6．2實(shí)驗(yàn)結(jié)果及其分析在實(shí)驗(yàn)過程中，我們將本文的算法與文獻(xiàn)[55]和文獻(xiàn)[56】提及的算法進(jìn)行了對(duì)比實(shí)驗(yàn)。文獻(xiàn)[55]采用了K-均值聚類和貝葉斯(Bayes)模型進(jìn)行語(yǔ)義自動(dòng)標(biāo)注，文獻(xiàn)[56】采用了圖像的高層語(yǔ)義信息來實(shí)現(xiàn)圖像檢索，將圖像進(jìn)行語(yǔ)義層次劃分并以每個(gè)高層語(yǔ)義層來檢驗(yàn)算法。從表3．2可以看出文獻(xiàn)[55】只能得到圖像的對(duì)象語(yǔ)義，不能獲得圖像的高層語(yǔ)義信息，文獻(xiàn)[56]將第二幅圖像的beach標(biāo)注成seaside，第四幅圖像的grassland標(biāo)注成field，這是由于文獻(xiàn)使用了組合區(qū)域的模板來進(jìn)行簡(jiǎn)單的場(chǎng)景分類，沒有考慮到各個(gè)對(duì)象之間的語(yǔ)義關(guān)系。由此可以得出本章的方法可以獲得更確切和內(nèi)容更豐富的高層語(yǔ)義概念。表3．2三種標(biāo)注方法對(duì)圖像標(biāo)注結(jié)果的比較圖像豳_髑_圈麟綴圖BedlampCloudpersonPersonhouseElephanttree文獻(xiàn)55HousewaterDeskbookcase{曬糾grassmountainchairBedlampCloudpersonPersonhouseElephanttree文獻(xiàn)56Deskbookcase；Housewatergrassmountain；bedroomchak；seasideWheel：streetfield第一太次標(biāo)bedroomBeachsidewalkgrassland文注方法第二[≥home[≥landscape[≥street[冷landscape次標(biāo)[≥indoor[≥outdoor[今outdoor[≥outdoor注采用關(guān)鍵字進(jìn)行檢索，數(shù)據(jù)庫(kù)中有50個(gè)相關(guān)圖像，本文按照實(shí)驗(yàn)中提及的檢索方法分別用grassland、beach、street、people和animal五個(gè)關(guān)鍵字進(jìn)行實(shí)驗(yàn)，計(jì)算得出各自的測(cè)度值F。分別以不同的關(guān)鍵字進(jìn)行檢索，并與文獻(xiàn)[551、文獻(xiàn) 碩士學(xué)位論文第三章圖像語(yǔ)義標(biāo)注方法研究『56]矛D本文方法的性能進(jìn)行對(duì)比，將圖像語(yǔ)義進(jìn)行層次劃分，以每個(gè)高層語(yǔ)義層來檢索算法，得到的平F測(cè)度值如表3．3所示。由此可知，文獻(xiàn)[55]以grassland和beach為關(guān)鍵詞檢索時(shí)平均F測(cè)度值分別為0．342和0．326，高于其他關(guān)鍵詞檢索，此算法對(duì)室外自然景觀場(chǎng)景的檢索性能相對(duì)更突出。使用文獻(xiàn)[561中提及的方法采用高層語(yǔ)義進(jìn)行檢索時(shí)，進(jìn)一步縮小了低層物理特征和圖像高層語(yǔ)義之間的語(yǔ)義鴻溝，F(xiàn)測(cè)度值均有了不同程度的提高，檢索精度也有明顯的改善；使用本文提及的標(biāo)注方法進(jìn)行關(guān)鍵詞檢索時(shí)，圖像采用二次標(biāo)注的方法后能夠獲得更加豐富的語(yǔ)義概念標(biāo)注，使得所標(biāo)注的圖像中所包含的語(yǔ)義信息描述的更為精確，對(duì)圖像視覺信息的理解準(zhǔn)確性明顯增強(qiáng)；同時(shí)本文的標(biāo)注算法本體中概念和高層概念之間的語(yǔ)義關(guān)系也充分得以體現(xiàn)，直接促進(jìn)了圖像檢索的信息量的增加。因此，由表3．3可以看出，該算法平均F測(cè)度值均得到了較大的提高。表3．3三種標(biāo)注方法檢索的平均F測(cè)度值比較結(jié)果嘉醇＼!文獻(xiàn)[55]文獻(xiàn)[56】本文算法glassland0．3510．4090．421animalO．3150。3670．384beachO．3240．3650．432streetO．3130．4070．447peopleO．3140．4170．4293．7本章小結(jié)本章我們提出一種基于圖像本體的標(biāo)注方法，首先通過對(duì)訓(xùn)練集中的圖像基元進(jìn)行提取和聚類，得到一個(gè)訓(xùn)練集的基元庫(kù)，然后應(yīng)用統(tǒng)計(jì)學(xué)習(xí)的方法獲得語(yǔ)義概念和基元類之間的關(guān)聯(lián)概率模型，采用貝葉斯(Bayes)原理計(jì)算得出待標(biāo)注圖像與本體中概念的后驗(yàn)概率進(jìn)行比較，并取后驗(yàn)概率較大的語(yǔ)義對(duì)該圖像進(jìn)行標(biāo)注，即實(shí)現(xiàn)第一次標(biāo)注；再結(jié)合領(lǐng)域本體中語(yǔ)義之間的關(guān)系，完成對(duì)圖像二次標(biāo)注，得到圖像的高層語(yǔ)義概念，從而完成待標(biāo)注圖像高層語(yǔ)義的自動(dòng)標(biāo)注。在今后的研究中，我們還將對(duì)本文提出的標(biāo)注方法進(jìn)行更進(jìn)一步的研究，主要包括以下內(nèi)容：(1)我們將嘗試使用更大規(guī)模的圖像訓(xùn)練集作為提取基元和獲得首次標(biāo)注的“語(yǔ)料庫(kù)”，實(shí)現(xiàn)對(duì)更多圖像的包容性；(2)進(jìn)一步探討更為高效、準(zhǔn)確的圖像相似度量方法識(shí)別出與待標(biāo)注圖像相似的圖像基元，提高標(biāo)注的準(zhǔn)確碩士學(xué)位論文第三章圖像語(yǔ)義標(biāo)注方法研究性；(3)我們將通過該算法實(shí)現(xiàn)的語(yǔ)義標(biāo)注功能，研究更好地應(yīng)用到圖像檢索中去，從而提高圖像檢索系統(tǒng)的性能。碩士學(xué)位論文第四章圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)本章介紹了基于內(nèi)容的圖像檢索系統(tǒng)的設(shè)計(jì)過程以及實(shí)現(xiàn)方法，描述了系統(tǒng)的框架、系統(tǒng)的功能、系統(tǒng)的使用流程等。本章還給出了系統(tǒng)實(shí)現(xiàn)的一些關(guān)鍵代碼和算法，并展示了系統(tǒng)應(yīng)用的結(jié)果。4．1系統(tǒng)框架概述4．1．1系統(tǒng)的總體結(jié)構(gòu)從用戶使用的角度來看，我們?cè)O(shè)計(jì)的系統(tǒng)為B／S模式。相對(duì)于C／S模式，B／S模式擁有許多優(yōu)點(diǎn)。1．在當(dāng)前互聯(lián)網(wǎng)十分發(fā)達(dá)的環(huán)境下，C／S模式更有利于系統(tǒng)的推廣?？蛻羰褂帽鞠到y(tǒng)不需要下載相應(yīng)的客戶端軟件，直接用瀏覽器便可以使用。2．B／S模式的拓展性強(qiáng)，增加功能只需要在網(wǎng)頁(yè)中增加相應(yīng)的鏈接，便可以加入一個(gè)新的模塊，有利于系統(tǒng)以后功能拓展。3．B／S模式簡(jiǎn)單快捷，只要接入Intemet，隨時(shí)隨地都可以使用。4．1．2系統(tǒng)的設(shè)計(jì)模式由于把本系統(tǒng)設(shè)計(jì)成了網(wǎng)絡(luò)應(yīng)用服務(wù)，所以最好用MVC模式來組成本系統(tǒng)的模塊。MVC是三個(gè)單詞的縮寫，分別為：模型(Model)，視圖(View)和控fliJj(Controller)。MVC模式的目的就是實(shí)現(xiàn)Web系統(tǒng)的職能分工。View負(fù)責(zé)顯示視圖給用戶，讓用戶看到相應(yīng)的界面。Controller負(fù)責(zé)業(yè)務(wù)邏輯的控制，處理用戶的各種請(qǐng)求并返回結(jié)果。Model則是負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)，保存數(shù)據(jù)增刪查改后的結(jié)果，并給控制層提供數(shù)據(jù)。其模式圖如4，1所示。碩士學(xué)位論文第四章圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)4．1．3檢索系統(tǒng)的框架圖4．1MVC模式如今基于內(nèi)容的圖像檢索系統(tǒng)的框架已經(jīng)很成熟，其基本原理都遵循概率排隊(duì)的規(guī)則。為了縮短查詢過程的時(shí)間，一般先在數(shù)據(jù)庫(kù)中存儲(chǔ)好相關(guān)的圖像特征。用戶查詢時(shí)，系統(tǒng)根據(jù)用戶的查詢需要，基于檢索模型對(duì)查詢樣本圖像計(jì)算相應(yīng)的圖像特征，并比較數(shù)據(jù)庫(kù)中圖像特征相似程度。根據(jù)不同的系統(tǒng)顯示規(guī)則，圖像的顯示會(huì)有所不同。設(shè)定檢索結(jié)果數(shù)目的系統(tǒng)會(huì)顯示固定數(shù)目的圖像，供用戶瀏覽。而設(shè)定一個(gè)相似度閾值的系統(tǒng)，會(huì)顯示不確定的圖像數(shù)目，最差結(jié)果是0。也就是當(dāng)所有的圖像都不能達(dá)到閾值時(shí)，就檢索不出圖像【，71。這樣用戶完成一個(gè)查詢過程?；趦?nèi)容的圖像檢索技術(shù)由于能夠根據(jù)圖像的可視內(nèi)容產(chǎn)生查詢，從而方便了用戶使用。一般系統(tǒng)檢索針對(duì)不同的具體應(yīng)用，可以使用多種特征：如顏色、紋理和形狀，還有這三種特征為基礎(chǔ)的多種特征組合。系統(tǒng)一般分為四個(gè)模塊，即查詢模塊、匹配模塊、圖像特征管理模塊和顯示模塊[581。這些模塊各自有其功能。在前面章節(jié)里已經(jīng)分析了用戶查詢的方式，系統(tǒng)根據(jù)這些方式提供不同的查詢界面，并且不同的界面連接到不同的匹配子模塊。特征管理模塊，即管理數(shù)據(jù)庫(kù)總圖像的特征也包括圖像。為了加快訪問速度，特征一般存儲(chǔ)在數(shù)據(jù)庫(kù)中。根據(jù)不同的查詢請(qǐng)求，特征數(shù)據(jù)庫(kù)提供不同的特征。在增加新的功能后，只需在數(shù)據(jù)庫(kù)中增加新的特征便可。匹配模塊涉及到檢索算法，距離度量算法。在本系統(tǒng)中使用的是顏色直方圖，經(jīng)過歸一化的顏色直方圖之間的距離公式如下：碩士學(xué)位論文第四章圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)D=∑min(h們h，：)f=l(4-1)其中i是顏色直方圖的每一種顏色出現(xiàn)的額概率，顯然D越小，兩個(gè)距離差得越遠(yuǎn)，當(dāng)D為1時(shí)，便是同一幅圖像。在計(jì)算過程中可能會(huì)有誤差，所以在某些情況下，相同的圖片得到的距離不一定為1，只能夠接近l?，F(xiàn)在流行的圖像檢索框架如圖4—2所示：4．2開發(fā)工具和環(huán)境詢模塊l『數(shù)據(jù)庫(kù)管理模塊r0取模塊特征選擇模塊一特征旺配模塊．————?！???一7‘’。'★結(jié)構(gòu)顯示模塊圖4-2圖像檢索系統(tǒng)框架本系統(tǒng)在Windows操作系統(tǒng)上開發(fā)，由于使用的語(yǔ)言是跨平臺(tái)的，移植到Linux或者其他操作系統(tǒng)或服務(wù)器中也會(huì)非常方便。使用idkl．6，Java是一種可以撰寫跨平臺(tái)應(yīng)用程序的面向?qū)ο蟮某绦蛟O(shè)計(jì)語(yǔ)言，是由SunMicrosystems公司于1995年5月推出的Java程序設(shè)計(jì)語(yǔ)言和Java平臺(tái)(即JavaSE，JavaEE，JavaME)的總稱。Java技術(shù)具有卓越的通用性、高效性、平臺(tái)移植性和安全性，廣泛應(yīng)用于個(gè)人PC、數(shù)據(jù)中心、游戲控制臺(tái)、科學(xué)超級(jí)計(jì)算機(jī)、移動(dòng)電話和互聯(lián)網(wǎng)，同時(shí)擁有全球最大的開發(fā)者專業(yè)社群。在全球云計(jì)算和移動(dòng)互聯(lián)網(wǎng)的產(chǎn)業(yè)環(huán)境下，Java更具備了顯著優(yōu)勢(shì)和廣闊前景【591。因此，我們選用java作為編程成語(yǔ)言，一邊自己的程序能夠很好地適應(yīng)網(wǎng)絡(luò)，且能夠應(yīng)用于多種平臺(tái)。本系統(tǒng)使用MyEclipse8．6，MyEclipse企業(yè)級(jí)工作平臺(tái)(MyEclipseEnterpriseWorkbench，簡(jiǎn)稱MyEclipse)是對(duì)EclipseIDE的擴(kuò)展，利用它我們可以在數(shù)據(jù)37 碩士學(xué)位論文第四章圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)庫(kù)和JavaEE的開發(fā)、發(fā)布，以及應(yīng)用程序服務(wù)器的整合方面極大的提高工作效率。它是功能豐富的JavaEE集成開發(fā)環(huán)境，包括了完備的編碼、調(diào)試、測(cè)試和發(fā)布功能，完整支持HTML，Struts，JSF，CSS，Javascript，SQL，Hibernate。同時(shí)，本系統(tǒng)使用6．0版本的Tomcat。Tomcat是ADache軟件基金會(huì)(ApacheSoftwareFoundation)的Jakarta項(xiàng)目中的一個(gè)核心項(xiàng)目，由Apache、Sun和其他一些公司及個(gè)人共同開發(fā)而成。由于有了Sun的參與和支持，最新的Servlet和JSP規(guī)范總是能在Tomcat中得到體現(xiàn)，Tomcat5就已經(jīng)支持最新的Servlet2．4和JSP2．0規(guī)范。因?yàn)門omcat技術(shù)先進(jìn)、性能穩(wěn)定，而且免費(fèi)，因而深受Java愛好者的喜愛并得到了部分軟件開發(fā)商的認(rèn)可，成為目前比較流行的Web應(yīng)用服務(wù)器。MySQL是一種開放源代碼的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)，MySQL數(shù)據(jù)庫(kù)系統(tǒng)使用最常用的數(shù)據(jù)庫(kù)管理語(yǔ)言一一結(jié)構(gòu)化查詢語(yǔ)言(SQL)進(jìn)行數(shù)據(jù)庫(kù)管理。由于MySQL是開放源代碼的，因此任何人都可以在GeneralPublicLicense的許可下下載并根據(jù)個(gè)性化的需求對(duì)其進(jìn)行修改。MySQL因?yàn)槠渌俣?、可靠性和適應(yīng)性而備受關(guān)注。大多數(shù)人都認(rèn)為在不需要事務(wù)化處理的情況下，MySQL是管理內(nèi)容最好的選擇。由于MySQL性能優(yōu)異，占用的資源也少，而且該數(shù)據(jù)庫(kù)軟件免費(fèi)，就用MySQL來實(shí)現(xiàn)數(shù)據(jù)庫(kù)功能已經(jīng)完全滿足系統(tǒng)的需求。4．3系統(tǒng)實(shí)現(xiàn)下面介紹系統(tǒng)實(shí)現(xiàn)用到的類庫(kù)、代碼數(shù)據(jù)庫(kù)腳本、以及一些算法，特別描述了系統(tǒng)的圖像特征不斷優(yōu)化的過程。4．3．1常用類庫(kù)1．JDBC本系統(tǒng)需要數(shù)據(jù)庫(kù)來建立圖像基礎(chǔ)，因此需要使用到j(luò)ava連接數(shù)據(jù)庫(kù)的接口JDBC。JDBC(JavaDataBaseConnectivity，iava數(shù)據(jù)庫(kù)連接)是一種用于執(zhí)行SQL語(yǔ)句的JavaAPI，可以為多種關(guān)系數(shù)據(jù)庫(kù)提供統(tǒng)一訪問，它由一組用Java語(yǔ)言編寫的類和接口組成。JDBC提供了一種基準(zhǔn)，據(jù)此可以構(gòu)建更高級(jí)的工具和接口，使數(shù)據(jù)庫(kù)開發(fā)人員能夠更有效地編寫數(shù)據(jù)庫(kù)應(yīng)用程序。2．ImagelO和java．a(chǎn)wt．image．+盡管iava并不擅長(zhǎng)于處理圖像，但它也有處理圖像的獨(dú)特類庫(kù)舊】。用來畫圖的有iava．a(chǎn)wt．image這個(gè)包下的類ColorModel．class，PixelGrabber．class和Bufferedlmage．class等，讀取圖像時(shí)需要用到ImagelO，一些簡(jiǎn)單的代碼如圖4．3 碩士學(xué)位論文第四章圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)所示。圖4-3lmagelO讀取圖像偽代碼剩下的就是圖像處理算法，特征匹配等過程。4．3．2數(shù)據(jù)庫(kù)實(shí)現(xiàn)本系統(tǒng)使用小版本發(fā)布的開發(fā)模式，因此數(shù)據(jù)庫(kù)建表語(yǔ)句有多個(gè)版本。我們選用最新的一個(gè)版本用于實(shí)現(xiàn)建表。由于只是用于檢索圖像，因此并沒有涉及多個(gè)表的查詢。圖4_4建立表格指令偽代碼其實(shí)現(xiàn)過程如圖4-4所示，其中id是每一幅圖像的唯一標(biāo)示，是主屬性。第二個(gè)記錄”img就直接把圖像存儲(chǔ)在數(shù)據(jù)庫(kù)中。接下來的兩個(gè)就是圖像涂征存儲(chǔ)記錄。這兩個(gè)項(xiàng)顏色直方圖，第一個(gè)是RGB顏色直方圖，第二是是HSV顏色直方圖。用JAVA來描述一個(gè)顏色直方圖有其自身缺點(diǎn)，就是數(shù)據(jù)量比較大。最開始特征數(shù)據(jù)比圖像本身還大，盡管可以完成查詢，但是用戶需要等待很長(zhǎng)時(shí)間。接著逐漸改進(jìn)算法，為了縮減數(shù)據(jù)，把0-255的顏色空間壓縮。根據(jù)人眼對(duì)三色敏感度的原理，把紅色和綠色壓縮到原來的八分之一，把藍(lán)色壓縮到原來的十二分之一。此外，經(jīng)過縮減后的三維坐標(biāo)就能夠以移位的原理壓縮到一個(gè)數(shù)據(jù)中，只用一個(gè)short類型數(shù)據(jù)表示。顏色空間和坐標(biāo)壓縮代碼如圖4-5所示。碩士學(xué)位論文第四章圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)r=cni．getRed(pixel[index])／8；／／紅色分量除以8g=cm，getGreen(pixel[index])／8；／／綠色分量除以8b=cm．getBlue(pixel[index])／12；∥藍(lán)色分量除以12key=(short)((r<<10)+(g<<5)+b)；／／以r,g,b的順序存儲(chǔ)圖4-5顏色和空間坐標(biāo)壓縮偽代碼這樣只壓縮了直方圖中每一個(gè)點(diǎn)的數(shù)據(jù)的大小，由于從統(tǒng)計(jì)的角度來講，直方圖的點(diǎn)非常多。很多點(diǎn)同時(shí)出現(xiàn)的概率并不大，但是卻有成千上萬(wàn)個(gè)這樣的小概率點(diǎn)。從概率的角度講，小概率事件可以忽略不計(jì)。因此，我們可以將出現(xiàn)概率小于一定數(shù)值的組合去除了。去除的數(shù)值很有講究，這個(gè)數(shù)值并不是根據(jù)數(shù)學(xué)的推理得出的，而是根據(jù)系統(tǒng)的實(shí)驗(yàn)得出。這個(gè)數(shù)值要能夠保證特征數(shù)據(jù)大大減小，同樣要保證檢索準(zhǔn)確率沒有大幅度下降。最后選擇了概率113000。去除小概率點(diǎn)實(shí)現(xiàn)的代碼如圖4．6所示。圖4-6去除小概率點(diǎn)實(shí)現(xiàn)偽代碼數(shù)據(jù)特征在沒有優(yōu)化之前，系統(tǒng)將每一個(gè)坐標(biāo)都記錄了下來，由系統(tǒng)計(jì)算可以得到，也就是有64x64x43=176128個(gè)hashMap，而一個(gè)hashMap大約是4字節(jié)。因此，一幅圖片的特征數(shù)據(jù)要比圖片本身大幾十倍。如圖4．7和圖4．8所示。碩士學(xué)位論文第四章圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn){BLOBi；隧霞豳霜豳圈圈豳豳I2穆LoBji穆Lo印I3(BLOB)|釷OBj圖4-'1沒有優(yōu)化的特征數(shù)據(jù)1j互：二二．二二：二：：二：：：：。。匭函二：二二二二隧溺趲鋈琶鋈霪羹翻”1(BLOB)疆LOB》。1¨_|『jIi；j委嘶?i一一I?j?_?j?『I匿菡曩——圈置稻LOB)聾；9黲圖4-8沒有優(yōu)化的特征數(shù)據(jù)22i(BLOB)；(BLOS)??～一一?‘’～、?’”“‘“‘“????、‘?、?“?～?～3i缸O嘞l瓤0動(dòng)4i器LOB)；(BL06)圖4-9優(yōu)化過的特征數(shù)據(jù)12鐲LOB)3(BLOB)4器LOBj5{BLOB}襁L0島倍LOB{謇L0黜鐨L0露圖4．10優(yōu)化過的特征數(shù)據(jù)2由圖4-9和圖4—10顯示的優(yōu)化過程截圖中“大?。耗灸拘夷玖衔辉眮砜?，數(shù)據(jù)特征已經(jīng)縮小到了十分之一，實(shí)際上檢索時(shí)間也縮減為十分之一，下面數(shù)據(jù)得到了繼續(xù)減小，如圖4．11可以看出。41 碩士學(xué)位論文第四章圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)2。(BLOB}；鼠O鼢3l∞LOB)l雙0e)‘}：避0B)l稻L0霹5』轡LOB；l融0國(guó)6；辮。田l簿潞；圖4-1l優(yōu)化過的特征數(shù)據(jù)3本系統(tǒng)使用HashMap來實(shí)現(xiàn)一個(gè)直方圖，HaShM印中的key是以short為類型的數(shù)字，value是經(jīng)過歸一化后的float數(shù)據(jù)類型。這樣就能夠和直方圖一一對(duì)應(yīng)。描述HSV模型時(shí)，也是用相同的數(shù)據(jù)結(jié)構(gòu)。但是HSV模型和RGB模型不同，其坐標(biāo)比較特別，因此在縮小數(shù)據(jù)的時(shí)候，有些小概率數(shù)據(jù)無法去除掉。當(dāng)概率閾值太大時(shí)，又極大影響檢索的準(zhǔn)確率【611。并且由于RGB轉(zhuǎn)換成HSV的算法涉及到浮點(diǎn)數(shù)，因此，很多時(shí)候數(shù)據(jù)無法完全還原。也就是，即便相同的圖像，有時(shí)候也可能得到稍微存在偏差的特征數(shù)據(jù)。在連接數(shù)據(jù)庫(kù)有一個(gè)特殊的類是pojo類，這種類只有屬性和其屬性的get和set函數(shù)，而沒有其他函數(shù)。這個(gè)就是Mylmage，這期間就要用到數(shù)據(jù)庫(kù)的增刪查改等些語(yǔ)句進(jìn)行實(shí)現(xiàn)，如圖4．12所示。圖4．12數(shù)據(jù)庫(kù)實(shí)現(xiàn)語(yǔ)句偽代碼4．3．3系統(tǒng)類的結(jié)構(gòu)及算法流程本系統(tǒng)采用的是原型開發(fā)模式，開發(fā)過程著重關(guān)注最最基本的功能。要實(shí)現(xiàn)基于內(nèi)容的圖像檢索系統(tǒng)，最基本的幾點(diǎn)要求如下：①理解BMP圖像文件的格式，實(shí)現(xiàn)特征提取、描述、匹配、顯示等操作；②在互聯(lián)網(wǎng)上收集各類圖像，建立檢索圖像庫(kù)；③對(duì)檢索系統(tǒng)軟件進(jìn)行設(shè)計(jì)，充分考慮操作界面的友好性，除支持BMP文件外，盡量實(shí)現(xiàn)支持其他格式，如JPEG，GIF等。類圖如圖4。13所示：42 碩士學(xué)位論文第四章圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)圖4．13系統(tǒng)的類圖類圖給大家展示了整個(gè)程序的大概類組成，為提供一個(gè)更為直觀的查詢過程，所有類的動(dòng)態(tài)過程可以由圖4。14所示。墮叵叵習(xí)匡國(guó)墮叵圖片參數(shù)『圖片更多信息數(shù)據(jù)庫(kù)信息匹配信息排序結(jié)果。塑墨一圖4．14系統(tǒng)序列圖調(diào)用序列圖展現(xiàn)了實(shí)現(xiàn)系統(tǒng)的主要類，是查詢圖片時(shí)的動(dòng)態(tài)視圖，從消息時(shí)序圖可以出，jsp頁(yè)面是實(shí)現(xiàn)用戶交流的主要接口，負(fù)責(zé)圖片的接收和展示，java類負(fù)責(zé)處理業(yè)務(wù)邏輯。每一個(gè)類分工完成相應(yīng)的任務(wù)，在某一階段被激活。特征提取模塊和特征匹配模塊是基于內(nèi)容圖像檢索的關(guān)鍵模塊，其算法優(yōu)劣直接關(guān)系到系統(tǒng)的性能，特征提取模塊流程圖如圖4．15所示，特征匹配模塊流程圖如圖4．16所示。43 碩士學(xué)位論文第四章圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)(：二)L：：蘭夕驀?J圖4．15特征提取模塊流程圖4．4系統(tǒng)應(yīng)用與評(píng)價(jià)／7、開始＼＼／上提№圖像特}m’L——————獲得數(shù)據(jù)庫(kù)目僚特征t№較特征井得到相似度1-根據(jù)相似度排序Jr，7輸出結(jié)果，／t，，、結(jié)束]＼／圖4．16特征匹配模塊流程圖下面用流程圖展示本系統(tǒng)的使用流程，截圖介紹系統(tǒng)的界面、系統(tǒng)使用方法、使用流程以及該系統(tǒng)查詢的結(jié)果。對(duì)數(shù)據(jù)庫(kù)中所有圖片進(jìn)行查詢一次，統(tǒng)計(jì)得到系統(tǒng)兩種特征的查準(zhǔn)率，并列出圖表進(jìn)行分析比較。得出兩種特征的優(yōu)缺點(diǎn)，為日后的改進(jìn)提供幫助。本系統(tǒng)使用的流程圖如圖4．17所示。圖4。17用戶使用流程圖莖上曼一j拋一．、《一。碩士學(xué)位論文第四章圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)本系統(tǒng)擁有良好的用戶界面。界面中還配有系統(tǒng)說明，告訴用戶系統(tǒng)的基本原理以及該系統(tǒng)的特別之處。圖4．18是本系統(tǒng)用戶使用過程的截圖?！玹U選擇查詢圖片[：二二：二：：二二、二二二。二二二二：二：二二二二：：二：：：二二二二二二二：?匝蟹四厴團(tuán)這是一個(gè)基于內(nèi)窖的圖像搜索系統(tǒng)．與傳統(tǒng)的搜索系統(tǒng)不同，用戶只需要上傳圖片就可以把與之相似圖片搜索出來。此系統(tǒng)不是基于關(guān)鍵字的搜素，而是基于圖片本身特征如顏色、紋理和形狀的搜索。圖4．18用戶查詢界面隧__芟件名趣)：丈嬲遼)一??????～～?一?1～?“*§瓣ij=÷．1所有文件“．卑，。囊i一?～?～??～??～～一～??，～=一oz圖4．19瀏覽圖片汀麗面]r1訂。l；．．．．．．．．．．．．．．．．．．．．．．．．．．。．√本系統(tǒng)使用起來十分方便，點(diǎn)擊瀏覽，就可以打開文件瀏覽框，選擇自己想要的圖片。用戶可以隨意瀏覽想要查找的圖片，如圖4．19所示。當(dāng)找到自己想要查詢的圖片后，單擊確定后回到系統(tǒng)界面。系統(tǒng)界面上文件輸入框中多了輸入圖像的目錄。最后點(diǎn)擊尋圖，系統(tǒng)就開始查找與用戶輸入的圖片相似的圖片。下面就以選中文件名為404的一幅恐龍的圖像作為示例圖像來進(jìn)行搜索。45 碩士學(xué)位論文第四章圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)拗t贈(zèng)遵澤童游溢競(jìng)藝：ii二、。二二二二二I：二．．二二=二i二二二二二二．二～疆懋圈邈蘭疊圖4．20準(zhǔn)備查詢一個(gè)圖片系統(tǒng)建立的圖像數(shù)據(jù)庫(kù)中有1000幅圖像，一共10類圖片，每一類有100張，序號(hào)從0到999，這些圖片全部來自Corel5K圖像集。由于每張圖片只有30KB左右，可以直接把圖像放入數(shù)據(jù)庫(kù)中，用BLOB存儲(chǔ)。這10類圖像包括非洲人、海灘、建筑、公共汽車、恐龍、大象、花朵、馬、雪山和食物。查詢的方式己經(jīng)講過，我們采用內(nèi)部圖像查詢的方式。因?yàn)閿?shù)據(jù)庫(kù)中的圖片需要在數(shù)據(jù)庫(kù)中查看，電腦上也存儲(chǔ)了全部的圖片。直接用電腦中的圖片進(jìn)行查詢，根據(jù)排序的原理，與該圖像完全的圖像一定會(huì)放在第一個(gè)。如圖4．20查詢是的恐龍類的圖像。在這10類圖像的查詢結(jié)果中，恐龍的查詢效果是最好的，無論是查準(zhǔn)率還是查全率都很高。經(jīng)過排序后，系統(tǒng)選出最相似的50幅圖像作為結(jié)果顯示，這樣就避免了找不到圖像的情況，但是這也加重了系統(tǒng)計(jì)算的負(fù)擔(dān)。在瀏覽器中每一行顯示五張圖像，一共顯示10行。其結(jié)果如圖4．21和圖4—22所示，與查詢圖像相同的圖像排在了第一位，全部50幅圖像中，只有一幅不是恐龍類，單這個(gè)查詢的準(zhǔn)確率就是98％，由于設(shè)定了顯示結(jié)果數(shù)，就不能拿查全率來估算系統(tǒng)的性能了。查詢所花費(fèi)時(shí)間為1．5秒左右。從這些數(shù)據(jù)來看，查準(zhǔn)率讓人很滿意，相應(yīng)時(shí)間相對(duì)偏長(zhǎng)，但還在系統(tǒng)正常響應(yīng)的范圍內(nèi)。當(dāng)圖像的數(shù)量再增大一倍時(shí)，這個(gè)算法的相應(yīng)時(shí)間就顯得很長(zhǎng)。碩士學(xué)位論文第四章圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)啊黔。鍪l||纛、萬(wàn)了、。。k磊囊i。橐蛙il：燕。i疊慧舞‘磊||爺、型i蒸纛霧。囊黧：瑟瑟：基。囊K奠曠；熱。2卜}：贏。刪圖圖4—21查詢結(jié)果展示(上)8蘩辮鬻蘩黲?鬻鬻|||||曦i瓣甏鬻陵㈣矧戇瀵囊然麟”纛黥i驀囊ij爨一熬魏《獺纛蹩。么黼i基簽i，磊蒸i；{分■卜是il篁．一減“幣”蠆“盔，啊l霸吲萬(wàn)j萬(wàn)命春．炭。V朱圖4．22查詢結(jié)果展示(下)4"／碩士學(xué)位論文第四章圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)檢索結(jié)果直方圖如圖4—23和圖4．24所示。不難看出，RGB顏色模型的查準(zhǔn)率較好。十類圖像中有六類圖像包括非洲人、建筑物、公共汽車、恐龍和花朵的查準(zhǔn)率超過60％，尤其是恐龍這一類，查準(zhǔn)率達(dá)到了98％以上。剩余四類圖像包括海灘、大象、雪山和食物的查準(zhǔn)率明顯低于前面六種，都在20％．40％的區(qū)域上。非洲人海灘建筑物公共汽車恐龍大象花朵馬雪山食物圖4-23RGB顏色模型查詢結(jié)果非洲人海灘建筑物公共汽車恐龍大象花朵馬雪山食物圖4．24HSV顏色模型查詢結(jié)果從圖4．25中RGB和HSV顏色模型的折線圖來看，RGB顏色模型的查準(zhǔn)率絕大多數(shù)情況下高于HSV顏色模型。僅僅在花朵這一個(gè)類別，HSV模型的查準(zhǔn)率為82．5％，而RGB模型的只有68％。從折線圖的走勢(shì)來看，兩中顏色模型的起伏情況基本一致。從起伏范圍來看，HSV顏色模型略大于RGB顏色模型。碩士學(xué)位論文第四章圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)l·00．9O．80．7§o·6龔osgo．40．30·20·1012345678910(非洲人等10類圖像序號(hào))圖4．25RGB和HSV顏色模型查準(zhǔn)率對(duì)比圖例F面i圓L：型堡型l由表4．1可以看出，HSV顏色模型的查準(zhǔn)率明顯不如RGB顏色模型，只有兩類圖像的查準(zhǔn)率超過60％，分別是恐龍和花朵。有整整一半類別的查準(zhǔn)率低于20％，包括海灘、大象、馬、雪山和食物。剩余的三類圖像的查準(zhǔn)率也只在30％一40％之間。表4．1RGB和HSV顏色模型的查準(zhǔn)率4．5本章小結(jié)這一章完整介紹了這個(gè)系統(tǒng)的使用流程以及一些關(guān)鍵算法的步驟，并配有大量的截圖和UML所作的圖。主要討論了如何設(shè)計(jì)并實(shí)現(xiàn)圖像檢索系統(tǒng)，用語(yǔ)言逐步實(shí)現(xiàn)之前所選擇的算法，完成用戶查詢接口、圖特征提取、圖像管理、檢索49 碩士學(xué)位論文第四章圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)流程和檢索結(jié)果等功能的實(shí)現(xiàn)。并通過使用流程圖展示本系統(tǒng)的使用流程，截圖介紹系統(tǒng)的界面、系統(tǒng)使用方法、使用流程以及該系統(tǒng)查詢的結(jié)果，并進(jìn)行了簡(jiǎn)要分析。碩士學(xué)位論文第五章總結(jié)與展望5．1本文總結(jié)第五章總結(jié)與展望在基于語(yǔ)義的圖像檢索技術(shù)中，“語(yǔ)義鴻溝”的出現(xiàn)成為圖像檢索技術(shù)發(fā)展的瓶頸性問題?！罢Z(yǔ)義鴻溝”問題指的是圖像低層視覺特征與圖像對(duì)象語(yǔ)義、行為語(yǔ)義及情感語(yǔ)義之問理解上的差異，絕大部分圖像除擁有視覺特征的同時(shí)均還包含了更高層的語(yǔ)義內(nèi)容。圖像自動(dòng)語(yǔ)義標(biāo)注技術(shù)是解決“語(yǔ)義鴻溝”問題的重要手段，通過圖像自動(dòng)標(biāo)注的方法就能將基于語(yǔ)義的圖像檢索方式轉(zhuǎn)變成基于文本的圖像檢索方式。就目前國(guó)外內(nèi)的研究現(xiàn)狀來看，包括模式識(shí)別、人工神經(jīng)網(wǎng)絡(luò)、人工智能等技術(shù)都還無法較好地解決計(jì)算機(jī)對(duì)圖像高層語(yǔ)義的識(shí)別問題。本文在研究基于本體的圖像自動(dòng)標(biāo)注技術(shù)的同時(shí)，建立了基于內(nèi)容的圖像檢索系統(tǒng)原型，實(shí)現(xiàn)了在圖像數(shù)據(jù)庫(kù)中檢索HSV、RGB顏色特征近似的圖像數(shù)據(jù)功能。本文的研究?jī)?nèi)容主要可以概括以下幾個(gè)方面：首先，對(duì)圖像檢索的發(fā)展歷程進(jìn)行了總結(jié)，研究總結(jié)了圖像自動(dòng)標(biāo)注技術(shù)的發(fā)展。其次，提出了一種新的基于圖像本體的標(biāo)注框架。該框架結(jié)合領(lǐng)域本體中語(yǔ)義概念的關(guān)系，通過層次概率篩選來獲得較為準(zhǔn)確的圖像高層語(yǔ)義概念，實(shí)現(xiàn)圖像的語(yǔ)義標(biāo)注。首次標(biāo)注時(shí)，通過提取和聚類訓(xùn)練集中的基元圖像，并采用統(tǒng)計(jì)學(xué)習(xí)的方法建立基元類和語(yǔ)義概念之間的關(guān)聯(lián)概率，使用貝葉斯(Bayes)原理計(jì)算出本體與待標(biāo)注圖像中概念的后驗(yàn)概率，并取后驗(yàn)概率較大的詞匯標(biāo)注該圖像；再結(jié)合圖像本體中概念之間的語(yǔ)義關(guān)系，對(duì)圖像進(jìn)行二次標(biāo)注，獲取圖像的高層語(yǔ)義，由此實(shí)現(xiàn)待標(biāo)注圖像語(yǔ)義的自動(dòng)標(biāo)注。最后，應(yīng)用{ava語(yǔ)言、MyEclipse集成開發(fā)環(huán)境以及MySQL數(shù)據(jù)庫(kù)系統(tǒng)等平臺(tái)，設(shè)計(jì)實(shí)現(xiàn)了一個(gè)基于HSV、RGB顏色特征的圖像檢索系統(tǒng)原型。該系統(tǒng)采用外部事例圖查詢的方式，通過特征提取模塊提取圖像特征，并與數(shù)據(jù)庫(kù)進(jìn)行特征匹配，在結(jié)果顯示模塊中輸出檢索目標(biāo)圖像。最后實(shí)驗(yàn)證實(shí)了該系統(tǒng)的檢索性能。5．2研究展望圖像檢索技術(shù)的研究不僅具有重要的理論意義，而且具有現(xiàn)實(shí)的使用價(jià)值。本文中圖像語(yǔ)義自動(dòng)標(biāo)注技術(shù)和基于內(nèi)容的圖像檢索模型都是建立在一個(gè)理想碩士學(xué)位論文第五章總結(jié)與展望的、分類明確及相對(duì)簡(jiǎn)單的圖像數(shù)據(jù)庫(kù)之上的。這個(gè)圖像數(shù)據(jù)庫(kù)中的圖像樣本越豐富，圖像語(yǔ)義標(biāo)注越詳細(xì)、越準(zhǔn)確，圖像自動(dòng)語(yǔ)義標(biāo)注的效果越好，圖像檢索系統(tǒng)的性能就越好，查全率和查準(zhǔn)率也就越高。但是，由于研究時(shí)間不足和本人能力有限，本文沒能實(shí)現(xiàn)一個(gè)基于語(yǔ)義的圖像檢索系統(tǒng)原型的設(shè)計(jì)工作，圖像本體自動(dòng)標(biāo)注算法在圖像檢索中的效果還未能得以體現(xiàn)，在下一步的研究中，爭(zhēng)取實(shí)現(xiàn)該自動(dòng)標(biāo)注算法在基于語(yǔ)義的圖像檢索系統(tǒng)中的應(yīng)用。圖像語(yǔ)義分析和圖像檢索是跨學(xué)科的、極富挑戰(zhàn)性的重要研究課題。隨著多媒體技術(shù)飛速發(fā)展和互聯(lián)網(wǎng)技術(shù)的廣泛運(yùn)用，圖像數(shù)量將會(huì)以更為驚人的速度增長(zhǎng)，解決海量圖像的管理和檢索成為人們迫在眉睫需要解決的問題。眾多國(guó)內(nèi)外的研究者已經(jīng)從不同的角度進(jìn)行了深層次的探索，取得了不少研究成果，獲得了良好的檢索和標(biāo)注方法，但是圖像語(yǔ)義分析和檢索研究領(lǐng)域仍然有很多值得研究的課題和許多待挖掘的技術(shù)。包括向深度研究的課題，如圖像語(yǔ)義分析中視覺理論的應(yīng)用問題；向廣度延伸的方面，如網(wǎng)絡(luò)中多媒體檢索技術(shù)，都期待著完善這個(gè)領(lǐng)域的研究。同時(shí)科學(xué)研究與實(shí)踐應(yīng)用的結(jié)合，如醫(yī)學(xué)圖像識(shí)別、蛋白質(zhì)檢測(cè)等，更將成為這個(gè)研究領(lǐng)域飛速發(fā)展的有力推手。在今后的研究中，計(jì)算機(jī)視覺技術(shù)、自然語(yǔ)言處理技術(shù)、機(jī)器學(xué)習(xí)理論以及人工智能等技術(shù)的成熟與發(fā)展都將有助于提高計(jì)算機(jī)圖像語(yǔ)義分析和檢索系統(tǒng)的性能。碩士學(xué)位論文參考文獻(xiàn)[1】黃麗娟．基于內(nèi)容的多媒體信息檢索[J]．現(xiàn)代圖書情報(bào)技術(shù)，2000，(5)．[2]曲仕茹，熊波．基于Gabor濾波和神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)方法研究【J】．西北工業(yè)大學(xué)學(xué)報(bào)，201t,29(5)．[3]徐慶，楊維維，陳生潭．基于內(nèi)容的圖像檢索技術(shù)[J】．計(jì)算機(jī)技術(shù)與發(fā)展，2008，18(1)[4]孫君頂，原芳．基于內(nèi)容的圖像檢索技術(shù)[J]．計(jì)算機(jī)系統(tǒng)應(yīng)用，2011，20(8)．[5]SawasA，Chatzichristofis，YiannisSBoutalis，CEDD：ColorandEdgeDirectivityDescriptor．ACompactDescriptorforImageIndexingandRetrieval[J]，LNCS5008，2008：312-322．【6】趙珊，湯永利，劉靜．基于DcT系數(shù)空間分布JPEG圖像檢索算法[J]．北京郵電大學(xué)學(xué)報(bào)，2009，32(5)：32．35．[7]SakoeH，ChibaS．Dynamicprogrammingalgorithmoptimizationforspokenwordrecognition，IEEETransactionsonAcoustics，SpeechandSignalProcessing，26(1)PP．43—49，1978．【8】張菊．改進(jìn)的K．均值聚類算法圖像邊緣檢測(cè)研究[J]．科技通報(bào)，2012，28(6)．[9】CheungW,HamamehG$n$-SIFT：$n$一DimensionalScaleInvariantFeatureTransform，IEEETransactionsonImageProcessing，2009，18(9)．[10]歐陽(yáng)軍林，夏利民，張偉偉．基于高層語(yǔ)義及相關(guān)反饋的圖像檢索[J]．計(jì)算機(jī)工程與應(yīng)用，2006，25(7)：159．161．[11]鐘洪，夏利民．基于互信息約束聚類的圖像語(yǔ)義標(biāo)注[J】．中國(guó)圖像圖形報(bào)，2009，14(6)：1199—1205．[12]LuY，ZhangL'TianQ．Whatarethehi曲一levelconceptswithsmallsemanticgaps[J]．CVPR’08．2008．1—8．[13]何希圣，圖像自動(dòng)標(biāo)注方法研究[D】．上海：復(fù)旦大學(xué)，2010．[14]DuyguluRBamardK，deFreitasJ,Forsyth，DA．Objectrecognitionasmachinetranslation：Learningalexiconforafixedimagevocabulary,In：proceedingsof7thEuropeConferenceonComputerVision，2002：97-112．[15]KobusBamard，PinarDuygulu，DavidForsyth，eta1．MatchingwordsandPictures，JoumalofMachineLearningResearch，2003，3：1107．1135．碩士學(xué)位論文參考文獻(xiàn)[16]PutthividhyD，AttlasH’T，NagarajanS．S，Topicregressionmulti-modallatentdirichletallocationforimageannotation，InProceedingsofIEEEComPuterVisionandpatternRecognition,2010：3408—3415．[17]ChangboYang，MingDong，andJingHua，Region-basedimageannotmionusingasymmetricalsupportvectormachine-basedmultiple-instancelearning,InProceedingsofIEEEComputerSocietyConferenceonComputerVisionandPatternRecognition，2006：2057-2063．[18】盧漢清，劉靜．基于圖學(xué)習(xí)的自動(dòng)圖像標(biāo)注【J】，計(jì)算機(jī)學(xué)報(bào)，2008，31(9)：1629-1639．[19]PanJ．Y,YangH．J，F(xiàn)aloutsosC，DuyguluP,Automaticmultimediacross．modalcorrelationdiscovery,InProceedingsofIntemationalConferenceonKnowledgeDiscoveryandDataMining，2004：653-658．[20]XiaoguangRui，MingjingLI，ZhiweiLi，WeYingMa,NenghaiYu，Bipartitegraphreinforcementmodelforwebimageannotation，InProceedingsofthe15thInternationalconferenceonMultimedia，2007：585-594．[21]LiuJ,LiM，LiuQ，LuH，MaS,Imageannotationviagraphlearning，patternRecognition．2009，42(2)：218-225．[22]JinY，KhanL，WangL,andAwadM，Imageannotationsbycombiningmultipleevidence&wordNet．InProceedingsofthe13恤annualACMintemationalconferenceonMultizmedia，2005：706—715．[23]MiUer,G．A．“WordNet：AlexicaldatabaseforEnglish'’．CommunicationofACM，1995，38，11(Nov．1995)：39-40．[24]ChanghuWang，F(xiàn)engJing，LeiZhang，Hong—JiangZhang．Imageannotationrefinementusingrandomwalkwithrestarts，InProceedingsofthe14thannualACMIntemationalconferenceonMultimedia，2006，PP．647—650．[25]YohanJin，KibumJin，KhanL，PrabhakaranB．TherandomizedapproximatinggraphalgorithmforImageannotationrefinementproblem，ComputerVisionandpatternRecognitionWorkshops，2008，PP．1—8．[26]YohanJin，LatifurKhan，BPrabhakaran．Tobeannotatedornot?therandomizedapproximationgraphalgorithmforimageannotationrefinementproblem，ICDE2008Workshop，2008．[27]YohanJin，LatifurKhan，BPrabhakaran．KnowledgebasedImageannotationrefinement，signalprocessingSystems，2010，58(3)：387—406．碩士學(xué)位論文參考文獻(xiàn)[28]FlicknerM．，SawhneyH．，NiblaekW．，eta1．，Querybyimageandvideocontent：theQBICSystem[J]．IEEEComputer1995，28(9)：23—32．[29]MaW．Y，ManjunathB．，NETRA：Atoolboxfornavigatinglargeimagedatabases，MultimediaSystms[J]，1999，v01．7，no．3，pp：184—198．[30]PentlnadA，PieardR，Sclaroff．S，Photobook：toolsofcontent-basedmanipulationofimagedatabase[J]．Proe．SPIE，vol。2185，F(xiàn)eb．1994，pp：34—47?！?1]Ze—NianLi，MarkS．Drew．多媒體技術(shù)教程[M]，北京：機(jī)械工業(yè)出版社，2007．379．380．[32]BachJ．R．，F(xiàn)ullerC．，GuptaA．，etal，TheVirageimagesearchengine：Anopenframeworkforimagemanagement[J]，InProc．SPIEStorageandRetrievalforImageandVideoDatabase，1996．[33]SmithJ．R，ChangS．F．，VisualSEEK：afullyautomatedcontent-basedimagequerysystem．Pore[A]．ACMMultimediaNov．1996，PP：87—98．[34]CarsonC．，ThomasM．，BelongieS．，etal，Blobworld：asystemforregion-basedimageindexingandretrieval．Proc[J]．VisualInformationSystems，June1999，PP：509．516．[35]XiaYu，XiaoShaHuang．Imageretrievalbasedoncolor,texture，shapeandSVMrelevancefeedback[J]，In：IEEE，2010，10：779-781．[36】吳楠，宋方敏．一種基于圖像高層語(yǔ)義信,ggJ圖像檢索方法[J】．中國(guó)圖像圖形學(xué)報(bào)，2006，Il(12)：ppll74-1180．[371GLiu，JYang．ImageretrievalbasedonthetextonCO—occurrencematrix，PatternRecongnition，2008，pp3521-3527．[38]t炳忠．組合顏色和紋理特征的圖像檢索方法研究與實(shí)現(xiàn)[D]．浙江：浙江工業(yè)大學(xué)，2009．[39]SteveWright．DigitalCompositingforFilmandVideo[M]．FocalPress。2006，ISBN024080760X．[40]孫君頂．基于內(nèi)容的圖像檢索技術(shù)研究[D]．西安：西安電子科技大學(xué)，2005．[41]張愛兵，基于中心區(qū)域雙向匹配的圖像檢索技術(shù)研究[D】．南京：南京信息工程大學(xué)，2011．[42]劉麗梅．HSV空問彩色x線醫(yī)學(xué)圖像增強(qiáng)研究[J]．云南師范大學(xué)學(xué)報(bào)自然科學(xué)版，2011,31(5)．[43]史延新．基于形狀特征的圖像檢索算法研究[J]．電子科技，2008，12(6)．[44]李軍．基于小波變換的虹膜識(shí)別算法研究(D)．合肥：中國(guó)科學(xué)技術(shù)大學(xué)，2002．55 碩士學(xué)位論文參考文獻(xiàn)[45]竇建軍．基于內(nèi)容的圖像檢索研究[D】．上海：上海交通大學(xué)，2004．[46]唐立軍，段立娟，高文，基于內(nèi)容的圖像檢索系統(tǒng)[J]，計(jì)算機(jī)應(yīng)用研究，2001，7：41．45．[47】龔聲蓉，熊璋，韓軍，孫文彥．基于內(nèi)容的自適應(yīng)圖像檢索系統(tǒng)的設(shè)計(jì)[J】，計(jì)算機(jī)工程，2001，27(10)：45—46．【48]王惠鋒，金翔宇，孫正興．基于語(yǔ)義的圖像檢索方法研究綜述[J]，計(jì)算機(jī)工程，2001，27(8)：3．6．[49]PatelNV，SethiIS．Videoshotdetectionandcharacterizationforvideodatabases[J]，1997，PattemRecognitionVol，30pp：583-59．[50]wMShawjr,RBurgin，PHowell．PerformanceStandardsandEvaluationsinIRTestCollections：Cluster-basedRetrievalModels．InformationProeessin&Management，33(1)：1-14，1997．[51]ZWu，QKe，JSun，H-YShum．Scalablefaceimageretrievalwithidentity-basedquantizationandmultireferencereranking．IEEETPAMI，33：1991-2001，2011．[52]CBeen，I。Khan，APrrmusamy．Ontology-basedImageClassificationusingNeuralNetwork．In：JohnRSmith，SethuramanPanchanathan．TongZhang，Eds．Proc．OfSPIEIntemetMultimediaManagementSystems，Boston，2002，198—208．[53]QuinlanJR．InductionIndecisionTrees．MachineLearning．1986，1(1)：81-106[54]文坤梅．基于本體知識(shí)庫(kù)推理的語(yǔ)義搜索研究【D]．武漢：華中科技大學(xué)，2007．[55]JeonLLevrenkoV，andManmathaR．AutomaticImageAnnotationandRetrievalusingCross-mediaRelevanceModels．In：Proceedingsofthe26thAnnualIntemationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval，Toronto，Canada，2003：119—126．[56]Z—JZha，TMei，JWang，ZWang，X—SHua．Graph—basedsemi—supervisedlearningwimmultiplelabels．JournalofVisualCommunicationandImageRepresentation，2009，PP97—103．[57]朱昱林．淺析基于內(nèi)容的圖像檢索技術(shù)[J]．時(shí)代報(bào)告(學(xué)術(shù)版)，2012，(6)．[58]程敏，葉秀清，基于內(nèi)容的圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)【J】，計(jì)算機(jī)工程與科學(xué)，2004，26(1)：51．54．[59]曾臺(tái)盛．基于Lab顏色空間與Gabor小波變換的圖像檢索技術(shù)[J]．西南師范大學(xué)學(xué)報(bào)(自然科學(xué)版)，2011,33(6)．[60]李艷．一種基于注意力模型的圖像檢索方法[D]．長(zhǎng)沙：中南大學(xué)，2010．[61]劉偉．圖像檢索中若干問題的研究[D]．杭州：浙江大學(xué)，2007．

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 63



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

大家都在看

近期熱門

基于語(yǔ)義自動(dòng)標(biāo)注算法的圖像檢索系統(tǒng)研究

基于語(yǔ)義自動(dòng)標(biāo)注算法的圖像檢索系統(tǒng)研究

最近更新

大家都在看

相關(guān)文章

相關(guān)標(biāo)簽