《基于語(yǔ)義自動(dòng)標(biāo)注算法的圖像檢索系統(tǒng)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
ResearchonImageRetrievalSystemwithAutomaticAnnotationAlgorithmSpecialty:ComputerScienceandTechnologyMasterDegreeCandidate:基坌墜g且星!i妲gSupervisor:里煦£!垂墨墨塾g旦Q塾gjl坐SchoolofInformationScience&EngineeringCentralSouthUniversityChangShaHunanP.R.C 原創(chuàng)性聲明本人聲明,所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除了論文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得中南大學(xué)或其他單位的學(xué)位或證書而使用過的材料。與我共同工作的同志對(duì)本研究所作的貢獻(xiàn)均已在論文中作了明確的說明。作者簽名:日期:監(jiān)年—衛(wèi)月立生目學(xué)位論文版權(quán)使用授權(quán)書本人了解中南大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留學(xué)位論文并根據(jù)國(guó)家或湖南省有關(guān)部門規(guī)定送交學(xué)位論文,允許學(xué)位論文被查閱和借閱;學(xué)??梢怨紝W(xué)位論文的全部或部分內(nèi)容,可以采用復(fù)印、縮印或其它手段保存學(xué)位論文。同時(shí)授權(quán)中國(guó)科學(xué)技術(shù)信息研究所將本學(xué)位論文收錄到《中國(guó)學(xué)位論文全文數(shù)據(jù)庫(kù)》,并通過網(wǎng)絡(luò)向社會(huì)公眾提供信息服務(wù)。|作者躲逃翩日期:幽年衛(wèi)月絲日 摘要隨著消費(fèi)類數(shù)碼相機(jī)的日益普及和網(wǎng)絡(luò)多媒體信息的廣泛傳播,數(shù)字圖像迅速產(chǎn)生和堆積。如何實(shí)現(xiàn)大規(guī)模圖像數(shù)據(jù)的有效管理和查詢,已經(jīng)成為多媒體技術(shù)領(lǐng)域的重要研究課題。20世紀(jì)70年代末,人們就開始對(duì)圖像檢索技術(shù)進(jìn)行研究。最初被研究的是基于文本的圖像檢索技術(shù)(Text.basedImageRetfievN,簡(jiǎn)稱TBIR),這種技術(shù)需要手工添加文本標(biāo)簽。但是,隨著近年來圖像來源的不斷豐富和格式的多樣化,對(duì)龐大圖像數(shù)據(jù)進(jìn)行手工標(biāo)注已經(jīng)變得非常不現(xiàn)實(shí)。上世紀(jì)90年代初,出現(xiàn)了基于內(nèi)容的圖像檢索技術(shù)(Content—basedImageRetrieval,簡(jiǎn)稱CBIR),這種檢索技術(shù)主要是通過顏色和紋理等低層視覺特征來描述圖像進(jìn)而實(shí)現(xiàn)查詢。但是,人們很快又發(fā)現(xiàn),圖像的低層特征與高層語(yǔ)義之間存在所謂的“語(yǔ)義鴻溝”。而基于圖像語(yǔ)義自動(dòng)標(biāo)注的檢索技術(shù),可以通過事先對(duì)圖像數(shù)據(jù)庫(kù)進(jìn)行自動(dòng)索引標(biāo)記,從而實(shí)現(xiàn)高級(jí)語(yǔ)義檢索的目的,試圖縮小語(yǔ)義鴻溝。首先,本文提出了一種新的基于本體的圖像標(biāo)注框架。該框架結(jié)合領(lǐng)域本體中語(yǔ)義概念的關(guān)系,通過層次概率篩選獲得較為準(zhǔn)確的圖像高層語(yǔ)義概念,實(shí)現(xiàn)圖像的語(yǔ)義標(biāo)注。第一次標(biāo)注時(shí),通過提取和聚類訓(xùn)練集中的基元圖像,采用統(tǒng)計(jì)學(xué)習(xí)方法建立基元類和語(yǔ)義概念之間的關(guān)聯(lián)概率,并采用貝葉斯算法計(jì)算出本體與待標(biāo)注圖像中概念的后驗(yàn)概率,取后驗(yàn)概率較大的詞匯標(biāo)注該圖像;二次標(biāo)注時(shí),結(jié)合圖像本體中概念之間的語(yǔ)義關(guān)系,獲取圖像的高層語(yǔ)義,由此實(shí)現(xiàn)待標(biāo)注圖像語(yǔ)義的自動(dòng)標(biāo)注。其次,采用java語(yǔ)言、MyEclipse集成開發(fā)環(huán)境以及MySQL數(shù)據(jù)庫(kù)管理系統(tǒng)等平臺(tái),設(shè)計(jì)實(shí)現(xiàn)了一個(gè)基于HSV、RGB顏色特征的圖像檢索系統(tǒng)原型。該系統(tǒng)采用外部事例圖查詢的方式,通過特征提取模塊提取圖像特征,并與數(shù)據(jù)庫(kù)進(jìn)行特征匹配,在結(jié)果顯示模塊中輸出檢索目標(biāo)圖像。關(guān)鍵詞圖像檢索,高層語(yǔ)義,領(lǐng)域本體,語(yǔ)義標(biāo)注 ABSTRACTWiththeincreasingpopularityofdigitalcamerascustomersandwidelyspreadofmultimediainformationinnetwork,digitalimagesappearedandaccumulatedquickly.Howtomanageandqueriessuchlarge—scaleimagedataeffectivelyhasbecomeakeyresearchprojectinthefieldofmultimediatechnology.Researchesonimageretrievaltechnologyhasbegunsincelate1970s.FirstlyitstartswithText.BasedImageRetrievalwhichneedstext1abelsaddedmanually.However,astheoriginsofimagesandtypesofimageformatsbecomemoreandmorediversityrecently,itisnotpracticalatalltolabelhugeimagedatamanually.Thenin1990s,Content—basedImageRetrievaltechnologyshowedup,whichimplementsthequerybyusinglow.1evelvisualfeatureslikecolors,grain,etc.But,itwassoonfoundthatthereareso.calledSemanticGapbetweenthe10W—levelfeaturesandhigh.1evelsemantic.TonarrowdowntheSemanticGap,anothertechnologyshowedup.Itisaretrievaltechnologyofsemantic-basedautomaticlabel,whichachievesthegoalofhigh—levelsemanticretrievalbyautomaticallylabelingtheimagedatabase.Thisessayputsforwardanewkindofimage1abelframeworkwhichbasesonontology.Combinedwiththerelationshipofsemanticconceptsinthefields,itgetsmoreaccurateconceptsofimagehigh-levelsemanticbyusinglevelprobabilityfilterandthenrealizesthesemanticannotationofimage.Whenfirstlabeled,itextractsandclassifiesprimitiveimagesinthetrainingcollection,andestablishesassociationprobabilitybetweentheprimitiveclassesandsemanticconceptsusingstatisticmethods.ItalsousesBayesianalgorithmtocalculatetheposteriorprobabilitybetweenontologyandtheconceptstobemarkedintheimage,andthenchoosethelargerposteriorprobabilityvocabularytolabeltheimage.Ⅵ,llenlabeledlater,itobtainshigh—levelsemanticoftheimageafterconsideringthesemanticrelationshipbetweenontologyandconcepts,thustheautomaticannotationofunmarkedimagesemanticshasaccomplished.II Secondly,itusestheplatformcollectedbyJavalanguage,theintegratedenvironmentofMyEclipse,andMySqldatabaseandfinishesthedesignandimplementationaprototypesystemofimageretrievalwhichbasedonHSVandRGBcolorfeatures.Thissystemextractsimagefeaturesinthefeature—extractingmodulebyusingexternalexamplesimagequerystyle,thensearchesthematchesofthefeaturesindatabaseandfinallyoutputstheretrievedtargetimageintheresultdisplaymodule.KEYWORDSImageRetrieval,High—levelSemantic,DomainOntology,SemanticAnnotation 目錄摘要?????????????????????????????????????????IABSTRACT?????????????????????????????????????..II第一章緒論????????????????????????????.11.1研究背景和意義????????????????????????~11.1.1圖像檢索的發(fā)展???????????????????????11.1.2圖像檢索與圖像標(biāo)注的關(guān)系??????????????????51.1.3圖像標(biāo)注技術(shù)的發(fā)展?????????????????????61.1.4圖像檢索系統(tǒng)分析??????????????????????81.2本文工作???????????????????????????111.3本文的組織結(jié)構(gòu)????????????????????????11第二章相關(guān)工作及關(guān)鍵技術(shù)?????????????????????132.1基于語(yǔ)義的圖像檢索的基本方式?????????????????132.2圖像語(yǔ)義標(biāo)注的基本框架????????????????????142.3圖像特征描述?????????????????????????152.3.1顏色特征描述???????????????????????.152.3.2形狀特征描述???????????????????????.182.3.3紋理特征描述???????????????????????..202.3.4語(yǔ)義特征描述???????????????????????.202.4圖像檢索性能的評(píng)價(jià)標(biāo)準(zhǔn)????????????????????一212.4.1排序評(píng)價(jià)方法???????????????????????.222.4.2查全率和查準(zhǔn)率??????????????????????.222.4.3調(diào)和平均值????????????????????????.232.4.4平均歸一化修正檢索等級(jí)??????????????????.232.5本章小結(jié)???????????????????????????24第三章圖像語(yǔ)義標(biāo)注方法研究????????????????????253.1基本思想???????????????????????????253.2圖像本體的構(gòu)建????????????????????????253.3系統(tǒng)框架???????????????????????????263.4基于概率的第一次標(biāo)注?????????????????????273.4.1關(guān)聯(lián)度計(jì)算????????????????????????.27IV 3.4.2第一次自動(dòng)標(biāo)注??????????????????????.283.5基于本體的二次標(biāo)注??????????????????????293.6實(shí)驗(yàn)及分析??????????????????????????313.6.1實(shí)驗(yàn)的建立????????????????????????.313.6.2實(shí)驗(yàn)結(jié)果及其分析?????????????????????.323.7本章小結(jié)???????????????????????????33第四章圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)??????????????????354.1系統(tǒng)框架概述?????????????????????????354.1.1系統(tǒng)的總體結(jié)構(gòu)??????????????????????.354.1.2系統(tǒng)的設(shè)計(jì)模式??????????????????????..354.1.3檢索系統(tǒng)的框架??????????????????????.364.2開發(fā)工具和環(huán)境????????????????????????374.3系統(tǒng)實(shí)現(xiàn)???????????????????????????384.3.1常用類庫(kù)?????????????????????????.384.3.2數(shù)據(jù)庫(kù)實(shí)現(xiàn)????????????????????????.394.3.3系統(tǒng)類的結(jié)構(gòu)及算法流程??????????????????..424.4系統(tǒng)應(yīng)用與評(píng)價(jià)????????????????????????“4.5本章小結(jié)???????????????????????????49第五章總結(jié)與展望?????????????????????????5l5.1本文總結(jié)???????????????????????????515.2研究展望???????????????????????????51參考文獻(xiàn)?????????????????????????????.53致謝?????????????????????????????????????????57V 碩_f=學(xué)位論文箔一章緒論第一章緒論隨著互聯(lián)網(wǎng)的日趨普及,網(wǎng)絡(luò)中的多媒體數(shù)據(jù)如圖像、音頻、視頻、動(dòng)畫等呈現(xiàn)出爆炸式增長(zhǎng)態(tài)勢(shì),人們進(jìn)入了網(wǎng)絡(luò)多媒體信息時(shí)代。但信息越是豐富,人們就越容易迷失在海量數(shù)據(jù)之中難以快速準(zhǔn)確的搜索到自己所需要的信息,數(shù)字化生活給人們帶來便利的同時(shí),也極大地困擾了人們的生活。圖像,作為多媒體信息的重要組成部分,它能客觀的反映真實(shí)世界,給人以鮮活的視覺感受。對(duì)于大規(guī)模圖像數(shù)據(jù)庫(kù)的分類、管理和查詢一直是多媒體信息研究領(lǐng)域的重要組成部分,具有廣泛的應(yīng)用前景。如何實(shí)現(xiàn)圖像數(shù)據(jù)庫(kù)的有效管理和查詢,以便人們方便快捷地找到所需要的圖像數(shù)據(jù),是當(dāng)前最具挑戰(zhàn)性的任務(wù)之一。在信息檢索方面,文本類信息的檢索已經(jīng)比較成熟,Google、百度等搜索引擎已成為互聯(lián)網(wǎng)使用中最常用的工具。而多媒體檢索在商業(yè)應(yīng)用領(lǐng)域,卻相對(duì)滯后。目前,主流的搜索引擎均以文本方式來實(shí)現(xiàn)檢索多媒體信息的功能。在數(shù)據(jù)庫(kù)中存儲(chǔ)了多媒體信息本身的同時(shí),還附有人工添加的與多媒體相關(guān)的文本標(biāo)記,通過對(duì)這些標(biāo)記的查找來實(shí)現(xiàn)對(duì)多媒體信息的檢索。這種方法對(duì)多媒體信息檢索起到了一定的作用,但是文本標(biāo)記無法完全解釋多媒體信息本身,因?yàn)槎嗝襟w信息本身是數(shù)字流的體現(xiàn),簡(jiǎn)短的文字信息難以表達(dá)其含義。以文字作為關(guān)鍵項(xiàng)來搜索多媒體,只是人們?cè)谔剿鞫嗝襟w信息檢索過程中的一個(gè)階段,要想使多媒體信息的檢索更加準(zhǔn)確、方便,終究要用以多媒體本身作為關(guān)鍵項(xiàng)來進(jìn)行檢索。多媒體信息檢索【1】包含很多方面,如圖像檢索、視頻檢索以及一些小的分支如人臉識(shí)別[21、基因識(shí)別和蛋白質(zhì)檢測(cè)等等。本文只就其中的一部分問題——基于語(yǔ)義的圖像檢索進(jìn)行研究。1.1研究背景和意義1.1.1圖像檢索的發(fā)展從圖像檢索技術(shù)發(fā)展的歷史來看,我們可以簡(jiǎn)單將其概括為以下三個(gè)歷史進(jìn)程:(1)TBIR(Text-basedImageRetrieval),即基于文本的圖像檢索技術(shù)階段;(2)CBIR(Content—basedImageRetrieval),即基于內(nèi)容的圖像檢索技術(shù)階段;(3)SBIR(Semantic-basedImageRetrieval),即基于語(yǔ)義的圖像檢索技術(shù)階段。基于文本的圖像檢索技術(shù),是根據(jù)用戶需求檢索與圖像存儲(chǔ)在一起的文本標(biāo)簽的一種圖像查詢方法。該方法首先用一些簡(jiǎn)單的文本或關(guān)鍵字來對(duì)圖像進(jìn)行手 碩士學(xué)位論文第一章緒論工描述,然后將圖像當(dāng)成一個(gè)存儲(chǔ)對(duì)象隨關(guān)鍵字存儲(chǔ)在一起,檢索時(shí)只要查閱關(guān)鍵字即可找到所需圖像。基于文本的圖像檢索技術(shù)有其自身的優(yōu)點(diǎn):一是用文字作為查詢的關(guān)鍵項(xiàng)進(jìn)行匹配速度快、時(shí)間短,適合大型數(shù)據(jù)庫(kù)的應(yīng)用;二是手工標(biāo)注的文字在一定程度上抽象了圖像中的含義,在圖像相對(duì)較少時(shí),對(duì)圖像的理解和檢索均有幫助。但是隨著圖像數(shù)據(jù)迅速的增長(zhǎng),這種方法暴露出如下問題:一是采用手工給圖像標(biāo)注文字信息,隨著圖像數(shù)量的增加和勞動(dòng)力成本的提高,這種方法的費(fèi)效比越來越高,不利于圖像數(shù)據(jù)庫(kù)的開發(fā)和維護(hù);二是圖像數(shù)據(jù)庫(kù)往往包含極為豐富的信息內(nèi)容,難以用簡(jiǎn)短的文本關(guān)鍵字進(jìn)行準(zhǔn)確的描述;三是由于個(gè)體差異,人們對(duì)圖像的理解本身就難以趨同,再加上文化背景和鑒賞層次上的差別,極易帶來圖像文本標(biāo)注信息的偏差,給圖像檢索帶來了或多或少的困擾。當(dāng)前網(wǎng)絡(luò)中流行的搜索引擎諸如Google和百度等,主要還是沿用基于文本的圖像檢索技術(shù),這種技術(shù)的不足之處通過如圖1.1和圖1—2的例子便可知曉:圖1.1運(yùn)用百度對(duì)“斑馬”進(jìn)行搜索,在搜索結(jié)果中的前12幅圖片中,就有2張不是斑馬;圖1—2運(yùn)用Google對(duì)“海馬”搜索,在搜索結(jié)果中的前16幅圖片中,就有3張不是海馬。輛㈤脯豳一豳浚愿|塞踴飄豳黼墨圖1-1百度搜索“斑馬”的結(jié)果曩惑。麓。;翰蘑3善黧霖豳篝3臣‘≮一露曩圖1-2Google搜索“海馬”的結(jié)果 碩士學(xué)位論文第一章緒論基于內(nèi)容的圖像檢索技術(shù),是采用圖像相似性匹配和距離排序等方法檢索相關(guān)程度的一種圖像查詢方法。與基于文本的圖像檢索技術(shù)不同的是,該方法并不需要事先對(duì)圖像進(jìn)行手工描述,而是通過采集顏色、輪廓、紋理、形狀和對(duì)象的空間位置關(guān)系等【3】圖像視覺特征,然后結(jié)合向量距離計(jì)算,衡量與查詢圖像的相關(guān)程度得出檢索結(jié)果。從20世紀(jì)80年代開始,基于內(nèi)容的圖像檢索已經(jīng)應(yīng)用于一些獨(dú)特的領(lǐng)域【4】。90年代初,基于內(nèi)容的圖像檢索進(jìn)入商用研究階段。研究人員紛紛提出了不同的圖像特征描述方法和圖像檢索算法【卯。很多CBIR系統(tǒng)也問世,其中最著名的是IBM公司的QBIC系統(tǒng)。進(jìn)入21世紀(jì)后,CBIR技術(shù)有更大的發(fā)展。人們不斷改進(jìn)已有的算法,提出了空間系數(shù)的DCT(DiscreteCosineTransform)離散余弦變換【6】、DWT(DiscreteWaveletTransform)離散小波變換[71、雙復(fù)雜度雙復(fù)小波變換、k.均值(k-meansclustering)聚類算法【引、尺度不變特征轉(zhuǎn)換(SIFTScale.invariantfeaturetransform)[9】、尺度旋轉(zhuǎn)不變的Gabor特征和多索引多對(duì)象檢索等特征算法。更有很多學(xué)者將各種特征結(jié)合起來以提高圖像檢索的性能,如顏色和邊緣的結(jié)合特征(CEDDColorandEdgeDirectivityDescriptor)、模糊顏色和紋理直方圖(FCTHFuzzyColorandTextureHistogram)、顏色和離散小波變換等的結(jié)合,更有甚者將有三種低層特征全部抽取出來對(duì)圖像的本體進(jìn)行描述。Google和百度均已經(jīng)推出了基于內(nèi)容的圖像檢索技術(shù)。百度的還在測(cè)試階段,其功能如圖1.3所示,要么搜出相同的圖片,如果在網(wǎng)上沒有和上傳圖片內(nèi)容相同的圖片,那么搜索結(jié)果就為0,系統(tǒng)無法搜出和示例圖片相似的圖片,。;i搦毒,凄藿鬟羹婆鬟黎塑費(fèi)鎏鬟。諉囂l熬霹氅蠹辮鬈蓑§灞;籬#j套l囊襞騖蠹霪霧魏爨,圖1-3百度CBIR系統(tǒng)搜索結(jié)果而Google的搜索結(jié)果則不同,即便在網(wǎng)絡(luò)上沒有搜索到完全相同的圖片,Google也會(huì)把一些和樣例圖片類似的圖片展現(xiàn)出來,與其在顏色分布和形狀上 碩士學(xué)位論文第一章緒論試圖趨于一致,其結(jié)果如圖1—4所示。圈骨尺寸:800x600瀨錢到謬豳囂懿糞袍尺寸。哩回雕圈圜豳國(guó)圈圊冒圖1-4Google的CBIR系統(tǒng)搜索結(jié)果實(shí)際的體驗(yàn)中還能感覺出,百度中基于內(nèi)容的圖像搜索模塊的效率遠(yuǎn)不及以文本方式進(jìn)行的圖像搜索,但是Google中這兩個(gè)搜索模塊的響應(yīng)速度基本一致。同時(shí)就搜索結(jié)果的準(zhǔn)確性來講,基于內(nèi)容的圖像搜索準(zhǔn)確度遠(yuǎn)不及基于文本關(guān)鍵字的搜索。檢索效率和檢索結(jié)果的滿意度是基于內(nèi)容圖像搜索進(jìn)入商業(yè)應(yīng)用領(lǐng)域的重要指標(biāo),如果能夠較好地解決這兩方面的問題,那么基于內(nèi)容的圖像檢索技術(shù)就能夠較好的滿足人們的需求。基于語(yǔ)義的圖像檢索技術(shù)[10],是根據(jù)圖像的語(yǔ)義關(guān)鍵字匹配來實(shí)現(xiàn)圖像查詢的一種圖像檢索技術(shù)。這種圖像檢索技術(shù)結(jié)合了TBIR和CBIR兩種技術(shù)特點(diǎn),首先由系統(tǒng)自動(dòng)提取圖像的低層物理特征,然后由這些低層物理特征映射出圖像所包含的與人類感知一致的高層語(yǔ)義內(nèi)容,這些內(nèi)容類似于圖像的文本標(biāo)簽,因而檢索的便捷性也就類似基于文本的檢索方法了。由此可見,基于語(yǔ)義的圖像檢索技術(shù)與基于內(nèi)容的圖像檢索技術(shù)有著相似之處,即二者均以圖像的低層特征為基礎(chǔ),因此也有學(xué)者認(rèn)為基于語(yǔ)義的圖像檢索技術(shù)是基于內(nèi)容圖像檢索的延伸與發(fā)展,但二者在實(shí)現(xiàn)檢索的過程中還是有明顯差別。4 碩士學(xué)位論文第一章緒論1.1.2圖像檢索與圖像標(biāo)注的關(guān)系由于基于內(nèi)容的圖像檢索系統(tǒng)存在諸如查詢過程不直觀、系統(tǒng)響應(yīng)通常比較慢等特點(diǎn),人們更期待能避免使用圖像低層特征進(jìn)行匹配,而使用語(yǔ)義層次的查詢方式來取代。此外,由于特征本身是不存在語(yǔ)義描述,即便實(shí)現(xiàn)了對(duì)特征測(cè)度的良好匹配亦無法保證檢索的結(jié)果符合用戶的期望。人們逐漸認(rèn)識(shí)到阻礙圖像檢索的瓶頸是“語(yǔ)義鴻溝”(semanticgap)[1l】【12】,它限制了圖像低層視覺特征和高層語(yǔ)義之間的信息溝通?!罢Z(yǔ)義鴻溝”是指圖像如顏色、紋理等的低層視覺特征與高層語(yǔ)義如自然風(fēng)景、建筑物等概念之間的差距,由計(jì)算機(jī)計(jì)算出來的低層特征的相關(guān)性并不能反映出圖像在語(yǔ)義層上的相似性,語(yǔ)義層上的相似性亦無法推斷出低層特征的相關(guān)性。隨著CBIR技術(shù)的發(fā)展,研究人員發(fā)現(xiàn)它在達(dá)到一定的檢索準(zhǔn)確度后無法再提升性能,這個(gè)問題出現(xiàn)的根本原因在于CBIR中用來認(rèn)知圖像的是一些低層的視覺特征,而這些特征與人們用于判斷衡量檢索結(jié)果相關(guān)與否的語(yǔ)義特征存在著明顯的差異。此外,低層視覺特征對(duì)于普通用戶來說通常不便于理解,難以借此來表達(dá)檢索者的需求,因此發(fā)展與實(shí)用進(jìn)程受限。為了盡量縮小語(yǔ)義鴻溝的問題,同時(shí)實(shí)現(xiàn)用戶良好的基于語(yǔ)義關(guān)鍵詞的圖像檢索體驗(yàn),采用圖像自動(dòng)語(yǔ)義標(biāo)注即對(duì)圖像自動(dòng)生成一些語(yǔ)義關(guān)鍵詞或標(biāo)簽來描述某張圖像中主要物體和場(chǎng)景的方法,逐漸引起人們?cè)趫D像檢索領(lǐng)域的廣泛關(guān)注。隨著圖像處理、機(jī)器學(xué)習(xí)、人工智能和自然語(yǔ)言處理等技術(shù)的發(fā)展,近年來圖像語(yǔ)義標(biāo)注的模型呈現(xiàn)出多樣化趨勢(shì),其核心技術(shù)是采用圖像分割、識(shí)別等技術(shù)對(duì)訓(xùn)練集中的圖像數(shù)據(jù)進(jìn)行建模,構(gòu)建一個(gè)低層視覺特征空間與高層語(yǔ)義空間的關(guān)系模型,采用該模型來識(shí)別待標(biāo)注的圖像,并建立自動(dòng)語(yǔ)義標(biāo)注詞匯索引,該方法有效避免了基于人工標(biāo)注的圖像檢索系統(tǒng)所面臨的一系列問題。因此,圖像語(yǔ)義的自動(dòng)標(biāo)注使大規(guī)模圖像數(shù)據(jù)庫(kù)基于語(yǔ)義檢索的應(yīng)用更具現(xiàn)實(shí)性,其基本原理如圖1.5所示。圖像自動(dòng)標(biāo)注技術(shù)吸收了基于文本的圖像檢索中關(guān)鍵字檢索的高效率和基于內(nèi)容的圖像檢索的自動(dòng)化處理兩方面的優(yōu)點(diǎn),其圖像檢索的效率不言而喻??梢灶A(yù)見,圖像自動(dòng)語(yǔ)義標(biāo)注對(duì)于圖像檢索技術(shù)的完善具有關(guān)鍵作用。卜自霎!霧義概念模型圖1.5圖像自動(dòng)語(yǔ)義標(biāo)注5~~~季|一㈨~S 碩士學(xué)位論文第一章緒論1.1.3圖像標(biāo)注技術(shù)的發(fā)展圖像標(biāo)注經(jīng)歷了由傳統(tǒng)的手工生成圖像標(biāo)注信息到自動(dòng)生成圖像標(biāo)注信息的過程。由于目前圖像數(shù)量的飛速增長(zhǎng),人們利用手工生成圖像標(biāo)注信息費(fèi)時(shí)費(fèi)力,所以自動(dòng)圖像標(biāo)注算法對(duì)于基于標(biāo)注算法的圖像檢索技術(shù)具有非常重要的意義。圖像自動(dòng)標(biāo)注(ImageAutomaticAnnotation)是指根據(jù)圖像的低層視覺特征,由計(jì)算機(jī)系統(tǒng)自動(dòng)生成圖像對(duì)應(yīng)的文本標(biāo)注關(guān)鍵詞[13】。一般來講,其標(biāo)注的內(nèi)容通常是與圖像相關(guān)的若干文本詞匯或者圖像類別的信息。由此,圖像進(jìn)行索引和檢索可以采用比較成熟的文本處理技術(shù)?,F(xiàn)有的圖像自動(dòng)標(biāo)注的算法總結(jié)起來可以分為以下幾類:(1)模型生成式圖像標(biāo)注算法。模型生成式圖像標(biāo)注算法的是通過建立圖像與標(biāo)注詞匯共同出現(xiàn)的聯(lián)合概率模型,通過該模型計(jì)算得出概率高的詞匯進(jìn)行圖像的語(yǔ)義標(biāo)注。Duygulu等人提出的基于IBM翻譯模型【14】(TranslationnModel,TM)的圖像標(biāo)注算法實(shí)現(xiàn)了模型生成進(jìn)行圖像語(yǔ)義標(biāo)注的開創(chuàng)性工作。該算法將圖像的標(biāo)注問題視為是從圖像視覺關(guān)鍵詞到語(yǔ)義關(guān)鍵詞的翻譯過程。首先,將訓(xùn)練集中的每幅圖像分割成若干個(gè)區(qū)域,然后采用聚類算法將圖像區(qū)域進(jìn)行聚類,用一個(gè)關(guān)鍵詞(Blob)表示一個(gè)類,這樣連續(xù)特征被轉(zhuǎn)化成離散的Blob詞典組成的特征向量,從而實(shí)現(xiàn)采用圖像視覺特征和標(biāo)注詞之間的關(guān)系對(duì)圖像進(jìn)行語(yǔ)義標(biāo)注。Duygulu等人在文獻(xiàn)[141中還發(fā)布了一個(gè)Corel5K圖像數(shù)據(jù)集,其中包含5000幅圖像和374個(gè)關(guān)鍵詞,由于圖像語(yǔ)義標(biāo)注研究領(lǐng)域?qū)W者的廣泛使用,該數(shù)據(jù)集被視作標(biāo)準(zhǔn)數(shù)據(jù)集。Bamard等人提出了一個(gè)利用MoM.LDA(Multi.modalExtensiontoMixtureofLatentDirichletAllocation)模型進(jìn)行融合的方法[15】生成圖像語(yǔ)義標(biāo)注算法。該方法同樣將訓(xùn)練集圖像分成若干區(qū)域,然后根據(jù)概率算法獲得圖像區(qū)域和標(biāo)注詞的聯(lián)合分布的學(xué)習(xí)模型,并通過該獲得待標(biāo)注圖像的語(yǔ)義標(biāo)注詞。,Putthividhya等人在文獻(xiàn)『15]MoM—LDA模型的基礎(chǔ)上,經(jīng)過大量的研究和實(shí)驗(yàn)論證,又提出了tr-mmLDA(Topic.regressionMulti.modalLatentDlrlchletAllocation)t161模型的圖像標(biāo)注方法,并證實(shí)了該方法的標(biāo)注性能優(yōu)于前者。其主要思想是首先采集圖像和圖像的周邊文本的關(guān)系;然后使用建模的方法建立LDA主題模型,采用線性回歸模塊的方法對(duì)兩組主題集合分別建立關(guān)聯(lián);最后利用這種關(guān)聯(lián)關(guān)系實(shí)現(xiàn)圖像語(yǔ)義標(biāo)注?;谥黝}模型生成的圖像語(yǔ)義自動(dòng)標(biāo)注算法,通過建立標(biāo)注詞和圖像的視覺特征之問的關(guān)系進(jìn)行建模,利用該模型較好的實(shí)現(xiàn)了圖像的語(yǔ)義標(biāo)注。其缺點(diǎn)是模型通常比較復(fù)雜、需要估計(jì)的參數(shù)比較多,進(jìn)而最優(yōu)的潛在主題數(shù)量難以確定。 碩士學(xué)位論文第一章緒論(2)判別模型式圖像標(biāo)注算法。該算法的基本思想是對(duì)每一個(gè)詞匯或類別訓(xùn)練出對(duì)應(yīng)的二元分類器,當(dāng)系統(tǒng)識(shí)別一幅新的圖像時(shí),只要對(duì)每一個(gè)詞匯或類別使用這些分類器來判斷是否應(yīng)該作為該圖像的標(biāo)注,就可以獲得圖像的語(yǔ)義標(biāo)注。Yang等人提出了一種ASVM—MIL(AsyrmnetricalSupportVectorMachine—basedMultiple.InstanceLearningAlgorithm)算法[17】。該算法基于非對(duì)稱支持向量機(jī)為基礎(chǔ)進(jìn)行多實(shí)例學(xué)習(xí),利用多實(shí)例學(xué)習(xí)和非對(duì)稱SVM對(duì)圖像進(jìn)行標(biāo)注。首先將圖像采用一定的圖像分割算法分割為多個(gè)互不重疊的區(qū)域并識(shí)別出其中的顯著區(qū)域,然后手工標(biāo)記出該顯著區(qū)域的分類信息,作為訓(xùn)練數(shù)據(jù)集。把每一區(qū)域細(xì)分成許多互相重疊的小片,每塊小片包含4×4個(gè)像素,該小片的特征描述成HSV顏色空間的分布信息以及對(duì)應(yīng)的梯度信息。在對(duì)每一詞匯對(duì)應(yīng)的二元分類器進(jìn)行訓(xùn)練時(shí),系統(tǒng)采用多個(gè)來自正、負(fù)例區(qū)域的小片來訓(xùn)練SVM模型。由此,測(cè)試圖像中的每個(gè)區(qū)域也采用相同的辦法進(jìn)行分類,以此判斷該詞匯是否可以標(biāo)注到該區(qū)域。綜合測(cè)試圖像中各區(qū)域的標(biāo)注信息,就能得到該圖像的語(yǔ)義標(biāo)注信息。這種方法的弊端在于需要訓(xùn)練大量的分類器,而且需要手工標(biāo)注訓(xùn)練集中圖像區(qū)域的信息,因此該法對(duì)于類別數(shù)較多的情況很難推廣使用。(3)圖模型式的圖像標(biāo)注算法。不同于對(duì)訓(xùn)練集的學(xué)習(xí),基于圖模型的圖像標(biāo)注算法采用圖像間的相似度的學(xué)習(xí)算法,較好的解決了機(jī)器學(xué)習(xí)問題,實(shí)驗(yàn)證實(shí)了這些算法較好的標(biāo)注性能。盧漢清等人提出了基于圖學(xué)習(xí)的圖像標(biāo)注算法框架[I81,該方法獲取圖像的初始標(biāo)注采用圖像問的相似度的圖學(xué)習(xí)的手段,然后考察關(guān)鍵詞之間的語(yǔ)義相關(guān)性,實(shí)現(xiàn)對(duì)已有標(biāo)注結(jié)果進(jìn)行優(yōu)化的目的。Pan等人提出了基于圖模型的圖像標(biāo)注方法[191。該方法將圖像的區(qū)域和標(biāo)注詞作為圖的頂點(diǎn),把圖像分成若干個(gè)語(yǔ)義區(qū)域,結(jié)合區(qū)域間的相關(guān)度構(gòu)造圖模型,實(shí)現(xiàn)自動(dòng)語(yǔ)義識(shí)別。芮曉光等人提出了基于二分圖增強(qiáng)模型的Web圖像標(biāo)注方法【201,在考察圖像的視覺特征與Web圖像的文本信息的基礎(chǔ)之上,使用大規(guī)模的圖像數(shù)據(jù)集,突破標(biāo)注詞詞典的限制,結(jié)合文本信息實(shí)現(xiàn)標(biāo)注。在文獻(xiàn)[20】的研究的基礎(chǔ)之上,Liu等人提出了基于圖學(xué)習(xí)的圖像標(biāo)注方法[2l】。研究圖像之間、圖像與標(biāo)注詞之間以及標(biāo)注詞之間三者的關(guān)系的同時(shí),該方法綜合考慮了這些信息利用流行排序在圖上進(jìn)行傳播,將排序靠前的關(guān)鍵詞賦予圖像,從而實(shí)現(xiàn)圖像的語(yǔ)義標(biāo)注。盡管基于圖模型的圖像語(yǔ)義標(biāo)注方法較好的解決了機(jī)器學(xué)習(xí)的問題,運(yùn)用圖模型進(jìn)行并行處理也明顯提高了機(jī)器的處理速度。但是,在實(shí)際應(yīng)用過程中也存在不足~一時(shí)間和空間復(fù)雜度均較高,這就給真實(shí)世界中的海量圖像標(biāo)注帶來了不少的難題。(4)圖像標(biāo)注的改善算法。圖像語(yǔ)義標(biāo)注改善的基本思想是利用模型生成、 碩士學(xué)位論文第一章緒論判別模型和圖模型等圖像標(biāo)注方法生成多個(gè)候選標(biāo)注詞,這其中的噪聲詞影響標(biāo)注效果,用改善算法去掉它就可以得到優(yōu)化標(biāo)注詞,得到圖像標(biāo)注改善的結(jié)果。分析候選標(biāo)注詞的語(yǔ)義關(guān)系,將相關(guān)度不高的詞匯去掉是最為常用的辦法,不過也有研究者將圖像的視覺特征引入到標(biāo)注改善的過程中。最早提出改善算法的是Jin等,他們?cè)谖墨I(xiàn)[22】中利用知識(shí)的WordNet來進(jìn)行圖像標(biāo)注改善。WordNet是一種結(jié)構(gòu)化的電子詞典,為Princeton大學(xué)的研究成果[231,它因在相對(duì)較小的候選標(biāo)注詞通過計(jì)算基于WordNet的語(yǔ)義距離剃掉不相關(guān)的標(biāo)注而在自然語(yǔ)言處理中得到了廣泛的應(yīng)用。該算法對(duì)彼此高度相關(guān)的標(biāo)注獲得保留,而有效地去除掉了與其它候選標(biāo)注關(guān)聯(lián)程度不高的標(biāo)注詞。但實(shí)驗(yàn)結(jié)果表明,這種方法去除部分的噪聲標(biāo)簽也同時(shí)被刪除的圖像相關(guān)的標(biāo)注詞,這可能會(huì)導(dǎo)致的調(diào)和平均數(shù)的結(jié)果甚至低于優(yōu)化標(biāo)注前。此方法只考慮候選人注解字的候選標(biāo)記間的語(yǔ)義關(guān)系,當(dāng)出現(xiàn)過于集中的干擾詞時(shí)并不能得到一個(gè)比較理想的標(biāo)記的關(guān)鍵詞。Wang等人提出了基于RWR(RandomwalkwithRestans)的圖像標(biāo)注改善算法[24],該算法在利用原始圖像標(biāo)注的置信度和排序方法信息的同時(shí),還用到了特定圖像庫(kù)的信息。但是,盡管此算法一定程度上解決了圖像標(biāo)注后改善過程與待標(biāo)注圖像無關(guān)的問題,并充分考慮到了圖像的標(biāo)注詞與圖像之間的關(guān)系,但是這種方法并未較好的解決標(biāo)注結(jié)果的改善只能從初次的標(biāo)注結(jié)果中選擇的問題,當(dāng)初始標(biāo)注詞含較多噪聲詞時(shí),這種方法就沒法將它們都去除掉。近期,Jin等人提出了KBIAR—MC(KnowledgeBasedImageAnnotationR醯nementusingMaxCutAlgorithm)的算法[’5]【26】[27】。這種基于知識(shí)和圖算法的圖像標(biāo)注改善方法基本思想是使用候選標(biāo)注詞及其語(yǔ)義關(guān)系構(gòu)造帶權(quán)圖,其具體做法詳細(xì)來講就是將圖像標(biāo)注改善問題演變成圖的分割問題,將圖的頂點(diǎn)用最大割算法分為兩部分,選擇較為理想的一部分作為最終標(biāo)注結(jié)果。但是,KBIAR—MC算法也存在以F兩個(gè)問題:一是選擇最大割算法得到的兩個(gè)標(biāo)注詞集合之一用于標(biāo)注的方法并不完全科學(xué),誤選的幾率仍然存在;二是圖像標(biāo)注改善過程中未將圖像的視覺特征信息納入改善算法考核指標(biāo)之中,使得改善算法仍與圖像無關(guān)。1.1.4圖像檢索系統(tǒng)分析圖像檢索系統(tǒng)經(jīng)歷了這些年來的發(fā)展,目前很多系統(tǒng)已經(jīng)投入使用。這些系統(tǒng)經(jīng)由各大公司和研究所開發(fā)問世,并得到不斷地改進(jìn)。隨著時(shí)間的推移,很多新的系統(tǒng)也相繼問世。下面對(duì)這些圖像檢索系統(tǒng)的實(shí)現(xiàn)原理進(jìn)行簡(jiǎn)要的分析。1.QBICQBIC(querybyimagecontent)‘28】是由IBM公司的Almaden研究中心開發(fā)的 碩士學(xué)位論文第一章緒論一個(gè)開放的框架。它可以檢索靜態(tài)的和動(dòng)態(tài)的圖片,自從QBIC問世以來,進(jìn)行了多次改進(jìn)。如今QBIC發(fā)布了一個(gè)軟件開發(fā)包QDK(QBICDevelopmentKit),該軟件包采用C++編寫,開發(fā)者可以用來開發(fā)圖像搜索引擎。QBIC擁有全局和局部顏色、形狀和紋理等多種匹配方式,并且支持BMP、JPG、GIF、PGM等多種格式的圖像查詢。下面是一個(gè)應(yīng)用了QBIC的數(shù)字圖書館,如圖1-6所示。由圖中的說明可以看出,該系統(tǒng)的使用步驟如下:首先使用鼠標(biāo)在調(diào)色板中選定一個(gè)顏色,然后點(diǎn)擊箭頭按鈕將顏色添加到顏色桶中,滑動(dòng)三角型的按鈕調(diào)整顏色的百分比,重復(fù)上述步驟直到顏色桶添加滿顏色為止,即可點(diǎn)擊查詢按鈕進(jìn)行查詢?!?W§l-審t《《《《癱簋煳#S,《o‘o壯^,自^《《#一t^Va#T#《#me*一^o蚋*《#女,t^#cH·圖黑===:。g《涮蜘#£:Ol靜tlr∞蛘礴鞋H《#靜《。351Id世秘《靜i#n秘“融r孰#|ldi镕镕o¨£b#b“《*滯l£#轉(zhuǎn)瘸靜辯懶ep靜rte靠§#囂靜拼}翻l≮eol#“}。4Yourl"i8ym∽8£ih;$p}#《###稍{葫{卿#bu《妊簪}醯繃軋錙h費(fèi)熱譬柏檔囂糖}#蠡腳。㈥《K器e☆憾‰圖1-6qbic顏色查詢2.Netra和ADLADL(AlexandriaDigitalLibrary)[29】亞歷山大數(shù)字圖書館是由加州大學(xué)圣芭芭拉分校開發(fā)的圖像搜索引擎,Netra是ADL的一部分。這個(gè)搜索引擎首先把圖像分割成顏色同質(zhì)的區(qū)域,然后提取這些區(qū)域的色彩、紋理、形狀和空間位置等信息。Netra的使用了量化的RGB顏色空間,量化后,一個(gè)數(shù)字代表一個(gè)顏色區(qū)域。在紋理方面,Netra用特征矢量來表達(dá)一系列歸一化的Gabor小波,形狀方面也用三種特征矢量來進(jìn)行描述。如圖1—7為ALD的一個(gè)應(yīng)用展示。1—————觥HTTPTestFormS4_■■■#*”HomeTheformsonthispage(whichworkunderFirefoxandSafari,butnotTrvitunderlE7?sorry!)exercisetheclientservicesofamiddlewareserver.HTTPtestformsTheservercanbeselectedfromthemenubeloworspecifiedbyRMlcliententeringabaseURL(shouldendwitha’/】.DocumentationAfterselectingaserver。presstheIoadbuttontoIoadtheserver'slnstaltationconfigurationintotheforms(notnecessary,butagreatconvenience).圖1-7ALD的一個(gè)應(yīng)用9 碩士學(xué)位論文第一章緒論3.Photobook和FourEyesPhotobook[30]由MIT的媒體組開發(fā)。它由三種不同的部分組成圖像檢索的內(nèi)容,分別是外觀、2D形狀和紋理。由于前兩種特征很相似,于是就使與一些原型相關(guān)的平均參數(shù)來作為描述符,這些原型通過用協(xié)方差矩陣來顯示一幅圖片空間本體的坐標(biāo)系而獲得。當(dāng)Photobook添加了反饋機(jī)制后,就變成了FourEyes。FourEyes不僅給每幅圖像制定或正或負(fù)的權(quán)重變化,而且對(duì)前查詢過的圖像加以類似的查詢操作。因此,這個(gè)系統(tǒng)的查詢效率提升了。4。MARSMARS(MultimediaAnalysisandRetrievalSystem)[3U是由伊利諾伊大學(xué)香檳校區(qū)計(jì)算機(jī)科學(xué)系開發(fā)的。MARS的應(yīng)用范圍相當(dāng)廣泛,包括圖像數(shù)據(jù)庫(kù)檢索、信息檢索和計(jì)算機(jī)視覺等多個(gè)領(lǐng)域。它支持低層特征(顏色、紋理和形狀)加文字特征的聯(lián)合查詢。其中顏色特征是建立在HSV顏色空問上的2D直方圖,而紋理特征是用兩個(gè)直方圖表達(dá)。其中一個(gè)表示粗糙度,另一個(gè)表示方向。5.VirageViraget32】是由Virage公司開發(fā)研制的開放框架的基于內(nèi)容圖像搜索引擎。它在進(jìn)行一些預(yù)處理后建立一個(gè)圖像索引,這些索引包括基于顏色、顏色布局、紋理和結(jié)構(gòu)等低層的視覺特征。Virage提供了一個(gè)開放的框架讓開發(fā)者可以自由的加入程序補(bǔ)丁,以便解決實(shí)際應(yīng)用中遇到一些具體的問題。Virage支持圖片和視頻搜索,并且用統(tǒng)一的模型來描述這兩種多媒體的特征。6.VisualSeek和WgbSeekVisualSeek和WebSeek[33]是由哥倫比亞大學(xué)圖像和先進(jìn)視覺實(shí)驗(yàn)室開發(fā)的姊妹系統(tǒng)。VisualSeek在數(shù)據(jù)庫(kù)中把每張圖片自動(dòng)分解成多個(gè)有相同顏色域的塊。對(duì)于每一個(gè)塊,把其中的特征屬性和空間屬性提取出來作為后繼的查詢。而WebSeek則通過文本和顏色特征來檢索從網(wǎng)上獲取的圖像和視頻。其使用HSV顏色空間,并且查詢過程與VisualSeek相似。7.BlobworldB10bworld【34】是由加州大學(xué)伯克利分校開發(fā)的。它嘗試通過分割圖像來獲取對(duì)象的含義。為了進(jìn)行恰當(dāng)?shù)姆指?,該系統(tǒng)使用最大期望算法(EM算法)來得到特征空間上聚類的最大似然值。其檢索的特征包括顏色、紋理、位置、形狀區(qū)域即所謂的網(wǎng)格和背景。其使用Lab顏色空間。其紋理特征用區(qū)域上相對(duì)的并且方向各異的特征平均數(shù)來表示,就如同一個(gè)2D軸。形狀方面用近似區(qū)域和方向來表示,該系統(tǒng)也有不同層次的反饋機(jī)制,用戶可以根據(jù)反饋的信息更快地找到自己想要的圖像信息。lO 碩士學(xué)位論文第一章緒論世界上還有很多其它的圖像檢索系統(tǒng),包括中科院計(jì)算技術(shù)研究所數(shù)字化技術(shù)研究室開發(fā)的圖像檢索原型ImageSeek,NECUSAC&C研究實(shí)驗(yàn)室開發(fā)的Amore,阿默斯特的馬薩諸塞大學(xué)開發(fā)的FOCUS,哥倫比亞大學(xué)開發(fā)的MetaSEEk,瑞士的熱那亞大學(xué)開發(fā)的Viper,等等。1.2本文工作21世紀(jì)是信息爆炸的世紀(jì),信息越是豐富,人們就越難及時(shí)搜索到自己所需要的信息,圖像檢索系統(tǒng)就是針對(duì)當(dāng)前圖像信息的急劇增加和日益的無序化而發(fā)展起來的。本文從構(gòu)思圖像檢索系統(tǒng)的設(shè)計(jì)出發(fā),對(duì)圖像數(shù)據(jù)庫(kù)的管理(這里主要是實(shí)現(xiàn)和完成圖像的自動(dòng)標(biāo)注)和實(shí)現(xiàn)快速的基于內(nèi)容檢索方式進(jìn)行了研究。圖像視覺特征的識(shí)別和圖像內(nèi)容的表達(dá)是決定圖像自動(dòng)標(biāo)注的性能優(yōu)劣的關(guān)鍵所在,其標(biāo)注算法的優(yōu)越性可以有效的縮小“語(yǔ)義鴻溝”問題。本文的主要研究?jī)?nèi)容可以歸納為以下兩個(gè)方面:(1)基于本體的自動(dòng)圖像標(biāo)注方法。我們提出了一種新的圖像本體標(biāo)注的框架,結(jié)合領(lǐng)域本體中語(yǔ)義概念的關(guān)系,通過層次的概率篩選來獲得準(zhǔn)確的圖像高層語(yǔ)義的概念標(biāo)注,實(shí)現(xiàn)圖像的語(yǔ)義標(biāo)注。在圖像自動(dòng)標(biāo)注階段中,我們分成兩個(gè)階段進(jìn)行標(biāo)注:第一次標(biāo)注時(shí),我們首先對(duì)給定的一幅待標(biāo)注圖像進(jìn)行基元提取,獲取圖像基元,然后通過貝葉斯(Bayes)原理的方法獲取圖像和圖像中概念的后驗(yàn)概率,用概率較大的語(yǔ)義對(duì)該圖像進(jìn)行標(biāo)注;第二次標(biāo)注時(shí),結(jié)合領(lǐng)域本體中概念之間的語(yǔ)義關(guān)系,采用圖像二次標(biāo)注的方法,獲取圖像的高層語(yǔ)義,從而完成待標(biāo)注圖像語(yǔ)義的自動(dòng)標(biāo)注。(2)基于內(nèi)容的圖像檢索系統(tǒng)設(shè)計(jì)。本文設(shè)計(jì)實(shí)現(xiàn)了一個(gè)基于內(nèi)容的圖像檢索系統(tǒng)原型,應(yīng)用{ava語(yǔ)言、MyEclipse集成開發(fā)環(huán)境以及MySQL數(shù)據(jù)庫(kù)系統(tǒng)等平臺(tái),通過集成圖像顏色與紋理特征的識(shí)別算法,采用數(shù)據(jù)庫(kù)對(duì)圖像特征進(jìn)行存儲(chǔ)和管理,從而提高了系統(tǒng)的檢索效率。本系統(tǒng)分為四個(gè)模塊,即查詢模塊、匹配模塊、圖像特征管理模塊和顯示模塊,這些模塊通過系統(tǒng)環(huán)境實(shí)現(xiàn)其功能,并且根據(jù)不同的用戶查詢方式提供了不同的查詢界面,不同的界面連接到對(duì)應(yīng)的匹配子模塊,實(shí)現(xiàn)了基于內(nèi)容的圖像檢索功能。1.3本文的組織結(jié)構(gòu)本文一共分為五章,文章的結(jié)構(gòu)以及各章的主要內(nèi)容安排如下:第一章緒論。主要介紹了課題的背景和意義,對(duì)圖像檢索技術(shù)和設(shè)計(jì)圖像語(yǔ)義檢索的關(guān)鍵技術(shù)——圖像自動(dòng)標(biāo)注技術(shù)的發(fā)展進(jìn)行了闡述,簡(jiǎn)要介紹了現(xiàn)有的 碩士學(xué)位論文第一章緒論圖像檢索系統(tǒng)。最后簡(jiǎn)要概述了本文主要工作。第二章相關(guān)工作及關(guān)鍵技術(shù)。主要討論了基于語(yǔ)義的圖像檢索的基本實(shí)現(xiàn)方式,對(duì)于涉及圖像檢索技術(shù)中特征提取的關(guān)鍵技術(shù)和圖像檢索性能的評(píng)價(jià)指標(biāo)進(jìn)行了介紹。第三章圖像語(yǔ)義標(biāo)注方法研究。主要提出一種新的圖像語(yǔ)義自動(dòng)標(biāo)注的框架,結(jié)合圖像本體中概念之問的語(yǔ)義關(guān)系,采用二次標(biāo)注的方法完成對(duì)圖像語(yǔ)義的自動(dòng)標(biāo)注,并對(duì)標(biāo)注性能進(jìn)行了對(duì)比評(píng)價(jià)。第四章圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。討論如何設(shè)計(jì)并實(shí)現(xiàn)圖像檢索系統(tǒng),用語(yǔ)言逐步實(shí)現(xiàn)之前所選擇的算法,完成用戶查詢接口、圖特征提取、圖像管理、檢索流程和檢索結(jié)果等功能的實(shí)現(xiàn)。并通過使用流程圖展示本系統(tǒng)的使用流程,截圖介紹系統(tǒng)的界面、系統(tǒng)使用方法、使用流程以及該系統(tǒng)查詢的結(jié)果,并進(jìn)行了簡(jiǎn)要分析。第五章總結(jié)與展望。在總結(jié)全文的基礎(chǔ)上,對(duì)本文的主要工作和研究成果進(jìn)行了全面的總結(jié)。最后,對(duì)未來仍需要開展的工作進(jìn)行了展望。 碩士學(xué)位論文第二章相關(guān)工作及關(guān)鍵技術(shù)基于語(yǔ)義的圖像檢索技術(shù),是從圖像的顏色、形狀、紋理等低層視覺特征出發(fā)來獲取圖像的高層語(yǔ)義,而后在圖像數(shù)據(jù)庫(kù)中檢索到所需圖像的一種技術(shù)。其關(guān)鍵是選取合適的圖像低層特征并能讓計(jì)算機(jī)識(shí)別出圖像的高級(jí)語(yǔ)義出來,然后采用匹配算法從圖像庫(kù)中檢索出有效圖像。其中,圖像自動(dòng)標(biāo)注(AutomaticImageAnnotation)就是有效的解決圖像特征提取從而找到圖像語(yǔ)義關(guān)鍵詞描述的主要手段,是基于語(yǔ)義的圖像檢索的關(guān)鍵技術(shù)。因此圖像的自動(dòng)標(biāo)注過程對(duì)于實(shí)現(xiàn)基于語(yǔ)義的圖像檢索系統(tǒng)具有極其重要的意義。2.1基于語(yǔ)義的圖像檢索的基本方式基于語(yǔ)義的圖像檢索系統(tǒng)在進(jìn)行圖像檢索時(shí),不外乎就是采用圖像查詢所需圖像或者圖像語(yǔ)義查詢的方式。其基本工作原理可簡(jiǎn)要表述如下:(1)圖像查詢所需圖像(Que巧byImage)。簡(jiǎn)單的說,即“以圖搜圖”[35】。其主要原理是用戶根據(jù)需要?jiǎng)?chuàng)建一張自己的圖像,這張圖像可以用相機(jī)拍攝、網(wǎng)絡(luò)下載或是電腦制作等等,然后提交圖像檢索系統(tǒng),系統(tǒng)根據(jù)用戶所提供的圖像,反饋出查詢結(jié)果。目前Google和百度均推出的以圖搜圖功能類似如此。其基本原理如圖2.1所示:-曼鬻一▲匹配擴(kuò)充Y,一一~、、j鎰辮二=>—_歹≮。一檢索廠一一~、特征庫(kù)圖像數(shù)據(jù)庫(kù)\、—————————一。、、——————————/7圖2.1基于語(yǔ)義檢索方式圖像查詢所需圖像(2)語(yǔ)義查詢所需圖像(Querybysemantic)。語(yǔ)義查詢涉及到圖像的高級(jí)特征——語(yǔ)義特征[36】。一般情況下,用戶輸入圖片的一些高級(jí)語(yǔ)義特征如太陽(yáng)、大海等語(yǔ)義關(guān)鍵詞,系統(tǒng)根據(jù)用戶的輸入,找到擁有這些高級(jí)語(yǔ)義特征的圖片。這種方式與基于文本的圖像檢索的區(qū)別在于圖像數(shù)據(jù)庫(kù)的圖像為自動(dòng)語(yǔ)義標(biāo)注生成的標(biāo)簽,而非手工注明的圖像關(guān)鍵詞。其基本原理如圖2.2所示: 碩士學(xué)位論文第二章相關(guān)工作及關(guān)鍵技術(shù)圖2.2基于語(yǔ)義檢索方式語(yǔ)義查詢所需圖像2.2圖像語(yǔ)義標(biāo)注的基本框架由計(jì)算機(jī)可以識(shí)別的圖像低層視覺特征推導(dǎo)出其語(yǔ)義描述關(guān)鍵詞,是實(shí)現(xiàn)圖像自動(dòng)標(biāo)注的宗副371。我們可以將圖像語(yǔ)義標(biāo)注分成兩個(gè)流程即模型訓(xùn)練和語(yǔ)義標(biāo)注。在模型訓(xùn)練階段,計(jì)算機(jī)從訓(xùn)練圖像集中學(xué)習(xí)圖像低層特征與語(yǔ)義關(guān)鍵詞之間的關(guān)系,建立標(biāo)注模型;在語(yǔ)義標(biāo)注階段,對(duì)于提交的待標(biāo)注的圖像,標(biāo)注模型通過識(shí)別,獲得圖像的語(yǔ)義標(biāo)注詞。待標(biāo)注圖像訓(xùn)練樣本一憋豳圖像訓(xùn)練——_!r——,,,7一?、一—卜標(biāo)注模型?一一一卜{圖像標(biāo)簽‘、、~?一擴(kuò)充識(shí)別T標(biāo)注素材庫(kù)℃歹、~———————一———一’圖2.3基于語(yǔ)義的圖像標(biāo)注的基本框架圖像自動(dòng)標(biāo)注基本框架流程可簡(jiǎn)要看成如圖2.3所示。訓(xùn)練樣本通過標(biāo)注模型得到標(biāo)注素材,構(gòu)建標(biāo)注素材庫(kù)。標(biāo)注素材庫(kù)中包含了圖像的視覺特征和圖像的語(yǔ)義標(biāo)注詞兩部分信息,但是待標(biāo)注圖像中,僅包括其視覺特征。圖像低層特14 碩士學(xué)位論文第二章相關(guān)工作及關(guān)鍵技術(shù)征表達(dá)方式和標(biāo)注模型學(xué)習(xí)能力決定了圖像標(biāo)注的性能。圖像中提取出來的視覺特征能否反映出圖像各異的視覺屬性,是圖像標(biāo)注的關(guān)鍵所在。圖像標(biāo)注的核心問題是訓(xùn)練標(biāo)注模型,標(biāo)注模型的學(xué)習(xí)能力是標(biāo)注的準(zhǔn)確度高與低的決定因素。盡管如此,圖像低層特征和高層語(yǔ)義在實(shí)際情況下的真實(shí)關(guān)系要從有限的訓(xùn)練集中學(xué)習(xí)出來是非常困難的,尋找能正確反映出彼此關(guān)系的模型是圖像語(yǔ)義標(biāo)注的重要研究?jī)?nèi)容。2.3圖像特征描述圖像特征是圖像檢索系統(tǒng)中的基礎(chǔ)也是最重要的一部分,選取一個(gè)優(yōu)良的特征不僅可以提高檢索準(zhǔn)確率,還可以縮短系統(tǒng)檢索的時(shí)間,因此,要想設(shè)計(jì)出一個(gè)好的圖像檢索系統(tǒng),首先必須選擇一個(gè)合適的圖像特征?;谡Z(yǔ)義的圖像檢索與圖像自動(dòng)標(biāo)注的基礎(chǔ)就是圖像視覺的特征。下面我們對(duì)圖像的低層視覺特征諸如顏色、紋理、形狀等以及高級(jí)語(yǔ)義特征分別進(jìn)行研究。2.3.1顏色特征描述使用顏色來表達(dá)一幅圖像的內(nèi)容在日常生活最為常見,因?yàn)槿缃癫噬珗D片廣為流行,并且基本的顏色就給人視覺效果的同時(shí)表達(dá)出豐富的圖像內(nèi)容。我們首先介紹圖像檢索中所利用的幾種常見的顏色空間【381。首先是RGB顏色空間,RGB是一種面向硬設(shè)備的最常用模型,也是計(jì)算機(jī)和圖像處理領(lǐng)域最常用的顏色空間。RGB三種顏色是根據(jù)人眼對(duì)不同波段光的感受來進(jìn)行劃分的。由于人眼對(duì)紅、綠、藍(lán)三種顏色敏感度最高,我們常常用紅、綠、藍(lán)三種基色作為彩色顯示的基礎(chǔ),稱之為RGB顏色模型【391。圖2-4RGB顏色空間模型15 碩士學(xué)位論文第二章相關(guān)工作及關(guān)鍵技術(shù)RGB色彩空間可以用一個(gè)三維立方體來描述【401。但是這種表達(dá)方式并不符合人的視覺特點(diǎn)。人眼對(duì)光線的強(qiáng)弱并不是非常敏感,而r、g、b顏色空間會(huì)因亮度的改變而產(chǎn)生很大變化。因此,人們?cè)O(shè)計(jì)了其它不同的色彩空間表示法。通常HSL和HSV顏色空間比較符合人眼視覺特征,這兩種顏色空問比較相似,但又有各自的特點(diǎn)。其中H指hue(色相)、S指saturation(飽和度)、L指lightness(亮度)、V指value(色調(diào))【4l】。色相(H)是色彩的基本屬性,就是我們通常所說的顏色名稱,如紅色、綠色、藍(lán)色等等。色彩的純度表示為飽和度(S),飽和度越高則色彩越純,否則逐漸變灰,取值范圍為0.100%。明度(v),取值范圍亦為0.100%。HSL和HSV二者均把顏色描述成圓柱坐標(biāo)系內(nèi)的點(diǎn),這個(gè)圓柱的中心軸取值范圍是自底部的黑色到頂部的白色,其中間是過渡顏色,“色相”表示為繞這個(gè)軸的角度,“飽和度”表示為到軸的距離,如圖2—5所示,“亮度”、“色調(diào)”或者“明度”表示為沿著這個(gè)軸的高度,如圖2-6所示。,圖2-5HSV顏色空間模型圖2-6HSL顏色空間模型RGB顏色空間可以實(shí)現(xiàn)HSL和HSV的轉(zhuǎn)換【42]。其定義是對(duì)R,G和B的坐標(biāo)在RGB顏色空間中進(jìn)行變換。設(shè)(r,g,b)分別是一個(gè)像素的紅、綠和藍(lán)坐標(biāo),它們的取值范圍是0至1之間的實(shí)數(shù)。假設(shè)max相當(dāng)于r,g和b中的最大者,min相當(dāng)于r,g和b中的最小者。這里的h是角度,取值范圍是『0,360),而S,l為飽和度和亮度,取值范圍在0.1之間,要計(jì)算出HSL空間中的(h,S,11值,把RGB模型轉(zhuǎn)換為HSL顏色模型的公式如下:f-三(m觚+rain)(2-1) 碩士學(xué)位論文第二章相關(guān)工作及關(guān)鍵技術(shù)h=S=0。,600×maX=mlng——bmaX—mln+0。.max=rNg≥b1:7一D60。×—旦÷+360。,max=,.Ng一2一《maX+minl2—2l’。2上述公式實(shí)現(xiàn)的偽代碼片段如圖2.7所示:圖2—7RGB模型轉(zhuǎn)化為HSL偽代碼(2.3)HSV的H和HSL顏色空間的計(jì)算方法相同,但是S和V的計(jì)算方法有所不同,其公式如下:17 碩士學(xué)位論文第二章相關(guān)工作及關(guān)鍵技術(shù)s_{警!進(jìn)(2-4)v=max(2.5)這是HSV空間的s與v的公式,公式轉(zhuǎn)換為偽代碼如圖2—8所示。其中,圖中H代碼與HSL相同,不同的是S和V。2.3.2形狀特征描述圖2—8V顏色模型偽代碼形狀是描述圖像內(nèi)容主要方法,是圖像的最基的本特征【431,也是計(jì)算機(jī)視覺和模式識(shí)別研究的基本問題之一。許多物體盡管顏色不一致,但是其會(huì)有相同的基本形狀。由于很多事物的圖像顏色特征并不明顯,比如一些生物醫(yī)學(xué)影像,基本都是灰度圖像,在這些情況下顏色特征就無法表達(dá)圖像內(nèi)容,此時(shí)就可以借助形狀特征進(jìn)行描述。具體到物體的形狀特征,選擇時(shí)就要用到邊緣檢測(cè)和濾波。由于邊緣檢測(cè)對(duì)噪聲十分敏感,用濾波把噪聲濾掉再進(jìn)行邊緣檢測(cè)會(huì)收到很好的效果。物體的形狀也包括很多參數(shù),一些簡(jiǎn)單的集合參數(shù)如:周長(zhǎng)、方向、面積、周長(zhǎng)等,這些參數(shù)比較粗糙,雖然容易理解,但是效果并不理想。還有一些數(shù)學(xué)參數(shù),如拐點(diǎn),角點(diǎn)和重,th,等,這些計(jì)算雖然比較復(fù)雜,但是能夠比較好的刻畫一個(gè)物體的形狀。使用形狀特征來查詢的典型方式之一是用素描草圖來進(jìn)行查詢,素描中主要是圖像的大致形狀,因此集合形狀特征進(jìn)行檢索會(huì)收到比較理想的效果。對(duì)于人類的感知而言,形狀的視覺感知和理解具有非常重要的作用。在人的視覺系統(tǒng)中,幾個(gè)簡(jiǎn)單的線條和輪廓,就可以讓人辨別出一樣事物。因此,人們一直在研究形狀檢測(cè)的方法。現(xiàn)在,形狀檢測(cè)基本包括邊緣檢測(cè)、濾波和圖像分割。邊緣可以描述為圖像中那沿某一特定方形局部變化顯著的位置。局部變化越強(qiáng)烈,越能證明這一位置存在邊緣。而那些局部變化不強(qiáng)烈的地方,就將其統(tǒng)一為一個(gè)值。這就需要一個(gè)邊緣檢測(cè)的閩值,邊緣檢測(cè)閾值的大小需要通過實(shí)驗(yàn)來確定。閾值小,能夠檢測(cè)出的線條就越多,這樣結(jié)果也越容易受到噪聲的影響。 碩士學(xué)位論文第二章相關(guān)工作及關(guān)鍵技術(shù)閾值大,受到噪聲影響小,這樣線條也相對(duì)會(huì)較少。形狀特征也有其自身的缺點(diǎn),一個(gè)物體從不同角度描述會(huì)有不同的形狀,因此,一般的形狀會(huì)受到角度變化的影響。現(xiàn)在許多學(xué)者致力于研究平移不變性、旋轉(zhuǎn)不變性、尺度不變性等“三個(gè)不變性”問題[441。此外,一些邊緣檢測(cè)方法雖然可以檢測(cè)出邊緣但并非等同于目標(biāo)的真實(shí)邊緣,而是和人的視覺效果存在一定的差異。研究出的邊緣檢測(cè)算法既能符合人的視覺特征,又能快速應(yīng)用于大型數(shù)據(jù)集是現(xiàn)在一個(gè)特點(diǎn)。這需要大量的實(shí)驗(yàn)以及更多的理論推導(dǎo),來找到最佳的邊緣檢測(cè)算法【4引。目前,有關(guān)圖像形狀的表示方法主要有傅里葉描述符(FourierShapeDescriptors)$[1形狀不變矩(Momentinvariants)。傅里葉描述符就要用到傅里葉變換,在離散信號(hào)中就要用到離散傅里葉變換。函數(shù)g(x)的傅里葉變換如下:1,+∞G(∞)2赤J一。g(x)宰[cos(cox)中sin(cox)]dx一“(2-6)1,.m2赤J。g(z)屹1“dx使用傅里葉變換時(shí),通常需要傅里葉變換的反變換,即函數(shù)g(x)可以從傅里葉頻譜G(co)經(jīng)過反傅里葉變換完全重建,公式如下:咖,2擊£Gc礦陋sc計(jì)汽缸硼如協(xié)7,=擊£G(妒嚴(yán)如在數(shù)字圖像處理中所有的信號(hào)都是離散的信號(hào),我們應(yīng)用的是傅里葉變換的離散形式,稱之為DT,如下:G(咖面IM芻-I咖礦[coS(幼mMu-i(2萬(wàn)百mumu-/*sin))]G(咖面芻咖礦H幼M(2萬(wàn)百’j1=面1緲m1∥2z:瓠
此文檔下載收益歸作者所有