資源描述:
《基于語義的網(wǎng)絡(luò)流行語趨勢(shì)分析.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、、'X一:,占:輪^.戶Vr.峨年、心於巧種百‘.;>::-於.—心,;:,,説1:,每爲(wèi)^&;參歌護(hù)嘆導(dǎo)題嶋羣蕉奪裝茲敏論誦攀蘇VM,乂乂於薄瞧雜靡‘議’^J.;々%護(hù)碩丈研巧生學(xué)位論支.氣'''''方-治二T>::繁劈:#沿滬黃;r滬;獵'■'.占■心巧---'■躬::..■、巧T2\'K節(jié)實(shí)y.矜穀^f準(zhǔn)豕'-’'、.巧;金粹皆;心,;苦^巧堿獻(xiàn)二\^雜、輪績(jī)義書每^:幾^、;、.謂譯麵齡或‘殘館纖釋鈍桑為..'.一''護(hù).’:,v味心,:;知如雄早
2、鍵睹冷.嚴(yán):基于語義的網(wǎng)絡(luò)流行語趨勢(shì)分柄;普勞巧反:f,—^.::■'‘'’':-.:''-取'^命'1::苗馬繡拓迄< ̄讀等衰更巧-議養(yǎng)靡讓編戀挈網(wǎng)’峰學(xué)'掙等付請(qǐng)子常鍵義霉難崇議誦賺義m-,爾‘學(xué)爭(zhēng)2〇141104010^務(wù)方誇;.?輪品;苗,,唉\苗£;皆遠(yuǎn)雜雀娩觸辨);,^苗發(fā)雜辦績(jī)資荀韋:’;軟件工程V./^八巧教S向V.v,心說葬逼單.-、.段建勇:山,編部設(shè):;取辦一八嘴夢(mèng)瑪賴觀藏I‘'。.';.''.、.^’、'^^/V.'切、;;^:'鐘;>:皆聲碼.
3、V巧兵‘r.:?v;::打:3^;域?yàn)槭迹?,呼;;;2蚊案6月12鼻辦麗義薪.纖燙I.私龍職該:辨響巧乂.皆3敎婷舞;巧滬f爾蠟訟興V;與私祥琪斬茂讀為挺誤議緯麵議議議騎藝攀‘:議猶論議接論論變變卿,雜蕊權(quán)額屬置擁我"'■-■\:^r;V^KV..北方工業(yè)大學(xué)學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行硏究工作所取得的成果。除文中己經(jīng)注明引用的內(nèi)容外,本論文不含任何其他個(gè)人或集體己經(jīng)發(fā)表或撰寫過的作品成果。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集
4、體,均己在文中W明確方式標(biāo)明。本人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名:日期:2>0/)年月作日學(xué)位論文使用授權(quán)書學(xué)位論文作者完全了解北方工業(yè)大學(xué)有關(guān)保留和使用學(xué)位論文的規(guī)定.即:研究生在校攻讀學(xué)位期間論文工作的知識(shí)產(chǎn)權(quán)單位屬北方工業(yè)大學(xué)。學(xué)校有權(quán)保留并向國(guó)家有關(guān)部口或機(jī)構(gòu)送交論文的復(fù)印件和電子版,義許學(xué)位論文被查閱和借閱;學(xué)??桑坠紝W(xué)位論文的全部或部分內(nèi)容可W允許采,用影巧、縮印或其它復(fù)制手段保存、匯編學(xué)位論文(保密的學(xué)位論文在解密.后適用于本授權(quán)書)。□保密論文注
5、釋;經(jīng)本乂申請(qǐng)批準(zhǔn),學(xué)校,本學(xué)位論文定為保密論文,密級(jí):期限:曰起至年月曰.年,自年月止后適用本授權(quán)書。,解密^非保密論文注釋:本學(xué)位論文不屬于保密范圍.適用本授權(quán)書。<本人簽名:付末〇日期:WA/心■、導(dǎo)師簽名;日期:I。!—!叫、戶I基于語義的網(wǎng)絡(luò)流行語趨勢(shì)分析摘要在自然語言處理方面,構(gòu)建可計(jì)算的詞語、文本語義特征是多數(shù)自然語言一處理任務(wù)的基礎(chǔ)。本文提出種詞語語義相似度計(jì)算方法,通過結(jié)合文本之外的先驗(yàn)知識(shí),提高在特征稀疏情況下的模型準(zhǔn)確率;同時(shí)結(jié)合詞語語義相似
6、度entn-Mean計(jì)算與LDA(LatDirichletAllocatio定義文本間的語義距離,通過Ks聚)類獲取語料中的事件。兩個(gè)方法可W結(jié)合外部知識(shí)改進(jìn)對(duì)詞語、文本向量化的過程,提升基于向量的相似度計(jì)算的效果。論文的兩個(gè)主要方面分別為:。改進(jìn)詞語語義相似度計(jì)算:向量化是詞語的語義可計(jì)算的關(guān)鍵本文提出一了種結(jié)合詞語關(guān)系的改進(jìn)詞語語義向量計(jì)算法。該方法基于Word2Vec的思路,在通過當(dāng)前詞語預(yù)測(cè)上下文詞語的基礎(chǔ)上,同時(shí)預(yù)測(cè)詞語在詞語關(guān)系中的鄰接位置。模型將詞語經(jīng)過編碼矩陣得到語義向量,再經(jīng)過
7、解碼矩陣得到對(duì)上下文詞語與詞語關(guān)系等稀疏特征的預(yù)測(cè)。通過模型參數(shù)對(duì)誤差的梯度來迭代調(diào)整模型,最終得到詞語到語義向量的映射方法。該方法可W用過添加額外的詞語關(guān)系網(wǎng)來緩解文本本身的特征稀疏情況,提高詞語語義相似度計(jì)算的準(zhǔn)確性。改進(jìn)基于LDA的事件發(fā)現(xiàn):基于LDA的事件發(fā)現(xiàn)是通過LDA模型得到文本。的主題詞向量,并通過主題詞向量之間的余弦距離聚類得到文本簇的方法本文提出了一種融合了詞語語義相似度計(jì)算與詞語在頻域特征的文本語義距離計(jì)算方法,進(jìn)而改進(jìn)了基于LDA的事件發(fā)現(xiàn)算法。首先將文本根據(jù)時(shí)間窗分割后進(jìn)
8、行LDA計(jì)算得到文本的主題詞向量,并根據(jù)融合詞語語義相似度的距離定義進(jìn)行K-Mean聚類得到時(shí)間窗粒度的事件后根據(jù)主題詞的詞頻特征合并時(shí)間s;然。>窗粒度的事件,最終得到事件該方法可^1通過融合1額外文本中的詞語語義相似度信息,改善對(duì)短文本事件發(fā)現(xiàn)的準(zhǔn)確性。