Lec14_text_classification

Lec14_text_classification

ID:40353465

大?。?53.91 KB

頁數(shù):10頁

時間:2019-07-31

Lec14_text_classification_第1頁
Lec14_text_classification_第2頁
Lec14_text_classification_第3頁
Lec14_text_classification_第4頁
Lec14_text_classification_第5頁
資源描述:

《Lec14_text_classification》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。

1、OutlineTextClassificationand?BasicConcepts?TextClassificationSentimentAnalysis?TextRepresentation?FeatureSelection?ClassificationAlgorithmRuiXia?SentimentAnalysisrxia@njust.edu.cn?TraditionalMethods2013.11.23?NewChallenges?NewDirections2Real-worldPR&MLApplicationsStructureofAPR&M

2、LSystemTrainingSamples(LabeledPatterns)FeatureFeatureClassPatternClassifierRepresentationSelectionLabel34ATextClassificationSystemOutline?BasicConcepts?TextClassification?TextRepresentation?FeatureSelection?ClassificationAlgorithm?SentimentAnalysis?TraditionalMethods?NewChallenge

3、s561TextRepresentationTermWeight?VectorSpaceModel(VSM)?BOOL(presence)?1,iftexistsinidk???kialsocalledBag-of-words(BOW)model?0,otherwise?Termfrequency(TF)??tfkiki?InversedocumentN??logfrequency(IDF)idfiN?TF-IDF??tf?logkikidfi78AnExampleofTextRepresentationAnExampleofTR(cont.)?Trai

4、ningdata(labeleddocuments)?Bagofwords(containing40words)教育體育19582008奧林匹克北京博弈場地創(chuàng)創(chuàng)建大學北京理工大學計算機北京理工大學體育館的第四第五東亞奪冠高校計算機獎牌屆錦專業(yè)創(chuàng)建于1958年是2008年中國北京奧標賽軍團理工男女年排球設立是雙雙體育是中國最早設立計算林匹克運動會的排球館新高學子于預賽運動會在之一中中國專機專業(yè)的高校之一預賽場地業(yè)總數(shù)最早北京理工大學學子在第五屆東亞運動會中第四屆中國計算機博國軍團獎牌總數(shù)創(chuàng)新弈錦標賽中奪冠高男女排球雙雙奪冠910OutlineFeature

5、Selection-FrequencyFilter?BasicConcepts?DocumentFrequency(DF)?TextClassificationFeaturesarerankedaccordingtoitsDocument?TextRepresentationFrequencyinthetrainingcorpus?FeatureSelection?TermFrequency(TF)?DocumentalFrequency(DF)?MutualInformation(MI)FeaturesarerankedaccordingtoitsTe

6、rm?InformationGain(IG)Frequencyinthetrainingcorpus?ClassifierDesign?Shortcomings?SentimentAnalysisUnsupervised-lackoftheclassinformation11122BasicProbabilityEstimateConceptsfromInformationTheory?Entropy?AstatistictableforfeaturetandclasscPc()j?(Aij?Cij)NallHX()???px()log()pxijxPt

7、()?(A?B)Niijijall?JointEntropyPt()?(C?D)NclassiijijallfeaturecjcjA?1HXY(,)????pxy(,)log(,)pxyPc(

8、)t?ijxyABjitiijijAij?Bij?C?ConditionalEntropyC?1tCDijiijijPc(j

9、)ti?HYX(

10、)??pxHYX()(

11、?x)????pxy(,)log(

12、)pyxC?D?CijijxxyHYX(

13、)?HXY(,)?HX()1314FeatureSelection-MIFeatureSelection-IG?Mutu

14、alInformation(MI)?InformationGain(IG)MIo

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。
相關文章
更多
相關標簽