資源描述:
《信息檢索11-語言模型.ppt》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、第12講基于語言建模的IR模型LanguageModelsforIR2017/10/17提綱上一講回顧語言模型基于統(tǒng)計建模的IR模型SLMIR模型討論提綱上一講回顧語言模型基于統(tǒng)計建模的IR模型SLMIR模型討論概率檢索模型概率檢索模型是通過概率的方法將查詢和文檔聯(lián)系起來定義3個隨機變量R、Q、D:相關度R={0,1},查詢Q={q1,q2,…},文檔D={d1,d2,…},則可以通過計算條件概率P(R=1
2、Q=q,D=d)來度量文檔和查詢的相關度。概率模型包括一系列模型,如LogisticRegr
3、ession(回歸)模型及最經典的二值獨立概率模型BIM、BM25模型等等(還有貝葉斯網絡模型)。1998出現(xiàn)的基于統(tǒng)計語言建模的信息檢索模型本質上也是概率模型的一種。4概率排序原理(PRP)簡單地說:如果文檔按照與查詢的相關概率大小返回,那么該返回結果是所有可能獲得結果中效果最好的。嚴格地說:如果文檔按照與查詢的相關概率大小返回,而這些相關概率又能夠基于已知數據進行盡可能精確的估計,那么該返回結果是所有基于已知數據獲得的可能的結果中效果最好的。5幾種概率檢索模型基于Logistic回歸的檢索模型經
4、典的二值獨立概率模型BIM經典的BM25模型(BestMatch25)6Logistic回歸IR模型7基本思想:為了求Q和D相關的概率P(R=1
5、Q,D),通過定義多個特征函數fi(Q,D),認為P(R=1
6、Q,D)是這些函數的組合。Cooper等人提出一種做法*:定義log(P/(1-P))為多個特征函數的線性組合。則P是一個Logistic函數,即:*WilliamS.Cooper,FredricC.Gey,DanielP.Dabney,Probabilisticretrievalbasedon
7、stagedlogisticregression,ProceedingsofACMSIGIR'92,p.198-210,June21-24,1992,Copenhagen,DenmarkBIM模型(續(xù))8對每個Q定義排序(Ranking)函數RSV(Q,D):其中,P(D
8、R=1)、P(D
9、R=0)分別表示在相關和不相關情況下生成D的概率。Ranking函數顯然是隨著P(R=1
10、D)的增長而增長。兩種常用的文檔生成的總體分布多元貝努利分布(Multi-variateBernoullidistribu
11、tion)詞項詞典大小為M,M個不規(guī)則硬幣分別對應M個詞項,第i個硬幣朝上的概率為pi假設M=4(四個詞項分別為Iyoucanfly),p1=0.7,p2=0.4,p3=0.1,p4=0.05則:P(Icanflyfly)=0.7*(1-0.4)*0.1*0.05多元貝努利分布不考慮出現(xiàn)位置多元貝努利分布考慮出現(xiàn)和不出現(xiàn)9兩種常用的文檔生成的總體分布(續(xù))多項式分布(Multinomialdistribution)詞項大小為M,某個不規(guī)則骰子共有M個面,每個面對應一個詞項(假設每次拋擲必有某個面穩(wěn)定
12、朝上或下),第i個面朝上的概率為pi假定M=4(四個詞項分別為Iyoucanfly),p1=0.4,p2=0.3,p3=0.2,p4=0.1則:P(Icanflyfly)=P(X1=1,X2=0,X3=1,X4=2)=C*0.4*0.2*0.1*0.1其中C==12多項式分布考慮詞項的多次出現(xiàn)多項式分布不考慮詞項的不出現(xiàn)多項式分布同樣不考慮詞項的出現(xiàn)位置和次序10BIM模型(續(xù))11將D看成,于是注:P(ti
13、R=1)表示在相關情況下,ti出現(xiàn)在文檔中的概率(也就是說某個、或者某幾個P(ti
14、R=1
15、)可以為1),注意:不是在相關文檔集合中出現(xiàn)的概率,因此所有P(ti
16、R=1)的總和不為1。這個可以和前面拋硬幣的過程對照一下就明白了。piqi參數的計算ri(35)ni-ri(165)Ri-ri(65)N-Ri-ni+ri(235)12相關Ri(100)不相關N-Ri(400)包含tini(200)不包含tiN-ni(300)引入平滑因子其中,N、ni分別是總文檔以及包含ti的文檔數目。Ri、ri分別是相關文檔及相關文檔中包含ti的文檔數目。括號中列舉的數值是給出的一個總文檔數目為500的計算例子
17、。則:理想情況下,可以將整個文檔集合根據是否和查詢相關、是否包含ti分成如下四個子集合,每個集合的大小已知。piqi參數的計算(續(xù))由于真實情況下,對于每個查詢,無法事先得到相關文檔集和不相關文檔集,所以無法使用理想情況下的公式計算,因此必須進行估計有多種估計方法初始檢索:第一次檢索之前的估計基于檢索結果:根據上次檢索的結果進行估計13piqi參數的計算(續(xù))14初始情況:檢索初始并沒有相關和不相關文檔集合,此時可以進行假設:pi是常數,qi近似等于termi在所有文