資源描述:
《混合策略納什均衡》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在教育資源-天天文庫。
1、第二節(jié)混合策略納什均衡的求解方法二、支付最大化法例:撲克牌對色游戲(p77)無純策略NE給定混合策略p甲=(r,1-r);p乙=(q,1-q)π甲(p甲,p乙)=r[q?(-1)+(1-q)?1]+(1-r)[q?1+(1-q)?(-1)]=2r(1-2q)+(2q-1)π乙(p甲,p乙)=q[r?1+(1-r)?(-1)]+(1-q)[r?(-1)+(1-r)?1]=2q(2r-1)-(2r-1)混合策略納什均衡是甲在策略空間{紅,黑}上以概率分布p甲*=(1/2,1/2)進行選擇,乙也在策略空間{紅,黑}上以概率p乙*=(1/2,1/2)進行選擇解:Maxπ甲(p甲,p乙)r
2、q*=1/2f.o.c.1-2q=0Maxπ乙(p甲,p乙)qr*=1/2f.o.c.2r-1=0第二節(jié)混合策略納什均衡的求解方法二、反應對應法例:撲克牌對色游戲(p77)無純策略NE給定混合策略p甲=(r,1-r);p乙=(q,1-q)π甲(p甲,p乙)=2r(1-2q)+(2q-1)整理原則:一項含r,一項不含rπ乙(p甲,p乙)=2q(2r-1)-(2r-1)整理原則:一項含q,一項不含q按照NE的條件,一個策略組合如過是一個NE,那么其中的每一個策略都是參與人針對其他參與人策略組合的最優(yōu)反應,在純策略NE中,這個“最優(yōu)反應”可能是一個具體的純策略(離散情形),也可能是一個
3、反應函數(shù)(reactionfunction,如連續(xù)情形、古諾模型)。而在一個混合策略NE中,這個“最優(yōu)反應”將是一個概率或很多個概率——被稱為“反應對應”(reactioncorrespondence)第二節(jié)混合策略納什均衡的求解方法二、反應對應法例:撲克牌對色游戲(p77)先看甲的最優(yōu)反應,記為r*=R(q):觀察π甲(p甲,p乙)=2r(1-2q)+(2q-1)rq01(紅)1(紅)1/21/2r*=R(q)反應對應曲線第二節(jié)混合策略納什均衡的求解方法二、反應對應法例:撲克牌對色游戲(p77)再看乙的最優(yōu)反應,記為q*=R(r):觀察π乙(p甲,p乙)=2q(2r-1)-(2
4、r-1)rq01(紅)1(紅)1/21/2q*=R(r)反應對應曲線第二節(jié)混合策略納什均衡的求解方法二、反應對應法例:撲克牌對色游戲(p77)作為NE,各個參與人的反應應該同時為最優(yōu),只有兩個反應對應的交點滿足NE:r*=1/2,q*=1/2NE支付為:π甲(p甲,p乙)=2r(1-2q)+(2q-1)=0π乙(p甲,p乙)=2q(2r-1)-(2r-1)=0rq01(紅)1(紅)1/21/2q*=R(r)r*=R(q)第二節(jié)混合策略納什均衡的求解方法二、反應對應法作業(yè):社會福利博弈。使用反應對應法找到納什均衡。流浪漢尋找工作游蕩救濟政府不救濟3,2-1,3-1,10,0第三節(jié)尋
5、找多重納什均衡例:情侶博弈兩個(多個)純策略納什均衡問題:納什均衡找完了嗎?有無混合策略納什均衡?一、支付最大化法給定混合策略p陳明=(r,1-r);p鐘信=(q,1-q)Maxπ陳明(p陳明,p鐘信)=r[3q+(1-q)]+(1-r)[0+2(1-q)]=r(4q-1)+2(1-q)Maxπ鐘信(p陳明,p鐘信)=q(2r+0)+(1-q)[r+3(1-r)]=q(4r-3)+(3-2r)NE:(r*,q*)=(3/4,1/4)二、反應對應法rq第三節(jié)尋找多重納什均衡二、反應對應法:情侶博弈先看陳明的最優(yōu)反應,記為r*=R(q):π陳明(p陳明,p鐘信)=r(4q-1)+2(
6、1-q)rq01(鐘信德語)1(陳明德語)1/4r*=R(q)第三節(jié)尋找多重納什均衡二、反應對應法:情侶博弈再看鐘信的最優(yōu)反應,記為q*=R(r):π鐘信(p陳明,p鐘信)=q(4r-3)+(3-2r)rq01(鐘信德語)1(陳明德語)1/4q*=R(r)3/4第三節(jié)尋找多重納什均衡二、反應對應法:情侶博弈反應對應曲線有三個交點:三個NE:r*=0,q*=0純策略(確定性)r*=3/4,q*=1/4混合策略(不確定性)r*=1,q*=1純策略(確定性)rq01(鐘信德語)1(陳明德語)1/43/4r*=R(q)q*=R(r)第三節(jié)尋找多重納什均衡二、反應對應法:情侶博弈支付的帕累
7、托優(yōu)勢:初步印象π陳明=r(4q-1)+2(1-q),π鐘信=q(4r-3)+(3-2r)r*=0,q*=0純策略(確定性)雙方NE支付:π陳明*=3,π鐘信*=2r*=3/4,q*=1/4混合策略(不確定性)雙方NE支付:π陳明*=3/2,π鐘信*=3/2r*=1,q*=1純策略(確定性)雙方NE支付:π陳明*=2,π鐘信*=3純策略納什均衡比混合策略納什均衡具有支付優(yōu)勢,這稱為帕累托優(yōu)勢如果博弈同時存在純策略納什均衡和混合策略納什均衡,前者往往得到優(yōu)先考慮第三節(jié)尋找多重納什均