資源描述:
《“回歸”一詞的由來》由會員上傳分享,免費在線閱讀,更多相關內容在應用文檔-天天文庫。
1、“回歸”一詞的由來袁衛(wèi)摘自《北京統(tǒng)計》1998年第9期在統(tǒng)計學中,相關與回歸是經(jīng)典的內容,也是應用最為廣泛的統(tǒng)計方法之一。但是,國內教材卻很少講到回歸方法的起源。英國著名遺傳學家弗朗西斯·高爾頓爵士(SirFrancisGalton,1822-1911)在子女與父母相像程度遺傳學研究方面,取得了重要進展。高爾頓的學生卡爾·皮爾遜(KarlPearson,1857-1936)在繼續(xù)這一遺傳學研究的過程中,測量了1078個父親及其成年兒子的身高。他們之間的數(shù)量關系見圖1(K.PearsonandA.Lee,“Onth
2、elawsofinheritanceinman”Biometrika,partii(1903)pp.357-462)圖11078對父子身高的散點圖圖中每一個點代表一對父子的身高關系。橫軸的X坐標是父親的身高,縱軸的Y坐標給出的是兒子的身高。我們看到,多數(shù)點子位于角平分斜線的兩側橢圓形面積之內,落在斜線上的點子極少,即兒子與父親身高完全相同的極少。由點子落在斜線周圍還說明,高個子的父親有著較高身材的兒子,而矮個子父親的兒子身材也比較矮。同時,我們也看到一些遠離斜線的點子,這些點子反映的是父親的身高與兒子的身高相差甚
3、遠的情況。比如高個子的父親有矮兒子的情況,或者矮父親有高個兒子的情況。圖1中散點圖給出父子身高的關系圖,但圖中給出的父親身高和兒子身高兩個變量的關系還是比較直觀的,相關系數(shù)r就是對兩個變量間線性相關關系緊密程度的度量。相關系數(shù)r的計算公式為:式中分子部分為X和Y兩具變量的協(xié)方差,分母部分是X和Y兩個變量標準差的乘積。由于協(xié)方差是X和Y兩個變量與其均值離差乘積的數(shù)學期望,它受X和Y兩個變量度量單位大小的影響,因而在分母上除以X和Y兩個變量的標準差,就將相關系數(shù)r轉化成從-1到1之間的相對數(shù)值。實際數(shù)據(jù)計算的結果為r
4、=0.501,表明高個子的父親會有較高的兒子,矮身材的父親其兒子身體也不會很高,但這一正相關的關系并不十分明顯。那么,父子身高之間有什么規(guī)律呢?經(jīng)過對1078對父子身高數(shù)據(jù)的計算,得到:父親的平均身高=67.6英寸≈68英寸,標準差SX=2.74≈2.7英寸兒子的平均身高=68.7英寸≈69英寸,標準差SY=2.81≈2.8英寸(1英寸=2.54厘米)我們看到,兒子的平均身高比父親高一英寸,表明下一代的平均身高比上一代要高。這樣,我們會自然地猜測72英寸的父親平均會有73英寸的兒子;64英寸的父親平均會有65英寸
5、的兒子,等等。那我們看一看圖2中的情況:圖2父子身高回歸效應的圖示圖2中斜虛線是父子平均身高推測的關系線,即58英寸父親有59英寸的兒子,59英寸的父親有60英寸的兒子,等等。在父親身高64英寸和72英寸處的兩個條形虛線,表明64英寸高父親和72英寸高父親的兒子們身高的分布情況。首先來看64英寸高父親的兒子們身高分布。我們看到,在這一條線虛線柱內的點子多數(shù)分布在斜虛線的上方,表明64英寸高父親的兒子們的身高多數(shù)高于65英寸,即較矮父親的兒子們多數(shù)比父親身材要高。接下來再看72英寸父親的兒子們身高分布,在這條虛線柱
6、內的點了多數(shù)分布在斜虛線的下方,表明72英寸高父親的兒子們的身高多數(shù)低于73英寸,甚至多數(shù)低于與父親同樣高度的72英寸,即較高父親的兒子們多數(shù)比父親身材要矮。高爾頓和波爾遜把這種現(xiàn)象稱為“回歸效應”,即回歸到一般高度的效應。圖2中的實線即回歸直線。這條回歸線的含義是:對于每一身高父親所對應的虛線柱內若干兒子身高點子的分布,回歸直線是從這些點子中間穿過的。換句話說,回歸直線上的點是當給定某一Xi值時(即父親身高值),對應的若干Yi值(即兒子身高值)與之(直線上點Y值記為值)離差平方和最小的直線,即我們的回歸直線是求
7、要對上式求最小,微積分的知識告訴我們要求其偏導數(shù)并令其為零。即:整理這一聯(lián)立方程得到由于已知r=0.501,SX=2.74,SY=2.81,則則父子身高的回歸方程為該回歸方程就是圖2中的回歸線(實線)。當X1=58時,=63.8;當X2=64時,=66.86。當X3=72時,=70.94。這些回歸方程上的值實際上是當Xi確定后,若干Yi的平均值。這一回歸直線和回歸方程表明,矮個子父親的兒子們平均身高會比父輩低一些,高個子父親的兒子們平均身高會比父輩低一些,即兒子們的身高會向平均值回歸。我們的讀者必然會問,現(xiàn)代人一
8、代比一代高,為什么高個子父親的兒子們平均身高要比父輩低呢?細心的讀者不難發(fā)現(xiàn),當時高爾頓和皮爾遜做研究時只觀察了父親和兒子的身高,并沒有考慮母親的身高。實際上,高個子父親的太太可能是較高的女性,也可能是較低的女性。反之,矮個子父親的太太可能是矮個子,也可能是較高的身材。而兒子的身高既受父親遺傳的影響,也受母親遺傳的影響,這就是為什么兒子們身高會發(fā)生“回歸”的原因。類似的回