資源描述:
《中南大學(xué)研究生應(yīng)用統(tǒng)計(jì)課件》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、數(shù)理統(tǒng)計(jì)的基本概念與抽樣分布§1.1引言什么是數(shù)理統(tǒng)計(jì)學(xué)?它的研究內(nèi)容有哪些?這是每位初學(xué)者所關(guān)心的問題。我們先看一個(gè)這樣的例子:某鋼筋廠每天可以生產(chǎn)某型號鋼筋10000根,鋼筋廠每天需要對生產(chǎn)過程進(jìn)行控制,對產(chǎn)品的質(zhì)量進(jìn)行檢驗(yàn)。如果把鋼筋的強(qiáng)度作為鋼筋質(zhì)量的重有指標(biāo),于是質(zhì)量管理人員需要做如下方面的工作第一,對生產(chǎn)出來的鋼筋的強(qiáng)度進(jìn)行檢測,獲得必要的數(shù)據(jù)。這里有兩種獲得數(shù)據(jù)的方法,⑴對10000根鋼筋的強(qiáng)度均進(jìn)行檢測,可得到10000個(gè)強(qiáng)度數(shù)據(jù),這種檢測方式稱為全面試驗(yàn),全面地進(jìn)行試驗(yàn)一般是不可取的,它費(fèi)時(shí)、費(fèi)力、甚至于不可能。⑵從10000根鋼筋中抽取一部分鋼筋進(jìn)行檢測,得到部分
2、強(qiáng)度數(shù)據(jù)。這里抽取部分鋼筋進(jìn)行檢測的方式稱為抽樣。抽取的方式也有很多種方法,它是數(shù)理統(tǒng)計(jì)的一個(gè)重要內(nèi)容,形成了試驗(yàn)設(shè)計(jì)與抽樣理論。第二,對通過抽樣獲取的部分?jǐn)?shù)據(jù)進(jìn)行整理、分析并推斷出這10000根鋼筋的質(zhì)量是否合乎要求。由于抽取的數(shù)據(jù)不全面,并且檢測過程中每個(gè)數(shù)據(jù)還有測量誤差(我們稱為隨機(jī)誤差)。含有隨機(jī)誤差的數(shù)據(jù)會給我們帶來一定影響,并且難以獲得準(zhǔn)確的結(jié)論。概率論就是解決這些問題主要數(shù)學(xué)工具。為解決這些問題所發(fā)展起來的理論和方法就構(gòu)成了數(shù)理統(tǒng)計(jì)的內(nèi)容。一般說來,數(shù)理統(tǒng)計(jì)是以概率論為主要的數(shù)學(xué)工具,研究如何有效地收集、整理和分析受隨機(jī)影響的數(shù)據(jù),并對所考慮的問題作出推斷和預(yù)測,為決策
3、和行動提供依據(jù)和建議的一門數(shù)學(xué)學(xué)科。數(shù)理統(tǒng)計(jì)方法的應(yīng)用十分廣泛,幾乎在人類活動的一切領(lǐng)域都能不同程度地找到它的應(yīng)用。英國著名的統(tǒng)計(jì)學(xué)家費(fèi)歇(R.A.Fisher)和皮爾遜(K.Pearson)是數(shù)理統(tǒng)計(jì)的奠基人,在20世紀(jì)初從事大量的數(shù)理統(tǒng)計(jì)方法的研究,就是出于在生物學(xué)、數(shù)量遺傳學(xué)、優(yōu)生學(xué)和農(nóng)業(yè)科學(xué)的需要。數(shù)理統(tǒng)計(jì)的內(nèi)容十分豐富,一般可分為兩大類:一類是抽樣理論與試驗(yàn)設(shè)計(jì);另一類是統(tǒng)計(jì)推斷,其中包括估計(jì)理與假設(shè)檢驗(yàn)等?;貧w分析、方差分析、Bayes分析,聚類分析,主成分分析等是數(shù)理統(tǒng)計(jì)的應(yīng)用分支?!?.2總體、個(gè)體、樣本1.21總體與個(gè)體我們把所研究對象的全體稱為總體或母體。組成總體
4、的每個(gè)單元稱為個(gè)體。例如:在研究某批燈泡的質(zhì)量時(shí),該批燈泡的全體就是問題的總體,而其中每個(gè)燈泡就是個(gè)體。又如:在研究某校男大學(xué)生的身高與體重的分布時(shí),該校的每個(gè)男大學(xué)生就是一個(gè)個(gè)體,所有這些個(gè)體就構(gòu)成了問題的總體。在實(shí)際問題中,我們關(guān)心的常常是總體的某項(xiàng)或幾項(xiàng)數(shù)量指標(biāo)X(可以是向量)。例如,在研究燈泡的質(zhì)量時(shí),我們關(guān)心的是燈泡的使用壽命X,而不是它的外觀。在研究某校男大學(xué)生的身高與體重時(shí),我們關(guān)心的是它們的身高和體重,而不是其它特征。而數(shù)量指標(biāo)X對不同的個(gè)體,其指標(biāo)值是不同的,因而X可看作一個(gè)隨機(jī)變量。(或隨機(jī)向量),X的概率分布就完全描述了總體中指標(biāo)X的取值情況。稱X的概率分布為總
5、體分布,稱X的數(shù)字特征稱為總體的數(shù)字特征。當(dāng)X為離散型隨機(jī)變量時(shí)稱總體為離散總體;當(dāng)X為連續(xù)型隨機(jī)變量時(shí),稱總體為連續(xù)總體。當(dāng)總體分布為正態(tài)分布時(shí),稱總體為正態(tài)總體,當(dāng)總體分布為指數(shù)分布時(shí),稱總體為指數(shù)分布總體等。對總體進(jìn)行研究就是對總體的分布或?qū)傮w的數(shù)字特征進(jìn)行研究。1.2.2樣本從總體中抽取的一部分個(gè)體稱為樣本或者子樣,其中所含個(gè)體的個(gè)數(shù)稱為樣本容量。從總體中抽取樣本的過程稱為抽樣。樣本和總體一樣也是考慮其數(shù)量指標(biāo),如果記為樣本中第個(gè)個(gè)體的數(shù)量指標(biāo),則表示樣本容量為n的樣本,它可以看作是對總體X作n次觀測的結(jié)果,它的值隨著從總體中抽取的對象的不同而不同。因此,它是隨機(jī)變量,然而
6、,一旦確定抽取對象后,我們就得到一組具體的數(shù)值,它可以看作是隨機(jī)變量的一組觀測值,有時(shí)也稱為樣本。因此,從某種意義上來說,樣本具有二重性:隨機(jī)性和確定性。注意樣本的這種二重性非常重要。對理論工作者而言,他更多注意的是它的隨機(jī)性,他所得到的統(tǒng)計(jì)方法應(yīng)有一定的普遍性,不單純針對某些具體樣本觀測值。而對應(yīng)用工作者而言,他們雖然習(xí)慣把樣本看成具體數(shù)字,但仍不能忘記樣本的隨機(jī)性,要不然對那些雜亂無章的數(shù)據(jù)無法進(jìn)行統(tǒng)計(jì)處理。數(shù)理統(tǒng)計(jì)的實(shí)質(zhì)就是利用樣本的信息去研究總體,去研究總體的某種性能。樣本的“好”與“不好”對推斷總體影響很大。怎樣才是“好”的樣本?定義1.1設(shè)總體X的樣本滿足⑴獨(dú)立性:每次觀
7、測結(jié)果既不影響其它結(jié)果,也不受其它結(jié)果的影響;即相互獨(dú)立;⑵代表性:中每一個(gè)個(gè)體都與總體X有相同分布。則稱此樣本為簡單隨機(jī)樣本。例如,在N根鋼筋中抽取n根鋼筋進(jìn)行檢測,如果進(jìn)行有放回抽樣即每次隨機(jī)地從N根鋼筋中抽取一根鋼筋,檢測后放回并混勻,然后再從中抽取。這樣得到的樣本就是簡單隨機(jī)樣本。如果采取無放回抽樣即每次抽取一根鋼筋,檢測后不放回,然后再從剩余中抽取一根或者隨機(jī)地從N根鋼筋中一次性抽取n根鋼筋,得到的樣本就不是簡單隨機(jī)樣本。但N很大,n相對較小時(shí)無