兩種人口比例差異的置信區(qū)間

置信區(qū)間是推論統(tǒng)計的一部分。本主題背后的基本思想是使用統(tǒng)計樣本估計未知總體參數(shù)的值。我們不僅可以估計參數(shù)的值,但我們也可以調(diào)整我們的方法來估計兩個相關(guān)參數(shù)之間的差異。例如,我們可能希望找到支持特定立法的美國男性**人口與女性**人口相比所占百分比的差異。

我們將通過為兩個人口比例的差異構(gòu)建置信區(qū)間來看到如何進(jìn)行這種類型的計算。在此過程中,我們將研究此計算背后的一些理論。我們將看到在如何構(gòu)建置信區(qū)間方面的一些相似之處對于單一人口比例以及信心兩種人口均值差的區(qū)間。

通用性

在查看我們將使用的特定公式之前,讓我們考慮這種類型的置信區(qū)間所適合的總體框架。我們將看到的置信區(qū)間類型的形式由下式給出:

估計+/-誤差范圍

許多置信區(qū)間都是這種類型的。我們需要計算兩個數(shù)字。這些值中的第一個是參數(shù)的估計值。第二個值是誤差幅度。這個誤差幅度說明了我們確實(shí)有一個估計值。置信區(qū)間為我們提供了一系列未知參數(shù)的可能值。

Conditions

在進(jìn)行任何計算之前,我們應(yīng)該確保滿足所有條件。要找到兩個人口比例差異的置信區(qū)間,我們需要確保以下內(nèi)容成立:

    我們有兩個來自大量人口的簡單隨機(jī)樣本這里"大"意味著人口至少比樣本大小大20倍。樣本容量用35 n 36和37 n 38表示。我們的個人是彼此獨(dú)立選擇的。我們每個樣本至少有十個成功和十個失敗。43

如果列表中的**一項(xiàng)不滿足,那么可能有一種方法可以解決這個問題。我們可以修改正四置信區(qū)間構(gòu)造并獲得穩(wěn)健的結(jié)果。隨著我們前進(jìn),我們假設(shè)所有上述條件都已滿足。

樣本和人口比例

現(xiàn)在我們準(zhǔn)備好構(gòu)建我們的置信區(qū)間。我們從估計人口比例之間的差異開始。這兩個人口比例都是通過樣本比例來估計的。這些樣本比例是通過將每個樣本中的成功次數(shù)除以相應(yīng)樣本大小而找到的統(tǒng)計數(shù)據(jù)。

第一個種群比例用60 p 61表示。如果我們從這個種群中獲得的成功數(shù)是62 k 63,那么我們的樣本比例就是64 k 65 66/n 67

我們用p?表示這個統(tǒng)計量。我們把這個符號讀為"p-hat"因?yàn)樗雌饋硐耥敳坑忻弊拥姆杙。

以類似的方式,我們可以計算第二個種群的樣本比例,這個種群的參數(shù)是76 p 77,如果我們從這個種群的樣本中獲得成功的數(shù)量是78 k 79,我們的樣本比例是p 80 k 81 82/n 83

這兩個統(tǒng)計數(shù)據(jù)成為我們置信區(qū)間的第一部分。p的估計值為p?。p的估計值為p?,因此差異p-p的估計值為p?-p?

樣本比例差異的抽樣分布

氖xt我們需要獲得誤差裕度的公式。為此,我們將首先考慮p?的采樣分布。這是一個二項(xiàng)分布,成功概率pn試驗(yàn)。這種分布的平均值是比例p。這種隨機(jī)變量的標(biāo)準(zhǔn)差方差p(1-p)/n。

p?的抽樣分布與p?的抽樣分布相似。簡單地將所有指數(shù)從1變?yōu)?,我們有一個二項(xiàng)式分布,均值方差p(1-p)/n

為了確定p?-p?的抽樣分布,我們現(xiàn)在需要數(shù)學(xué)統(tǒng)計的一些結(jié)果。該分布的平均值為p-p。由于方差加在一起,我們看到采樣分布的方差是p(1-p)/n+p(1-p)/n分布的標(biāo)準(zhǔn)偏差是這個公式的平方根。

我們需要做一些調(diào)整。首先,p?-p?的標(biāo)準(zhǔn)差公式使用pp的未知參數(shù)。當(dāng)然,如果我們真的知道這些值,那么這根本不是一個有趣的統(tǒng)計問題。我們不需要估計pp之間的差異,而是可以簡單地計算出確切的差異。

這個問題可以通過計算標(biāo)準(zhǔn)誤差而不是標(biāo)準(zhǔn)偏差來解決。我們需要做的就是用樣本比例代替總體比例。標(biāo)準(zhǔn)誤差是根據(jù)統(tǒng)計而不是參數(shù)計算出來的。標(biāo)準(zhǔn)誤差是有用的,因?yàn)樗行У毓烙嬃藰?biāo)準(zhǔn)偏差。這對我們來說意味著我們不再需要知道參數(shù)pp。由于這些樣本比例是已知的,因此標(biāo)準(zhǔn)誤差由以下表達(dá)式的平方根給出:

p?(1-p?)/n+p?(1-p?)/n

我們需要解決的第二個問題是我們的抽樣分布的特定形式。事實(shí)證明,我們可以使用正態(tài)分布來近似p?-p?的抽樣分布。其原因有些技術(shù)性,但概述如下一段。

元旦小知識

p?和p?都具有二項(xiàng)式的抽樣分布。這些二項(xiàng)式分布中的每一個都可以通過正態(tài)分布很好地近似。因此p?-p?是一個隨機(jī)變量。它被形成為兩個隨機(jī)變量的線性組合。這些都是通過正態(tài)分布來近似的。因此抽樣p?-p?的分布也是正態(tài)分布的。

置信區(qū)間公式

估計值是(p?-p?),誤差范圍是z*[p?(1-p?)/n+p?(1-p?)/n]0.5。我們輸入z*的值取決于置信水平C.204>z*的常用值是1 1-p?(1-p?)/n]0.5。我們輸入z*201>的值取決于置信水平C.零點(diǎn)**五對于90%置信度和1.96對于95%置信度。z*的這些值表示標(biāo)準(zhǔn)正態(tài)分布的部分,其中恰好C分布的百分比在-z之間*z**

以下公式為我們提供了兩個人口比例差異的置信區(qū)間:

(p?-p?)+/-z*[p?(1-p?)/n+p?(1-p?)/n]0.5

311