置信區(qū)間在推理統(tǒng)計(jì)中的應(yīng)用

推理統(tǒng)計(jì)數(shù)據(jù)的名稱來(lái)源于此統(tǒng)計(jì)分支中發(fā)生的事情。推理統(tǒng)計(jì)不是簡(jiǎn)單地描述一組數(shù)據(jù),而是試圖根據(jù)統(tǒng)計(jì)樣本推斷出有關(guān)人口的某些信息。推論統(tǒng)計(jì)中的一個(gè)具體目標(biāo)涉及確定未知總體參數(shù)的值。我們用來(lái)估計(jì)這個(gè)參數(shù)的值的范圍稱為置信區(qū)間。

置信區(qū)間的形式

置信區(qū)間由兩部分組成。第一部分是人口參數(shù)的估計(jì)。我們通過(guò)使用簡(jiǎn)單的隨機(jī)樣本獲得此估計(jì)值。從這個(gè)樣本中,我們計(jì)算出與我們希望估計(jì)的參數(shù)相對(duì)應(yīng)的統(tǒng)計(jì)量。例如,如果我們對(duì)美國(guó)所有一年級(jí)學(xué)生的平均身高感興趣,我們將使用美國(guó)一年級(jí)學(xué)生的簡(jiǎn)單隨機(jī)樣本,測(cè)量所有這些樣本,然后計(jì)算樣本的平均身高。

置信區(qū)間的第二部分是誤差范圍。這是必要的,因?yàn)槲覀儐为?dú)的估計(jì)可能與總體參數(shù)的真實(shí)值不同。為了允許參數(shù)的其他潛在值,我們需要生成一系列數(shù)字。誤差范圍是這樣做的,每個(gè)置信區(qū)間都有以下形式:

估計(jì)±誤差幅度

估計(jì)值位于區(qū)間的中心,然后我們從該估計(jì)值中減去并添加誤差范圍,以獲得參數(shù)的值范圍。

置信水平

附加到每個(gè)置信區(qū)間是一個(gè)信心水平。這是一個(gè)概率或百分比,表明我們應(yīng)該歸因于我們的置信區(qū)間的確定性。如果情況的所有其他方面相同,則置信水平越高,置信區(qū)間越寬。

這種信心水平可能會(huì)導(dǎo)致一些混亂。這不是關(guān)于抽樣程序或人口的陳述。相反,它表明了建立置信區(qū)間的過(guò)程的成功。例如,從長(zhǎng)遠(yuǎn)來(lái)看,置信度為80%的置信區(qū)間將每五次錯(cuò)過(guò)真實(shí)的總體參數(shù)。

從理論上講,從零到一的任何數(shù)字都可以用于置信水平。在實(shí)踐中,90%,95%和99%都是共同的信心水平。

誤差范圍

置信水平的誤差幅度由幾個(gè)因素決定。我們可以通過(guò)檢查誤差范圍的公式來(lái)看到這一點(diǎn)。錯(cuò)誤范圍的形式是:

誤差范圍=(置信水平統(tǒng)計(jì))*(標(biāo)準(zhǔn)偏差/誤差)

置信水平的統(tǒng)計(jì)量取決于使用何種概率分布以及我們選擇的置信水平。例如,如果C是我們的置信水平并且我們使用正態(tài)分布,則C優(yōu)生健康知識(shí)是曲線下面積介于-z*z*。這個(gè)數(shù)字z*是我們的誤差范圍公式中的數(shù)字。

標(biāo)準(zhǔn)偏差或標(biāo)準(zhǔn)誤差

我們的誤差范圍所需的另一個(gè)術(shù)語(yǔ)是標(biāo)準(zhǔn)偏差或標(biāo)準(zhǔn)誤差。我們正在使用的分布的標(biāo)準(zhǔn)偏差在這里是**。但是,通常來(lái)自群體的參數(shù)是未知的。在實(shí)踐中形成置信區(qū)間時(shí),這個(gè)數(shù)字通常不可用。

為了解決知道標(biāo)準(zhǔn)偏差的這種不確定性,我們改為使用標(biāo)準(zhǔn)誤差。對(duì)應(yīng)于標(biāo)準(zhǔn)偏差的標(biāo)準(zhǔn)誤差是該標(biāo)準(zhǔn)偏差的估計(jì)值。標(biāo)準(zhǔn)錯(cuò)誤如此強(qiáng)大的原因在于它是從用于計(jì)算我們估計(jì)值的簡(jiǎn)單隨機(jī)樣本計(jì)算得出。沒(méi)有額外的信息是必要的,因?yàn)闃颖緸槲覀冏隽怂械墓烙?jì)。

不同的置信區(qū)間

有各種不同的情況需要置信區(qū)間。這些置信區(qū)間用于估計(jì)許多不同的參數(shù)。雖然這些方面不同,但所有這些置信區(qū)間都以相同的整體格式統(tǒng)一起來(lái)。一些常見(jiàn)的置信區(qū)間是人口平均數(shù),人口方差,人口比例,兩種人口均值的差異和兩種人口比例的差異。