二項(xiàng)分布的正態(tài)近似

已知具有二項(xiàng)分布的隨機(jī)變量是離散的。這意味著可以在二項(xiàng)分布中發(fā)生可數(shù)目的結(jié)果,這些結(jié)果之間存在分離。例如,二項(xiàng)變量可以取值為3或4,但不能取3到4之間的數(shù)字。

利用二項(xiàng)式分布的離散特性,連續(xù)隨機(jī)變量可用于近似二項(xiàng)式分布有點(diǎn)令人驚訝。對(duì)于許多二項(xiàng)式分布,我們可以使用正態(tài)分布來(lái)近似二項(xiàng)式概率。

當(dāng)查看n投幣機(jī)并讓X為頭數(shù)時(shí),可以看到這一點(diǎn)。在這種情況下,我們有一個(gè)成功概率為p=0.5的二項(xiàng)式分布。隨著我們?cè)黾油稊S次數(shù),我們看到概率直方圖與正態(tài)分布越來(lái)越相似。

正常近似的陳述

每個(gè)正態(tài)分布完全由兩個(gè)實(shí)數(shù)定義。這些數(shù)字是衡量分布中心的平均值,以及衡量分布分布范圍的標(biāo)準(zhǔn)差。對(duì)于給定的二項(xiàng)式情況,我們需要能夠確定使用哪個(gè)正態(tài)分布。

正確正態(tài)分布的選擇取決于二項(xiàng)式設(shè)置中的試驗(yàn)次數(shù)n,以及每個(gè)試驗(yàn)的恒定成功概率p。我們二項(xiàng)變量的正態(tài)近似值是np的平均值和(np(1-p0.5的標(biāo)準(zhǔn)偏差。

例如,假設(shè)我們猜測(cè)多項(xiàng)選擇測(cè)驗(yàn)的100個(gè)問(wèn)題中的每一個(gè),其中每個(gè)問(wèn)題在四個(gè)選擇中都有一個(gè)正確的答案。正確答案的數(shù)量X是一個(gè)二項(xiàng)式隨機(jī)變量,n=100 andp=0.25。因此,該隨機(jī)變量的平均值為100(0.25)=25,標(biāo)準(zhǔn)偏差為(100(0.25)(0.75))0.5=4.33。均值25和標(biāo)準(zhǔn)差4.33的正態(tài)分布將用于近似該二項(xiàng)式分布。

近似值何時(shí)合適?

通過(guò)使用一些數(shù)學(xué),可以證明我們需要使用二項(xiàng)分布的正態(tài)近似的一些條件。觀測(cè)值n必須足夠大,并且p的值使得npn(1-p)大于或等于10。這是一個(gè)經(jīng)驗(yàn)法則,以統(tǒng)計(jì)實(shí)踐為指導(dǎo)。可以始終使用正態(tài)近似,但是如果不滿足這些條件,則近似可能不是近似的那么好。

例如,如果n=100和p=0.25,則我們使用正態(tài)近似來(lái)證明這一點(diǎn)。這是因?yàn)?em>n p=25和n(1-p)=75。由于這兩個(gè)數(shù)字都大于10,適當(dāng)?shù)恼龖B(tài)分布將在估計(jì)二項(xiàng)式概率方面做得相當(dāng)好。

為什么使用近似值?

通過(guò)使用非常直接的公式來(lái)計(jì)算二項(xiàng)式概率以找到二項(xiàng)式系數(shù)。不幸的是,由于公式中的因子,使用二項(xiàng)式公式很容易遇到計(jì)算困難。正態(tài)近似允許我們通過(guò)與熟悉的朋友(標(biāo)準(zhǔn)正態(tài)分布的值表)一起工作來(lái)繞過(guò)任何這些問(wèn)題。

人民幣的小知識(shí)

很多時(shí)候,確定二項(xiàng)式隨機(jī)變量落在值范圍內(nèi)的概率是很繁瑣的計(jì)算。這是因?yàn)橐业揭粋€(gè)二項(xiàng)變量96 X 97大于3且小于10的概率,我們需要找到98 X 99的概率等于4、5、6、7、8和9,然后將所有這些概率加在一起。如果可以使用正態(tài)近似,我們將需要確定對(duì)應(yīng)于3和10的z分?jǐn)?shù),然后使用z分?jǐn)?shù)概率表進(jìn)行標(biāo)準(zhǔn)正態(tài)分布。