統(tǒng)計(jì)中的相關(guān)性是什么?
有時(shí)數(shù)字?jǐn)?shù)據(jù)是成對(duì)的。也許古生物學(xué)家測(cè)量同一恐龍物種的五個(gè)化石中股骨(腿骨)和肱骨(臂骨)的長(zhǎng)度。將手臂長(zhǎng)度與腿部長(zhǎng)度分開(kāi)考慮,并計(jì)算諸如平均值或標(biāo)準(zhǔn)偏差之類(lèi)的事情可能是有意義的。但是,如果研究人員很想知道這兩種測(cè)量之間是否存在關(guān)系呢?它'僅僅從腿部分開(kāi)看手臂是不夠的。相反,古生物學(xué)家應(yīng)該為每個(gè)骨骼配對(duì)骨骼的長(zhǎng)度,并使用稱(chēng)為相關(guān)性的統(tǒng)計(jì)區(qū)域。
什么是相關(guān)性?在上面的例子中,假設(shè)研究人員研究了這些數(shù)據(jù),并得出了不太令人驚訝的結(jié)果,即具有較長(zhǎng)臂的恐龍化石也具有較長(zhǎng)的腿,并且具有較短臂的化石具有較短的腿。數(shù)據(jù)的散點(diǎn)圖顯示數(shù)據(jù)點(diǎn)都聚集在一條直線附近。然后研究人員會(huì)說(shuō),化石的臂骨和腿骨的長(zhǎng)度之間存在強(qiáng)烈的直線關(guān)系,或相關(guān)性。需要做更多的工作來(lái)說(shuō)明相關(guān)性有多強(qiáng)。
相關(guān)性和散點(diǎn)圖
由于每個(gè)數(shù)據(jù)點(diǎn)代表兩個(gè)數(shù)字,因此二維散點(diǎn)圖對(duì)于可視化數(shù)據(jù)非常有幫助。假設(shè)我們實(shí)際上掌握了恐龍數(shù)據(jù),五個(gè)化石有以下測(cè)量:
- 股骨50cm,肱骨41cm 21 22股骨57cm,肱骨61cm 23 24股骨61cm,肱骨71cm 25 26股骨66cm,肱骨70cm 27 28股骨75cm,肱骨82cm 29
數(shù)據(jù)的散點(diǎn)圖,在水平方向上進(jìn)行股骨測(cè)量,在垂直方向上進(jìn)行肱骨測(cè)量,得到上圖。每個(gè)點(diǎn)代表一個(gè)骨架的測(cè)量值。例如,左下角的點(diǎn)對(duì)應(yīng)池塘到骨架#1。右上角的點(diǎn)是骨架#5。
當(dāng)然看起來(lái)我們可以畫(huà)出一條非常接近所有點(diǎn)的直線。但是我們?cè)鯓硬拍艽_定呢?親密關(guān)系在旁觀者的眼中。我們?nèi)绾沃牢覀儗?duì)"親密度"與其他人匹配的定義?我們有沒(méi)有辦法量化這種親密度?
相關(guān)系數(shù)
為了客觀地測(cè)量數(shù)據(jù)沿直線的接近程度,相關(guān)系數(shù)來(lái)拯救。相關(guān)系數(shù)通常表示為r,是-1和1之間的實(shí)數(shù)。r的值衡量基于公式的相關(guān)強(qiáng)度,消除過(guò)程中的任何主觀性。用車(chē)小知識(shí)在解釋r的值時(shí),需要記住幾個(gè)準(zhǔn)則。
- 如果r=0,則這些點(diǎn)是完全混雜的,數(shù)據(jù)之間**沒(méi)有直線關(guān)系。
- 如果r=-1或r=1,那么所有數(shù)據(jù)點(diǎn)都完美地排列在一條線上。
- 如果r是這些極值以外的值,則結(jié)果是不完美的一條直線。在現(xiàn)實(shí)世界的數(shù)據(jù)集中,這是最常見(jiàn)的結(jié)果。
- 如果r為正,則該線以正斜率上升。如果r為負(fù),則該線將向下傾斜,斜率為負(fù)。
相關(guān)系數(shù)
的計(jì)算相關(guān)系數(shù)r的公式很復(fù)雜,如此處所示。公式的組成部分是兩組數(shù)值數(shù)據(jù)的均值和標(biāo)準(zhǔn)差,以及數(shù)據(jù)點(diǎn)的數(shù)量。對(duì)于大多數(shù)實(shí)際應(yīng)用,r手工計(jì)算很繁瑣。如果我們的數(shù)據(jù)已經(jīng)輸入到一個(gè)計(jì)算器或電子表格程序與統(tǒng)計(jì)命令,那么通常有一個(gè)內(nèi)置的功能離子計(jì)算r。
相關(guān)性的局限性
雖然相關(guān)性是一個(gè)強(qiáng)大的工具,但使用它有一些限制:
- 相關(guān)性并不能完全告訴我們有關(guān)數(shù)據(jù)的一切。平均值和標(biāo)準(zhǔn)偏差仍然很重要。
- 數(shù)據(jù)可以用比直線更復(fù)雜的曲線來(lái)描述,但這不會(huì)出現(xiàn)在r的計(jì)算中。
- 異常值強(qiáng)烈影響相關(guān)系數(shù)。如果我們?cè)跀?shù)據(jù)中看到任何異常值,我們應(yīng)該小心我們從r的值中得出的結(jié)論。
- 僅僅因?yàn)閮山M數(shù)據(jù)是相關(guān)的,它就不會(huì)'t意味著一個(gè)是另一個(gè)的原因。