統(tǒng)計(jì)中的相關(guān)性是什么?

有時(shí)數(shù)字?jǐn)?shù)據(jù)是成對(duì)的。也許古生物學(xué)家測量同一恐龍物種的五個(gè)化石中股骨(腿骨)和肱骨(臂骨)的長度。將手臂長度與腿部長度分開考慮,并計(jì)算諸如平均值或標(biāo)準(zhǔn)偏差之類的事情可能是有意義的。但是,如果研究人員很想知道這兩種測量之間是否存在關(guān)系呢?它'僅僅從腿部分開看手臂是不夠的。相反,古生物學(xué)家應(yīng)該為每個(gè)骨骼配對(duì)骨骼的長度,并使用稱為相關(guān)性的統(tǒng)計(jì)區(qū)域。

什么是相關(guān)性?在上面的例子中,假設(shè)研究人員研究了這些數(shù)據(jù),并得出了不太令人驚訝的結(jié)果,即具有較長臂的恐龍化石也具有較長的腿,并且具有較短臂的化石具有較短的腿。數(shù)據(jù)的散點(diǎn)圖顯示數(shù)據(jù)點(diǎn)都聚集在一條直線附近。然后研究人員會(huì)說,化石的臂骨和腿骨的長度之間存在強(qiáng)烈的直線關(guān)系,或相關(guān)性。需要做更多的工作來說明相關(guān)性有多強(qiáng)。

相關(guān)性和散點(diǎn)圖

由于每個(gè)數(shù)據(jù)點(diǎn)代表兩個(gè)數(shù)字,因此二維散點(diǎn)圖對(duì)于可視化數(shù)據(jù)非常有幫助。假設(shè)我們實(shí)際上掌握了恐龍數(shù)據(jù),五個(gè)化石有以下測量:

  1. 股骨50cm,肱骨41cm 21 22股骨57cm,肱骨61cm 23 24股骨61cm,肱骨71cm 25 26股骨66cm,肱骨70cm 27 28股骨75cm,肱骨82cm 29

數(shù)據(jù)的散點(diǎn)圖,在水平方向上進(jìn)行股骨測量,在垂直方向上進(jìn)行肱骨測量,得到上圖。每個(gè)點(diǎn)代表一個(gè)骨架的測量值。例如,左下角的點(diǎn)對(duì)應(yīng)池塘到骨架#1。右上角的點(diǎn)是骨架#5。

當(dāng)然看起來我們可以畫出一條非常接近所有點(diǎn)的直線。但是我們怎樣才能確定呢?親密關(guān)系在旁觀者的眼中。我們?nèi)绾沃牢覀儗?duì)"親密度"與其他人匹配的定義?我們有沒有辦法量化這種親密度?

相關(guān)系數(shù)

為了客觀地測量數(shù)據(jù)沿直線的接近程度,相關(guān)系數(shù)來拯救。相關(guān)系數(shù)通常表示為r,是-1和1之間的實(shí)數(shù)。r的值衡量基于公式的相關(guān)強(qiáng)度,消除過程中的任何主觀性。用車小知識(shí)在解釋r的值時(shí),需要記住幾個(gè)準(zhǔn)則。

  • 如果r=0,則這些點(diǎn)是完全混雜的,數(shù)據(jù)之間**沒有直線關(guān)系。
  • 如果r=-1或r=1,那么所有數(shù)據(jù)點(diǎn)都完美地排列在一條線上。
  • 如果r是這些極值以外的值,則結(jié)果是不完美的一條直線。在現(xiàn)實(shí)世界的數(shù)據(jù)集中,這是最常見的結(jié)果。
  • 如果r為正,則該線以正斜率上升。如果r為負(fù),則該線將向下傾斜,斜率為負(fù)。

相關(guān)系數(shù)

的計(jì)算

相關(guān)系數(shù)r的公式很復(fù)雜,如此處所示。公式的組成部分是兩組數(shù)值數(shù)據(jù)的均值和標(biāo)準(zhǔn)差,以及數(shù)據(jù)點(diǎn)的數(shù)量。對(duì)于大多數(shù)實(shí)際應(yīng)用,r手工計(jì)算很繁瑣。如果我們的數(shù)據(jù)已經(jīng)輸入到一個(gè)計(jì)算器或電子表格程序與統(tǒng)計(jì)命令,那么通常有一個(gè)內(nèi)置的功能離子計(jì)算r

相關(guān)性的局限性

雖然相關(guān)性是一個(gè)強(qiáng)大的工具,但使用它有一些限制:

  • 相關(guān)性并不能完全告訴我們有關(guān)數(shù)據(jù)的一切。平均值和標(biāo)準(zhǔn)偏差仍然很重要。
  • 數(shù)據(jù)可以用比直線更復(fù)雜的曲線來描述,但這不會(huì)出現(xiàn)在r的計(jì)算中。
  • 異常值強(qiáng)烈影響相關(guān)系數(shù)。如果我們在數(shù)據(jù)中看到任何異常值,我們應(yīng)該小心我們從r的值中得出的結(jié)論。
  • 僅僅因?yàn)閮山M數(shù)據(jù)是相關(guān)的,它就不會(huì)'t意味著一個(gè)是另一個(gè)的原因。

教育_1