什么是四分位間距規(guī)則?
四分位間距規(guī)則可用于檢測異常值的存在。異常值是超出數(shù)據(jù)集整體模式的單個(gè)值。這個(gè)定義有點(diǎn)模糊和主觀,所以在確定數(shù)據(jù)點(diǎn)是否真的是異常值時(shí)有一個(gè)規(guī)則是有幫助的-這就是四分位間距規(guī)則進(jìn)入的地方。
四分位間距是多少?
任何一組數(shù)據(jù)都可以通過其五個(gè)數(shù)字摘要來描述。這五個(gè)數(shù)字為您提供了查找模式和異常值所需的信息,包括(按升序排列):
- 數(shù)據(jù)集的最小值或**值
- 第一個(gè)四分位數(shù)Q,代表通過所有數(shù)據(jù)列表的方式的四分之一
- 數(shù)據(jù)集的中位數(shù),它代表整個(gè)數(shù)據(jù)列表的中點(diǎn)
- 第三四分位數(shù)Q,它代表通過所有數(shù)據(jù)列表的四分之三
- 數(shù)據(jù)集的**值或**值。
這五個(gè)數(shù)字告訴一個(gè)人更多關(guān)于他們的數(shù)據(jù),而不是一次查看數(shù)字,或者至少讓這更容易。例如,從**值中減去的最小值的范圍是數(shù)據(jù)在集合中展開的一個(gè)指標(biāo)(注意:范圍對異常值高度敏感如果異常值也是最小值或**值,則范圍不會(huì)準(zhǔn)確表示數(shù)據(jù)集的寬度)。
否則很難推斷范圍。四分位間距與范圍相似,但對異常值不太敏感。四分位間距的計(jì)算方式與范圍大致相同。你所做的就是從第三四分位數(shù)中減去第一個(gè)四分位數(shù):
IQR=Q–Q。
四分位間距顯示數(shù)據(jù)如何在中位數(shù)上傳播。它比離群值的范圍更不敏感因此可以更有幫助。
Using the Interquartile Rule to Find離群值
雖然它'通常不受它們的影響很大,但四分位數(shù)范圍可用于檢測異常值。這是通過以下步驟完成的:
- 計(jì)算數(shù)據(jù)的四分位間距。
- 將四分位間距(IQR)乘以1.5(用于辨別異常值的常數(shù))。
- 將1.5 x(IQR)加到第三四分位數(shù)。任何大于此值的數(shù)字都是可疑的異常值。
- 從第一個(gè)四分位數(shù)中減去1.5 x(IQR)。少于此數(shù)字的任何數(shù)字都是可疑的異常值。
請記住,四分位數(shù)規(guī)則只是一般適用但不適用于每種情況的經(jīng)驗(yàn)法則。一般來說,您應(yīng)該始終通過研究生成的異常值來跟蹤異常值分析,以確定它們是否有意義。通過四分位數(shù)方法獲得的任何潛在異常值應(yīng)在整個(gè)數(shù)據(jù)集的背景下進(jìn)行檢查。
四分位規(guī)則示例問題
請參閱示例中的四分位間距規(guī)則。假設(shè)你有以下一組數(shù)據(jù):1,3,4,6,7,7,8,8,10,12,17。該數(shù)據(jù)集的五位數(shù)匯總為最小值=1,第一個(gè)四分位數(shù)=4,中位數(shù)=7,第三個(gè)四分位數(shù)=10,**值=17。您可以查看數(shù)據(jù)并自動(dòng)說17是異常值,但四分位間距規(guī)則是什么意思?
如果要計(jì)算此數(shù)據(jù)的四分位間距,您會(huì)發(fā)現(xiàn)它是:
88 Q 89-90 Q 91 10-46
現(xiàn)在將你的答案乘以1.5得到1.5 x 6=9。比第一個(gè)四分位數(shù)少九個(gè)是4–9=-5。沒有數(shù)據(jù)小于此。超過第三四分位數(shù)的九個(gè)是10+9=19。沒有數(shù)據(jù)大于此。盡管**值比最近的數(shù)據(jù)點(diǎn)多5個(gè),但四分位間距規(guī)則顯示它可能不應(yīng)該被考慮d此數(shù)據(jù)集的異常值。
生活常識ppt