聚類分析可分為Q型聚類和R型聚類,請問Q和R這兩個字母的含義是什么,為什么叫Q和R而不叫其他的字母
聚類分析可分為Q型聚類和R型聚類,請問Q和R這兩個字母的含義是什么,為什么叫Q和R而不叫其他的字母
在聚類分析中,通常將根據(jù)分類對象的不同分為Q型聚類分析和R型聚類分析兩大類。
R型聚類分析是對變量進行分類處理,Q型聚類分析是對樣本進行分類處理。
R型聚類分析的主要作用是:
1、不但可以了解個別變量之間的關系的親疏程度,而且可以了解各個變量組合之間的親疏程度。
2、根據(jù)變量的分類結果以及它們之間的關系,可以選擇主要變量進行回歸分析或Q型聚類分析。
Q型聚類分析的優(yōu)點是:
1、可以綜合利用多個變量的信息對樣本進行分類;
2、分類結果是直觀的,聚類譜系圖非常清楚地表現(xiàn)其數(shù)值分類結果;
3、聚類分析所得到的結果比傳統(tǒng)分類方法更細致、全面、合理。
擴展資料:
Q型聚類把所有觀察對象按一定性質進行分類,使性質相近對象分在同一類,性質差異較大對象分到另一類。主要根據(jù)不同對象(如樣本)之間距離遠近(計算方法如歐幾里得距離等)進行區(qū)分,近者分為一類,遠者分成不同類。
如把不同個體的人分成不同群體或類別,主要采用此聚類方法。
聚類分析
判別分析與聚類分析有一個共同點,就是對樣本進行分類,但兩者也有所不同,判別分析是在已知有多少類,并且在有訓練樣本的前題下,利用訓練樣本得到判別函數(shù),對待測樣本進行分類。而聚類分析是預先不知道有多少類的情況下,根據(jù)某種規(guī)則將樣本(或指標)進行分類。
聚類分析這一類方法的共同特點是:事先不知道類別的個數(shù)與結構;據(jù)以進行分析的數(shù)據(jù)是對象之間的相似性或相異性的數(shù)據(jù)。
將這些相似(相異)性數(shù)據(jù)看成是對象之間的“距離”遠近的一種度量,將距離近的對象歸入一類,不同類之間的對象距離較遠。 聚類分析根據(jù)分類對象不同分為Q型聚類分析和R型聚類分析。Q型聚類分析是指對樣本進行聚類,R型聚類分析是指對變量進行聚類分析。 聚類分析是研究對樣本或變量的聚類,在進行聚類分析時,可使用的方法有很多,而這些方法的選擇往往與變量的類型是有關系的,由于數(shù)據(jù)的來源及測量方法的不同,變量大致可以分為兩類。
(1)定量變量。也就是通常所說的連續(xù)量,如長度、重量、產量、人口、速度和溫度等,它們是由測量或計數(shù)、統(tǒng)計所得到的量,這些變量具有數(shù)值特征,稱為定量變量。 (2)定性變量,這些量并非真有數(shù)量上的變化,而只有性質上的差異。
這些量還可以分為兩種,一種是有序變量,它沒有數(shù)量關系百科,只有次序關系,如某種產品分為一等品、二等品、三等品等,礦石的質量分為貧礦和富礦,另一種是名義變量,這種變量即無等級關系,也無數(shù)量關系,如天氣(陰、晴),性別(男、女)、職業(yè)(工人、農民、教師、干部)和產品的型號等。
聚類分析優(yōu)缺點
優(yōu)缺點如下:
1、優(yōu)點
k-平均算法是解決聚類問題的一種經典算法,算法簡單、快速。
對處理大數(shù)據(jù)集,該算法是相對可伸縮的和高效率的,因為它的復雜度大約是O(nkt) O(nkt)O(nkt),其中n是所有對象的數(shù)目,k是簇的數(shù)目,t是迭代的次數(shù)。
通常k<<n。
這個算法經常以局部**結束。
算法嘗試找出使平方誤差函數(shù)值最小的k個劃分。當簇是密集的、球狀或團狀的,而簇與簇之間區(qū)別明顯時,它的聚類效果很好。
2、缺點
對K值敏感。
也就是說,K的選擇會較大程度上影響分類效果。在聚類之前,我們需要預先設定K的大小,但是我們很難確定分成幾類是**的,比如上面的數(shù)據(jù)集中,顯然分為2類,即K = 2**,但是當數(shù)據(jù)量很大時,我們預先無法判斷。
對離群點和噪聲點敏感。
如果在上述數(shù)據(jù)集中添加一個噪音點,這個噪音點獨立成一個類。很顯然,如果K=2,其余點是一類,噪音點自成一類,原本可以區(qū)分出來的點被噪音點影響,成為了一類了。如果K=3,噪音點也是自成一類,剩下的數(shù)據(jù)分成兩類。
這說明噪音點會極大的影響其他點的分類。
聚類分析特點
聚類分析的實質:是建立一種分類方法,它能夠將一批樣本數(shù)據(jù)按照他們在性質上的親密程度在沒有先驗知識的情況下自動進行分類。這里所說的類就是一個具有相似性的個體的**,不同類之間具有明顯的區(qū)別。
層次聚類分析是根據(jù)觀察值或變量之間的親疏程度,將最相似的對象結合在 一起,以逐次聚合的方式(Agglomerative Clustering),它將觀察值分類,直到**所有樣本都聚成一類。
層次聚類分析有兩種形式,一種是對樣本(個案)進行分類,稱為Q型聚類;另一種是對研究對象的觀察變量進行分類,稱為R型聚類。
聚類分析法的概述
例如,我們可以根據(jù)各個銀行網(wǎng)點的儲蓄量、人力資源狀況、營業(yè)面積、特色功能、網(wǎng)點級別、所處功能區(qū)域等因素情況,將網(wǎng)點分為幾個等級,再比較各銀行之間不同等級網(wǎng)點數(shù)量對比狀況。1、基本思想:我們所研究的樣品(網(wǎng)點)或指標(變量)之間存在程度不同的相似性(親疏關系——以樣品間距離衡量)。
于是根據(jù)一批樣品的多個觀測指標,具體找出一些能夠度量樣品或指標之間相似程度的統(tǒng)計量,以這些統(tǒng)計量為劃分類型的依據(jù)。
把一些相似程度較大的樣品(或指標)聚合為一類,把另外一些彼此之間相似程度較大的樣品(或指標)又聚合為另一類,直到把所有的樣品(或指標)聚合完畢,這就是分類的基本思想。 在聚類分析中,通常我們將根據(jù)分類對象的不同分為Q型聚類分析和R型聚類分析兩大類。R型聚類分析是對變量進行分類處理,Q型聚類分析是對樣本進行分類處理。R型聚類分析的主要作用是: 1、不但可以了解個別變量之間的關系的親疏程度,而且可以了解各個變量組合之間的親疏程度。
2、根據(jù)變量的分類結果以及它們之間的關系,可以選擇主要變量進行回歸分析或Q型聚類分析。Q型聚類分析的優(yōu)點是: 1、可以綜合利用多個變量的信息對樣本進行分類; 2、分類結果是直觀的,聚類譜系圖非常清楚地表現(xiàn)其數(shù)值分類結果; 3、聚類分析所得到的結果比傳統(tǒng)分類方法更細致、全面、合理。為了進行聚類分析,首先我們需要定義樣品間的距離。