日韩玖玖爱,女同二区,91精品91

国产自产第一-国产自产对白一区-国产自产精品-国产自产区44页-国产自产在线-国产自产自拍-国产自产自拍视频-国产自精品

IBM SPSS Modeler算法系列------C&R Tree算法介紹

原創(chuàng)|行業(yè)資訊|編輯：陳俊吉|2016-09-01 09:48:55.000|閱讀 1046 次

概述：C&R Tree全稱是Classification and Regression Tree,即分類及回歸樹，它是由美國斯坦福大學(xué)和加州大學(xué)伯克利分校的Breiman等人于1984年提出的，從名稱中不難理解，它包含了分類樹和回歸樹，分類樹用于目標(biāo)變量是分類型的，回歸樹用于目標(biāo)變量是連續(xù)型的。

# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>

相關(guān)鏈接：

C&R Tree全稱是Classification and Regression Tree,即分類及回歸樹，它是由美國斯坦福大學(xué)和加州大學(xué)伯克利分校的Breiman等人于1984年提出的，從名稱中不難理解，它包含了分類樹和回歸樹，分類樹用于目標(biāo)變量是分類型的，回歸樹用于目標(biāo)變量是連續(xù)型的。

該算法分割的核心技術(shù)取決于目標(biāo)變量的類型，如果是分類變量，可以選擇使用Gini或者是Twoing.如果是連續(xù)變量，會自動選擇LSD(Least-squared deviation)。

C&R Tree的生長是二叉樹，前面我們講過的C5.0和CHAID分別是以信息增益率和卡方為標(biāo)準(zhǔn)來選擇最佳分組變量和分割點(diǎn)，今天我們講的C&R Tree，如果目標(biāo)變量是分類型，則以Gini系數(shù)來確認(rèn)分割點(diǎn)，如果目標(biāo)變量是數(shù)值型，則以方差來確認(rèn)分割點(diǎn)。

我們先來講目標(biāo)變量是分類型的情況，我們稱之為分類樹：

在C&R Tree算法中，Gini系數(shù)反映的是目標(biāo)變量組間差異程度，系數(shù)越小，組間差異越大。Gini系數(shù)計(jì)算公式如下：

G(t)=1-(t1/T)^2-(t2/T)^2-(t3/T)^2-(tn/T)^2

其中T為總記錄數(shù)，t1,t2,t3,tn…..分別為輸出變量每個類別的記錄數(shù)

為了比較好理解這個公式，我們以分析結(jié)果來理解公式內(nèi)容，如下圖：

該決策樹分析結(jié)果，是分析客戶的流失為目標(biāo)，影響的因素有小朋友個數(shù)（children),婚姻狀態(tài)（Status)，年齡（age)等，我們先從根節(jié)點(diǎn)開始看。

根節(jié)點(diǎn)的G(t)=1-(562/1469) ^2-(907/1469)^2=0.472421883

左邊節(jié)點(diǎn)G(t1)=1-(439/833) ^2-(394/833) ^2=0.498540833

右邊節(jié)點(diǎn)G(t2)=1-(123/636) ^2-(513/636) ^2=0.311988252

C&R Tree采用Gini系數(shù)的減少量來測量異質(zhì)性下降，因此

ΔG(t)=G(t)-n1/N*G(t1)-n2/N*G(t2)=0.472421883-833/(833+636)* 0.498540833-636/(833+636)* 0.311988252=0.05464854

其中n1是左節(jié)點(diǎn)的記錄數(shù)833，n2是右節(jié)點(diǎn)的記錄數(shù)636，N是根節(jié)點(diǎn)的記錄數(shù)833+636=1469。

計(jì)算最終得到的ΔG(t)=0.05464854就是上圖中顯示的改進(jìn)=0.055（四舍五入），那么為什么選擇這個children<-1.5和children>1/5作為分割點(diǎn)，是因?yàn)榕c其它影響因素相比較，這里計(jì)算得到的ΔG(t)最大。所以在整個決策樹生長中，可以看到，越往下生長，ΔG(t)越小。

針對連續(xù)變量，先對變量按升序排列，然后，從小到大依次以相鄰數(shù)值的中間值作為將樣本分為兩組，然后分別計(jì)算其ΔG(t)。針對分類變量，由于C&R Tree只能建立二叉樹（即只能有兩個分支），首先需將多類別合并成兩個類別，形成“超類”，然后計(jì)算兩“超類”下樣本輸出變量取值的異質(zhì)性。

在中，除了使用Gini系數(shù)的減少量作為標(biāo)準(zhǔn)，還可以選擇另外兩種標(biāo)準(zhǔn)，分別是Twoing（兩分法）和Ordered（有序），如下圖：