原創(chuàng)|行業(yè)資訊|編輯:陳俊吉|2016-09-01 09:48:55.000|閱讀 1046 次
概述:C&R Tree全稱是Classification and Regression Tree,即分類及回歸樹,它是由美國斯坦福大學(xué)和加州大學(xué)伯克利分校的Breiman等人于1984年提出的,從名稱中不難理解,它包含了分類樹和回歸樹,分類樹用于目標(biāo)變量是分類型的,回歸樹用于目標(biāo)變量是連續(xù)型的。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
C&R Tree全稱是Classification and Regression Tree,即分類及回歸樹,它是由美國斯坦福大學(xué)和加州大學(xué)伯克利分校的Breiman等人于1984年提出的,從名稱中不難理解,它包含了分類樹和回歸樹,分類樹用于目標(biāo)變量是分類型的,回歸樹用于目標(biāo)變量是連續(xù)型的。
該算法分割的核心技術(shù)取決于目標(biāo)變量的類型,如果是分類變量,可以選擇使用Gini或者是Twoing.如果是連續(xù)變量,會自動選擇LSD(Least-squared deviation)。
C&R Tree的生長是二叉樹, 前面我們講過的C5.0和CHAID分別是以信息增益率和卡方為標(biāo)準(zhǔn)來選擇最佳分組變量和分割點(diǎn),今天我們講的C&R Tree,如果目標(biāo)變量是分類型,則以Gini系數(shù)來確認(rèn)分割點(diǎn),如果目標(biāo)變量是數(shù)值型,則以方差來確認(rèn)分割點(diǎn)。
我們先來講目標(biāo)變量是分類型的情況,我們稱之為分類樹:
在C&R Tree算法中,Gini系數(shù)反映的是目標(biāo)變量組間差異程度,系數(shù)越小,組間差異越大。Gini系數(shù)計(jì)算公式如下:
G(t)=1-(t1/T)^2-(t2/T)^2-(t3/T)^2-(tn/T)^2
其中T為總記錄數(shù),t1,t2,t3,tn…..分別為輸出變量每個類別的記錄數(shù)
為了比較好理解這個公式,我們以分析結(jié)果來理解公式內(nèi)容,如下圖:
該決策樹分析結(jié)果,是分析客戶的流失為目標(biāo),影響的因素有小朋友個數(shù)(children),婚姻狀態(tài)(Status),年齡(age)等,我們先從根節(jié)點(diǎn)開始看。
根節(jié)點(diǎn)的G(t)=1-(562/1469) ^2-(907/1469)^2=0.472421883
左邊節(jié)點(diǎn)G(t1)=1-(439/833) ^2-(394/833) ^2=0.498540833
右邊節(jié)點(diǎn)G(t2)=1-(123/636) ^2-(513/636) ^2=0.311988252
C&R Tree采用Gini系數(shù)的減少量來測量異質(zhì)性下降,因此
ΔG(t)=G(t)-n1/N*G(t1)-n2/N*G(t2)=0.472421883-833/(833+636)* 0.498540833-636/(833+636)* 0.311988252=0.05464854
其中n1是左節(jié)點(diǎn)的記錄數(shù)833,n2是右節(jié)點(diǎn)的記錄數(shù)636,N是根節(jié)點(diǎn)的記錄數(shù)833+636=1469。
計(jì)算最終得到的ΔG(t)=0.05464854就是上圖中顯示的改進(jìn)=0.055(四舍五入),那么為什么選擇這個children<-1.5和children>1/5作為分割點(diǎn),是因?yàn)榕c其它影響因素相比較,這里計(jì)算得到的ΔG(t)最大。所以在整個決策樹生長中,可以看到,越往下生長,ΔG(t)越小。
針對連續(xù)變量,先對變量按升序排列,然后,從小到大依次以相鄰數(shù)值的中間值作為將樣本分為兩組,然后分別計(jì)算其ΔG(t)。針對分類變量,由于C&R Tree只能建立二叉樹(即只能有兩個分支),首先需將多類別合并成兩個類別,形成“超類”,然后計(jì)算兩“超類”下樣本輸出變量取值的異質(zhì)性。
在中,除了使用Gini系數(shù)的減少量作為標(biāo)準(zhǔn),還可以選擇另外兩種標(biāo)準(zhǔn),分別是Twoing(兩分法)和Ordered(有序),如下圖:
Twoing策略中,輸出變量的差異性測度仍采用Gini系數(shù),不同的是,不再以使用Gini系數(shù)減少最快為原則,而是要找到使合并形成的左右子節(jié)點(diǎn)(兩個超類)中分布差異足夠大的合并點(diǎn)s,計(jì)算公式為:
仍以下圖決策樹結(jié)果為例:
因此
該數(shù)值對應(yīng)著上圖第一個根節(jié)點(diǎn)的改進(jìn)=0.109(四舍五入)
可以看到,越是靠近根節(jié)點(diǎn),該值越大。
Order策略適用于有序型輸入變量的情況 ,它只限定只有兩個連續(xù)的類別才可以合并成超類,最終得到最理想的兩個超類。
接下來我們來看目標(biāo)變量是數(shù)值型的情況,我們稱為回歸樹。 回歸樹確定最佳分組變量的策略與分類樹相同,主要不同是測試輸出變量異質(zhì)性的指標(biāo),
回歸樹使用的是方差,因此異質(zhì)性下降的測度指標(biāo)為方差的減少量,其數(shù)學(xué)定義為:
其中R(t)和N分別為分組前輸出變量的方差和樣本量,R(t1),Nt1和R(t2),Nt2分別為分組后左右子樹的方差和樣本量。使ΔR(t)達(dá)到最大的變量應(yīng)為當(dāng)前最佳分組變量。我們通過實(shí)際例子的結(jié)果倒推來理解這個計(jì)算公式。
我們使用做一個男裝銷售額(men)預(yù)測的場景,因?yàn)殇N售額是數(shù)值型,我們選擇C&R Tree來實(shí)現(xiàn),那么影響男裝銷售的輸入影響因素有女裝銷售(women)、電話營銷成本(phone)等,得到的決策樹分析結(jié)果如下:
那么為什么生成的決策樹會以woman作為最佳分組變量,以51286.490作為分割點(diǎn)呢,因這它計(jì)算出來的ΔR(t)最大,大家可以嘗試找個例子自己計(jì)算看看,這里不再贅述。
最佳分割點(diǎn)的確定方法與最佳分組亦是的確定方法相同。
在里面,針對 C&R Tree算法,以上介紹的內(nèi)容是確定分割點(diǎn)的核心標(biāo)準(zhǔn),對于該算法,還有其它的內(nèi)容,比如剪枝,交互樹建模等,感興趣的話,可以點(diǎn)擊以下鏈接到官網(wǎng)下載試用!
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn