原創(chuàng)|行業(yè)資訊|編輯:陳俊吉|2017-02-13 13:09:05.000|閱讀 466 次
概述:本期我們有幸采訪到的嘉賓名叫蘭錦池,2012年碩士畢業(yè),概率論與數(shù)理統(tǒng)計(jì)專業(yè),崇尚概率論和統(tǒng)計(jì)學(xué)解決問題的思想,喜愛折騰各種實(shí)際數(shù)據(jù),愿意跟數(shù)據(jù)挖掘模型死磕。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
本期我們有幸采訪到的嘉賓名叫蘭錦池,2012年碩士畢業(yè),概率論與數(shù)理統(tǒng)計(jì)專業(yè),崇尚概率論和統(tǒng)計(jì)學(xué)解決問題的思想,喜愛折騰各種實(shí)際數(shù)據(jù),愿意跟數(shù)據(jù)挖掘模型死磕。
現(xiàn)在他是一名資深工程師,主要負(fù)責(zé)用戶行為分析和精準(zhǔn)營銷相關(guān)工作;曾做過某電信省公司的手機(jī)用戶行為價(jià)值分群、手機(jī)終端升級概率預(yù)測模型、用戶流失預(yù)警模型等。
在蘭錦池看來,工作中最困難的還是數(shù)據(jù)源的采集和結(jié)構(gòu)化數(shù)據(jù)的獲取,比如曾經(jīng)做用戶的手機(jī)上網(wǎng)行為畫像,需要采集手機(jī)上網(wǎng)日志數(shù)據(jù),并轉(zhuǎn)化為興趣點(diǎn)數(shù)據(jù)。需要獅提出數(shù)據(jù)需求、采集規(guī)則、計(jì)算口徑等非常詳細(xì)的方案,期間還得與業(yè)務(wù)和數(shù)據(jù)采集部門深入合作。簡而言之,就是,數(shù)據(jù)分析獅不僅僅是呆板的技術(shù)人員,而且能溝通協(xié)調(diào)、整合資源的多面手。
本期,他帶來了一個(gè)電信用戶分群案例,與大家分享。
1、業(yè)務(wù)問題背景
某省電信運(yùn)營商e8套餐(寬帶+固話)升級e9(寬帶+固話+手機(jī))的主要業(yè)務(wù)目標(biāo)為針對e8客戶加裝電信C網(wǎng)號(hào)碼并購買手機(jī),升級為e9融合套餐或e9自主套餐用戶。即,通過電信的自身的寬帶客戶資源,進(jìn)行精準(zhǔn)電話營銷,促使用戶購買手機(jī),從而提升電信在手機(jī)市場的占有率。
2、數(shù)據(jù)理解:e8升e9的數(shù)據(jù)理解
3、確定分析對象
本環(huán)節(jié)關(guān)鍵點(diǎn):
縮小分析基礎(chǔ)客戶群范圍,從表中238萬寬帶客戶中篩選出24萬符合業(yè)務(wù)目標(biāo)的e8客戶,作為數(shù)據(jù)挖掘的基礎(chǔ)客戶群
具體步驟:
常用的數(shù)據(jù)挖掘基礎(chǔ)客戶群篩選維度如下:
分析對象篩選流程:
以e8升e9為例,根據(jù)前期業(yè)務(wù)和數(shù)據(jù)理解,本次挖掘的基本目標(biāo)客戶為e8用戶,且在同賬戶下無C網(wǎng)手機(jī)。
具體數(shù)據(jù)樣本選取路徑如下:
注,具體操作方法:
4、變量篩選
以e8升e9案例中變量處理為例,具體篩選流程如下:
5、決策樹模型的建立
(1)選擇模型輸入變量
根據(jù)數(shù)據(jù)準(zhǔn)備階段字段篩選結(jié)果選擇了9個(gè)字段作為模型輸入變量。CHAID節(jié)點(diǎn)對應(yīng)的目標(biāo)變量和預(yù)測變量設(shè)置,見下截圖。
(2)模型輸出結(jié)果
運(yùn)行CHAID決策樹節(jié)點(diǎn)后,Modeler會(huì)根據(jù)樣本數(shù)據(jù)和輸入變量訓(xùn)練決策樹模型。雖然輸入了9個(gè)變量但是CHAID決策樹節(jié)點(diǎn)訓(xùn)練的模型最終生成決策樹所選擇的變量只有5個(gè),分別是寬帶在網(wǎng)時(shí)長(PD_PROM_FEE)、固話通話時(shí)長(VO_MOU_FIX_AVG)、固話ARPU(MB_FIX_ARPU_AVG)、寬帶在網(wǎng)時(shí)長(PD_BB_TENURE)、寬帶流量(VO_BB_VOL)??梢钥闯?,這5個(gè)變量在都是具有重要業(yè)務(wù)含義的字段,基本符合建模目標(biāo)。
(3)決策樹輸出的初步結(jié)果
下圖,是決策樹模型輸出的結(jié)果,樹狀結(jié)構(gòu)末端的每個(gè)“葉子”,代表一個(gè)細(xì)分用戶群體。這個(gè)決策樹結(jié)果共有17個(gè)“葉子”節(jié)點(diǎn)。
6、模型調(diào)優(yōu)
e8升級e9模型中,決策樹模型驗(yàn)證調(diào)優(yōu)流程如下:
初步結(jié)果判定:
決策樹結(jié)果共有17個(gè)“葉子”節(jié)點(diǎn),用戶細(xì)分群體偏多,部分群體的規(guī)模小,占比不足5%,因此需要根據(jù)各葉子節(jié)點(diǎn)的特征,對決策樹的“葉子”進(jìn)行修剪合并。
比如,上圖中的節(jié)點(diǎn)1(套餐檔位<=68元的用戶),這個(gè)節(jié)點(diǎn)中的類別“1”用戶占比僅0.56%,較全樣本的整體類別“1”占比0.786%較低,說明套餐檔位<=68元的用戶都是質(zhì)量較差的部分,加裝3G手機(jī)的可能性較低。從選取營銷目標(biāo)用戶的角度,對這類用戶不需要進(jìn)行深入分析,因此可以把該節(jié)點(diǎn)下面的三層節(jié)點(diǎn)都剪裁合并。
模型的調(diào)整和優(yōu)化—子模型的建立
如果認(rèn)為決策樹的某個(gè)子節(jié)點(diǎn)對應(yīng)的決策樹規(guī)則不符合業(yè)務(wù)邏輯,則可選擇該決策樹節(jié)點(diǎn)下的樣本再建立一個(gè)子模型,從新選擇新的變量。
比如,對上述決策樹模型的結(jié)果,在套餐檔位為80~98元且寬帶在網(wǎng)時(shí)長13個(gè)月以上的樣本分了四個(gè)子節(jié)點(diǎn),但是這四個(gè)節(jié)點(diǎn)的類別“1”占比并沒有遞增或者遞減的規(guī)律,這在業(yè)務(wù)邏輯上很難解釋。因此可針對該條件(套餐檔位為80~98元且寬帶在網(wǎng)時(shí)長13個(gè)月以上)的樣本數(shù)據(jù),再單獨(dú)建立一個(gè)決策樹模型。
決策樹子模型的建立可參見如下截圖。首先,利用Modeler的樣本選擇節(jié)點(diǎn),選擇套餐檔位為80~98元且寬帶在網(wǎng)時(shí)長13個(gè)月以上的樣本數(shù)據(jù);然后,在決策樹模型的節(jié)點(diǎn)選擇輸入變量時(shí),不要選擇寬帶在網(wǎng)時(shí)長的字段,即調(diào)整輸入變量;這樣Modeler會(huì)根據(jù)新選擇的樣本和輸入變量建立一個(gè)新的決策樹模型(見下圖)。這就建立了一個(gè)更具有業(yè)務(wù)解釋性的決策樹子模型。
7、模型結(jié)果解釋
具體分群的數(shù)據(jù)結(jié)果如下:
根據(jù)三個(gè)主要判斷分群有效的原則,選擇提升倍數(shù)在1.3以上、客戶群規(guī)模占比5%以上的群體作為主要目標(biāo)客戶,一共4個(gè)客戶群。上述的群劃分規(guī)則即建模變量。
通過決策樹模型篩選出目標(biāo)用戶群后,需要進(jìn)一步根據(jù)不同細(xì)分目標(biāo)群體的消費(fèi)行為特征來推測客戶的主要業(yè)務(wù)需求。此時(shí)需要根據(jù)e8升e9的業(yè)務(wù)目標(biāo),選擇主要的字段來刻畫客戶特征。通常對客戶群各變量的均值來進(jìn)行描述,具體如下:
因此,具體客戶特征總結(jié)描述如下:
轉(zhuǎn)自:CDA數(shù)據(jù)分析師
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn