原創(chuàng)|解決方案案例|編輯:鄭恭琳|2020-06-23 15:24:43.423|閱讀 527 次
概述:數(shù)據(jù)科學(xué)平臺是慧都提供的數(shù)據(jù)挖掘、預(yù)測分析解決方案,平臺擁有簡單的圖形界面和高級分析能力,利用強大的建模、評估和自動化功能發(fā)現(xiàn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中的趨勢,使得企業(yè)和分析師增加生產(chǎn)力,分析大數(shù)據(jù)以獲取預(yù)測性洞察,制定有效的業(yè)務(wù)戰(zhàn)略。數(shù)據(jù)科學(xué)平臺可按照企業(yè)實際需求完全定制。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
數(shù)據(jù)科學(xué)平臺是慧都提供的數(shù)據(jù)挖掘、預(yù)測分析解決方案,平臺擁有簡單的圖形界面和高級分析能力,利用強大的建模、評估和自動化功能發(fā)現(xiàn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中的趨勢,使得企業(yè)和分析師增加生產(chǎn)力,分析大數(shù)據(jù)以獲取預(yù)測性洞察,制定有效的業(yè)務(wù)戰(zhàn)略。數(shù)據(jù)科學(xué)平臺可按照企業(yè)實際需求完全定制。
1.Logistic回歸
Logistic回歸是一種廣義線性回歸(generalized linear model),因此與多重線性回歸分析有很多相同之處。
優(yōu)點:計算代價不高,易于理解和實現(xiàn);
缺點:容易欠擬合,分類精度可能不高。
適用數(shù)據(jù)類型:數(shù)值型和標稱型數(shù)據(jù)。
適用情景:LR的好處是輸出值自然地落在0到1之間,并且有概率意義,但處理不好特征之間相關(guān)的情況。雖然效果一般,卻勝在模型清晰,背后的概率學(xué)經(jīng)得住推敲。它擬合出來的參數(shù)就代表了每一個特征對結(jié)果的影響,是一個理解數(shù)據(jù)的好工具。
2.決策樹(decision tree)
決策樹是一個樹結(jié)構(gòu)(可以是二叉樹或非二叉樹)。其每個非葉節(jié)點表示一個特征屬性上的測試,每個分支代表這個特征屬性在某個值域上的輸出,而每個葉節(jié)點存放一個類別。
優(yōu)點:容易解釋,非參數(shù)型
缺點:趨向過擬合,可能或陷于局部最小值中,沒有在線學(xué)習(xí)。
適用情景:數(shù)據(jù)分析師希望更好的理解手上的數(shù)據(jù)的時候往往可以使用決策樹。同時它抗噪聲的能力較低,換句話說,它很容易被“臟數(shù)據(jù)”影響的分類器。因為決策樹最終在底層判斷是基于單個條件的,往往只要有一小部分“臟數(shù)據(jù)”就可以影響學(xué)習(xí)效果。受限于它的簡單性,決策樹更大的用處是作為一些更有用的算法的基石。
3.隨機森林
隨機森林顧名思義,是用隨機的方式建立一個森林,森林里面有很多的決策樹組成,隨機森林的每一棵決策樹之間是沒有關(guān)聯(lián)的。
優(yōu)點:不會過擬合,能夠展現(xiàn)變量的權(quán)重,具有很好的抗干擾能力
缺點:可能由于疊加掩蓋真實的結(jié)果,對小數(shù)據(jù)或者低維數(shù)據(jù)分類效果差,學(xué)習(xí)效率慢。
適用情景:數(shù)據(jù)維度相對低(幾十維),同時對準確性有較高要求時。因為不需要很多參數(shù)調(diào)整就可以達到不錯的效果,不知道用什么方法的時候都可以先試一下隨機森林。
4.支持向量機(SVM)
支持向量機是建立在統(tǒng)計學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折中,以求獲得最好的推廣能力 。
優(yōu)點:在非線性可分問題上表現(xiàn)優(yōu)秀
缺點:非常難以訓(xùn)練,很難解釋
適用情景:SVM在很多數(shù)據(jù)集上都有優(yōu)秀的表現(xiàn)。相對來說,SVM盡量保持與樣本間距離的性質(zhì)導(dǎo)致它抗攻擊的能力更強。和隨機森林一樣,這也是一個拿到數(shù)據(jù)就可以先嘗試一下的算法。
5.樸素貝葉斯(Naive Bayes)
在機器學(xué)習(xí)中,樸素貝葉斯分類器是一個基于貝葉斯定理的比較簡單的概率分類器,其中樸素是指的對于模型中各個特征有強獨立性的假設(shè),并未將 feature 間的相關(guān)性納入考慮中。
優(yōu)點:快速、易于訓(xùn)練、給出了它們所需的資源能帶來良好的表現(xiàn)
缺點:如果輸入變量是相關(guān)的,則會出現(xiàn)問題
適用情景:需要一個比較容易解釋,而且不同維度之間相關(guān)性較小的模型的時候。可以高效處理高維數(shù)據(jù),雖然結(jié)果可能不盡如人意。
6.KNN
kNN算法又稱為k近鄰分類(k-nearest neighbor classification)算法,是從訓(xùn)練集中找到和新數(shù)據(jù)最接近的k條記錄,然后根據(jù)他們的主要分類來決定新數(shù)據(jù)的類別。該算法涉及3個主要因素:訓(xùn)練集、距離或相似的衡量、k的大小。
優(yōu)點:簡單,易于理解,易于實現(xiàn),無需估計參數(shù),無需訓(xùn)練
缺點:懶惰算法,對測試樣本分類時的計算量大,可解釋性較差。
適用情景:適合對稀有事件進行分類(例如當流失率很低時,比如低于0.5%,構(gòu)造流失預(yù)測模型)。特別適合于多分類問題(multi-modal,對象具有多個類別標簽),例如根據(jù)基因特征來判斷其功能分類
7.線性回歸
線性回歸是最為人熟知的建模技術(shù)之一,通常也是預(yù)測模型的首選技術(shù)之一。在這種技術(shù)中,因變量是連續(xù)的,自變量可以是連續(xù)的也可以是離散的,回歸線的性質(zhì)是線性的。
優(yōu)點:適合多因素模型,簡單,方便,計算結(jié)果唯一,可以準確地計量各個因素之間的相關(guān)程度與回歸擬合程度的高低。
缺點:需要選擇合適的輸入變量,且輸入變量不能有相關(guān)性,且有較高的局限性(響應(yīng)變量和預(yù)測變量必須存在線性關(guān)系才能使用線性回歸)。
適用情景:如果輸入數(shù)據(jù)符合回歸模型的假設(shè)條件時,此種方法為最簡單明了,預(yù)測效果最佳的方法。任何數(shù)據(jù)質(zhì)量不高或者數(shù)據(jù)模型選取不當?shù)男袨?,都會導(dǎo)致學(xué)習(xí)的結(jié)果異常。
案例客戶為國內(nèi)一家汽車制造企業(yè),旗下暢銷車型銷量一直位列國內(nèi)同級別前三位,工廠各產(chǎn)線常年處于全負荷運轉(zhuǎn)的狀態(tài)。此外,工廠擁有數(shù)量眾多的現(xiàn)代化生產(chǎn)設(shè)備,如沖壓設(shè)備、焊裝設(shè)備、涂裝設(shè)備、總裝設(shè)備等,企業(yè)設(shè)備管理科對各種設(shè)備維護檢修壓力巨大,設(shè)備配件的備件工作也始終是困擾客戶的難題。
經(jīng)過多次去客戶現(xiàn)場實地考察以及和設(shè)備管理人員的深入溝通,慧都為客戶量身定制了設(shè)備運維預(yù)測分析平臺解決方案,方案依托于數(shù)據(jù)科學(xué)平臺打造,基于客戶的業(yè)務(wù)目標,利用機器學(xué)習(xí)算法,結(jié)合業(yè)務(wù)對象模型對特征值(采集的設(shè)備各參數(shù))進行數(shù)據(jù)探究和特征項的預(yù)處理,通過不斷迭代的過程構(gòu)建設(shè)備維護及故障預(yù)測模型,再結(jié)合測試數(shù)據(jù)集對構(gòu)建的模型進行評估。
預(yù)測平臺的誕生,使得設(shè)備的維護不再像此前只是遵循固定的維護時間表,而是用預(yù)測模型判斷設(shè)備實際的運行狀況是否需要維護,有效降低維護的頻率,從而減少工廠設(shè)備維護的支出,設(shè)備配件備件人員也可按照預(yù)測情況進行科學(xué)的備件。除此之外,平臺還可根據(jù)歷史數(shù)據(jù)對設(shè)備的突發(fā)故障進行預(yù)測和預(yù)警,降低設(shè)備宕機的風(fēng)險。
設(shè)備參數(shù)類型截圖:
經(jīng)過對工廠設(shè)備數(shù)據(jù)的分析及考證,設(shè)備故障率隨時間變化趨勢如下:
平臺截圖如下:
關(guān)于慧都大數(shù)據(jù)分析平臺
慧都大數(shù)據(jù)分析平臺「GetInsight®」升級發(fā)布,將基于企業(yè)管理駕駛艙、產(chǎn)品質(zhì)量分析及預(yù)測、設(shè)備分析及預(yù)測等大數(shù)據(jù)模型的構(gòu)建,助力企業(yè)由傳統(tǒng)運營模式向數(shù)字化、智能化的新模式轉(zhuǎn)型升級,抓住數(shù)據(jù)經(jīng)濟的發(fā)展勢頭,提供管理效能,精準布局未來。了解更多,請聯(lián)系。
慧都大數(shù)據(jù)專業(yè)團隊為企業(yè)提供商業(yè)智能大數(shù)據(jù)平臺搭建,免費業(yè)務(wù)咨詢,定制開發(fā)等完整服務(wù),快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業(yè)的大數(shù)據(jù)團隊,為您提供免費大數(shù)據(jù)相關(guān)業(yè)務(wù)咨詢!
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn