原創(chuàng)|大數(shù)據(jù)新聞|編輯:蔣永|2019-03-06 11:09:26.000|閱讀 252 次
概述:上次我們學習什么是深度學習,本次我們第二部分,將介紹 Cloudera 數(shù)據(jù)和機器學習的統(tǒng)一平臺,并展示實施深度學習的四種方法。最后,我們提供六個實用技巧,幫助您的組織開始進行深度學習。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
在上一節(jié)的學習中,我們主要認識了什么是深度學習,深度學習有哪些成功的應用以及深度學習的優(yōu)點與缺點,總體來說就是讓我們深度的了解何為深度學習,就如文字開頭所說的“人們往往為技術(shù)而興奮。但深度學習是企業(yè)用來解決實際問題的工具。僅此而已,毋庸夸大,也無需貶低。”
對于還不了解什么是深度學習的朋友可以先閱讀《干貨|簡單易懂的深度學習指南,不服來辯!(一)》學習一下。
本篇文章我們不在對深度學習的基礎(chǔ)做講解了,而是介紹Cloudera數(shù)據(jù)和機器學習的統(tǒng)一平臺,并提供六個實用技巧,幫助您的組織開始進行深度學習。
話不多說,開始我們今天的學習吧!
Cloudera是數(shù)據(jù)和機器學習的統(tǒng)一平臺。使用Cloudera,您可以深度學習您的數(shù)據(jù),而不是相反。
對于當今復雜的技術(shù)環(huán)境,企業(yè)需要選擇和靈活性。 Cloudera 具有多種方式來訓練和部署深度學習模型,無需新的孤島或數(shù)據(jù)遷移。
Cloudera 數(shù)據(jù)科學工作臺(CDSW)可實現(xiàn)快速,簡單,安全的自助數(shù)據(jù)科學。缺 省條件下就是安全及合規(guī)的,支持完整的 Cloudera 認證、授權(quán)、加密和治理。
CDSW 為數(shù)據(jù)科學家提供了一個基于瀏覽器的開發(fā)環(huán)境,適用于 Python,R 和 Scala。用戶可以在自定義設(shè)置中下載和實驗最新的庫和框架,并輕松地與同行共 享項目。該軟件包括內(nèi)置的調(diào)度,監(jiān)控和郵件警報。
最新的 CDSW 版本支持 GPU 的設(shè)備。 GPU 是加速計算密集型工作負載的專用處理器。 GPU 特別適合于深度學習模型的訓練步驟。 CDSW 使數(shù)據(jù)科學家可以將傳統(tǒng)硬件用于數(shù)據(jù)準備和發(fā)現(xiàn)等任務,并在 GPU 加速的機器上訓練深度學習模型。
CDSW 用戶共享可用的 GPU 資源。用戶請求特定數(shù)量的 GPU 實例,最多可達一個節(jié)點上的總數(shù)。 CDSW在運行期間將GPU分配給作業(yè)。項目可以使用隔離版本的庫,甚至通過 CDSW 的可擴展引擎功能,使用不同的 CUDA 和 cuDNN 版本。
使用CDSW的數(shù)據(jù)科學家可以使用任何具有Python,R或Scala API的深度學習框架,包 括 TensorFlow,Keras,Theano,Microsoft Cognitive Toolkit(CNTK),Caffe,PyTorch,DL4J,Apache MXNet,Torch 和 BigDL。
在最近的數(shù)據(jù)科學和機器學習 Hype Cycle 報告中,Gartner 將深度學習定位成“膨脹中期望的高峰”:
在這個過份狂熱和不現(xiàn)實的預測階段中,技術(shù)領(lǐng)導者的廣泛宣傳活動取得了一些成功,但更多的是失敗,因為技術(shù)被推向極限。唯一賺錢的企業(yè)是會議組織者和 雜志出版社。
關(guān)于深度學習的炒作給企業(yè)架構(gòu)師同時帶來機會和風險。一方面,廣為傳播的成 功案例增加了高管的興趣尋求深度學習獲得競爭優(yōu)勢。另一方面,過度的熱情可 能導致組織機構(gòu)投資昂貴而無用,或?qū)⒐蓛r拉低,因而從長遠角度,削弱了從深度學習中獲利的能力。
與大多數(shù)新技術(shù)一樣,快速變化的標準使投資具有挑戰(zhàn)性。谷歌發(fā)布了用于深度 學習的 TensorFlow 軟件并在 2015 年 11 月開放源代碼;在幾個月內(nèi),它成為開源生態(tài)系統(tǒng)中最為積極開發(fā)的機器學習項目。自從谷歌發(fā)布以來,亞馬遜,微軟和英特爾都已經(jīng)發(fā)布了深度學習的開源項目。雖然 TensorFlow 是當今最受數(shù)據(jù)科學家歡迎的深度學習框架,但是我們并不確認它會永久保持這種狀態(tài)。
鑒于深度學習的力量和潛力,我們有幾個務實的提示。
專注于解決業(yè)務問題。谷歌,微軟和百度并沒有因為深度學習很酷,或者因為咨詢顧問告訴他們創(chuàng)新是重要的,而成為深度學習的重磅力量。他們這樣做是因為他們有緊迫的業(yè)務問題,深度學習為解決這個問題提供了一個辦法。
深度學習也可能是您企業(yè)機構(gòu)的正確工具。但是,如果您沒有仔細地定義業(yè)務問題, 概括出捕獲和管理數(shù)據(jù)的策略,并先嘗試使用簡單的技術(shù),您可能會構(gòu)建一個沒 人會用的深度學習功能。
仔細選擇試點項目。如果您的機構(gòu)沒有接觸過深度學習,計劃的長期成功可能取決于您最初幾個項目的結(jié)果。深度學習最有可能對以下項目產(chǎn)生影響:
這些問題通常具有上述我們認為的深度學習的屬性:高基數(shù)結(jié)果,維度和未標記 的數(shù)據(jù)。
嘗試用深度學習改進現(xiàn)有的以常規(guī)技術(shù)為基礎(chǔ)的模型,大多數(shù)時間都會產(chǎn)生令人 失望的結(jié)果。為了獲得更好的結(jié)果,數(shù)據(jù)科學家將向建模過程引入新的數(shù)據(jù)。例如, 醫(yī)院通過添加醫(yī)療專業(yè)人員所記錄的患者數(shù)據(jù)來提高預測再住院模型的準確性。
首先整理數(shù)據(jù)。大概很有沖動讓你的團隊一頭扎進訓練深度學習的模型吧。這種做法可能有助于學習。但請記住,在每一個深度學習的成功故事背后,都有一個數(shù)據(jù)的成功故事。
成功的深度學習應用基于三個不同流程的定義數(shù)據(jù)流:
如何設(shè)計這些流程將決定您的應用的成功。例如,盡管可以將大型數(shù)據(jù)集復制到 一個離線平臺進行初始訓練,但是對于模型的更新,因為要不斷重復執(zhí)行,而可 能變得成本高昂。在今天快節(jié)奏的業(yè)務中,模型的頻繁更新是機器學習所有分支 的常態(tài)。除非您允許這樣做,否則您的項目可能會成為高維護費用“孤兒”。
同樣,除非您的團隊已經(jīng)想清楚如何使用一個深度學習模型來進行推論,否則您 很有可能會創(chuàng)建一個沒有人用的偉大模型。使用該應用的業(yè)務可能需要具有服務 級別保證的低延遲推論。您的深度學習項目規(guī)劃要考慮這一點,否則項目將失敗。
擁抱開源。數(shù)據(jù)科學家更喜歡開源軟件。所有最廣泛使用的深度學習框架都是開源的。市場上有一些商業(yè)選擇,但沒有證據(jù)表明它們性能優(yōu)于開源框架。
利用傳遞學習。除非您的機構(gòu)已經(jīng)有從頭開始構(gòu)建深度學習模型的豐富經(jīng)驗,否則預先訓練的模型是開始的最佳方式。檢查公開的模型庫,如 Caffe Model Zoo。如果您找到一個近似于您要解決的問題的模型,先不要改變,運行它以建立精確度基線。使用傳遞學習建立在現(xiàn)有的模型上,而不是從頭開始。傳遞學習減少了對大量訓練數(shù)據(jù)集和計算能力的需求。
不要創(chuàng)建新的孤島。您的組織投資數(shù)百萬美元無數(shù)時間來消除阻礙整合的孤島。絕對不要再創(chuàng)造一個新的孤單。一些供應商認為,深度學習是新鮮事物與眾不同,因而需要一個全新的高級分析平臺。請記住:將數(shù)據(jù)帶入深度學習平臺遠遠難于將深度學習帶入您的數(shù)據(jù)平臺。
Cloudera基于最新的開源技術(shù)提供用于機器學習和分析,優(yōu)化于云端的現(xiàn)代化平臺。全球領(lǐng)先的組織機構(gòu)都信任 Cloudera,通過高效地捕捉、存儲、處理和分析海量數(shù)據(jù)來幫助他們解決最具挑戰(zhàn)性的業(yè)務問題。
慧都大數(shù)據(jù)專業(yè)團隊為企業(yè)提供Cloudera大數(shù)據(jù)平臺搭建,免費業(yè)務咨詢,定制開發(fā)等完整服務,快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。
歡迎撥打慧都熱線023-68661681或咨詢,我們將幫您轉(zhuǎn)接大數(shù)據(jù)專家團隊,并發(fā)送相關(guān)行業(yè)資料給您!
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn