原創(chuàng)|行業(yè)資訊|編輯:陳俊吉|2016-12-27 11:36:05.000|閱讀 432 次
概述:分布式計算、云計算、人工智能機器學(xué)習(xí)、深度學(xué)習(xí)、統(tǒng)計建模,這些最新的詞匯大家應(yīng)該都有所了解,但你真的了解這些詞的意義嗎?
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
一、機器學(xué)習(xí)
是以數(shù)據(jù)為基礎(chǔ),它專注于為回歸和分類算法。其底層隨機機制往往是次要的、不被重視的。當(dāng)然,許多機器學(xué)習(xí)技術(shù)也可以通過隨機模型和回歸計算來定義,但數(shù)據(jù)并不是由模型生成的。相反,機器學(xué)習(xí)主要是為了辨識出運行某個特定任務(wù)的算法或技術(shù)(或者是二者兼有):顧客最好由k-Means聚類,或者是DBSCAN、決策樹、,還是支持向量機?
簡而言之,對統(tǒng)計學(xué)家來說,模型是首要的,對機器學(xué)習(xí)專家來說,數(shù)據(jù)才是排在第一位的。因為機器學(xué)習(xí)強調(diào)的是數(shù)據(jù),而不是模型。把數(shù)據(jù)分離成訓(xùn)練和測試組的驗證技術(shù)是非常重要的。一個解決方案的優(yōu)劣不在于p值,而在于證明這個解決方案在以前看不到的數(shù)據(jù)方面預(yù)測良好。把一個統(tǒng)計模型和一套數(shù)據(jù)匹配,或者為一套數(shù)據(jù)訓(xùn)練決策樹,就需要評估未知量。決策樹的最佳分割點,是由預(yù)估參數(shù)數(shù)據(jù)決定的,而預(yù)估參數(shù)是由從屬變量的條件分布決定的。
沒有一種技術(shù)能夠自稱會學(xué)習(xí)。訓(xùn)練才是塑造某物的必經(jīng)之路。學(xué)習(xí),從另一方面來講,就暗示著獲得新的技能,而訓(xùn)練是學(xué)習(xí)的一部分。通過訓(xùn)練一個深度神經(jīng)網(wǎng)絡(luò),也就是說,通過輸入數(shù)據(jù)設(shè)定好它的砝碼和偏向,它就學(xué)會了分類,這個神經(jīng)網(wǎng)絡(luò)就變成了一個分類器。
二、深度學(xué)習(xí)
當(dāng)一個機器學(xué)習(xí)系統(tǒng)不是去通過編程是實現(xiàn)某一項功能,而是通過編程去學(xué)習(xí)一項能力,這就是一個真的學(xué)習(xí)系統(tǒng),被指定去學(xué)習(xí)完成某項任務(wù)的,稱之為深度學(xué)習(xí)。深度學(xué)習(xí)也是一種數(shù)據(jù)驅(qū)動型的實踐。跟機器學(xué)習(xí)不同的是,深度學(xué)習(xí)不依賴于強悍的算法技術(shù)。幾乎所有這種形式的機器學(xué)習(xí)應(yīng)用,多是以深度神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的。
深度學(xué)習(xí)被頻繁應(yīng)用于各種弱人工智能應(yīng)用,在這些領(lǐng)域,機器會去做人類的工作。
三、分布式計算
分布式計算簡單來說,是把一個大計算任務(wù)拆分成多個小計算任務(wù)分布到若干臺機器上去計算,然后再進行結(jié)果匯總。 目的在于分析計算海量的數(shù)據(jù),從雷達監(jiān)測的海量歷史信號中分析異常信號(外星文明),淘寶雙十一實時計算各地區(qū)的消費習(xí)慣等。
海量計算最開始的方案是提高單機計算性能,如大型機,后來由于數(shù)據(jù)的爆發(fā)式增長、單機性能卻跟不上,才有分布式計算這種妥協(xié)方案。 因為計算一旦拆分,問題會變得非常復(fù)雜,像一致性、數(shù)據(jù)完整、通信、容災(zāi)、任務(wù)調(diào)度等問題也都來了。
舉個例子,產(chǎn)品要求從數(shù)據(jù)庫中100G的用戶購買數(shù)據(jù),分析出各地域的消費習(xí)慣金額等。 如果沒什么時間要求,程序員小明就寫個對應(yīng)的業(yè)務(wù)處理服務(wù)程序,部署到服務(wù)器上,讓它慢慢跑就是了,小明預(yù)計10個小時能處理完。 后面產(chǎn)品嫌太慢,讓小明想辦法加快到3個小時。
平常開發(fā)中類似的需求也很多,總結(jié)出來就是,數(shù)據(jù)量大、單機計算慢。 如果上Hadoop、storm之類成本較高、而且有點大才小用。 當(dāng)然讓老板買更好的服務(wù)器配置也是一種辦法。
四、統(tǒng)計建模
統(tǒng)計建模其實就是解決“哪一種概率模型可以產(chǎn)生我所觀察到的數(shù)據(jù)?”這個問題,所以你可以這樣做:首先從眾多合理的模型中挑選出候選模型,然后評估它的未知量,再比較你所擬合出來的模型跟其他候選模型的最優(yōu)化程度。
舉例來說,如果你的數(shù)據(jù)代表了總數(shù),比如這個數(shù)字代表了客人感到反胃的數(shù)量,或者細胞分裂的數(shù)量,那么泊松模型(Poisson)、負二項模型或者零膨脹模型(zero-inflated model)都有可能是適用的。
一旦選擇了一個統(tǒng)計模型,那預(yù)估模型就會被用作調(diào)查的設(shè)備:測試假說,創(chuàng)建預(yù)測值和測量置信度。預(yù)估模型就會成為我們解讀數(shù)據(jù)的棱鏡。我們從來沒有聲稱所選模型生成的數(shù)據(jù),但會把它當(dāng)做一個在隨機的過程中合理的近似,然后再基于它去驗證推論。
驗證推理是統(tǒng)計建模中一個重要的方面。舉例來說,如果要在三個可能的醫(yī)療設(shè)備中,決定哪個對病人最有益,你就會對這樣的模型感興趣:它能捕捉病人使用什么樣的途徑治療是明顯有效果的。總是這樣,那些能很好地捕捉數(shù)據(jù)生成途徑的模型,同時也是在觀測數(shù)據(jù)范圍內(nèi)最好地做出預(yù)測的模型,或許它還能預(yù)測出新的觀測結(jié)果。
在統(tǒng)計建模中,數(shù)據(jù)指引人們到一個隨機模型的可挑選范圍里,它就相當(dāng)于是抽象的利益問題的概率表達,實現(xiàn)預(yù)測的功能和對某些事物的前瞻判斷。
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn